このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230811となっている論文です。

PDF登録状況(公開日: 20230811)

TitleAuthorsAbstract論文公表日・翻訳日
# 古典論理における含意関係の定義

Defining implication relation for classical logic ( http://arxiv.org/abs/1312.7832v10 )

ライセンス: Link先を確認
Li Fu(参考訳) 古典論理学において、"P suggests Q" は "not-P or Q" と同値である。 等価性が問題であることはよく知られている。 実際には、"P suggests Q" から "not-P or Q" は推論できる("Implication-to-disjunction" は有効)が、"not-P or Q" から "P suggests Q" は一般には推論できない("Disjunction-to-implication" は一般に有効ではない)ため、それらの間の同値性は一般には無効である。 この研究は、古典論理(CL)から間違ったDisjunction-to-implicationを正確に除去することを目的としている。 本稿では,(1) CL は IRL に Disjunction-to-implication を付加することで簡単に得られる論理システム (IRL) を提案し,(2) 解離-to-implication は IRL (Disjunction-to-implication または 否定は IRL では導出できない) に依存しない。 言い換えれば、IRL は CL から Disjunction-to-implication を正確に取り除いたシステムである。

In classical logic, "P implies Q" is equivalent to "not-P or Q". It is well known that the equivalence is problematic. Actually, from "P implies Q", "not-P or Q" can be inferred ("Implication-to-disjunction" is valid), while from "not-P or Q", "P implies Q" cannot be inferred in general ("Disjunction-to-implication" is not generally valid), so the equivalence between them is invalid in general. This work aims to remove exactly the incorrect Disjunction-to-implication from classical logic (CL). The paper proposes a logical system (IRL) with the expected properties: (1) CL is simply obtained by adding Disjunction-to-implication to IRL, and (2) Disjunction-to-implication is independent of IRL (either Disjunction-to-implication or its negation cannot be derived in IRL) in the general case. In other words, IRL is just the system obtained by exactly removing Disjunction-to-implication from CL.
翻訳日:2023-10-24 16:06:42 公開日:2023-08-11
# 設計段階における弱実時間システムの確率論的安全なWCET推定

Probabilistic Safe WCET Estimation for Weakly Hard Real-Time Systems at Design Stages ( http://arxiv.org/abs/2302.10288v3 )

ライセンス: Link先を確認
Jaekwon Lee, Seung Yeob Shin, Lionel Briand, Shiva Nejati(参考訳) 弱くハードなリアルタイムシステムはある程度の期限のミスを許容できるが、サービスの品質を保証するためには、その分離性を分析する必要がある。 このような分析は通常、設計の初期段階で発生し、エンジニアに実装ガイドラインを提供し、より良い設計決定を下す。 最悪ケース実行時間(wcet)の推定は、シェデュラビリティ分析の鍵となる入力である。 しかしながら、システム設計の初期段階では、wcet値の推定は困難であり、エンジニアは通常、ドメインの知識に基づいて妥当な範囲と判断する。 提案手法は,弱いリアルタイムシステムのコンテキストにおいて,当初専門家が推定した範囲の制約付き安全なWCETサブレンジを見つけることを目的としている。 そこで本研究では,(1)弱硬度制約の破れを最大化することを目的とした多目的探索と,(2)多項式ロジスティック回帰を応用し,確率論的解釈により安全なwcet範囲を推定する。 本手法をサテライトドメインの産業システムといくつかの現実的な合成システムに適用して評価した。 その結果,本手法は学習を伴わないランダム検索のベースラインを著しく上回っており,実用的な時間に高い信頼度で安全な wcet 範囲を推定できる(<23h)。

Weakly hard real-time systems can, to some degree, tolerate deadline misses, but their schedulability still needs to be analyzed to ensure their quality of service. Such analysis usually occurs at early design stages to provide implementation guidelines to engineers so that they can make better design decisions. Estimating worst-case execution times (WCET) is a key input to schedulability analysis. However, early on during system design, estimating WCET values is challenging and engineers usually determine them as plausible ranges based on their domain knowledge. Our approach aims at finding restricted, safe WCET sub-ranges given a set of ranges initially estimated by experts in the context of weakly hard real-time systems. To this end, we leverage (1) multi-objective search aiming at maximizing the violation of weakly hard constraints in order to find worst-case scheduling scenarios and (2) polynomial logistic regression to infer safe WCET ranges with a probabilistic interpretation. We evaluated our approach by applying it to an industrial system in the satellite domain and several realistic synthetic systems. The results indicate that our approach significantly outperforms a baseline relying on random search without learning, and estimates safe WCET ranges with a high degree of confidence in practical time (< 23h).
翻訳日:2023-10-24 13:16:26 公開日:2023-08-11
# 検証駆動開発

Validation-Driven Development ( http://arxiv.org/abs/2308.06028v1 )

ライセンス: Link先を確認
Sebastian Stock, Atif Mashkoor, Alexander Egyed(参考訳) 形式的手法は要求仕様の正しさを主張する上で基本的な役割を果たす。 しかし、歴史的に、形式的な手法の専門家は、これらの仕様の検証に重点を置いてきた。 同様に重要であるが、要求仕様の検証がしばしば背後で行われる。 本稿では,形式的開発における要件の検証を優先する検証駆動開発(VDD)プロセスを紹介する。 VDDプロセスは、要求分析のアプローチである問題フレームと検証義務(VO)に基づいて構築されます。 VDDプロセスの有効性は、航空業界におけるケーススタディを通じて実証されている。

Formal methods play a fundamental role in asserting the correctness of requirements specifications. However, historically, formal method experts have primarily focused on verifying those specifications. Although equally important, validation of requirements specifications often takes the back seat. This paper introduces a validation-driven development (VDD) process that prioritizes validating requirements in formal development. The VDD process is built upon problem frames - a requirements analysis approach - and validation obligations (VOs) - the concept of breaking down the overall validation of a specification and linking it to refinement steps. The effectiveness of the VDD process is demonstrated through a case study in the aviation industry.
翻訳日:2023-10-23 14:42:51 公開日:2023-08-11
# PyPIエコシステムにおけるオープンソースライセンスの非互換性の理解と更新

Understanding and Remediating Open-Source License Incompatibilities in the PyPI Ecosystem ( http://arxiv.org/abs/2308.05942v1 )

ライセンス: Link先を確認
Weiwei Xu, Hao He, Kai Gao, Minghui Zhou(参考訳) オープンソースソフトウェアの再利用と配布は、付随するオープンソースライセンスに従わなければならない。 現代のパッケージエコシステムでは、パッケージが多数のパッケージを持つ複雑な多層依存性グラフを持つ可能性があるため、このようなコンプライアンスの維持は困難である。 以前の研究ではライセンスの非互換性が一般的であることが判明しているが、現代の包装エコシステム(例えばpypi)では、実証的な証拠は依然として乏しい。 また、開発者がパッケージの依存性グラフ(直接および推移的な依存関係を含む)のライセンスの非互換性をいかに改善するかは、自動化されたアプローチを念頭に置いていない。 このギャップを埋めるため,我々はpypiエコシステムにおけるライセンス不適合性とその修復方法に関する大規模実証研究を行っている。 PyPIパッケージのリリースの7.27%はライセンスの不互換性があり、61.3%は過渡的な依存関係によって引き起こされ、修正の課題が生じる。修正のために、開発者は5つの戦略のうちの1つを適用できる:マイグレーション、削除、バージョンをピン留め、独自のライセンスの変更、交渉である。 SILENCEは, パッケージ依存グラフにおいて, 最小限のコストで, ライセンス不適合性修復を推奨するためのSMT-solverベースのアプローチである。 評価の結果,SILENCEが提案した修復は19の歴史的実世界の事例(既存の知識ベースでカバーされていないマイグレーションを除く)と一致し,これまでライセンスの不互換性を知らなかった5つのPyPIパッケージに受け入れられた。

The reuse and distribution of open-source software must be in compliance with its accompanying open-source license. In modern packaging ecosystems, maintaining such compliance is challenging because a package may have a complex multi-layered dependency graph with many packages, any of which may have an incompatible license. Although prior research finds that license incompatibilities are prevalent, empirical evidence is still scarce in some modern packaging ecosystems (e.g., PyPI). It also remains unclear how developers remediate the license incompatibilities in the dependency graphs of their packages (including direct and transitive dependencies), let alone any automated approaches. To bridge this gap, we conduct a large-scale empirical study of license incompatibilities and their remediation practices in the PyPI ecosystem. We find that 7.27% of the PyPI package releases have license incompatibilities and 61.3% of them are caused by transitive dependencies, causing challenges in their remediation; for remediation, developers can apply one of the five strategies: migration, removal, pinning versions, changing their own licenses, and negotiation. Inspired by our findings, we propose SILENCE, an SMT-solver-based approach to recommend license incompatibility remediations with minimal costs in package dependency graph. Our evaluation shows that the remediations proposed by SILENCE can match 19 historical real-world cases (except for migrations not covered by an existing knowledge base) and have been accepted by five popular PyPI packages whose developers were previously unaware of their license incompatibilities.
翻訳日:2023-10-23 14:42:43 公開日:2023-08-11
# ML対応システム構築におけるシステム工学プロセスの適用

Application of Systems Engineering Process in Building ML-Enabled Systems ( http://arxiv.org/abs/2308.05381v2 )

ライセンス: Link先を確認
Jie JW Wu(参考訳) 機械学習(ML)コンポーネントは、ますます重要で影響力のあるソフトウェアシステムに追加されているが、プロトタイプのMLモデルから現実のプロダクションシステムのソフトウェア開発プロセスは、さらなる複雑さと学際的なコラボレーションの課題によって、依然として困難である。 これは、ML対応システムを構築する際に、ウォーターフォール、スパイラル、アジャイルモデルといった従来のソフトウェアライフサイクルモデルを使用することに困難をもたらす。 複数の企業の実践者に対してインタビューを行い,ML対応システムにおけるシステムエンジニアリングプロセスの適用について検討した。 MLコンポーネントを用いた製品構築のための提案とV4MLプロセスモデルを開発した。 v4mlプロセスモデルは、ドキュメント、システム分解、v&vにより多くの労力を必要とすることが分かりましたが、学際的なコラボレーションの課題とmlコンポーネントによってもたらされる追加の複雑さに対処しました。

Machine learning (ML) components are being added to more and more critical and impactful software systems, but the software development process of real-world production systems from prototyped ML models remains challenging with additional complexity and interdisciplinary collaboration challenges. This poses difficulties in using traditional software lifecycle models such as waterfall, spiral or agile model when building ML-enabled systems. By interviewing with practitioners from multiple companies, we investigated the application of using systems engineering process in ML-enabled systems. We developed a set of propositions and proposed V4ML process model for building products with ML components. We found that V4ML process model requires more efforts on documentation, system decomposition and V&V, but it addressed the interdisciplinary collaboration challenges and additional complexity introduced by ML components.
翻訳日:2023-10-23 14:40:21 公開日:2023-08-11
# 文脈自由文法の自動ブラックボックスリバースエンジニアリングへのスケールアップ

Scaling Up Toward Automated Black-box Reverse Engineering of Context-Free Grammars ( http://arxiv.org/abs/2308.06163v1 )

ライセンス: Link先を確認
Mohammad Rifat Arefin, Suraj Shetiya, Zili Wang and Christoph Csallner(参考訳) ブラックボックスの文脈自由文法推論は難しい問題であり、多くの実用的な設定では限られた数のサンプルプログラムへのアクセスしかできない。 最先端のアプローチであるarvada heuristicは、フラットパース木から始まって文法規則を一般化し、異なる一般化列を探索する非決定論的である。 Arvadaの一般化手順の多くは、一般的な言語概念のネストルールに違反している。 そこで我々は,これらの入れ子規則に沿って入力プログラムを事前構成し,学習規則を帰納的に適用し,ブラックボックスの文脈自由文法推論を決定論的にする。 結果として、TreeVadaはより高速なランタイムとより高品質な文法を経験的に比較した。

Black-box context-free grammar inference is a hard problem as in many practical settings it only has access to a limited number of example programs. The state-of-the-art approach Arvada heuristically generalizes grammar rules starting from flat parse trees and is non-deterministic to explore different generalization sequences. We observe that many of Arvada's generalization steps violate common language concept nesting rules. We thus propose to pre-structure input programs along these nesting rules, apply learnt rules recursively, and make black-box context-free grammar inference deterministic. The resulting TreeVada yielded faster runtime and higher-quality grammars in an empirical comparison.
翻訳日:2023-10-23 14:28:32 公開日:2023-08-11
# 2022/23年におけるマリウポリ/ウクライナの都市変動のモニタリング

Monitoring Urban Changes in Mariupol/Ukraine in 2022/23 ( http://arxiv.org/abs/2309.08607v1 )

ライセンス: Link先を確認
Georg Zitzlsberger and Michal Podhoranyi(参考訳) 都市の変化を常に監視する能力は、社会経済的に大きな関心事である。 これまでの研究では、Deep Neural Networks(DNN)とTransfer Learningを使って、この分野にすでにアプローチを示してきた。 しかし、トレーニングドメインや転送ドメイン以外の時間スケールの実証には不足していた。 この研究は、既存の研究に基づいており、歴史的データを使って転送学習が実現可能な解決策であることを証明している。 本症例では,VHR(Very High Resolution)画像へのアクセスが制限された症例について検討した。 マルチモーダル合成開口レーダ(sar)と、センチネル1とセンチネル2からの光マルチスペクトル観測とからなる、高時間分解能の監視方法のコアデータを提供する。 我々は2022/23年のロシア・ウクライナ戦争開始時のウクライナのマリウポリにおける都市的変化をモニタリングする手法の実際的応用を選択した。 この紛争の間、VHRデータの入手は制限され、2022/23年への安価な直接転送は不可能となった。 その代わり、2017-2020年に移管され、2021年末から2023年半ばに移管されたモデルに十分な公開および無償のvhrデータを提供した。 この安価なvhrデータで2017-2020年までの移行により、2022/23年の戦時中の監視が可能となった。 観察頻度の影響に関するアブレーション研究は、我々の方法が大きな観測損失にも耐えうることを示した。 しかし,本手法はマルチモーダル入力にも拘わらず,sar観測よりも光学的観測に強く依存していることが示唆された。 間接移動やセンチネル1bの誤動作は,本手法の監視機能に大きな影響を与えなかった。

The ability to constantly monitor urban changes is of large socio-economic interest. Previous works have already shown approaches in this field with the use of Deep Neural Networks (DNNs) and transfer learning. However, they fell short in demonstrating temporal scale outside of either the training or transfer domain. This work builds on existing research and proves that transfer learning with the use of historic data is a feasible solution, which still allows the urban change monitoring of later years. We considered a case with limited access to public and free Very High Resolution (VHR) imagery to guide the transfer. To provide a high temporal resolution, the core data of our monitoring method comprised multi-modal Synthetic Aperture Radar (SAR) and optical multispectral observations from Sentinel 1 and Sentinel 2, respectively. We chose a practical application of our methods for monitoring urban-related changes in the city of Mariupol in Ukraine during the beginning of the Russo-Ukrainian War in 2022/23. During this conflict, availability of VHR data was limited and hence an inexpensive direct transfer to the years 2022/23 was rendered impossible. Instead, a transfer was made for the years 2017-2020 that provided sufficient public and free VHR data with an application of the transferred model in the years late 2021 to mid-2023. It was shown that transferring for the years 2017-2020 with this inexpensive historical VHR data enabled monitoring during times of war in 2022/23. An ablation study on the impact of the frequency of observations showed our method as resilient to even a large loss of observations. However, it also indicated that our method, despite the multi-modal input, was more dependent on optical observations than SAR observations. Neither the indirect transfer, nor the malfunction of Sentinel 1B had a significant impact on the monitoring capabilities of our method.
翻訳日:2023-10-23 07:28:48 公開日:2023-08-11
# Future-AI:医療における信頼性とデプロイ可能な人工知能のための国際コンセンサスガイドライン

FUTURE-AI: International consensus guideline for trustworthy and deployable artificial intelligence in healthcare ( http://arxiv.org/abs/2309.12325v1 )

ライセンス: Link先を確認
Karim Lekadir, Aasa Feragen, Abdul Joseph Fofanah, Alejandro F Frangi, Alena Buyx, Anais Emelie, Andrea Lara, Antonio R Porras, An-Wen Chan, Arcadi Navarro, Ben Glocker, Benard O Botwe, Bishesh Khanal, Brigit Beger, Carol C Wu, Celia Cintas, Curtis P Langlotz, Daniel Rueckert, Deogratias Mzurikwao, Dimitrios I Fotiadis, Doszhan Zhussupov, Enzo Ferrante, Erik Meijering, Eva Weicken, Fabio A Gonz\'alez, Folkert W Asselbergs, Fred Prior, Gabriel P Krestin, Gary Collins, Geletaw S Tegenaw, Georgios Kaissis, Gianluca Misuraca, Gianna Tsakou, Girish Dwivedi, Haridimos Kondylakis, Harsha Jayakody, Henry C Woodruf, Hugo JWL Aerts, Ian Walsh, Ioanna Chouvarda, Ir\`ene Buvat, Islem Rekik, James Duncan, Jayashree Kalpathy-Cramer, Jihad Zahir, Jinah Park, John Mongan, Judy W Gichoya, Julia A Schnabel, Kaisar Kushibar, Katrine Riklund, Kensaku Mori, Kostas Marias, Lameck M Amugongo, Lauren A Fromont, Lena Maier-Hein, Leonor Cerd\'a Alberich, Leticia Rittner, Lighton Phiri, Linda Marrakchi-Kacem, Llu\'is Donoso-Bach, Luis Mart\'i-Bonmat\'i, M Jorge Cardoso, Maciej Bobowicz, Mahsa Shabani, Manolis Tsiknakis, Maria A Zuluaga, Maria Bielikova, Marie-Christine Fritzsche, Marius George Linguraru, Markus Wenzel, Marleen De Bruijne, Martin G Tolsgaard, Marzyeh Ghassemi, Md Ashrafuzzaman, Melanie Goisauf, Mohammad Yaqub, Mohammed Ammar, M\'onica Cano Abad\'ia, Mukhtar M E Mahmoud, Mustafa Elattar, Nicola Rieke, Nikolaos Papanikolaou, Noussair Lazrak, Oliver D\'iaz, Olivier Salvado, Oriol Pujol, Ousmane Sall, Pamela Guevara, Peter Gordebeke, Philippe Lambin, Pieta Brown, Purang Abolmaesumi, Qi Dou, Qinghua Lu, Richard Osuala, Rose Nakasi, S Kevin Zhou, Sandy Napel, Sara Colantonio, Shadi Albarqouni, Smriti Joshi, Stacy Carter, Stefan Klein, Steffen E Petersen, Susanna Auss\'o, Suyash Awate, Tammy Riklin Raviv, Tessa Cook, Tinashe E M Mutsvangwa, Wendy A Rogers, Wiro J Niessen, X\`enia Puig-Bosch, Yi Zeng, Yunusa G Mohammed, Yves Saint James Aquino, Zohaib Salahuddin, Martijn P A Starmans(参考訳) 医療と医療における人工知能(AI)の大きな進歩にもかかわらず、AI技術の展開と採用は、実際の臨床実践において制限されている。 近年、医療AIに関連する技術的、臨床的、倫理的、法的リスクに関する懸念が高まっている。 現実の採用を高めるためには、医療AIツールが患者、臨床医、保健機関、当局によって信頼され、受け入れられることが不可欠である。 この研究は、Future-AIガイドラインを、医療における信頼できるAIツールの開発とデプロイを導くための最初の国際コンセンサスフレームワークとして説明している。 Future-AIコンソーシアムは2021年に設立され、現在は、AI科学者、臨床医、倫理学者、社会科学者を含む51カ国から118の学際専門家で構成されている。 コンソーシアムは2年間にわたって、詳細な文献レビュー、修正されたDelphi調査、オンラインコンセンサスミーティングを含む反復的なプロセスを通じて、信頼できるAIの指針とベストプラクティスを定義した。 Future-AIフレームワークは、医療における信頼できるAIのための6つの原則、すなわち公正性、普遍性、トレーサビリティ、ユーザビリティ、ロバスト性、説明可能性に基づいて設立された。 コンセンサスを通じて、技術的、臨床的、法的、社会倫理的な側面に対処する28のベストプラクティスが定義された。 推奨事項は、設計、開発、検証から規制、デプロイメント、監視に至るまで、医療AIのライフサイクル全体をカバーする。 FUTURE-AIはリスクインフォームドで仮定なしのガイドラインであり、実際のプラクティスで信頼され、デプロイされ、採用される医療AIツールを構築するための構造化されたアプローチを提供する。 研究者は、この推奨事項を概念実証段階で考慮し、将来の医療AIの臨床実践への翻訳を促進することを奨励されている。

Despite major advances in artificial intelligence (AI) for medicine and healthcare, the deployment and adoption of AI technologies remain limited in real-world clinical practice. In recent years, concerns have been raised about the technical, clinical, ethical and legal risks associated with medical AI. To increase real world adoption, it is essential that medical AI tools are trusted and accepted by patients, clinicians, health organisations and authorities. This work describes the FUTURE-AI guideline as the first international consensus framework for guiding the development and deployment of trustworthy AI tools in healthcare. The FUTURE-AI consortium was founded in 2021 and currently comprises 118 inter-disciplinary experts from 51 countries representing all continents, including AI scientists, clinicians, ethicists, and social scientists. Over a two-year period, the consortium defined guiding principles and best practices for trustworthy AI through an iterative process comprising an in-depth literature review, a modified Delphi survey, and online consensus meetings. The FUTURE-AI framework was established based on 6 guiding principles for trustworthy AI in healthcare, i.e. Fairness, Universality, Traceability, Usability, Robustness and Explainability. Through consensus, a set of 28 best practices were defined, addressing technical, clinical, legal and socio-ethical dimensions. The recommendations cover the entire lifecycle of medical AI, from design, development and validation to regulation, deployment, and monitoring. FUTURE-AI is a risk-informed, assumption-free guideline which provides a structured approach for constructing medical AI tools that will be trusted, deployed and adopted in real-world practice. Researchers are encouraged to take the recommendations into account in proof-of-concept stages to facilitate future translation towards clinical practice of medical AI.
翻訳日:2023-10-23 07:10:52 公開日:2023-08-11
# 低所得国と中所得国における健康情報システム間の相互運用の強化 : 課題と戦略のレビュー

Enhancing interoperability among health information systems in low- and middle- income countries: a review of challenges and strategies ( http://arxiv.org/abs/2309.12326v1 )

ライセンス: Link先を確認
Prabath Jayathissa, Roshan Hewapathirana(参考訳) 本稿では、低所得国と中所得国(LMIC)における保健情報システムの相互運用性向上に向けた課題と戦略の概要について述べる。 LMICにおける相互運用性を実現することは、限られたリソース、断片化された健康情報システム、多様な健康ITインフラなど、さまざまな要因による固有の課題を示す。 この方法論は、包括的な文献レビュー、発見の合成、課題と戦略の特定、結果の分析と解釈、記事の執筆と最終化を含む。 記事は相互運用性の課題として、標準化の欠如、断片化されたシステム、限られたリソース、データプライバシの懸念などを挙げている。 本稿では、データフォーマットやプロトコルの標準化、健康情報システムの統合、健康ITインフラへの投資、LMICにおける健康ITプロフェッショナルの能力構築など、LMICの相互運用性を強化する戦略を提案する。 本稿は、これらのKEYWORDS相互運用性、健康情報システム、低所得国(LMIC)、課題、戦略、標準化における医療提供と成果を改善することを目的として、LMICにおける医療情報システムの相互運用性を高めるための現状と潜在的戦略に関する洞察を提供することを目的とする。

The review article aims to provide an overview of the challenges and strategies for enhancing interoperability among health information systems in low- and middle- income countries (LMICs). Achieving interoperability in LMICs presents unique challenges due to various factors, such as limited resources, fragmented health information systems, and diverse health IT infrastructure. The methodology involves conducting a comprehensive literature review, synthesising findings, identifying challenges and strategies, analysing and interpreting results, and writing and finalising the article. The article highlights that the interoperability challenges include a lack of standardisation, fragmented systems, limited resources, and data privacy concerns. The article proposes strategies to enhance interoperability in LMICs, such as standardisation of data formats and protocols, consolidation of health information systems, investment in health IT infrastructure, and capacity building of health IT professionals in LMICs. The article aims to provide insights into the current state and potential strategies for enhancing interoperability among health information systems in LMICs, intending to improve healthcare delivery and outcomes in these KEYWORDS Interoperability, Health information systems, low and middle-income countries (LMICs), challenges, strategies, standardisation
翻訳日:2023-10-23 07:00:24 公開日:2023-08-11
# プログラミングテストにおける不適切な便益とChatGPT誤用の同定:制御実験

Inappropriate Benefits and Identification of ChatGPT Misuse in Programming Tests: A Controlled Experiment ( http://arxiv.org/abs/2309.16697v1 )

ライセンス: Link先を確認
Hapnes Toba, Oscar Karnalim, Meliana Christianti Johan, Terutoshi Tada, Yenni Merlin Djajalaksana, Tristan Vivaldy(参考訳) ChatGPTは、学生がプログラミングを学ぶのを助けるかもしれないが、それは、学術的完全性に反する盗作行為に誤用される可能性がある。 学生はChatGPTにプログラミングタスクを完了させ、ソースの適切な承認なしに他人の作業からソリューションを生成することができる。 そこで我々は,ChatGPTを用いた不適切なメリットを,完成時間とプログラミング性能の観点から評価する制御実験を行った。 また,ChatGPTによる支援プログラム(ChatGPTを用いた学生行動)と,ChatGPTの学生視点(調査)を手動で識別する方法も報告した。 17人の学生が実験に参加した。 2つのプログラミングテストの完了を要請された。 1つのグループは助けなしにテストを完了し、もう1つのグループはchatgptでそれを完了させる。 本研究は,ChatGPT の学生が ChatGPT の学生より2倍高速であることを示すが,プログラム性能は同等である。 生成されたコードは効率的で、リストや辞書のような複雑なデータ構造を使用する。 調査の結果に基づき、chatgptはプログラミングタスクやその他の一般的な課題を完了するためのアシスタントとして使用されることが推奨されている。 ChatGPTは、他の検索エンジンと同様、参考として役に立つだろう。 ChatGPTの結果を検証するには論理的および批判的思考が必要である。

While ChatGPT may help students to learn to program, it can be misused to do plagiarism, a breach of academic integrity. Students can ask ChatGPT to complete a programming task, generating a solution from other people's work without proper acknowledgment of the source(s). To help address this new kind of plagiarism, we performed a controlled experiment measuring the inappropriate benefits of using ChatGPT in terms of completion time and programming performance. We also reported how to manually identify programs aided with ChatGPT (via student behavior while using ChatGPT) and student perspective of ChatGPT (via a survey). Seventeen students participated in the experiment. They were asked to complete two programming tests. They were divided into two groups per the test: one group should complete the test without help while the other group should complete it with ChatGPT. Our study shows that students with ChatGPT complete programming tests two times faster than those without ChatGPT, though their programming performance is comparable. The generated code is highly efficient and uses complex data structures like lists and dictionaries. Based on the survey results, ChatGPT is recommended to be used as an assistant to complete programming tasks and other general assignments. ChatGPT will be beneficial as a reference as other search engines do. Logical and critical thinking are needed to validate the result presented by ChatGPT.
翻訳日:2023-10-23 06:00:52 公開日:2023-08-11
# Parametric Leaky Tanh: ディープラーニングのための新しいハイブリッドアクティベーション機能

Parametric Leaky Tanh: A New Hybrid Activation Function for Deep Learning ( http://arxiv.org/abs/2310.07720v1 )

ライセンス: Link先を確認
Stamatis Mastromichalakis(参考訳) 活性化関数(AF)はディープニューラルネットワーク(DNN)の重要な構成要素であり、その性能に大きな影響を及ぼす。 DNNのアクティベーション関数は典型的にはスムーズで非線形な関数であり、入力信号を次の層の出力信号に変換する。 本稿では,tanh と leaky relu (lrelu) の両方の活性化関数の強度を結合した新しいハイブリッド活性化関数であるparametric leaky tanh (pltanh)を提案する。 PLTanh はすべての点で微分可能であり、LReLU の振舞いと一致する負の入力に対する非ゼロ勾配を保証することで 'dying ReLU' 問題に対処する。 これら2つの多様な活性化関数のユニークな利点を統合することにより、pltanhはネットワーク内のより複雑な非線形関係の学習を容易にする。 本稿では,PLTanhが確立した活性化機能(ReLU,LRELU,ALRELU)に対して,5つの多様なデータセットを用いて実証評価を行った。

Activation functions (AFs) are crucial components of deep neural networks (DNNs), having a significant impact on their performance. An activation function in a DNN is typically a smooth, nonlinear function that transforms an input signal into an output signal for the subsequent layer. In this paper, we propose the Parametric Leaky Tanh (PLTanh), a novel hybrid activation function designed to combine the strengths of both the Tanh and Leaky ReLU (LReLU) activation functions. PLTanh is differentiable at all points and addresses the 'dying ReLU' problem by ensuring a non-zero gradient for negative inputs, consistent with the behavior of LReLU. By integrating the unique advantages of these two diverse activation functions, PLTanh facilitates the learning of more intricate nonlinear relationships within the network. This paper presents an empirical evaluation of PLTanh against established activation functions, namely ReLU, LReLU, and ALReLU utilizing five diverse datasets.
翻訳日:2023-10-23 03:13:25 公開日:2023-08-11
# 健康アプリケーションデータと個人情報管理ツールの因果関係

Causally Linking Health Application Data and Personal Information Management Tools ( http://arxiv.org/abs/2308.08556v1 )

ライセンス: Link先を確認
Saturnino Luz and Masood Masoodian(参考訳) 多くの国で、スマートウォッチ、睡眠モニター、スマートスケールなどの消費者向け健康デバイスの普及は、健康監視への関心を高めているだけでなく、一般の人々によるそのようなデータの探索を支援するために、専門家の健康サービスへの統合をサポートする、数え切れない数の‘スマート’アプリケーションの開発につながった。 このようなデバイスによってさまざまなヘルスデータストリームがユーザによって利用可能にされているが、これらのストリームは、しばしば別の時系列可視化として表示され、健康変数間の潜在的な関係が明確に見えない。 さらに、仕事やソーシャルコネクティビティといった生活の他の側面がデジタル化されつつあるにもかかわらず、健康や幸福なアプリケーションは、共有カレンダーやメールシステムなど、広く使われている個人情報管理ツールによって提供される潜在的に有用なコンテキスト情報をほとんど利用していない。 本稿では,これら多様なデータソース,分析・可視化ツール,推論手法,グラフィカルユーザインタフェースを統合し,時系列間の因果関係を強調表示することでユーザを支援するフレームワークを提案する。

The proliferation of consumer health devices such as smart watches, sleep monitors, smart scales, etc, in many countries, has not only led to growing interest in health monitoring, but also to the development of a countless number of ``smart'' applications to support the exploration of such data by members of the general public, sometimes with integration into professional health services. While a variety of health data streams has been made available by such devices to users, these streams are often presented as separate time-series visualizations, in which the potential relationships between health variables are not explicitly made visible. Furthermore, despite the fact that other aspects of life, such as work and social connectivity, have become increasingly digitised, health and well-being applications make little use of the potentially useful contextual information provided by widely used personal information management tools, such as shared calendar and email systems. This paper presents a framework for the integration of these diverse data sources, analytic and visualization tools, with inference methods and graphical user interfaces to help users by highlighting causal connections among such time-series.
翻訳日:2023-08-27 05:25:45 公開日:2023-08-11
# AIによるオンチェーンパラメータの調査:リスク暗号と価格要因

AI-Assisted Investigation of On-Chain Parameters: Risky Cryptocurrencies and Price Factors ( http://arxiv.org/abs/2308.08554v1 )

ライセンス: Link先を確認
Abdulrezzak Zekiye, Semih Utku, Fadi Amroush, Oznur Ozkasap(参考訳) 近年、仮想通貨は投資家や学者にとって広く研究されている話題となっている。 投資決定を情報化するためには、暗号通貨価格に影響を与える要因を理解し、リスクの高い暗号通貨を特定することが不可欠である。 本稿では、暗号通貨の価格に影響を及ぼす要因を特定し、リスクの高い暗号通貨を見つけるために、歴史的データを分析し、オンチェーンパラメータに人工知能アルゴリズムを用いることに焦点を当てる。 歴史的暗号通貨のオンチェーンデータの解析を行い,価格と他のパラメータの相関性を測定した。 さらに、クラスタリングと分類を使用して、暗号通貨をよりよく理解し、リスクがあるかどうかを分類しました。 分析の結果、かなりの数の暗号通貨(39%)が市場から姿を消し、わずか10%(1000日以上)しか生き残っていないことがわかった。 分析の結果,暗号通貨価格と最大供給量と総供給量との間に有意な負の相関がみられ,価格と24時間取引量との間には弱い正の相関が認められた。 さらに、暗号通貨をオンチェーンパラメータを使って5つの異なるグループにクラスタ化しました。 最後に、暗号通貨がリスクかどうかを予測するために複数の分類器を実装することで、k-nearestの隣人を用いて、最高のf1-scoreを76%取得した。

Cryptocurrencies have become a popular and widely researched topic of interest in recent years for investors and scholars. In order to make informed investment decisions, it is essential to comprehend the factors that impact cryptocurrency prices and to identify risky cryptocurrencies. This paper focuses on analyzing historical data and using artificial intelligence algorithms on on-chain parameters to identify the factors affecting a cryptocurrency's price and to find risky cryptocurrencies. We conducted an analysis of historical cryptocurrencies' on-chain data and measured the correlation between the price and other parameters. In addition, we used clustering and classification in order to get a better understanding of a cryptocurrency and classify it as risky or not. The analysis revealed that a significant proportion of cryptocurrencies (39%) disappeared from the market, while only a small fraction (10%) survived for more than 1000 days. Our analysis revealed a significant negative correlation between cryptocurrency price and maximum and total supply, as well as a weak positive correlation between price and 24-hour trading volume. Moreover, we clustered cryptocurrencies into five distinct groups using their on-chain parameters, which provides investors with a more comprehensive understanding of a cryptocurrency when compared to those clustered with it. Finally, by implementing multiple classifiers to predict whether a cryptocurrency is risky or not, we obtained the best f1-score of 76% using K-Nearest Neighbor.
翻訳日:2023-08-27 05:25:26 公開日:2023-08-11
# 深層学習に基づく水力植物管理のためのフロー分散

Deep learning-based flow disaggregation for hydropower plant management ( http://arxiv.org/abs/2308.11631v1 )

ライセンス: Link先を確認
Duo Zhang(参考訳) 高時間分解能データは水力発電所管理に不可欠な資源である。 現在、ノルウェーのほとんどの水力発電所では日次分解能データのみが利用可能であるが、より正確な管理を達成するためには、日次分解能データを必要とすることが多い。 日次データの欠如に対処するため、時系列のデアグリゲーションは潜在的なツールである。 本研究では,ノルウェーのフローステーションからのフローデータを用いて,深層学習に基づく時系列分散モデルを提案し,毎日のフローを時間単位のフローに分解する。 予備結果は,提案モデルに有望な側面を示す。

High temporal resolution data is a vital resource for hydropower plant management. Currently, only daily resolution data are available for most of Norwegian hydropower plant, however, to achieve more accurate management, sub-daily resolution data are often required. To deal with the wide absence of sub-daily data, time series disaggregation is a potential tool. In this study, we proposed a time series disaggregation model based on deep learning, the model is tested using flow data from a Norwegian flow station, to disaggregate the daily flow into hourly flow. Preliminary results show some promising aspects for the proposed model.
翻訳日:2023-08-27 04:45:30 公開日:2023-08-11
# 画像テキストアライメントを用いた認知症検出のための画像記述音声の評価

Evaluating Picture Description Speech for Dementia Detection using Image-text Alignment ( http://arxiv.org/abs/2308.07933v1 )

ライセンス: Link先を確認
Youxiang Zhu, Nana Lin, Xiaohui Liang, John A. Batsis, Robert M. Roth, Brian MacWhinney(参考訳) 認知症検出に画像記述音声を用いた30年間の研究を行った。 長い歴史にもかかわらず、過去のモデルは、健常者と認知症患者の発話パターンの違いを識別することに重点を置いているが、画像情報は直接利用していない。 本稿では,画像と記述文の両方を入力とし,事前学習した大規模な画像テキストアライメントモデルからの知識を取り入れた最初の認知症検出モデルを提案する。 本研究は,認知症と健康サンプルの差異を,テキストと画像の焦点領域の関係から観察する。 以上の違いは認知症検出精度の向上に有用であると考えられる。 具体的には、テキストと画像の関係を利用して、サンプルの文のランク付けとフィルタリングを行う。 また,絵の焦点領域を話題として特定し,焦点領域に応じて文章を分類した。 画像,サブイメージ,集中領域との関連性に基づいて,サンプルを前処理する3つの高度なモデルを提案する。 評価結果から,画像および大規模画像テキストアライメントモデルに精通した先進モデルでは,検出精度が83.44%であり,テキストのみのベースラインモデルよりも79.91%高い最先端性能が得られた。 最後に、サンプルと画像の結果を視覚化し、モデルの利点を説明します。

Using picture description speech for dementia detection has been studied for 30 years. Despite the long history, previous models focus on identifying the differences in speech patterns between healthy subjects and patients with dementia but do not utilize the picture information directly. In this paper, we propose the first dementia detection models that take both the picture and the description texts as inputs and incorporate knowledge from large pre-trained image-text alignment models. We observe the difference between dementia and healthy samples in terms of the text's relevance to the picture and the focused area of the picture. We thus consider such a difference could be used to enhance dementia detection accuracy. Specifically, we use the text's relevance to the picture to rank and filter the sentences of the samples. We also identified focused areas of the picture as topics and categorized the sentences according to the focused areas. We propose three advanced models that pre-processed the samples based on their relevance to the picture, sub-image, and focused areas. The evaluation results show that our advanced models, with knowledge of the picture and large image-text alignment models, achieve state-of-the-art performance with the best detection accuracy at 83.44%, which is higher than the text-only baseline model at 79.91%. Lastly, we visualize the sample and picture results to explain the advantages of our models.
翻訳日:2023-08-20 16:18:52 公開日:2023-08-11
# 縦断的研究における解剖学的位置マッチングのための階層的記述フレームワーク

A Hierarchical Descriptor Framework for On-the-Fly Anatomical Location Matching between Longitudinal Studies ( http://arxiv.org/abs/2308.07337v1 )

ライセンス: Link先を確認
Halid Ziya Yerebakan, Yoshihisa Shinagawa, Mahesh Ranganath, Simon Allen-Raffl, Gerardo Hermosillo Valadez(参考訳) 縦断比較において,医療画像の対間の解剖学的位置を一致させる手法を提案する。 位置情報を符号化する画像強度の階層的スパースサンプリングに基づいて、ソース画像内のクエリポイントの記述子を計算することにより、マッチングを可能にする。 そして、階層検索演算は、対象画像中の最も類似した記述子で対応する点を求める。 この単純な強力な戦略は、単一のCPU上でのマッピングポイントの計算時間をミリ秒スケールに短縮する。 したがって、放射線学者は、登録から変形フィールドを事前計算したり保存したりするための追加の建築コストを必要とせずに、ほぼリアルタイムで類似した解剖学的位置を比較することができる。 我々のアルゴリズムは事前のトレーニング、再サンプリング、セグメンテーション、アフィン変換ステップを必要としない。 我々は最近公開されたDeep Lesion Trackingデータセットアノテーションでアルゴリズムをテストした。 深部病変追跡装置と比較してより正確なマッチングが得られたが,最も正確なアルゴリズムよりも24倍高速であった。 また,CTとMRのマッチング精度について検討し,提案アルゴリズムの精度を,複数の放射線科医が統合した地中真実と比較した。

We propose a method to match anatomical locations between pairs of medical images in longitudinal comparisons. The matching is made possible by computing a descriptor of the query point in a source image based on a hierarchical sparse sampling of image intensities that encode the location information. Then, a hierarchical search operation finds the corresponding point with the most similar descriptor in the target image. This simple yet powerful strategy reduces the computational time of mapping points to a millisecond scale on a single CPU. Thus, radiologists can compare similar anatomical locations in near real-time without requiring extra architectural costs for precomputing or storing deformation fields from registrations. Our algorithm does not require prior training, resampling, segmentation, or affine transformation steps. We have tested our algorithm on the recently published Deep Lesion Tracking dataset annotations. We observed more accurate matching compared to Deep Lesion Tracker while being 24 times faster than the most precise algorithm reported therein. We also investigated the matching accuracy on CT and MR modalities and compared the proposed algorithm's accuracy against ground truth consolidated from multiple radiologists.
翻訳日:2023-08-16 15:30:19 公開日:2023-08-11
# 形式論理に基づく合成コーパスからの導出推論の学習

Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic ( http://arxiv.org/abs/2308.07336v1 )

ライセンス: Link先を確認
Terufumi Morishita, Gaku Morio, Atsuki Yamaguchi, Yasuhiro Sogawa(参考訳) 本研究では,言語モデル(LM)に対する合成コーパスに基づくアプローチを用いて,論理的推論能力を得る。 前回の研究では、特定の推論規則を用いて推論例を生成した。 しかし、これらの規則は限定的あるいは任意であった。 これにより、獲得した推論能力の一般化可能性を制限することができる。 我々はこれを再考し、形式論理理論に基づく十分な根拠を持つ推論規則の集合を採用し、多段階の方法で結合すると他の推論規則を導出することができる。 提案するコーポラ上で lms がトレーニングされたことを実証的に検証し、それを $\textbf{fld}$ (\textbf{f}$ormal $\textbf{l}$ogic$\textbf{d}$eduction) と命名し、より一般化可能な推論能力を得る。 さらに, 導出コーパスがLMを増強できる誘引的推論能力の面と,それらが不可能な面を識別する。 最後に,これらの結果に基づき,各側面に対してコーパスの推論や他のアプローチを適用するための今後の方向性について考察する。 コード、データ、モデルをリリースします。

We study a synthetic corpus-based approach for language models (LMs) to acquire logical deductive reasoning ability. The previous studies generated deduction examples using specific sets of deduction rules. However, these rules were limited or otherwise arbitrary. This can limit the generalizability of acquired deductive reasoning ability. We rethink this and adopt a well-grounded set of deduction rules based on formal logic theory, which can derive any other deduction rules when combined in a multistep way. We empirically verify that LMs trained on the proposed corpora, which we name $\textbf{FLD}$ ($\textbf{F}$ormal $\textbf{L}$ogic $\textbf{D}$eduction), acquire more generalizable deductive reasoning ability. Furthermore, we identify the aspects of deductive reasoning ability on which deduction corpora can enhance LMs and those on which they cannot. Finally, on the basis of these results, we discuss the future directions for applying deduction corpora or other approaches for each aspect. We release the code, data, and models.
翻訳日:2023-08-16 15:30:00 公開日:2023-08-11
# 円をパッキングするエンコーダ-デコーダアプローチ

An Encoder-Decoder Approach for Packing Circles ( http://arxiv.org/abs/2308.07335v1 )

ライセンス: Link先を確認
Akshay Kiran Jose, Gangadhar Karevvanavar, Rajshekhar V Bhat(参考訳) より大きなオブジェクトに小さなオブジェクトを詰め込むという問題は、何十年も前から関心を集めてきた。 これらの問題では、より小さなオブジェクトが大きなオブジェクトの内側に完全に置かれなければならないという要求に加えて、オーバーラップしたり、最小のオーバーラップが期待されている。 このため、パッケージングの問題は非凸問題であることが判明し、最適な解を得るのは困難である。 このように、いくつかのヒューリスティックなアプローチは、一般に準最適解を得るために使われており、いくつかの特別な例の最適解を証明できる。 本稿では,エンコーダブロック,摂動ブロック,デコーダブロックからなる新しいエンコーダ・デコーダアーキテクチャを提案する。 提案手法では, エンコーダは入力として充填される円の指数を入力とし, その中心を正規化層を通じて出力し, 摂動層は制御された摂動を中心に付加し, より小さな円の半径を超えないようにし, デコーダは摂動中心を入力とし, 梱包対象円の指数を推定する。 ニューラルネットワークによるエンコーダとデコーダのパラメータ化を行い、デコーダの推定インデックスと、エンコーダへの入力として提供される円の実際のインデックスとの誤差を低減するために最適化する。 提案手法は,正規化層と摂動層を慎重に選択することにより,高次元と異なる形状の物体を詰め込むように一般化することができる。 このアプローチは、最適化されたサブソリューションを提供し、古典的なメソッドに関して競合するパフォーマンスを持つ、より大きなオブジェクトに小さなオブジェクトを詰め込むことができる。

The problem of packing smaller objects within a larger object has been of interest since decades. In these problems, in addition to the requirement that the smaller objects must lie completely inside the larger objects, they are expected to not overlap or have minimum overlap with each other. Due to this, the problem of packing turns out to be a non-convex problem, obtaining whose optimal solution is challenging. As such, several heuristic approaches have been used for obtaining sub-optimal solutions in general, and provably optimal solutions for some special instances. In this paper, we propose a novel encoder-decoder architecture consisting of an encoder block, a perturbation block and a decoder block, for packing identical circles within a larger circle. In our approach, the encoder takes the index of a circle to be packed as an input and outputs its center through a normalization layer, the perturbation layer adds controlled perturbations to the center, ensuring that it does not deviate beyond the radius of the smaller circle to be packed, and the decoder takes the perturbed center as input and estimates the index of the intended circle for packing. We parameterize the encoder and decoder by a neural network and optimize it to reduce an error between the decoder's estimated index and the actual index of the circle provided as input to the encoder. The proposed approach can be generalized to pack objects of higher dimensions and different shapes by carefully choosing normalization and perturbation layers. The approach gives a sub-optimal solution and is able to pack smaller objects within a larger object with competitive performance with respect to classical methods.
翻訳日:2023-08-16 15:29:40 公開日:2023-08-11
# ペアワイズアフィニティによる1次元非パラメトリック潜在空間モデルの局在

Localization in 1D non-parametric latent space models from pairwise affinities ( http://arxiv.org/abs/2108.03098v2 )

ライセンス: Link先を確認
Christophe Giraud and Yann Issartel and Nicolas Verzelen(参考訳) 対の親和性から一次元トーラスにおける潜伏位置を推定する問題を考察する。 一対のアイテム間の観測された親和性は、トーラス上の2つのアイテムの潜在位置$x^*_{i},x^*_{j}$の関数$f(x^*_{i},x^*_{j})$のノイズ観測としてモデル化される。 アフィニティ関数 $f$ は未知であり、$x$ と $y$ の間の距離が小さいと$f(x,y)$ が大きいことを保証するいくつかの形状制約を満たすと仮定される。 この非パラメトリックモデリングは、データに適合する優れた柔軟性を提供します。 我々は、高い確率で$\sqrt{\log(n)/n}$の順序の最大誤差で、潜在位置を確実にローカライズする推定手順を導入する。 この速度はミニマックス最適であることが証明されている。 この手順の計算効率の良い変種は、より制限的な仮定の下でも解析される。 我々の一般的な結果は、統計セレーションの問題によりインスタンス化することができ、順序付けにおける最大誤差に対する新たな境界が導かれる。

We consider the problem of estimating latent positions in a one-dimensional torus from pairwise affinities. The observed affinity between a pair of items is modeled as a noisy observation of a function $f(x^*_{i},x^*_{j})$ of the latent positions $x^*_{i},x^*_{j}$ of the two items on the torus. The affinity function $f$ is unknown, and it is only assumed to fulfill some shape constraints ensuring that $f(x,y)$ is large when the distance between $x$ and $y$ is small, and vice-versa. This non-parametric modeling offers a good flexibility to fit data. We introduce an estimation procedure that provably localizes all the latent positions with a maximum error of the order of $\sqrt{\log(n)/n}$, with high-probability. This rate is proven to be minimax optimal. A computationally efficient variant of the procedure is also analyzed under some more restrictive assumptions. Our general results can be instantiated to the problem of statistical seriation, leading to new bounds for the maximum error in the ordering.
翻訳日:2023-08-15 23:56:00 公開日:2023-08-11
# 表現学習のためのコントラスト抽出とコントラスト反発

Contrastive Attraction and Contrastive Repulsion for Representation Learning ( http://arxiv.org/abs/2105.03746v4 )

ライセンス: Link先を確認
Huangjie Zheng, Xu Chen, Jiangchao Yao, Hongxia Yang, Chunyuan Li, Ya Zhang, Hao Zhang, Ivor Tsang, Jingren Zhou, Mingyuan Zhou(参考訳) コントラスト学習(CL)法はデータ表現を自己超越的に効果的に学習し、エンコーダは1対1のソフトマックスクロスエントロピー損失により、複数の負のサンプルに対して各正のサンプルを対比する。 大量のラベルのない画像データを活用することで、最近のclメソッドは、imagenetのような大規模データセットで事前トレーニングされた場合に有望な結果を得た。 しかし、ほとんどの場合、同じインスタンスからの拡張ビューは正のペアであり、他のインスタンスからのビューは負のペアであると考えている。 このようなバイナリパーティションはサンプル間の関係を十分に考慮せず、野生の画像に一般化するとパフォーマンスが悪化する傾向がある。 本稿では, CLの性能をさらに向上させ, 各種データセット上での堅牢性を高めるために, 自己グループ内の正と負のサンプルを別々に比較する2つのCL戦略を提案し, 正と負の群を対比して進行する。 我々は,この手法を対照的アトラクションと対照的反発(cacr)で実現し,より遠方のポジティブなサンプルを引き付けるための大きな力を与えるだけでなく,より近距離の負のサンプルを撃退する。 理論的解析により、CACRは正のアトラクションと負の反発によってCLの挙動を一般化し、さらに正と負のペア内のコントラスト内関係を、サンプルと真の分布の間のギャップを狭めるために考慮している。 大規模な実験により、CACRはCLベンチマークで優れた性能を示すだけでなく、不均衡な画像データセット上での一般化時の堅牢性も向上する。 コードと事前訓練されたチェックポイントはhttps://github.com/JegZheng/CACR-SSL.comで入手できる。

Contrastive learning (CL) methods effectively learn data representations in a self-supervision manner, where the encoder contrasts each positive sample over multiple negative samples via a one-vs-many softmax cross-entropy loss. By leveraging large amounts of unlabeled image data, recent CL methods have achieved promising results when pretrained on large-scale datasets, such as ImageNet. However, most of them consider the augmented views from the same instance are positive pairs, while views from other instances are negative ones. Such binary partition insufficiently considers the relation between samples and tends to yield worse performance when generalized on images in the wild. In this paper, to further improve the performance of CL and enhance its robustness on various datasets, {we propose a doubly CL strategy that separately compares positive and negative samples within their own groups, and then proceeds with a contrast between positive and negative groups}. We realize this strategy with contrastive attraction and contrastive repulsion (CACR), which makes the query not only exert a greater force to attract more distant positive samples but also do so to repel closer negative samples. Theoretical analysis reveals that CACR generalizes CL's behavior by positive attraction and negative repulsion, and it further considers the intra-contrastive relation within the positive and negative pairs to narrow the gap between the sampled and true distribution, which is important when datasets are less curated. With our extensive experiments, CACR not only demonstrates good performance on CL benchmarks, but also shows better robustness when generalized on imbalanced image datasets. Code and pre-trained checkpoints are available at https://github.com/JegZheng/CACR-SSL.
翻訳日:2023-08-15 23:54:07 公開日:2023-08-11
# ランダム化ヒストグラムマッチング:上向き画像における教師なし領域適応のための簡易拡張

Randomized Histogram Matching: A Simple Augmentation for Unsupervised Domain Adaptation in Overhead Imagery ( http://arxiv.org/abs/2104.14032v3 )

ライセンス: Link先を確認
Can Yaras and Kaleb Kassaw and Bohao Huang and Kyle Bradbury and Jordan M. Malof(参考訳) 現代のディープニューラルネットワーク(DNN)は、オーバーヘッド(衛星画像など)の多くの認識タスクにおいて非常に正確である。 しかし、視覚領域のシフト(例えば、地理、センサー、大気条件による統計的変化)は依然として課題であり、新しい画像のセットをテストする際にDNNの精度が大幅に低下する。 本研究では, 画像ハードウェア, 照明, その他の条件の変動による領域シフトを非線形画素変換としてモデル化し, 適切なトレーニングデータ拡張を施せば, 現代のDNNがこのような変換に対して大きく堅牢になることを示す体系的研究を行う。 しかし、一般に2つの画像間の変換は分かっていない。 これを解決するために,ランダム化ヒストグラムマッチング (RHM) と呼ばれる高速リアルタイム非教師付きトレーニング強化手法を提案する。 セグメンテーションを構築するための2つの大規模ベンチマークデータセットを用いて実験を行い、その単純さにもかかわらず、rrmは極めてシンプルで計算効率が良く、最先端の非教師なしのドメイン適応アプローチと比べて一貫して類似または優れたパフォーマンスをもたらすことを見出した。 RHMはまた、オーバーヘッド画像に広く使われている他の可分に単純なアプローチよりも大幅に優れたパフォーマンスを提供する。

Modern deep neural networks (DNNs) are highly accurate on many recognition tasks for overhead (e.g., satellite) imagery. However, visual domain shifts (e.g., statistical changes due to geography, sensor, or atmospheric conditions) remain a challenge, causing the accuracy of DNNs to degrade substantially and unpredictably when testing on new sets of imagery. In this work, we model domain shifts caused by variations in imaging hardware, lighting, and other conditions as non-linear pixel-wise transformations, and we perform a systematic study indicating that modern DNNs can become largely robust to these types of transformations, if provided with appropriate training data augmentation. In general, however, we do not know the transformation between two sets of imagery. To overcome this, we propose a fast real-time unsupervised training augmentation technique, termed randomized histogram matching (RHM). We conduct experiments with two large benchmark datasets for building segmentation and find that despite its simplicity, RHM consistently yields similar or superior performance compared to state-of-the-art unsupervised domain adaptation approaches, while being significantly simpler and more computationally efficient. RHM also offers substantially better performance than other comparably simple approaches that are widely used for overhead imagery.
翻訳日:2023-08-15 23:53:34 公開日:2023-08-11
# 継続的養蜂モニタリングアプリケーションにおける機械学習とコンピュータビジョン技術:調査

Machine Learning and Computer Vision Techniques in Continuous Beehive Monitoring Applications: A survey ( http://arxiv.org/abs/2208.00085v2 )

ライセンス: Link先を確認
Simon Bilik, Tomas Zemcik, Lukas Kratochvila, Dominik Ricanek, Karel Horak, Milos Richter(参考訳) 機械学習とコンピュータビジョン技術の幅広い使用と可用性により、多くのドメインで比較的複雑な監視システムの開発が可能になる。 従来の産業分野に加えて、新しい応用は生物学や農業にも現れ、感染症、寄生虫、雑草の検出だけでなく、自動モニタリングや早期警戒システムについても語ることができる。 これはArduinoやRaspberryPiファミリといった、容易にアクセスできるハードウェアと開発キットの導入とも関係している。 本稿では,コンピュータビジョン技術を用いた自動蜂蜜モニタリング手法,特に花粉およびバロアダマイト検出手法,およびハチの交通監視方法に着目した50の既存論文について調査する。 このようなシステムは、ミツバチのコロニーの監視や、状況が重要になる前に潜在的に危険な状態を特定することができる健康状態の検査や、周期的なミツバチのコロニーの検査の計画を改善するためにも使用できる。 その後,本研究分野における研究動向の分析も含み,新たな探究の可能性について概説する。 本論文は,その可能性に機械学習に慣れていない獣医学専門家や専門家も対象としており,その基礎となる手法に関する簡単な理論的紹介と動機付けによって,各応用のファミリーが開放される。 この論文は、他の科学者にビーヒーブモニタリングの他の応用に機械学習技術を使うよう促すことを願っている。

Wide use and availability of the machine learning and computer vision techniques allows development of relatively complex monitoring systems in many domains. Besides the traditional industrial domain, new application appears also in biology and agriculture, where we could speak about the detection of infections, parasites and weeds, but also about automated monitoring and early warning systems. This is also connected with the introduction of the easily accessible hardware and development kits such as Arduino, or RaspberryPi family. In this paper, we survey 50 existing papers focusing on the methods of automated beehive monitoring methods using the computer vision techniques, particularly on the pollen and Varroa mite detection together with the bee traffic monitoring. Such systems could also be used for the monitoring of the honeybee colonies and for the inspection of their health state, which could identify potentially dangerous states before the situation is critical, or to better plan periodic bee colony inspections and therefore save significant costs. Later, we also include analysis of the research trends in this application field and we outline the possible direction of the new explorations. Our paper is aimed also at veterinary and apidology professionals and experts, who might not be familiar with machine learning to introduce them to its possibilities, therefore each family of applications is opened by a brief theoretical introduction and motivation related to its base method. We hope that this paper will inspire other scientists to use machine learning techniques for other applications in beehive monitoring.
翻訳日:2023-08-15 23:26:26 公開日:2023-08-11
# トランスフォーマーは文脈内で何を学べるのか? 簡易関数型授業のケーススタディ

What Can Transformers Learn In-Context? A Case Study of Simple Function Classes ( http://arxiv.org/abs/2208.01066v3 )

ライセンス: Link先を確認
Shivam Garg, Dimitris Tsipras, Percy Liang, Gregory Valiant(参考訳) インコンテキスト学習(in-context learning)とは、モデルがインコンテキストの例(あるタスクに対応する入出力ペア)からなるプロンプトシーケンスで条件付けする能力と、新しいクエリ入力を加えて、対応する出力を生成することである。 重要なことに、コンテキスト内学習はモデルにパラメータを更新することなく、推論時にのみ行われる。 GPT-3のような大規模言語モデルは、文脈内学習を行う能力を持っているが、それが成功するタスクとトレーニングデータに何が存在するのかははっきりしない。 コンテキスト内学習の理解に向けて進むために、モデルのインコンテキスト学習(例えば、線形関数)に関する明確に定義された問題を考える。つまり、クラス内のいくつかの関数から得られたデータから与えられたデータから、このクラスからインコンテキストで「最も」関数を学ぶようにモデルを訓練できるだろうか? 我々は,標準トランスフォーマーをスクラッチからトレーニングして,線形関数の文脈内学習を行うことを実証的に示す。つまり,トレーニングされたモデルは,最適最小二乗推定器に匹敵する性能で,テキスト内例から未知の線形関数を学習することができる。 実際、文脈内学習は2つの形態の分散シフトの下でも可能である。 (i)モデルのトレーニングデータと推論時間プロンプトの関係、 (ii) 推論中のコンテキスト内例とクエリ入力の間。 また、トランスフォーマーをトレーニングして、より複雑な関数クラス、すなわちスパース線形関数、二層ニューラルネットワーク、決定木を学習し、タスク固有の学習アルゴリズムに匹敵する性能を発揮できることも示します。 私たちのコードとモデルはhttps://github.com/dtsip/in-context-learning で利用可能です。

In-context learning refers to the ability of a model to condition on a prompt sequence consisting of in-context examples (input-output pairs corresponding to some task) along with a new query input, and generate the corresponding output. Crucially, in-context learning happens only at inference time without any parameter updates to the model. While large language models such as GPT-3 exhibit some ability to perform in-context learning, it is unclear what the relationship is between tasks on which this succeeds and what is present in the training data. To make progress towards understanding in-context learning, we consider the well-defined problem of training a model to in-context learn a function class (e.g., linear functions): that is, given data derived from some functions in the class, can we train a model to in-context learn "most" functions from this class? We show empirically that standard Transformers can be trained from scratch to perform in-context learning of linear functions -- that is, the trained model is able to learn unseen linear functions from in-context examples with performance comparable to the optimal least squares estimator. In fact, in-context learning is possible even under two forms of distribution shift: (i) between the training data of the model and inference-time prompts, and (ii) between the in-context examples and the query input during inference. We also show that we can train Transformers to in-context learn more complex function classes -- namely sparse linear functions, two-layer neural networks, and decision trees -- with performance that matches or exceeds task-specific learning algorithms. Our code and models are available at https://github.com/dtsip/in-context-learning .
翻訳日:2023-08-15 23:14:36 公開日:2023-08-11
# オイラー特性曲線とプロファイル: ビッグデータ問題に対する安定な形状不変量

Euler Characteristic Curves and Profiles: a stable shape invariant for big data problems ( http://arxiv.org/abs/2212.01666v2 )

ライセンス: Link先を確認
Pawe{\l} D{\l}otko and Davide Gurnari(参考訳) トポロジカルデータ解析のツールは、考慮されたデータの形状をカプセル化した安定した要約を提供する。 永続ホモロジー(Persistent homology)は、最も標準的でよく研究されているデータ要約であり、その計算は配布が困難であり、マルチフィルタに一般化することは困難であり、大規模データセットでは計算が禁じられている。 本稿では,1つのパラメータフィルタに対するオイラー特性曲線と,マルチパラメータフィルタに対するオイラー特性曲線の概念について検討する。 1次元においてより弱い不変量である一方、オイラー特性に基づくアプローチは永続ホモロジーのハンディキャップを持たないことを示し、分散方法でそれらを計算する効率的なアルゴリズム、マルチフィルタリングへの一般化、ビッグデータ問題に対する実用的な適用性を示す。 さらに、オイラー曲線とプロファイルはある種の安定性を享受し、データ分析においてロバストなツールとなることを示す。 最後に、実用性を示すために、複数のユースケースを検討する。

Tools of Topological Data Analysis provide stable summaries encapsulating the shape of the considered data. Persistent homology, the most standard and well studied data summary, suffers a number of limitations; its computations are hard to distribute, it is hard to generalize to multifiltrations and is computationally prohibitive for big data-sets. In this paper we study the concept of Euler Characteristics Curves, for one parameter filtrations and Euler Characteristic Profiles, for multi-parameter filtrations. While being a weaker invariant in one dimension, we show that Euler Characteristic based approaches do not possess some handicaps of persistent homology; we show efficient algorithms to compute them in a distributed way, their generalization to multifiltrations and practical applicability for big data problems. In addition we show that the Euler Curves and Profiles enjoys certain type of stability which makes them robust tool in data analysis. Lastly, to show their practical applicability, multiple use-cases are considered.
翻訳日:2023-08-15 22:57:44 公開日:2023-08-11
# フーリエ特徴量を用いたクープマン演算子のオンライン推定

Online Estimation of the Koopman Operator Using Fourier Features ( http://arxiv.org/abs/2212.01503v2 )

ライセンス: Link先を確認
Tahiya Salam, Alice Kate Li, M. Ani Hsieh(参考訳) 転送作用素は非線形力学系の線形表現と大域的、物理的に意味のある特徴を提供する。 クープマン作用素のような転送演算子の発見には、動的系の状態に作用する可観測性の注意深く作られた辞書が必要である。 これはアドホックで、評価には完全なデータセットが必要です。 本稿では,観測者とクープマン演算子をオンラインデータで共同学習するための最適化手法を提案する。 以上の結果から,複雑な力学系の大域的特徴を再現し,進化を表現できることを示した。

Transfer operators offer linear representations and global, physically meaningful features of nonlinear dynamical systems. Discovering transfer operators, such as the Koopman operator, require careful crafted dictionaries of observables, acting on states of the dynamical system. This is ad hoc and requires the full dataset for evaluation. In this paper, we offer an optimization scheme to allow joint learning of the observables and Koopman operator with online data. Our results show we are able to reconstruct the evolution and represent the global features of complex dynamical systems.
翻訳日:2023-08-15 22:57:25 公開日:2023-08-11
# 連続量子場理論のための変分ニューラルネットワークアンサッツ

Variational Neural-Network Ansatz for Continuum Quantum Field Theory ( http://arxiv.org/abs/2212.00782v3 )

ライセンス: Link先を確認
John M. Martyn, Khadijeh Najafi, Di Luo(参考訳) ファインマンにさかのぼる物理学者は、量子場理論に変分原理を適用することの難しさを嘆いている。 非相対論的場の量子論では、状態のフォック空間表現を構成する無限に多くの$n$粒子波動関数をパラメータ化し、最適化することが課題である。 ここでは,連続体における非相対論的量子場理論への変分原理の適用を可能にする深層学習アンサッツであるニューラルネットワーク量子場状態を導入することにより,この問題にアプローチする。 我々のansatzは、ディープセットニューラルネットワークアーキテクチャを使用して、量子場状態を含むn$-particle波関数のすべてを同時にパラメータ化します。 我々は、ansatzを用いて、不均一系や長距離相互作用を持つ系を含む様々な場理論の基底状態の近似を行い、量子場理論を探索する強力な新しいツールを示す。

Physicists dating back to Feynman have lamented the difficulties of applying the variational principle to quantum field theories. In non-relativistic quantum field theories, the challenge is to parameterize and optimize over the infinitely many $n$-particle wave functions comprising the state's Fock space representation. Here we approach this problem by introducing neural-network quantum field states, a deep learning ansatz that enables application of the variational principle to non-relativistic quantum field theories in the continuum. Our ansatz uses the Deep Sets neural network architecture to simultaneously parameterize all of the $n$-particle wave functions comprising a quantum field state. We employ our ansatz to approximate ground states of various field theories, including an inhomogeneous system and a system with long-range interactions, thus demonstrating a powerful new tool for probing quantum field theories.
翻訳日:2023-08-15 22:57:17 公開日:2023-08-11
# マルチアームバンディットにおけるコミュニケーション効率の高い協調的後悔最小化

Communication-Efficient Collaborative Regret Minimization in Multi-Armed Bandits ( http://arxiv.org/abs/2301.11442v2 )

ライセンス: Link先を確認
Nikolai Karpov, Qin Zhang(参考訳) 本稿では,マルチエージェントマルチアームバンドにおける並列性と通信オーバーヘッドのトレードオフを考慮した協調学習モデルについて検討する。 マルチアームバンディットにおける後悔の最小化のために,エージェント間のコミュニケーションのラウンド数と協調学習プロセスの後悔の間のトレードオフについて述べる。

In this paper, we study the collaborative learning model, which concerns the tradeoff between parallelism and communication overhead in multi-agent multi-armed bandits. For regret minimization in multi-armed bandits, we present the first set of tradeoffs between the number of rounds of communication among the agents and the regret of the collaborative learning process.
翻訳日:2023-08-15 22:36:46 公開日:2023-08-11
# ターゲットネットワークが時間差を安定化する理由

Why Target Networks Stabilise Temporal Difference Methods ( http://arxiv.org/abs/2302.12537v3 )

ライセンス: Link先を確認
Mattie Fellows, Matthew J. A. Smith, Shimon Whiteson(参考訳) 近年の深層強化学習の成功と一体化して、マルコフ決定過程における政策評価に頻繁に更新された目標値を用いた時間差分法が確立されている。 しかし、ターゲットネットワークの有効性に関する完全な理論的説明は、いまだ解明されていない。 この研究で、我々はこの人気のあるアルゴリズムのクラスを分析し、最後に答える:なぜターゲットネットワークはTD学習を安定化させるのか? そこで我々は,対象ネットワークの利用を記述し,適合する手法と半次時間差分アルゴリズムとのギャップを埋める,部分的に適合した政策評価法の概念を定式化する。 このフレームワークを使用することで、いわゆるDeadly Triad(非線型)関数近似によるTD更新と、非収束アルゴリズムにつながる外部データ)を特徴付けることができます。 この知見から、ターゲットネットワークの使用は、td更新のヤコビアンにおける条件付けの悪い影響を軽減できると結論付けることができる。 代わりに、穏やかな正規性条件と十分に調整されたターゲットネットワーク更新周波数の下では、非常に困難なオフポリシックサンプリングと非線形関数近似設定においても収束が保証されることを示した。

Integral to recent successes in deep reinforcement learning has been a class of temporal difference methods that use infrequently updated target values for policy evaluation in a Markov Decision Process. Yet a complete theoretical explanation for the effectiveness of target networks remains elusive. In this work, we provide an analysis of this popular class of algorithms, to finally answer the question: `why do target networks stabilise TD learning'? To do so, we formalise the notion of a partially fitted policy evaluation method, which describes the use of target networks and bridges the gap between fitted methods and semigradient temporal difference algorithms. Using this framework we are able to uniquely characterise the so-called deadly triad - the use of TD updates with (nonlinear) function approximation and off-policy data - which often leads to nonconvergent algorithms. This insight leads us to conclude that the use of target networks can mitigate the effects of poor conditioning in the Jacobian of the TD update. Instead, we show that under mild regularity conditions and a well tuned target network update frequency, convergence can be guaranteed even in the extremely challenging off-policy sampling and nonlinear function approximation setting.
翻訳日:2023-08-15 22:27:57 公開日:2023-08-11
# オンデマンド公共交通システムの持続可能性分析フレームワーク

Sustainability Analysis Framework for On-Demand Public Transit Systems ( http://arxiv.org/abs/2303.06007v2 )

ライセンス: Link先を確認
Nael Alsaleh and Bilal Farooq(参考訳) 固定ルートの公共交通をオンデマンド公共交通(ODT)に置き換える交通機関への関心が高まっている。 しかし、そのサービスがいつ、どこで効率的で持続可能かはまだ不明である。 この目的のために, 総合効率, 環境フットプリント, ソーシャルエクイティ・インクルージョンの観点から, ODTシステムの持続可能性を評価するための包括的枠組みを提供する。 提案されたフレームワークは、2017年からODTシステムが実装されているオンタリオ州イニスフィア町に適用することで説明されている。 需要が3.37人/km2/日以下である場合、クラウドソーシングのODTが最もコスト効率の良い交通システムであると結論付けることができる。 クラウドソースのODTにサージ価格を適用することで、ハイブリッドシステムは1.18から3.37人の乗客/km2/日の間で最もコスト効率の良いトランジットソリューションとなる。 民間車両の使用は3.37人/km2/日以下の全ての需要水準で公共交通機関を提供するよりも環境に優しい。 しかし、公共交通機関の電化と最適化された充電戦略により、年間GHG排出量を98%以上削減することができる。 さらに、交通システムは待ち時間と車内旅行時間に類似した株式分布を持っている。

There is an increased interest from transit agencies to replace fixed-route transit services with on-demand public transits (ODT). However, it is still unclear when and where such a service is efficient and sustainable. To this end, we provide a comprehensive framework for assessing the sustainability of ODT systems from the perspective of overall efficiency, environmental footprint, and social equity and inclusion. The proposed framework is illustrated by applying it to the Town of Innisfil, Ontario, where an ODT system has been implemented since 2017. It can be concluded that when there is adequate supply and no surge pricing, crowdsourced ODTs are the most cost-effective transit system when the demand is below 3.37 riders/km2/day. With surge pricing applied to crowdsourced ODTs, hybrid systems become the most cost-effective transit solution when demand ranges between 1.18 and 3.37 riders/km2/day. The use of private vehicles is more environmentally sustainable than providing public transit service at all demand levels below 3.37 riders/km2/day. However, the electrification of the public transit fleet along with optimized charging strategies can reduce total yearly GHG emissions by more than 98%. Furthermore, transit systems have similar equity distributions for waiting and in-vehicle travel times.
翻訳日:2023-08-15 22:18:42 公開日:2023-08-11
# PersonalTailor: 3Dガーメントポイントクラウドから2Dパターンをパーソナライズ

PersonalTailor: Personalizing 2D Pattern Design from 3D Garment Point Clouds ( http://arxiv.org/abs/2303.09695v2 )

ライセンス: Link先を確認
Sauradip Nag, Anran Qi, Xiatian Zhu and Ariel Shamir(参考訳) ガーメントパターン設計は、3D衣服を対応する2Dパネルとその縫製構造に変換することを目的としている。 既存の手法は、ヒューリスティックスと事前仮定によるテンプレートフィッティングや、複雑な形状パラメータ化を伴うモデル学習に依存する。 重要なのは、どちらのアプローチも出力された衣服のパーソナライズを許可していないことだ。 この要求を満たすために,パーソナライズされた2dパターン設計手法であるpersonaltailorを導入する。3dポイントクラウドから個人用2dパネルを作成するための,特定の制約や要求(言語やスケッチ)を入力できる。 PersonalTailorはまず、教師なしクロスモーダルアソシエーションと注意融合に基づくマルチモーダルパネル埋め込みを学習する。 次に、トランスフォーマーエンコーダ-デコーダフレームワークを使用してバイナリパネルマスクを個別に予測する。 大規模な実験により、PersonalTailorはパーソナライズと標準パターン作成の両方に長けていることがわかった。

Garment pattern design aims to convert a 3D garment to the corresponding 2D panels and their sewing structure. Existing methods rely either on template fitting with heuristics and prior assumptions, or on model learning with complicated shape parameterization. Importantly, both approaches do not allow for personalization of the output garment, which today has increasing demands. To fill this demand, we introduce PersonalTailor: a personalized 2D pattern design method, where the user can input specific constraints or demands (in language or sketch) for personal 2D panel fabrication from 3D point clouds. PersonalTailor first learns a multi-modal panel embeddings based on unsupervised cross-modal association and attentive fusion. It then predicts a binary panel masks individually using a transformer encoder-decoder framework. Extensive experiments show that our PersonalTailor excels on both personalized and standard pattern fabrication tasks.
翻訳日:2023-08-15 22:07:13 公開日:2023-08-11
# 準メトリック学習による最適ゴールリーチ強化学習

Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning ( http://arxiv.org/abs/2304.01203v5 )

ライセンス: Link先を確認
Tongzhou Wang, Antonio Torralba, Phillip Isola, Amy Zhang(参考訳) 目標到達強化学習(rl)では、最適値関数は準メトリック構造と呼ばれる特定の幾何学を持つ。 本稿では,準メトリックモデルを用いて最適値関数を学習する新しい rl 手法である quasimetric reinforcement learning (qrl) を提案する。 従来のアプローチとは違い、QRLの目標は特に準計量のために設計されており、強力な理論的回復保証を提供する。 実験的に、離散化されたマウンテンカー環境を徹底的に分析し、QRLの特性と代替品に対する優位性を識別する。 オフラインおよびオンラインの目標達成ベンチマークでは、QRLは、状態ベースと画像ベースの両方で、サンプル効率とパフォーマンスが改善されている。

In goal-reaching reinforcement learning (RL), the optimal value function has a particular geometry, called quasimetric structure. This paper introduces Quasimetric Reinforcement Learning (QRL), a new RL method that utilizes quasimetric models to learn optimal value functions. Distinct from prior approaches, the QRL objective is specifically designed for quasimetrics, and provides strong theoretical recovery guarantees. Empirically, we conduct thorough analyses on a discretized MountainCar environment, identifying properties of QRL and its advantages over alternatives. On offline and online goal-reaching benchmarks, QRL also demonstrates improved sample efficiency and performance, across both state-based and image-based observations.
翻訳日:2023-08-15 21:57:11 公開日:2023-08-11
# 移植後死亡原因分析のためのマルチタスク学習--肝移植を事例として

Multi-Task Learning for Post-transplant Cause of Death Analysis: A Case Study on Liver Transplant ( http://arxiv.org/abs/2304.00012v2 )

ライセンス: Link先を確認
Sirui Ding, Qiaoyu Tan, Chia-yuan Chang, Na Zou, Kai Zhang, Nathan R. Hoot, Xiaoqian Jiang, Xia Hu(参考訳) 臓器移植は、いくつかの末期疾患、例えば肝不全に対する重要な治療方法である。 臓器移植後の移植後死因(cod)の分析は、パーソナライズされた治療や臓器割り当てを含む、臨床意思決定のための強力なツールを提供する。 しかしながら、末期肝疾患モデル(meld)スコアや従来の機械学習(ml)法は、cod分析において2つの主要なデータとモデル関連の課題により制限されている。 そこで本研究では,多タスク学習を利用したCoD-MTLという新しいフレームワークを提案し,様々なCoD予測タスク間の意味関係をモデル化する。 具体的には,木モデルとマルチタスク学習の両方の強みを組み合わせたマルチタスク学習のための新しい木蒸留戦略を開発した。 本フレームワークの正確かつ信頼性の高いcod予測を示すために実験を行った。 本法が肝移植において臨床的に重要であることを示すため,本法を施行した。

Organ transplant is the essential treatment method for some end-stage diseases, such as liver failure. Analyzing the post-transplant cause of death (CoD) after organ transplant provides a powerful tool for clinical decision making, including personalized treatment and organ allocation. However, traditional methods like Model for End-stage Liver Disease (MELD) score and conventional machine learning (ML) methods are limited in CoD analysis due to two major data and model-related challenges. To address this, we propose a novel framework called CoD-MTL leveraging multi-task learning to model the semantic relationships between various CoD prediction tasks jointly. Specifically, we develop a novel tree distillation strategy for multi-task learning, which combines the strength of both the tree model and multi-task learning. Experimental results are presented to show the precise and reliable CoD predictions of our framework. A case study is conducted to demonstrate the clinical importance of our method in the liver transplant.
翻訳日:2023-08-15 21:57:00 公開日:2023-08-11
# ACAT:医療画像の分類と検出のための対人的対人的注意

ACAT: Adversarial Counterfactual Attention for Classification and Detection in Medical Imaging ( http://arxiv.org/abs/2303.15421v2 )

ライセンス: Link先を確認
Alessandro Fontanella, Antreas Antoniou, Wenwen Li, Joanna Wardlaw, Grant Mair, Emanuele Trucco, Amos Storkey(参考訳) 一部の医療画像のタスクや、画像の小さな部分だけが分類タスクに役に立つような設定では、伝統的なcnnは時々一般化に苦労することがある。 手動で注釈付けされた関心領域(ROI)は、画像の最も情報性の高い部分を分離するために使われることがある。 しかし、これらは収集に高価であり、アノテータによって大きく異なる可能性がある。 これらの課題を克服するために,画像特徴を異なるスケールで変調するソフト空間アテンションマスクを得るために,サリエンシマップを用いたフレームワークを提案する。 本稿では,この手法を,AAT(Adversarial Counterfactual Attention)と呼ぶ。 ACATは、脳CTスキャンの病変の基準分類精度を71.39%から72.55%に引き上げ、肺CTスキャンの新型コロナウイルス関連所見を67.71%から70.84%に引き上げ、競合する方法よりも高い。 我々は,我々のアーキテクチャで採用するサリエンシーマップを生成する最善の方法を調査し,敵対的に生成された対物画像からそれを取得する方法を提案する。 手動アノテーションを使わずに、脳と肺のctスキャンに興味のある領域を分離することができる。 6つの可能な領域の病変位置をローカライズする作業において、彼らは65.05%のスコアを脳CTで取得し、最高の競合法で得られる61.29%のスコアを改善した。

In some medical imaging tasks and other settings where only small parts of the image are informative for the classification task, traditional CNNs can sometimes struggle to generalise. Manually annotated Regions of Interest (ROI) are sometimes used to isolate the most informative parts of the image. However, these are expensive to collect and may vary significantly across annotators. To overcome these issues, we propose a framework that employs saliency maps to obtain soft spatial attention masks that modulate the image features at different scales. We refer to our method as Adversarial Counterfactual Attention (ACAT). ACAT increases the baseline classification accuracy of lesions in brain CT scans from 71.39% to 72.55% and of COVID-19 related findings in lung CT scans from 67.71% to 70.84% and exceeds the performance of competing methods. We investigate the best way to generate the saliency maps employed in our architecture and propose a way to obtain them from adversarially generated counterfactual images. They are able to isolate the area of interest in brain and lung CT scans without using any manual annotations. In the task of localising the lesion location out of 6 possible regions, they obtain a score of 65.05% on brain CT scans, improving the score of 61.29% obtained with the best competing method.
翻訳日:2023-08-15 21:55:10 公開日:2023-08-11
# 不完全相ランダム化と一般化デコイ状態量子キー分布

Imperfect Phase-Randomisation and Generalised Decoy-State Quantum Key Distribution ( http://arxiv.org/abs/2304.09401v2 )

ライセンス: Link先を確認
Shlok Nahar, Twesh Upadhyaya, Norbert L\"utkenhaus(参考訳) デコイ状態法[1-3]は、単一光子源が存在しない場合、広範囲に量子鍵分布(QKD)を実行するために不可欠である。 しかし、標準技術は、独立で均等に分散したレーザーパルスが用いられる場合にのみ適用される(iid)。 さらに、レーザーパルスは完全に位相ランダム化される必要がある。 しかし、現実的な高速QKDセットアップはこれらの厳密な要件を満たしていない[4]。 本研究では,不完全な位相ランダム状態を生成するレーザー源に対応するために,デコイ状態解析を一般化する。 また,独立なパルスを放出するレーザーを用いたプロトコルの安全性を証明する理論的ツールも開発している。 これらのツールは最近の研究[5]で利用でき、位相分布の相関によるレーザー源の安全性も証明できる。 3状態プロトコルの簡単な実装のための鍵レートを計算し、不完全位相ランダム化が鍵レートに与える影響を定量的に示す。

Decoy-state methods [1-3] are essential to perform quantum key distribution (QKD) at large distances in the absence of single photon sources. However, the standard techniques apply only if laser pulses are used that are independent and identically distributed (iid). Moreover, they require that the laser pulses are fully phase-randomised. However, realistic high-speed QKD setups do not meet these stringent requirements [4]. In this work, we generalise decoy-state analysis to accommodate laser sources that emit imperfectly phase-randomised states. We also develop theoretical tools to prove the security of protocols with lasers that emit pulses that are independent, but not identically distributed. These tools can be used with recent work [5] to prove the security of laser sources with correlated phase distributions as well. We quantitatively demonstrate the effect of imperfect phase-randomisation on key rates by computing the key rates for a simple implementation of the three-state protocol.
翻訳日:2023-08-15 20:11:30 公開日:2023-08-11
# 量子液滴の低エネルギー二元衝突による回転ダイナミクス

Rotational dynamics induced by low energy binary collisions of quantum droplets ( http://arxiv.org/abs/2304.03379v2 )

ライセンス: Link先を確認
J. E. Alba-Arroyo, S. F. Caballero-Benitez, R. Jauregui(参考訳) 超低温原子から構成される量子滴の軸外二元衝突によって引き起こされる回転運動の理論的解析を報告する。 本研究では,アルカリ原子の2成分混合物からなる希薄ボースガスの縮退により生成する量子滴に着目した。 基底状態の安定性は、選択されたヘテロ核気体が同核気体よりも長いことが知られている。 いずれの場合も、動力学はそれぞれの原子種の密度の類似性が高いことが判明した。 しかし、対応する秩序パラメータの位相の進化は、異核混成体では著しく異なる。 我々は,各原子種の順序パラメータの重なりのメリットとして,忠実性を評価した。 順序パラメータの位相差の動的証拠は、対応する線形モーメントと角モーメントに現れると予測される。 衝突中,全角モーメントと直線モーメントがともに保存されていることを数値的に検証した。 ウェーバー数と衝突パラメータと動的変数の分布との直接的な相関関係を確立する。

A theoretical analysis of the rotational dynamics induced by off axis binary collisions of quantum droplets constituted by ultracold atoms is reported. We focus on quantum droplets formed by degenerate dilute Bose gases made up from binary mixtures of alkaline atoms under feasible experimental conditions. The stability of the ground state is known to be longer for the chosen heteronuclear gases than for the homonuclear ones. In both cases, we find out that the dynamics seems to privilege a high similarity of the density of each atomic species. However, the evolution of the phase of the corresponding order parameter differs significantly for heteronuclear admixtures. We evaluate the fidelity as a figure of merit for the overlap between the order parameters of each atomic species. Dynamical evidence of the differences between the phase of the order parameters are predicted to manifest in their corresponding linear and angular momenta. We numerically verify that the total angular and linear momenta are conserved both during the collision. Some direct correlations between the Weber number and the impact parameter with the distribution of the dynamical variables are established.
翻訳日:2023-08-15 20:09:39 公開日:2023-08-11
# コード生成のための構造的チェーン・オブ・サートプロンプト

Structured Chain-of-Thought Prompting for Code Generation ( http://arxiv.org/abs/2305.06599v2 )

ライセンス: Link先を確認
Jia Allen Li, Ge Li, Yongmin Li, Zhi Jin(参考訳) 大規模言語モデル(LLM)(例えばChatGPT)は、コード生成において顕著なパフォーマンスを示している。 LLMは入力としてプロンプトを取り、Chain-of-Thought(CoT)プロンプトは最先端プロンプト技術である。 CoT プロンプトは LLM に対してまず CoT を生成し、次にコードを出力する。 しかし、CoTプロンプトは自然言語生成用に設計されており、コード生成の精度は低い。 本稿では、構造化CoT(Structured CoTs)を提案し、コード生成のための新しいプロンプト技術であるSCoTプロンプトを提案する。 私たちのモチベーションは、ソースコードには豊富な構造情報が含まれており、任意のコードは3つのプログラム構造(シーケンス、分岐、ループ構造)で構成されています。 直感的には、構造化中間推論ステップは構造化ソースコードに対して行われる。 そこで我々は,プログラム構造を用いてCoTを構築し,SCoTを得る。 次に、LCMはSCoTに基づいて最終コードを生成する。 CoTのプロンプトと比較すると、SCoT は LLM に対して、ソースコードの観点から要求を解決する方法や、コード生成における LLM のパフォーマンスを考慮するよう明示的に制約している。 我々は、SCoTプロンプトを2つのLLM(ChatGPTとCodex)に適用し、3つのベンチマーク(HumanEval、MBPP、MBCPP)で評価する。 1) SCoTプロンプトは、Pass@1の13.79%まで、最先端のベースラインであるCoTより優れている。 2)人間評価は、人間開発者はscotプロンプトからプログラムを好むことを示している。 (3) SCoTプロンプトは例にとって堅牢で,大幅な改善が達成されている。

Large Language Models (LLMs) (e.g., ChatGPT) have shown impressive performance in code generation. LLMs take prompts as inputs, and Chain-of-Thought (CoT) prompting is the state-of-the-art prompting technique. CoT prompting asks LLMs first to generate CoTs (i.e., intermediate natural language reasoning steps) and then output the code. However, CoT prompting is designed for natural language generation and has low accuracy in code generation. In this paper, we propose Structured CoTs (SCoTs) and present a novel prompting technique for code generation, named SCoT prompting. Our motivation is source code contains rich structural information and any code can be composed of three program structures (i.e., sequence, branch, and loop structures). Intuitively, structured intermediate reasoning steps make for structured source code. Thus, we ask LLMs to use program structures to build CoTs, obtaining SCoTs. Then, LLMs generate the final code based on SCoTs. Compared to CoT prompting, SCoT prompting explicitly constrains LLMs to think about how to solve requirements from the view of source code and further the performance of LLMs in code generation. We apply SCoT prompting to two LLMs (i.e., ChatGPT and Codex) and evaluate it on three benchmarks (i.e., HumanEval, MBPP, and MBCPP). (1) SCoT prompting outperforms the state-of-the-art baseline - CoT prompting by up to 13.79% in Pass@1. (2) Human evaluation shows human developers prefer programs from SCoT prompting. (3) SCoT prompting is robust to examples and achieves substantial improvements.
翻訳日:2023-08-15 20:02:06 公開日:2023-08-11
# 点雲からの物体再同定

Object Re-Identification from Point Clouds ( http://arxiv.org/abs/2305.10210v3 )

ライセンス: Link先を確認
Benjamin Th\'erien, Chengjie Huang, Adrian Chow, Krzysztof Czarnecki(参考訳) 画像からのオブジェクト再識別(ReID)は、画像検索(監視、小売分析など)や多目的追跡(自律運転、ロボット工学など)のアプリケーション領域において重要な役割を果たす。 しかし、深度センサから世界を知覚するシステムは、対応する対象reidの方法がなければ、より一般的になりつつある。 本研究では,点雲からのオブジェクトReIDの大規模研究を行い,画像ReIDに対してその性能を確立することにより,そのギャップを埋める。 このような研究を可能にするために、ペア画像とLiDAR観測を併用した2つの大規模ReIDデータセットを作成し、任意のセットやシーケンス処理バックボーン(PointNetやViTなど)に結合可能な軽量なマッチングヘッドを提案し、両方のモダリティに匹敵するオブジェクトReIDネットワークのファミリを作成する。 提案したポイントクラウド ReID ネットワークは,Siamese スタイルで実行することで,リアルタイム(10$ Hz) で数千のペア比較を行うことができる。 以上の結果より, センサの高分解能化と画像ReIDの高密度化による性能向上が示唆された。 最大規模でトレーニングされた最強のネットワークは、剛体オブジェクトに対して90\%$、変形可能なオブジェクトに対して85\%$というreid精度を達成します(明示的なスケルトン正規化は必要ありません)。 私たちの知る限りでは、現実の点雲観測から物体の再同定を研究するのは初めてです。

Object re-identification (ReID) from images plays a critical role in application domains of image retrieval (surveillance, retail analytics, etc.) and multi-object tracking (autonomous driving, robotics, etc.). However, systems that additionally or exclusively perceive the world from depth sensors are becoming more commonplace without any corresponding methods for object ReID. In this work, we fill the gap by providing the first large-scale study of object ReID from point clouds and establishing its performance relative to image ReID. To enable such a study, we create two large-scale ReID datasets with paired image and LiDAR observations and propose a lightweight matching head that can be concatenated to any set or sequence processing backbone (e.g., PointNet or ViT), creating a family of comparable object ReID networks for both modalities. Run in Siamese style, our proposed point cloud ReID networks can make thousands of pairwise comparisons in real-time ($10$ Hz). Our findings demonstrate that their performance increases with higher sensor resolution and approaches that of image ReID when observations are sufficiently dense. Our strongest network trained at the largest scale achieves ReID accuracy exceeding $90\%$ for rigid objects and $85\%$ for deformable objects (without any explicit skeleton normalization). To our knowledge, we are the first to study object re-identification from real point cloud observations.
翻訳日:2023-08-15 19:51:22 公開日:2023-08-11
# 滑らかさを活用できるサンプルはいくつ必要か?

How many samples are needed to leverage smoothness? ( http://arxiv.org/abs/2305.16014v2 )

ライセンス: Link先を確認
Vivien Cabannes, Stefano Vigogna(参考訳) 統計学習における中心となる原理は、対象関数の滑らかさが次元性の呪いを破ることができることである。 しかし、滑らかな関数の学習には、データ数と入力次元の比率が比較的小さい機械学習の問題では、高次微分の有意義な推定を得るためには、互いに十分なサンプルが必要と思われる。 一般化誤差に関する新しい下限を導出することにより、本論文は、古典的学習理論のステートメントを超えて記述されない定数や推移的体制の役割を研究する前に、そのような直観を形式化する。

A core principle in statistical learning is that smoothness of target functions allows to break the curse of dimensionality. However, learning a smooth function seems to require enough samples close to one another to get meaningful estimate of high-order derivatives, which would be hard in machine learning problems where the ratio between number of data and input dimension is relatively small. By deriving new lower bounds on the generalization error, this paper formalizes such an intuition, before investigating the role of constants and transitory regimes which are usually not depicted beyond classical learning theory statements while they play a dominant role in practice.
翻訳日:2023-08-15 19:40:13 公開日:2023-08-11
# 1次元$\delta$-ポテンシャル上の粒子の散乱に関する時間依存理論

Time-dependent theory of scattering a particle on a one-dimensional $\delta$-potential ( http://arxiv.org/abs/2305.15381v4 )

ライセンス: Link先を確認
N. L. Chuprikov(参考訳) 1次元の$\delta$-potential 上で粒子を散乱する現代の時間依存量子論は内部的に矛盾し、誤った結果を与える:漸近完全性はこの過程において本当に満足せず、散乱状態自体が純粋ではない。 ここでは漸近的超選択則が適用され、散乱状態のアシンプトトの空間は、粒子運動量の異なる符号に関連付けられた2つのコヒーレントセクターの直和である: 異なるセクターからのアシンプトトの重ね合わせは混合状態である。 Schr\"{o}dinger dynamics はこれらのコヒーレントセクターの境界を越えている。 したがって、両側散乱過程は2つの片側散乱の混合である。 それぞれが送信と反射のサブプロセスの混合であり、Schr\"{o}dinger dynamics は $t\to\mp\infty$ でのみ記述される。 我々のアプローチは、一粒子状態が非有界作用素の代数上のベクトル汎函数と同一視されるべきであることを示し、ヒルベルト空間のベクトルや線(量子力学において補助的な概念と見なすべきである)はそうでない。

It is shown that the modern time-dependent quantum theory of scattering a particle on a one-dimensional $\delta$-potential is internally inconsistent and gives erroneous results: the asymptotic completeness is not really satisfied in this process, and the scattering states themselves are not pure. The asymptotic superselection rule applies here, according to which the space of asymptotes of scattering states is the direct sum of two coherent sectors associated with different signs of the particle momentum at $t\to\mp\infty$: any superposition of asymptotes from different sectors is a mixed state. The Schr\"{o}dinger dynamics crosses the boundaries of these coherent sectors. So the two-sided scattering process is a mixture of two one-sided ones. In turn, each of the latter is a mixture of transmission and reflection subprocesses, which are described by the Schr\"{o}dinger dynamics only at $t\to\mp\infty$. Our approach shows that one-particle states should be identified with vector functionals on the algebra of unbounded operators, and not with vectors or rays in Hilbert space (which should be considered as auxiliary concepts in quantum mechanics).
翻訳日:2023-08-15 19:39:45 公開日:2023-08-11
# ブロック畳み込みテンソル分解に基づく多次元データ解析

Multidimensional Data Analysis Based on Block Convolutional Tensor Decomposition ( http://arxiv.org/abs/2308.01768v2 )

ライセンス: Link先を確認
Mahdi Molavi, Mansoor Rezghi, and Tayyebeh Saeedi(参考訳) テンソル分解は、元のフォーマットで多次元データを解析するための強力なツールである。 Tucker や CP のようなテンソル分解に加えて、テンソルの t-積に基づくテンソルSVD (t-SVD) は、最近開発されたテンソルへのSVDのもう一つの拡張であり、高次元データ解析に多くの応用を見出している。 本稿ではt-積に関する新たな知見を提供し、この積が周期的境界条件を持つ2つのテンソルのブロック畳み込みであることを示す。 この観点から、反射境界条件を持つブロック畳み込みに基づく$\star_c{}\text{-product}$と呼ばれる新しいテンソルテンソル製品を提案する。 テンソルフレームワークを使うことで、この積は任意の順序のテンソルに容易に拡張できる。 さらに、任意の順序テンソルに対して $\star_c{}\text{-Product}$ に基づいたテンソル分解を導入する。 t-svdと比較して,新しい分解は複雑さを低下させ,分類や圧縮などのアプリケーションにおいて高品質な結果が得られることを示した。

Tensor decompositions are powerful tools for analyzing multi-dimensional data in their original format. Besides tensor decompositions like Tucker and CP, Tensor SVD (t-SVD) which is based on the t-product of tensors is another extension of SVD to tensors that recently developed and has found numerous applications in analyzing high dimensional data. This paper offers a new insight into the t-Product and shows that this product is a block convolution of two tensors with periodic boundary conditions. Based on this viewpoint, we propose a new tensor-tensor product called the $\star_c{}\text{-Product}$ based on Block convolution with reflective boundary conditions. Using a tensor framework, this product can be easily extended to tensors of arbitrary order. Additionally, we introduce a tensor decomposition based on our $\star_c{}\text{-Product}$ for arbitrary order tensors. Compared to t-SVD, our new decomposition has lower complexity, and experiments show that it yields higher-quality results in applications such as classification and compression.
翻訳日:2023-08-15 18:40:53 公開日:2023-08-11
# LiDAR-Camera Panoptic Segmentation by Geometry-Consistent and Semantic-Awareアライメント

LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and Semantic-Aware Alignment ( http://arxiv.org/abs/2308.01686v2 )

ライセンス: Link先を確認
Zhiwei Zhang, Zhizhong Zhang, Qian Yu, Ran Yi, Yuan Xie and Lizhuang Ma(参考訳) 3d panoptic segmentationは、セマンティックセグメンテーションとインスタンスセグメンテーションの両方を必要とする、難しい知覚タスクである。 この課題では、画像がテクスチャ、色、識別情報を豊富に提供でき、lidarデータを補完して性能向上が期待できるが、それらの融合は依然として困難な課題である。 そこで我々は,最初のLiDAR-Camera Panoptic SegmentationネットワークLCPSを提案する。 提案手法では,LiDAR-Camera融合を3段階に分けて行う。 1) センサ間の非同期問題に起因する座標不一致を校正する非同期補償画素アライメント(ACPA)モジュール 2) 1対1のポイントピクセルマッピングを1対1のセマンティクス関係に拡張する意味認識領域アライメント(sara)モジュール 3) Point-to-Voxel feature Propagation (PVP)モジュールは、ポイントクラウド全体の幾何学的および意味的な融合情報を統合する。 我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。 大規模な定量的および定性的実験により,我々の新しい枠組みの有効性がさらに証明された。 コードはhttps://github.com/zhangzw12319/lcps.gitでリリースされる。

3D panoptic segmentation is a challenging perception task that requires both semantic segmentation and instance segmentation. In this task, we notice that images could provide rich texture, color, and discriminative information, which can complement LiDAR data for evident performance improvement, but their fusion remains a challenging problem. To this end, we propose LCPS, the first LiDAR-Camera Panoptic Segmentation network. In our approach, we conduct LiDAR-Camera fusion in three stages: 1) an Asynchronous Compensation Pixel Alignment (ACPA) module that calibrates the coordinate misalignment caused by asynchronous problems between sensors; 2) a Semantic-Aware Region Alignment (SARA) module that extends the one-to-one point-pixel mapping to one-to-many semantic relations; 3) a Point-to-Voxel feature Propagation (PVP) module that integrates both geometric and semantic fusion information for the entire point cloud. Our fusion strategy improves about 6.9% PQ performance over the LiDAR-only baseline on NuScenes dataset. Extensive quantitative and qualitative experiments further demonstrate the effectiveness of our novel framework. The code will be released at https://github.com/zhangzw12319/lcps.git.
翻訳日:2023-08-15 18:40:34 公開日:2023-08-11
# ファインチューニングゲーム:汎用モデルの獲得と適応

Fine-Tuning Games: Bargaining and Adaptation for General-Purpose Models ( http://arxiv.org/abs/2308.04399v2 )

ライセンス: Link先を確認
Benjamin Laufer and Jon Kleinberg and Hoda Heidari(参考訳) 機械学習(ML)と人工知能(AI)の主な進歩は、汎用モデルの開発とリリースの形式をますます取り入れている。 これらのモデルは、他の企業や代理店が特定のドメイン固有の機能を実行するように設計されている。 このプロセスは適応や微調整として知られるようになった。 本稿では、ジェネラリストが技術製品(以下、MLモデル)を一定のレベルのパフォーマンスで導入し、1つ以上のドメイン-スペシャリストが特定のドメインでの使用に適応する微調整プロセスのモデルを提案する。 両社とも、テクノロジに投資するときに利益を計上し、コストを被る。そして、市場に到達するためのテクノロジの収益の共有方法に関する交渉合意に達する必要がある。 比較的一般的なコストと収益関数に対して、細調整ゲームが利益分配ソリューションをもたらす条件を特徴付ける。 我々は、潜在的なドメイン-特殊化が、テクノロジーの取り込みに寄与し、自由化され、または吸収されることを観察し、これらの異なる戦略をもたらす条件を提供する。 我々は,このタイプのインタラクションにおける企業の戦略行動の洞察を,バーゲインソリューションとサブゲーム完全均衡に基づく手法がどのように提供するかを示し,一方の企業が他方よりも著しくコストが高い場合でも,利益の分配が生じることを見出した。 また,実用関数の一般集合に対するパレート・最適交渉配置を同定する手法も提案する。

Major advances in Machine Learning (ML) and Artificial Intelligence (AI) increasingly take the form of developing and releasing general-purpose models. These models are designed to be adapted by other businesses and agencies to perform a particular, domain-specific function. This process has become known as adaptation or fine-tuning. This paper offers a model of the fine-tuning process where a Generalist brings the technological product (here an ML model) to a certain level of performance, and one or more Domain-specialist(s) adapts it for use in a particular domain. Both entities are profit-seeking and incur costs when they invest in the technology, and they must reach a bargaining agreement on how to share the revenue for the technology to reach the market. For a relatively general class of cost and revenue functions, we characterize the conditions under which the fine-tuning game yields a profit-sharing solution. We observe that any potential domain-specialization will either contribute, free-ride, or abstain in their uptake of the technology, and we provide conditions yielding these different strategies. We show how methods based on bargaining solutions and sub-game perfect equilibria provide insights into the strategic behavior of firms in these types of interactions, and we find that profit-sharing can still arise even when one firm has significantly higher costs than another. We also provide methods for identifying Pareto-optimal bargaining arrangements for a general set of utility functions.
翻訳日:2023-08-15 18:33:36 公開日:2023-08-11
# ソフトウェア定義ネットワークにおけるサイバーセキュリティのためのadversarial deep reinforcement learning

Adversarial Deep Reinforcement Learning for Cyber Security in Software Defined Networks ( http://arxiv.org/abs/2308.04909v2 )

ライセンス: Link先を確認
Luke Borchjes, Clement Nyirenda, Louise Leenen(参考訳) 本稿では、ソフトウェア定義ネットワーク(SDN)における自律的セキュリティのためにDRLに敵対的学習を適用することによる、より堅牢なエージェントの訓練に、自律的攻撃的アプローチを活用することの影響に焦点を当てる。 2つのアルゴリズム、Double Deep Q-Networks(DDQN)とNeural Episodic Control to Deep Q-Network(NEC2DQNまたはN2D)を比較した。 NEC2DQNは2018年に提案され、Deep q-network (DQN) アルゴリズムの新たなメンバーである。 攻撃者は環境の完全な可観測性を持ち、学習プロセスに毒を加えるために状態操作を使用する因果攻撃にアクセスする。 攻撃の実装はホワイトボックス設定で行われ、攻撃者はディフェンダーのモデルや経験にアクセスすることができる。 最初のゲームではDDQNがディフェンダー、N2Dが攻撃者、2番目のゲームでは役割が逆転する。 ゲームは2回行われ、第一にアクティブな因果攻撃を行わず、第二にアクティブな因果攻撃を行う。 実行には、1セットが10ゲーム実行で構成される3セットのゲーム結果が記録される。 結果の前後を比較して、実際に改善や劣化があったかどうかを確認する。 その結果、アルゴリズムに微妙なパラメータ変更を加えると、攻撃者がゲームに勝つことができるため、攻撃者の役割が増大することが示された。 因果攻撃の導入による敵対的学習の実装は、アルゴリズムがネットワークをその強みに応じて守ることができることを示した。

This paper focuses on the impact of leveraging autonomous offensive approaches in Deep Reinforcement Learning (DRL) to train more robust agents by exploring the impact of applying adversarial learning to DRL for autonomous security in Software Defined Networks (SDN). Two algorithms, Double Deep Q-Networks (DDQN) and Neural Episodic Control to Deep Q-Network (NEC2DQN or N2D), are compared. NEC2DQN was proposed in 2018 and is a new member of the deep q-network (DQN) family of algorithms. The attacker has full observability of the environment and access to a causative attack that uses state manipulation in an attempt to poison the learning process. The implementation of the attack is done under a white-box setting, in which the attacker has access to the defender's model and experiences. Two games are played; in the first game, DDQN is a defender and N2D is an attacker, and in second game, the roles are reversed. The games are played twice; first, without an active causative attack and secondly, with an active causative attack. For execution, three sets of game results are recorded in which a single set consists of 10 game runs. The before and after results are then compared in order to see if there was actually an improvement or degradation. The results show that with minute parameter changes made to the algorithms, there was growth in the attacker's role, since it is able to win games. Implementation of the adversarial learning by the introduction of the causative attack showed the algorithms are still able to defend the network according to their strengths.
翻訳日:2023-08-15 18:23:04 公開日:2023-08-11
# single-sentence reader : 回答位置バイアスに対する新しいアプローチ

Single-Sentence Reader: A Novel Approach for Addressing Answer Position Bias ( http://arxiv.org/abs/2308.04566v2 )

ライセンス: Link先を確認
Son Quoc Tran and Matt Kretchmar(参考訳) Machine Reading Comprehension (MRC)モデルは、素早い相関(研究コミュニティのデータセットバイアスやアノテーションアーティファクトとしても知られる)を利用する傾向がある。 したがって、これらのモデルは与えられたコンテキストと質問を完全に理解することなくMCCタスクを実行することができ、分散シフトに対するロバスト性が低い可能性があるため、望ましくない。 本論文は, 文脈の第一文のみにのみ回答がある学習者のかなりの割合が, 回答位置バイアスという概念を考察する。 MRCにおける解答位置バイアスに対処するための新しいアプローチとして,Single-Sentence Readerを提案する。 このアプローチを6つの異なるモデルを用いて実装し、その性能を徹底的に分析する。 驚くべきことに,提案するシングルセンテンスリーダは,従来のトレーニングセットでトレーニングされたモデルとほぼ一致し,その効果を実証する。 本研究は,シングルセンテンス読者が遭遇するいくつかの課題についても考察し,潜在的な解決策を提案する。

Machine Reading Comprehension (MRC) models tend to take advantage of spurious correlations (also known as dataset bias or annotation artifacts in the research community). Consequently, these models may perform the MRC task without fully comprehending the given context and question, which is undesirable since it may result in low robustness against distribution shift. This paper delves into the concept of answer-position bias, where a significant percentage of training questions have answers located solely in the first sentence of the context. We propose a Single-Sentence Reader as a new approach for addressing answer position bias in MRC. We implement this approach using six different models and thoroughly analyze their performance. Remarkably, our proposed Single-Sentence Readers achieve results that nearly match those of models trained on conventional training sets, proving their effectiveness. Our study also discusses several challenges our Single-Sentence Readers encounter and proposes a potential solution.
翻訳日:2023-08-15 18:21:19 公開日:2023-08-11
# 深層学習モデルを用いた血液細胞の分類

Classification of Blood Cells Using Deep Learning Models ( http://arxiv.org/abs/2308.06300v1 )

ライセンス: Link先を確認
Rabia Asghar, Sanjay Kumar, Abeera Mahfooz(参考訳) ヒトの血液は主に血漿、赤血球、白血球、血小板からなる。 血液細胞は体内の細胞に酸素を与え、栄養を与え、感染から保護し、免疫を増強し、凝固を助ける。 人間の健康は血液細胞に反映される。 ヒトが疾患と診断される可能性は、その血液細胞の種類と数によって著しく影響を受ける。 そのため、がん、骨髄損傷、良性腫瘍、成長などの疾患の同定を助けるため、血液細胞分類が重要である。 この分類により、血液学者は異なる血液細胞の断片を区別することができ、疾患の原因を特定することができる。 畳み込みニューラルネットワークは、人間の血液細胞(RBC、WBC、血小板)の画像をサブタイプに分類するディープラーニング技術である。 本研究では,VGG16,VGG19,ResNet-50,ResNet-101,ResNet-152,InceptionV3 MobileNetV2,DenseNet-201などのCNN事前学習モデルを用いてPBCデータセットの通常のDIBに適用する。 これらのモデルで得られた全体的な精度は91.375-94.72%である。 新しいcnnベースのフレームワークが提案されており、pbcデータセット上で99.91%の精度を達成できた。

Human blood mainly comprises plasma, red blood cells, white blood cells, and platelets. The blood cells provide the body's cells oxygen to nourish them, shield them from infections, boost immunity, and aid in clotting. Human health is reflected in blood cells. The chances that a human being can be diagnosed with a disease are significantly influenced by their blood cell type and count. Therefore, blood cell classification is crucial because it helps identify diseases, including cancer, damaged bone marrow, benign tumors, and their growth. This classification allows hematologists to distinguish between different blood cell fragments so that the cause of diseases can be identified. Convolution neural networks are a deep learning technique that classifies images of human blood cells (RBCs, WBCs, and platelets) into their subtypes. For this study, transfer learning is used to apply different CNN pre-trained models, including VGG16, VGG19, ResNet-50, ResNet-101, ResNet-152, InceptionV3 MobileNetV2 and DenseNet-201 to the PBC dataset's normal DIB. The overall accuracy achieved with these models lies between 91.375-94.72%. A novel CNN-based framework has been presented to improve accuracy, and we were able to attain an accuracy of 99.91% on the PBC dataset.
翻訳日:2023-08-15 18:15:33 公開日:2023-08-11
# ディフェンシブ・パーセプション:デプロイ時のニューラルネットワーク性能の推定とモニタリング

Defensive Perception: Estimation and Monitoring of Neural Network Performance under Deployment ( http://arxiv.org/abs/2308.06299v1 )

ライセンス: Link先を確認
Hendrik Vogt, Stefan Buehler, Mark Schutera(参考訳) 本稿では,自律運転におけるセマンティクスセグメンテーションのためのニューラルネットワークにおける未知の破滅的展開とドメインシフトの問題に対処する手法を提案する。 我々のアプローチは、自律運転に対するディープラーニングに基づく認識が不確実であり、確率分布として最もよく表されるという考えに基づいている。 自動運転車の安全性は最重要であり、認識システムは、車両が運用設計領域を離れるタイミングを認識し、危険な不確実性を予測し、知覚システムの性能を低下させることが重要である。 そこで本研究では,モンテカルロドロップアウトアプローチによる認識的不確実性推定に基づく不確実性推定エンベロープ内に,展開下のニューラルネットワークをカプセル化する手法を提案する。 このアプローチでは、デプロイされたニューラルネットワークを変更する必要はなく、期待されるモデルパフォーマンスが保証される。 私たちの防御的知覚エンベロープは、ニューラルネットワークのパフォーマンスを推定し、デプロイ時のニューラルネットワークパフォーマンスを低下させる入力ドメインの監視と通知を可能にする能力を持っています。 さらに、計算コストの削減や推定ノイズの閉じ込めなど、デプロイメント設定のアプリケーションを改善するための新しい方法によって封筒を拡張します。 最後に, 夜間, 雨天, 積雪地への遷移など, 自律運転に関連する複数の潜在的な展開シフトに対する本手法の適用性を示す。 全体として、当社のアプローチは、デプロイメント設定におけるアプリケーションにとって大きな可能性を示し、不確実性を通じた運用設計ドメイン認識を可能にします。

In this paper, we propose a method for addressing the issue of unnoticed catastrophic deployment and domain shift in neural networks for semantic segmentation in autonomous driving. Our approach is based on the idea that deep learning-based perception for autonomous driving is uncertain and best represented as a probability distribution. As autonomous vehicles' safety is paramount, it is crucial for perception systems to recognize when the vehicle is leaving its operational design domain, anticipate hazardous uncertainty, and reduce the performance of the perception system. To address this, we propose to encapsulate the neural network under deployment within an uncertainty estimation envelope that is based on the epistemic uncertainty estimation through the Monte Carlo Dropout approach. This approach does not require modification of the deployed neural network and guarantees expected model performance. Our defensive perception envelope has the capability to estimate a neural network's performance, enabling monitoring and notification of entering domains of reduced neural network performance under deployment. Furthermore, our envelope is extended by novel methods to improve the application in deployment settings, including reducing compute expenses and confining estimation noise. Finally, we demonstrate the applicability of our method for multiple different potential deployment shifts relevant to autonomous driving, such as transitions into the night, rainy, or snowy domain. Overall, our approach shows great potential for application in deployment settings and enables operational design domain recognition via uncertainty, which allows for defensive perception, safe state triggers, warning notifications, and feedback for testing or development and adaptation of the perception stack.
翻訳日:2023-08-15 18:15:10 公開日:2023-08-11
# 機械学習モデルを用いた白血球の分類に関する研究

A Review on Classification of White Blood Cells Using Machine Learning Models ( http://arxiv.org/abs/2308.06296v1 )

ライセンス: Link先を確認
Rabia Asghar, Sanjay Kumar, Arslan Shaukat(参考訳) 機械学習(ML)とディープラーニング(DL)モデルは、例外的な医用画像解析の改善に寄与する。 モデルは予測を強化し、予測と分類による精度を向上させる。 血液学者は、計算や事実に基づいて、血液がんと脳腫瘍の診断を支援する。 本総説は, 白血球分類の医用画像解析の領域に応用される現代的手法の詳細な分析に焦点をあてたものである。 本総説では, 血液スメア画像, 磁気共鳴画像 (mri) , x線, および類似の医用画像領域を用いた手法について検討した。 このレビューの主な影響は、白血球(WBC)の分類に応用された機械学習技術の詳細な分析を行うことである。 この分析は、最も広く使われている技術や最も優れた白血球分類法など、貴重な知見を提供する。 過去数十年間、研究者は白血球の分類にMLとDLを使用してきたが、まだいくつかの課題がある。 1)データセットの可用性が主な課題であり、データ拡張技術を使って解決することができる。 2) 白血球の構造を理解し, 適切な分類モデルを選択するために, 研究者の医療訓練を推奨する。 3)ジェネレーティブ・アドバイサル・ネットワーク,R-CNN,Fast R-CNN,高速R-CNNといった先進的なDLネットワークも将来技術として利用できる。

The machine learning (ML) and deep learning (DL) models contribute to exceptional medical image analysis improvement. The models enhance the prediction and improve the accuracy by prediction and classification. It helps the hematologist to diagnose the blood cancer and brain tumor based on calculations and facts. This review focuses on an in-depth analysis of modern techniques applied in the domain of medical image analysis of white blood cell classification. For this review, the methodologies are discussed that have used blood smear images, magnetic resonance imaging (MRI), X-rays, and similar medical imaging domains. The main impact of this review is to present a detailed analysis of machine learning techniques applied for the classification of white blood cells (WBCs). This analysis provides valuable insight, such as the most widely used techniques and best-performing white blood cell classification methods. It was found that in recent decades researchers have been using ML and DL for white blood cell classification, but there are still some challenges. 1) Availability of the dataset is the main challenge, and it could be resolved using data augmentation techniques. 2) Medical training of researchers is recommended to help them understand the structure of white blood cells and select appropriate classification models. 3) Advanced DL networks such as Generative Adversarial Networks, R-CNN, Fast R-CNN, and faster R-CNN can also be used in future techniques.
翻訳日:2023-08-15 18:14:42 公開日:2023-08-11
# 大型言語モデルを用いた臨床ノートにおける表現型認識の強化: phenobcbert と phenogpt

Enhancing Phenotype Recognition in Clinical Notes Using Large Language Models: PhenoBCBERT and PhenoGPT ( http://arxiv.org/abs/2308.06294v1 )

ライセンス: Link先を確認
Jingye Yang, Cong Liu, Wendy Deng, Da Wu, Chunhua Weng, Yunyun Zhou, Kai Wang(参考訳) トランスフォーマーアーキテクチャに基づく大規模言語モデル(llms)は,hpoに記録されていない用語を含む臨床表現型の自動検出を可能にすると仮定した。 本研究では,PhenoBCBERT,Bio+Clinical BERTを事前学習モデルとして活用したBERTベースモデル,PhenoGPT,GPT-J,Falcon,LLaMAなどのオープンソースバージョン,GPT-3,GPT-3.5などのオープンソースバージョンを含む多様なGPTモデルから初期化可能なGPTベースモデルを開発した。 我々は,ルールベースとディープラーニングを組み合わせたHPO認識ツールであるPhenoTaggerとの比較を行った。 我々はHPOを特徴としない新しい概念を含む表現型概念を抽出できることを発見した。 また,新しい表現型情報を認識し,抽出する方法を説明するために,生物医学文献のケーススタディも行った。 モデルアーキテクチャ,メモリ使用量,速度,精度,プライバシ保護など,さまざまな面で,現在のbertベースとgptベースの表現型タグモデルを比較した。 また,hpoターゲティングの改善のために,トランスフォーマーモデルにネゲーションステップとhpo正規化層を追加することも検討した。 結論として、phenobcbert と phenogpt は臨床ノートや生物医学文献から表現型用語の自動発見を可能にし、ヒトの疾患に対する新しい生物学的洞察を導出するための下流のタスクの自動化を容易にする。

We hypothesize that large language models (LLMs) based on the transformer architecture can enable automated detection of clinical phenotype terms, including terms not documented in the HPO. In this study, we developed two types of models: PhenoBCBERT, a BERT-based model, utilizing Bio+Clinical BERT as its pre-trained model, and PhenoGPT, a GPT-based model that can be initialized from diverse GPT models, including open-source versions such as GPT-J, Falcon, and LLaMA, as well as closed-source versions such as GPT-3 and GPT-3.5. We compared our methods with PhenoTagger, a recently developed HPO recognition tool that combines rule-based and deep learning methods. We found that our methods can extract more phenotype concepts, including novel ones not characterized by HPO. We also performed case studies on biomedical literature to illustrate how new phenotype information can be recognized and extracted. We compared current BERT-based versus GPT-based models for phenotype tagging, in multiple aspects including model architecture, memory usage, speed, accuracy, and privacy protection. We also discussed the addition of a negation step and an HPO normalization layer to the transformer models for improved HPO term tagging. In conclusion, PhenoBCBERT and PhenoGPT enable the automated discovery of phenotype terms from clinical notes and biomedical literature, facilitating automated downstream tasks to derive new biological insights on human diseases.
翻訳日:2023-08-15 18:14:24 公開日:2023-08-11
# MCMCとVI訓練ベイズニューラルネットワークを用いたハイパースペクトル画像のターゲット検出

Target Detection on Hyperspectral Images Using MCMC and VI Trained Bayesian Neural Networks ( http://arxiv.org/abs/2308.06293v1 )

ライセンス: Link先を確認
Daniel Ries, Jason Adams, Joshua Zollweg(参考訳) ニューラルネットワーク(NN)は画像分類においてほぼ至るところで普及しているが、その標準形は信頼度を測らずに点推定を生成する。 ベイズニューラルネットワーク(BNN)は、NN予測と後部分布による推定のための不確実性定量化(UQ)を提供する。 NNがより高精度なアプリケーションに適用されるにつれて、UQは要件になりつつある。 bnnは、正確な予測と推定を与えるだけでなく、所望の確率内に妥当な値を含む間隔を与えることで、この問題に対する解決策を提供する。 肯定的な特性にもかかわらず、BNNは訓練に時間がかかることで知られている。 伝統的なベイズ方式ではマルコフ・チェイン・モンテ・カルロ (MCMC) を用いるが、これはしばしば遅すぎるとしてブラシで磨かれる。 最も一般的な方法は、高速な計算のため変動推論(VI)であるが、その有効性には複数の懸念がある。 我々は、高スペクトル画像(HSI)におけるターゲット検出の文脈において、MCMC-およびVI-trained BNNを適用して比較する。 これは、HSIの実用的な収集が測定スペクトルに与える影響が多々あるため、困難な分野である。 どちらのモデルも、高忠実度HSIターゲット検出シーンのアウトオブボックスツールを使用してトレーニングされている。 MCMC-とVI-trained BNNは、シミュレーションされたHSIシーンのターゲット検出において、全体的に良好に動作する。 本稿では、UQの利点を利用する方法の例を示すとともに、異なるトレーニング手法が同じモデルに対して異なる結果をもたらすことを認識させる。 十分な計算資源が利用可能であれば、特に高結果問題において、最速または最も効率的ではなく、最善のアプローチが使用されるべきである。

Neural networks (NN) have become almost ubiquitous with image classification, but in their standard form produce point estimates, with no measure of confidence. Bayesian neural networks (BNN) provide uncertainty quantification (UQ) for NN predictions and estimates through the posterior distribution. As NN are applied in more high-consequence applications, UQ is becoming a requirement. BNN provide a solution to this problem by not only giving accurate predictions and estimates, but also an interval that includes reasonable values within a desired probability. Despite their positive attributes, BNN are notoriously difficult and time consuming to train. Traditional Bayesian methods use Markov Chain Monte Carlo (MCMC), but this is often brushed aside as being too slow. The most common method is variational inference (VI) due to its fast computation, but there are multiple concerns with its efficacy. We apply and compare MCMC- and VI-trained BNN in the context of target detection in hyperspectral imagery (HSI), where materials of interest can be identified by their unique spectral signature. This is a challenging field, due to the numerous permuting effects practical collection of HSI has on measured spectra. Both models are trained using out-of-the-box tools on a high fidelity HSI target detection scene. Both MCMC- and VI-trained BNN perform well overall at target detection on a simulated HSI scene. This paper provides an example of how to utilize the benefits of UQ, but also to increase awareness that different training methods can give different results for the same model. If sufficient computational resources are available, the best approach rather than the fastest or most efficient should be used, especially for high consequence problems.
翻訳日:2023-08-15 18:13:52 公開日:2023-08-11
# マルコフ行列でモデル化されたタンパク質構造の発散時間と配列の発散との関係

The divergence time of protein structures modelled by Markov matrices and its relation to the divergence of sequences ( http://arxiv.org/abs/2308.06292v1 )

ライセンス: Link先を確認
Sandun Rajapaksa, Lloyd Allison, Peter J. Stuckey, Maria Garcia de la Banda, and Arun S. Konagurthu(参考訳) 二次構造の保存パターンの観点から、タンパク質構造の分岐進化を定量化する完全な時間パラメータ統計モデルは、タンパク質の3d構造アライメントの大規模なコレクションから推測される。 これは、TwilightとNear Mid Zonesの配列関係を扱う明確な制限を持つタンパク質関連性の時間パラメータ化配列ベースのモデルにより良い代替を提供する。 タンパク質構造は、その機能に直接置かれる選択圧力により保存されるため、構造から推定される場合、分岐時間の推定はより正確である。 最短メッセージ長のベイジアンおよび情報理論の枠組みを用いて時間パラメータ化された確率行列(関連する残基の摂動構造状態の計算)と関連するディリクレモデル(タンパク質ドメインの進化における挿入と削除の計算)を推定する。 これらは、かつてはプロキシ(rmsdなど)を使用してのみ可能であった第三次構造の分岐のマルコフ時間の推定に使用される。 100万対のホモロジー構造を解析することにより、構造のマルコフ発散時間と配列の関係を得る。 これらの推定モデルとシーケンスと構造の分岐の関係を用いて、このタスクによく使用されるニューラルネットワークアーキテクチャに対する二次構造予測における競合性能を示す。 ソースコードと追加情報は \url{http://lcb.infotech.monash.edu.au/sstsum} からダウンロードできる。

A complete time-parameterized statistical model quantifying the divergent evolution of protein structures in terms of the patterns of conservation of their secondary structures is inferred from a large collection of protein 3D structure alignments. This provides a better alternative to time-parameterized sequence-based models of protein relatedness, that have clear limitations dealing with twilight and midnight zones of sequence relationships. Since protein structures are far more conserved due to the selection pressure directly placed on their function, divergence time estimates can be more accurate when inferred from structures. We use the Bayesian and information-theoretic framework of Minimum Message Length to infer a time-parameterized stochastic matrix (accounting for perturbed structural states of related residues) and associated Dirichlet models (accounting for insertions and deletions during the evolution of protein domains). These are used in concert to estimate the Markov time of divergence of tertiary structures, a task previously only possible using proxies (like RMSD). By analyzing one million pairs of homologous structures, we yield a relationship between the Markov divergence time of structures and of sequences. Using these inferred models and the relationship between the divergence of sequences and structures, we demonstrate a competitive performance in secondary structure prediction against neural network architectures commonly employed for this task. The source code and supplementary information are downloadable from \url{http://lcb.infotech.monash.edu.au/sstsum}.
翻訳日:2023-08-15 18:13:27 公開日:2023-08-11
# ロバスト音源定位のための視聴覚空間統合と再帰的注意

Audio-Visual Spatial Integration and Recursive Attention for Robust Sound Source Localization ( http://arxiv.org/abs/2308.06087v1 )

ライセンス: Link先を確認
Sung Jin Um, Dongjin Kim, Jung Uk Kim(参考訳) 音源定位タスクの目的は、機械が視覚的シーン内の音質物体の位置を検知できるようにすることである。 オーディオモダリティは音源を見つけるための空間的手がかりを提供するが、既存のアプローチでは視覚モダリティの空間的領域を比較する補助的な役割としてのみ音声を使用する。 一方,人間は音声と視覚の両方を空間的手がかりとして利用し,音源の特定を行う。 本稿では,両モードからの空間的手がかりを統合し,音質オブジェクトを検出する際の人間の動作を模倣する空間空間統合ネットワークを提案する。 さらに,対象物に対する反復的焦点の人間の振る舞いを模倣する再帰的注意ネットワークを導入し,より正確な注意領域を実現する。 両モードから空間情報を効果的に符号化するために,音声-視覚対整合損失と空間領域アライメント損失を提案する。 本手法は,視聴覚モーダルの空間的手がかりと再帰的に焦点を合わせる物体を利用することにより,よりロバストな音源定位を行うことができる。 Flickr SoundNetおよびVGG-Sound Sourceデータセットの総合的な実験結果から,提案手法が既存手法よりも優れていることを示す。 私たちのコードは、https://github.com/VisualAIKHU/SIRA-SSLで利用可能です。

The objective of the sound source localization task is to enable machines to detect the location of sound-making objects within a visual scene. While the audio modality provides spatial cues to locate the sound source, existing approaches only use audio as an auxiliary role to compare spatial regions of the visual modality. Humans, on the other hand, utilize both audio and visual modalities as spatial cues to locate sound sources. In this paper, we propose an audio-visual spatial integration network that integrates spatial cues from both modalities to mimic human behavior when detecting sound-making objects. Additionally, we introduce a recursive attention network to mimic human behavior of iterative focusing on objects, resulting in more accurate attention regions. To effectively encode spatial information from both modalities, we propose audio-visual pair matching loss and spatial region alignment loss. By utilizing the spatial cues of audio-visual modalities and recursively focusing objects, our method can perform more robust sound source localization. Comprehensive experimental results on the Flickr SoundNet and VGG-Sound Source datasets demonstrate the superiority of our proposed method over existing approaches. Our code is available at: https://github.com/VisualAIKHU/SIRA-SSL
翻訳日:2023-08-15 18:12:16 公開日:2023-08-11
# 境界を通した正弦線半金属

Nodal line semimetals through boundary ( http://arxiv.org/abs/2308.06033v1 )

ライセンス: Link先を確認
Protyush Nandi and Subinay Dasgupta(参考訳) ゼロ温度でトポロジカル・ノダル線半金属を記述するスピンレスハミルトニアンの性質について検討する。 我々のハミルトニアンはこのタイプの物質に対して通常のハミルトニアンと幾らか似ているが、ワイル半金属はハミルトニアンのハミルトニアンのハミルトニアン格子上の一般化の一種である。 ハミルトンの相互作用パラメータは変化するので、ギャップのない相から半金属相、そして別の半金属相への遷移を示す。 これらの遷移は基底状態エネルギーの非解析的挙動として現れる。 半金属の1つのタイプはノダル線の1つの閉ループによって特徴づけられ、もう1つは2つのそのようなループによって特徴づけられ、どちらも最初のブリルアンゾーンの境界を横切る。 非ゼロの巻数を持つ表面状態は、どちらの相にも存在するが、2つの位相的に異なる領域が存在する。 また, 直流線の長さ, 巻線数がゼロでない領域の面積, 周面積, 低周波導電率についても検討した。

We study the properties of a spinless Hamiltonian which describes topological nodal line semimetals at zero temperature. Our Hamiltonian has some resemblance with the usual Hamiltonian for this type of materials, with that of Weyl semimetals and is some sort of a generalisation of Kitaev Hamiltonian on honeycomb lattice. As the interaction parameter of the Hamiltonian is varied, it shows a transition from a gapless phase to a semimetal phase and then to another semimetal phase. These transitions show up as non-analytic behaviour of ground state energy. We find that one type of the semimetal is characterised by a single closed loop of nodal line, while the other, by two such loops both crossing the boundary of the first Brillouin zone. Surface states with non-zero winding number are found to exist in both of these phases, but over two topologically different regions. We also study the length of nodal line, the area and perimeter of the region over which the winding number is non-zero and the low-frequency electrical conductivity.
翻訳日:2023-08-15 18:11:56 公開日:2023-08-11
# 小児好酸球性食道炎の好酸球検出のための深層学習型オープンソースツールキット

Deep Learning-Based Open Source Toolkit for Eosinophil Detection in Pediatric Eosinophilic Esophagitis ( http://arxiv.org/abs/2308.06333v1 )

ライセンス: Link先を確認
Juming Xiong, Yilin Liu, Ruining Deng, Regina N Tyree, Hernan Correa, Girish Hiremath, Yaohong Wang, and Yuankai Huo(参考訳) 好酸球性食道炎(英: Eosinophilic Esophagitis, EoE)は、慢性・免疫・抗原性食道疾患であり、食道機能障害に関連する症状と好酸球優性炎症の組織学的証拠を特徴とする。 画像におけるEoEの複雑な微視的表現のため、手動識別に依存する現在の手法は、労働集約的なだけでなく、不正確性も伴う。 本研究では,docker経由で1行のコマンドを使って,全スライド画像(wsi)レベルeos(eos)を検出するためのオープンソースツールキットopen-eoeを開発した。 具体的には、3つの最先端のディープラーニングベースのオブジェクト検出モデルをサポートする。 さらにopen-eoeは,アンサンブル学習戦略を実装し,結果の正確性と信頼性を高めることにより,さらにパフォーマンスを最適化する。 実験の結果, open-eoe toolkit は 289 wsis のテストセット上で eos を効率的に検出できることがわかった。 eoeを診断するための高出力場(hpf)あたり15 eosの閾値が広く認められ、オープンeoeは91%の精度を達成し、病理組織学的評価と良好に一致した。 これは、EoEの診断プロセスに機械学習方法論を統合するための有望な道のりを示唆している。 dockerとソースコードはhttps://github.com/hrlblab/Open-EoEで公開されている。

Eosinophilic Esophagitis (EoE) is a chronic, immune/antigen-mediated esophageal disease, characterized by symptoms related to esophageal dysfunction and histological evidence of eosinophil-dominant inflammation. Owing to the intricate microscopic representation of EoE in imaging, current methodologies which depend on manual identification are not only labor-intensive but also prone to inaccuracies. In this study, we develop an open-source toolkit, named Open-EoE, to perform end-to-end whole slide image (WSI) level eosinophil (Eos) detection using one line of command via Docker. Specifically, the toolkit supports three state-of-the-art deep learning-based object detection models. Furthermore, Open-EoE further optimizes the performance by implementing an ensemble learning strategy, and enhancing the precision and reliability of our results. The experimental results demonstrated that the Open-EoE toolkit can efficiently detect Eos on a testing set with 289 WSIs. At the widely accepted threshold of >= 15 Eos per high power field (HPF) for diagnosing EoE, the Open-EoE achieved an accuracy of 91%, showing decent consistency with pathologist evaluations. This suggests a promising avenue for integrating machine learning methodologies into the diagnostic process for EoE. The docker and source code has been made publicly available at https://github.com/hrlblab/Open-EoE.
翻訳日:2023-08-15 18:03:59 公開日:2023-08-11
# revolutionizing space health (swin-fsr) : sans視覚評価技術のための眼底画像の超高解像度化

Revolutionizing Space Health (Swin-FSR): Advancing Super-Resolution of Fundus Images for SANS Visual Assessment Technology ( http://arxiv.org/abs/2308.06332v1 )

ライセンス: Link先を確認
Khondker Fariha Hossain, Sharif Amit Kamran, Joshua Ong, Andrew G. Lee, Alireza Tavakkoli(参考訳) ポータブルで安価な網膜イメージング装置の迅速なアクセシビリティにより、早期の鑑別診断が容易になった。 例えば、色眼底画像撮影は遠隔の村で容易に利用可能であり、年齢関連黄斑変性症(AMD)、緑内障、病理性近視症(PM)などの疾患の特定に役立つ。 一方、国際宇宙ステーションの宇宙飛行士はこのカメラを使って、宇宙飛行に関連する神経眼症候群(SANS)を特定する。 しかし、これらの場所の専門家が利用できないため、より正確な疾患の特定のために、データは都市医療施設(AMDと緑内障)や地上局(SANS)に転送されなければならない。 また、帯域幅の制限が小さいため、画像データを圧縮して2箇所間の転送を行う必要がある。 これに対処するために、長年にわたり様々な超解像アルゴリズムが提案されてきた。 さらに,深層学習の出現に伴い,x2 および x4 圧縮画像は空間情報を失うことなく元の形式に圧縮することができるようになった。 本稿では,swinトランスフォーマを用いたswin-fsrと呼ばれる新しいモデルを提案する。 アーキテクチャは,iChallenge-AMD,iChallenge-PM,G1020という3つの公開データセット上で,47.89,49.00,45.32のピーク信号対雑音比(PSNR)を達成する。 さらに、NASAが提供するSANS用のプライベートデータセットでモデルの有効性を検証し、以前のアーキテクチャと比較した結果を得た。

The rapid accessibility of portable and affordable retinal imaging devices has made early differential diagnosis easier. For example, color funduscopy imaging is readily available in remote villages, which can help to identify diseases like age-related macular degeneration (AMD), glaucoma, or pathological myopia (PM). On the other hand, astronauts at the International Space Station utilize this camera for identifying spaceflight-associated neuro-ocular syndrome (SANS). However, due to the unavailability of experts in these locations, the data has to be transferred to an urban healthcare facility (AMD and glaucoma) or a terrestrial station (e.g, SANS) for more precise disease identification. Moreover, due to low bandwidth limits, the imaging data has to be compressed for transfer between these two places. Different super-resolution algorithms have been proposed throughout the years to address this. Furthermore, with the advent of deep learning, the field has advanced so much that x2 and x4 compressed images can be decompressed to their original form without losing spatial information. In this paper, we introduce a novel model called Swin-FSR that utilizes Swin Transformer with spatial and depth-wise attention for fundus image super-resolution. Our architecture achieves Peak signal-to-noise-ratio (PSNR) of 47.89, 49.00 and 45.32 on three public datasets, namely iChallenge-AMD, iChallenge-PM, and G1020. Additionally, we tested the model's effectiveness on a privately held dataset for SANS provided by NASA and achieved comparable results against previous architectures.
翻訳日:2023-08-15 18:03:25 公開日:2023-08-11
# 一様運動における粒子検出器間の相関収穫

Correlation harvesting between particle detectors in uniform motion ( http://arxiv.org/abs/2308.06329v1 )

ライセンス: Link先を確認
Lana Bozanic, Manar Naeem, Kensuke Gallock-Yoshimura, Robert B. Mann(参考訳) 本研究では, 線形, カテナリー, 尖点, 円運動の4つのクラスに沿って移動する2つのUnruh-DeWitt粒子検出器を用いた相関収穫法について検討した。 各軌道に対して、2種類の構成が実行される: 1つは定常(時変不変)ワイトマン関数を持ち、もう1つは非定常である。 その結果, 線形, カテナリー, カステッド動作の検出器は, 定常配置の検出器に比べて非定常配置の相関が小さいことがわかった。 円形運動の検出器は、両方の構成で同様の挙動を持つ。 各ケースに対する高加速度による相関収穫の相対的抑制について考察する。 驚くべきことに、ある状況下では、線形状態と円運動状態の両方の検出器は、因果関係にあるにもかかわらず、本物の(非通信支援の)絡み合いを抽出できる。

We investigate the correlation harvesting protocol using two Unruh-DeWitt particle detectors moving along four classes of uniformly accelerated trajectories categorized by Letaw: linear, catenary, cusped, and circular motions. For each trajectory, two types of configurations are carried out: one possesses a stationary (time-translation invariant) Wightman function and the other is nonstationary. We find that detectors undergoing linear, catenary, and cusped motions gain fewer correlations in the nonstationary configurations compared to those in stationary configurations. Detectors in circular motion have similar behavior in both configurations. We discuss the relative suppression of correlation harvesting due to high acceleration for each case. Remarkably we find that under certain circumstances detectors in both linear and circular states of motion can harvest genuine (non-communication assisted) entanglement even though they are in causal contact.
翻訳日:2023-08-15 18:02:53 公開日:2023-08-11
# Grapheme単位と補助単言語損失を用いたバイリンガルストリーミングASR

Bilingual Streaming ASR with Grapheme units and Auxiliary Monolingual Loss ( http://arxiv.org/abs/2308.06327v1 )

ライセンス: Link先を確認
Mohammad Soleymanpour, Mahmoud Al Ismail, Fahimeh Bahmaninezhad, Kshitiz Kumar, Jian Wu(参考訳) そこで本稿では,ASR(Hybrid Automatic Speech Recognition)設定において,英語を2次的ローカライズとしてサポートするためのバイリンガルソリューションを提案する。 私たちの重要な発展は (a)電話機の代わりにグラフ単位の発音レキシコン b) 完全なバイリンガルアライメントモデルとその後のバイリンガルストリーミングトランスモデル。 (c)言語識別(LID)損失を伴う並列エンコーダ構造 (d)単言語投射に対する補助損失を有する並列エンコーダ。 我々は,LID損失と比較して,並列エンコーダを各単言語局所に限定する上で,補助的損失が優れており,二言語学習の強化に寄与していると結論付けた。 我々は,二言語スペイン語(es)および二言語イタリア語(it)アプリケーションのための大規模訓練およびテストタスクに関する作業を評価する。 我々のバイリンガルモデルは、強い英語コード混合能力を示している。 特に、バイリンガルITモデルは、コードミックスITタスクのワードエラー率(WER)を46.5%から13.8%に改善し、ITテストよりもモノリンガルITモデル(9.5%)と密接な同等(9.6%)を達成した。

We introduce a bilingual solution to support English as secondary locale for most primary locales in hybrid automatic speech recognition (ASR) settings. Our key developments constitute: (a) pronunciation lexicon with grapheme units instead of phone units, (b) a fully bilingual alignment model and subsequently bilingual streaming transformer model, (c) a parallel encoder structure with language identification (LID) loss, (d) parallel encoder with an auxiliary loss for monolingual projections. We conclude that in comparison to LID loss, our proposed auxiliary loss is superior in specializing the parallel encoders to respective monolingual locales, and that contributes to stronger bilingual learning. We evaluate our work on large-scale training and test tasks for bilingual Spanish (ES) and bilingual Italian (IT) applications. Our bilingual models demonstrate strong English code-mixing capability. In particular, the bilingual IT model improves the word error rate (WER) for a code-mix IT task from 46.5% to 13.8%, while also achieving a close parity (9.6%) with the monolingual IT model (9.5%) over IT tests.
翻訳日:2023-08-15 18:02:41 公開日:2023-08-11
# 符号化復号量子回路におけるエラーレジリエンス相転移

Error-resilience Phase Transitions in Encoding-Decoding Quantum Circuits ( http://arxiv.org/abs/2308.06321v1 )

ライセンス: Link先を確認
Xhek Turkeshi, Piotr Sierant(参考訳) 多体量子システムでエンコードされた情報のエラーがどのように悪化するかを理解することは、量子技術にとって実用的な意味を持つ根本的な問題である。 本稿では,コヒーレント誤りのある符号化復号ランダム回路のクラスについて検討する。 誤差破壊可能な相から弱い誤差強度でエラー保護相を分離する相転移の存在を解析的に示す。 我々は、この遷移が、領域間法的な絡み合い遷移と、計算ベースでの局所化遷移を伴うことを示す正確な表現を導出する。 考察したシステムにおけるマルチフラクタル特徴の出現を強調する。

Understanding how errors deteriorate the information encoded in a many-body quantum system is a fundamental problem with practical implications for quantum technologies. Here, we investigate a class of encoding-decoding random circuits with coherent errors. The existence of a phase transition separating an error-protecting phase at weak error strength from an error-vulnerable phase is analytically demonstrated. We derive exact expressions showing that this transition is accompanied by an area-to-volume law entanglement transition and a localization transition in the computational basis. The emergence of multifractal features in the considered system is highlighted.
翻訳日:2023-08-15 18:02:19 公開日:2023-08-11
# Qibolab: オープンソースのハイブリッド量子オペレーティングシステム

Qibolab: an open-source hybrid quantum operating system ( http://arxiv.org/abs/2308.06313v1 )

ライセンス: Link先を確認
Stavros Efthymiou, Alvaro Orgaz-Fuertes, Rodolfo Carobene, Juan Cereijo, Andrea Pasquale, Sergi Ramos-Calderer, Simone Bordoni, David Fuentes-Ruiz, Alessandro Candido, Edoardo Pedicillo, Matteo Robbiati, Yuanzheng Paul Tan, Jadwiga Wilkens, Ingo Roth, Jos\'e Ignacio Latorre, Stefano Carrazza(参考訳) 我々はqibo量子コンピューティングミドルウェアフレームワークと統合された量子ハードウェア制御のためのオープンソースソフトウェアライブラリqibolabを提案する。 Qibolabは、カスタムのセルフホスト量子ハードウェアプラットフォーム上でサーキットベースのアルゴリズムを自動実行するために必要なソフトウェア層を提供する。 本稿では,機器,トランスパイラ,最適化アルゴリズムのためのパルス指向ドライバによる量子制御へのプログラム的アクセスを提供するためのオブジェクトセットを提案する。 Qibolabは、実験家や開発者がハードウェア実装のすべての複雑な側面をライブラリに委譲し、ハードウェアに依存しない方法で量子コンピューティングアルゴリズムのデプロイを標準化することを可能にする。 まず、ライブラリの全てのコンポーネントの状態を説明し、次に超伝導量子ビットプラットフォームの制御設定の例を示す。 最後に,回路ベースのアルゴリズムに関する応用結果を示す。

We present Qibolab, an open-source software library for quantum hardware control integrated with the Qibo quantum computing middleware framework. Qibolab provides the software layer required to automatically execute circuit-based algorithms on custom self-hosted quantum hardware platforms. We introduce a set of objects designed to provide programmatic access to quantum control through pulses-oriented drivers for instruments, transpilers and optimization algorithms. Qibolab enables experimentalists and developers to delegate all complex aspects of hardware implementation to the library so they can standardize the deployment of quantum computing algorithms in a hardware-agnostic way. We first describe the status of all components of the library, then we show examples of control setup for superconducting qubits platforms. Finally, we present successful application results related to circuit-based algorithms.
翻訳日:2023-08-15 18:02:09 公開日:2023-08-11
# ニューラルネットワークによるレジリエンス予測

Predicting Resilience with Neural Networks ( http://arxiv.org/abs/2308.06309v1 )

ライセンス: Link先を確認
Karen da Mata, Priscila Silva and Lance Fiondella(参考訳) レジリエンスエンジニアリング(Resilience Engineering)は、システムが破壊的なイベントから生き残り、回復する能力を研究し、いくつかのドメインで応用を見出す。 多くの研究ではシステム性能の定量化のためのレジリエンス指標が重視されているが、最近の研究では、劣化後のシステム復旧時間に対する統計的モデリング手法が提案されている。 さらに、過去の研究は回復後のデータや、理想化された傾向に制限される。 そこで本研究では,3つの代替ニューラルネットワーク(NN)アプローチを提案する。 (i)ニューラルネットワーク (ii)リカレントニューラルネットワーク、及び (iii)長期短期記憶(lstm)は、破壊的事象や回復活動の影響を定量化するためにレジリエンスを駆動する負の要因や正の要因を含む、システム性能をモデル化し予測する。 モデルを評価するために適合度を計算し、平均二乗誤差や調整されたR二乗を含む古典的な統計モデルと比較する。 その結果,nnモデルはすべての適合度尺度において従来のモデルよりも優れていた。 より具体的には、LSTMは従来の方法に比べて60倍以上の調整R2乗を達成し、予測誤差を34倍に減らした。 これらの結果は、レジリエンスを予測するNNモデルは実現可能かつ正確であり、多くの重要な領域で実用的であることを示唆している。

Resilience engineering studies the ability of a system to survive and recover from disruptive events, which finds applications in several domains. Most studies emphasize resilience metrics to quantify system performance, whereas recent studies propose statistical modeling approaches to project system recovery time after degradation. Moreover, past studies are either performed on data after recovering or limited to idealized trends. Therefore, this paper proposes three alternative neural network (NN) approaches including (i) Artificial Neural Networks, (ii) Recurrent Neural Networks, and (iii) Long-Short Term Memory (LSTM) to model and predict system performance, including negative and positive factors driving resilience to quantify the impact of disruptive events and restorative activities. Goodness-of-fit measures are computed to evaluate the models and compared with a classical statistical model, including mean squared error and adjusted R squared. Our results indicate that NN models outperformed the traditional model on all goodness-of-fit measures. More specifically, LSTMs achieved an over 60\% higher adjusted R squared, and decreased predictive error by 34-fold compared to the traditional method. These results suggest that NN models to predict resilience are both feasible and accurate and may find practical use in many important domains.
翻訳日:2023-08-15 18:01:57 公開日:2023-08-11
# 自動パレット化タスクのパッケージングユニット検出に向けて

Towards Packaging Unit Detection for Automated Palletizing Tasks ( http://arxiv.org/abs/2308.06306v1 )

ライセンス: Link先を確認
Markus V\"olk, Kilian Kleeberger, Werner Kraus, Richard Bormann(参考訳) 各種自動パレット化作業において, 包装単位の検出は, 産業ロボットによる包装単位の実際の処理に先立って重要なステップである。 提案手法は, 合成生成データに対して十分に訓練され, 任意の実世界の包装ユニットに対して, さらなる訓練やセットアップの努力なしにロバストに適用できる, この課題に対するアプローチを提案する。 提案手法は、スパースかつ低品質のセンサデータを処理し、利用可能であれば事前知識を活用し、幅広い製品やアプリケーションシナリオにうまく一般化することができる。 本手法の実用化を実証するため,さまざまな小売商品を用いた実世界のデータに対する広範な評価を行った。 さらに、我々のアプローチを実験室のデモレーターに統合し、産業パートナーを通じて商用ソリューションを販売します。

For various automated palletizing tasks, the detection of packaging units is a crucial step preceding the actual handling of the packaging units by an industrial robot. We propose an approach to this challenging problem that is fully trained on synthetically generated data and can be robustly applied to arbitrary real world packaging units without further training or setup effort. The proposed approach is able to handle sparse and low quality sensor data, can exploit prior knowledge if available and generalizes well to a wide range of products and application scenarios. To demonstrate the practical use of our approach, we conduct an extensive evaluation on real-world data with a wide range of different retail products. Further, we integrated our approach in a lab demonstrator and a commercial solution will be marketed through an industrial partner.
翻訳日:2023-08-15 18:01:34 公開日:2023-08-11
# ビデオにおける前景物体除去のための局所二項パターン方程式の探索

Discovering Local Binary Pattern Equation for Foreground Object Removal in Videos ( http://arxiv.org/abs/2308.06305v1 )

ライセンス: Link先を確認
Caroline Pacheco do Espirito Silva, Andrews Cordolino Sobral, Antoine Vacavant, Thierry Bouwmans, Felippe De Souza(参考訳) 新たなローカルバイナリパターン(LBP)プロセスの設計は通常、その領域における人間の知識と経験に大きく依存する。 専門家でさえ、特定のデータセットに最適なLPPを特定するまで、退屈な試行錯誤のエピソードが残されることが多い。 この問題に対処するために,背景と前景に分割することで,LBP式を自動的に発見し,シーンの移動部分を除去できる新しい記号回帰法を提案する。 様々な条件下で屋外の都市景観を実写した実験結果から,提案手法によって発見されたLCPは,定性的にも定量的にも,従来のLCPディスクリプタよりも有意に優れていた。 ソースコードとデータはオンラインで入手できます。

Designing a novel Local Binary Pattern (LBP) process usually relies heavily on human experts' knowledge and experience in the area. Even experts are often left with tedious episodes of trial and error until they identify an optimal LBP for a particular dataset. To address this problem, we present a novel symbolic regression able to automatically discover LBP formulas to remove the moving parts of a scene by segmenting it into a background and a foreground. Experimental results conducted on real videos of outdoor urban scenes under various conditions show that the LBPs discovered by the proposed approach significantly outperform the previous state-of-the-art LBP descriptors both qualitatively and quantitatively. Our source code and data will be available online.
翻訳日:2023-08-15 18:01:22 公開日:2023-08-11
# 線形対数方程式における不定値回避のための重力モデルにおけるゼロ貿易の克服と機械学習によるパラメータ検証

A New Approach to Overcoming Zero Trade in Gravity Models to Avoid Indefinite Values in Linear Logarithmic Equations and Parameter Verification Using Machine Learning ( http://arxiv.org/abs/2308.06303v1 )

ライセンス: Link先を確認
Mikrajuddin Abdullah(参考訳) 多数のゼロフロー取引の存在は、重力モデルを用いた国際貿易を説明するための重力パラメータの特定に挑戦し続けている。 対数線形方程式による線形回帰は対数貿易の不確定値に遭遇する。 この問題を解決するいくつかのアプローチが提案されているが、その多くは線形回帰に基づくものではなく、解を見つけるプロセスがより複雑になる。 本研究では,2段階の重力パラメータ決定手法を提案する。まず,貿易フローゼロの代わりにダミー値を確立するために局所的に線形回帰を行い,次に重力パラメータを推定する。 反復的手法は最適なパラメータを決定するために用いられる。 機械学習は、クラスタ内のそれらの位置を分析して推定パラメータをテストするために使用される。 2004年、2009年、2014年、2019年の国際貿易統計を計算した。 古典的な重力方程式を調べて、GDPと距離のパワーが同じクラスタにあり、どちらもほぼ1つの価値があることを発見する。 ここで提示される戦略は、ログ線形回帰に関わる他の問題を解決するために使用できる。

The presence of a high number of zero flow trades continues to provide a challenge in identifying gravity parameters to explain international trade using the gravity model. Linear regression with a logarithmic linear equation encounters an indefinite value on the logarithmic trade. Although several approaches to solving this problem have been proposed, the majority of them are no longer based on linear regression, making the process of finding solutions more complex. In this work, we suggest a two-step technique for determining the gravity parameters: first, perform linear regression locally to establish a dummy value to substitute trade flow zero, and then estimating the gravity parameters. Iterative techniques are used to determine the optimum parameters. Machine learning is used to test the estimated parameters by analyzing their position in the cluster. We calculated international trade figures for 2004, 2009, 2014, and 2019. We just examine the classic gravity equation and discover that the powers of GDP and distance are in the same cluster and are both worth roughly one. The strategy presented here can be used to solve other problems involving log-linear regression.
翻訳日:2023-08-15 18:01:02 公開日:2023-08-11
# 推薦システムにおけるトピックレベルベイズサプライズとセレンディピティー

Topic-Level Bayesian Surprise and Serendipity for Recommender Systems ( http://arxiv.org/abs/2308.06368v1 )

ライセンス: Link先を確認
Tonmoy Hasan and Razvan Bunescu(参考訳) 利用者が消費した商品のレーティング履歴に合わせたレコメンデーションのみを最適化するレコメンデーションシステムは、新規で目に見えないカテゴリーのアイテムを体験できないフィルターバブルを作成することができる。 この望ましくない行動を緩和するための1つのアプローチは、セレンディピティーに高い潜在能力を持つアイテム、すなわち、高い評価を受ける可能性のある驚くべきアイテムを推奨することである。 本稿では,ベイジアン・サプライズに根ざしたセレンディピティーのコンテンツに基づく定式化を提案し,利用者が消費・評価した後のセレンディピティーを測定する。 類似ユーザを特定する協調フィルタリングコンポーネントと組み合わせることで、セレンディピティーの高いアイテムを推奨することができる。 驚きとセレンディピティーのためのトピックレベルのモデルの評価を容易にするために、goodreadsから抽出した書籍読解履歴のデータセットを紹介し、ユーザ数2,600万冊、書籍数1,300万冊を対象とし、時間に依存したトピックレベルのサプライズの観点から449冊の書籍を手作業で注釈する。 実験評価により,ベイズ・サプライズを用いたモデルは,距離に基づくヒューリスティックよりも話題レベルのサプライズに対するマニュアルアノテーションにかなりよく相関し,セレンディピティーアイテムのレコメンデーション性能も向上した。

A recommender system that optimizes its recommendations solely to fit a user's history of ratings for consumed items can create a filter bubble, wherein the user does not get to experience items from novel, unseen categories. One approach to mitigate this undesired behavior is to recommend items with high potential for serendipity, namely surprising items that are likely to be highly rated. In this paper, we propose a content-based formulation of serendipity that is rooted in Bayesian surprise and use it to measure the serendipity of items after they are consumed and rated by the user. When coupled with a collaborative-filtering component that identifies similar users, this enables recommending items with high potential for serendipity. To facilitate the evaluation of topic-level models for surprise and serendipity, we introduce a dataset of book reading histories extracted from Goodreads, containing over 26 thousand users and close to 1.3 million books, where we manually annotate 449 books read by 4 users in terms of their time-dependent, topic-level surprise. Experimental evaluations show that models that use Bayesian surprise correlate much better with the manual annotations of topic-level surprise than distance-based heuristics, and also obtain better serendipitous item recommendation performance.
翻訳日:2023-08-15 17:54:58 公開日:2023-08-11
# キャビティ磁気力学系におけるマグノンスクイーズによる強いマグノン遮断

Achieving Strong Magnon Blockade through Magnon Squeezing in a Cavity Magnetomechanical System ( http://arxiv.org/abs/2308.06367v1 )

ライセンス: Link先を確認
M. Amazioug, D. S. Dutykh, B. Teklu and M. Asjad(参考訳) 弱ポンプ駆動下でキャビティマグノメカニカルシステム内のマグノンスクイーズを用いてマグノン(光子)遮断を実現する手法を提案する。 理想的な条件下では、かなりのマグノン遮断効果と同時光子遮断効果が観察される。 さらに、数値的な結果と解析的な結果の両方が完全に一致し、一貫性の堅牢な証拠となる。 最適パラメトリックゲインとデチューニング値の計算に加えて、第2次相関関数を改良できる。 提案手法は実験キャビティマグノメカニカルシステムにおけるマグノン(光子)遮断への先駆的アプローチである。

We propose a scheme to achieve magnon (photon) blockade by using magnon squeezing within a cavity magnomechanical system under weak pump driving. Under ideal conditions, we observe a substantial magnon blockade effect, as well as simultaneous photon blockade. Moreover, both numerical and analytical results match perfectly, providing robust evidence of consistency. In addition to calculating optimal parametric gain and detuning values, we can improve the second-order correlation function. The proposed scheme will be a pioneering approach towards magnon (photon) blockade in experimental cavity magnomechanical systems.
翻訳日:2023-08-15 17:54:31 公開日:2023-08-11
# 原子価結合共鳴状態の量子シミュレーション -スピン-液体基底状態の原型的テンプレート-

Physics inspired quantum simulation of resonating valence bond states -- a prototypical template for a spin-liquid ground state ( http://arxiv.org/abs/2308.06360v1 )

ライセンス: Link先を確認
Manas Sajjan, Rishabh Gupta, Sumit Suresh Kale, Vinit Singh, Keerthi Kumaran, and Sabre Kais(参考訳) 創発的でエキゾチックな物質相であるスピリキッドは、近年大きな注目を集めている。 実験的に多くの有望な候補が提案され、実現されてきたが、理論的にはそのような振る舞いを示す物質をモデル化することは、本質的には創発相の相関性が高いため、深刻な課題を引き起こす可能性がある。 過去数十年間、第2量子革命は、計算物理学の基礎的な進化を起こすことができる新しい計算パラダイムのハービンジャーとなった。 本稿では,カゴメ反強磁性体のスピン=$$\frac{1}{2}$ユニットセルを原型モデルとして,後者のパワーを用いて研究する。 そのような単位細胞の拡張格子は、磁歪したスピン液体基底状態を持つことが知られている。 我々は,密度行列再正規化群 (DMRG) のような強靭な古典的数値手法を用いて,行列積状態 (MPS) の定式化により基底状態の性質を同定する。 その後、得られた洞察を用いて、測定可能量を削減したオーキラリー・ハミルトニアンを構築し、また、モジュラーでゲート効率のよいアンサッツを設計する。 堅牢なエラー軽減戦略により、このアンサッツが、実際のIBMQバックエンド上でも、エネルギーの精度で目標となる基底状態を正確に表現できることを示すことができます。 このプロトコルは単位セル数、ゲート要求数、測定値数でo(n)$を線形にスケーリングしているため、量子デバイス上のスピン液体基底状態の効率的な構築への道を開くことができるより大きなカゴメ格子に簡単に拡張できる。

Spin-liquids -- an emergent, exotic collective phase of matter -- have garnered enormous attention in recent years. While experimentally, many prospective candidates have been proposed and realized, theoretically modeling real materials that display such behavior may pose serious challenges due to the inherently high correlation content of emergent phases. Over the last few decades, the second-quantum revolution has been the harbinger of a novel computational paradigm capable of initiating a foundational evolution in computational physics. In this report, we strive to use the power of the latter to study a prototypical model -- a spin-$\frac{1}{2}$-unit cell of a Kagome anti-ferromagnet. Extended lattices of such unit cells are known to possess a magnetically disordered spin-liquid ground state. We employ robust classical numerical techniques like Density-Matrix Renormalization Group (DMRG) to identify the nature of the ground state through a matrix-product state (MPS) formulation. We subsequently use the gained insight to construct an auxillary hamiltonian with reduced measurables and also design an ansatz that is modular and gate efficient. With robust error-mitigation strategies, we are able to demonstrate that the said ansatz is capable of accurately representing the target ground state even on a real IBMQ backend within $1\%$ accuracy in energy. Since the protocol is linearly scaling $O(n)$ in the number of unit cells, gate requirements, and the number of measurements, it is straightforwardly extendable to larger Kagome lattices which can pave the way for efficient construction of spin-liquid ground states on a quantum device.
翻訳日:2023-08-15 17:54:21 公開日:2023-08-11
# 電子健康記録における社会要因の同定のための大規模言語モデル

Large Language Models to Identify Social Determinants of Health in Electronic Health Records ( http://arxiv.org/abs/2308.06354v1 )

ライセンス: Link先を確認
Marco Guevara, Shan Chen, Spencer Thomas, Tafadzwa L. Chaunzwa, Idalid Franco, Benjamin Kann, Shalini Moningi, Jack Qian, Madeleine Goldstein, Susan Harper, Hugo JWL Aerts, Guergana K. Savova, Raymond H. Mak, Danielle S. Bitterman(参考訳) SDoH (Social Determinants of Health) は、患者の成績に重要な影響を与えるが、電子健康記録 (EHR) から不完全に収集される。 本研究は, EHRにおける自由テキストからSDoHを抽出する大規模言語モデルの有用性について検討し, 少ないが極めて価値のある臨床データの抽出を改善するために, 合成臨床テキストの役割について検討した。 800の患者ノートをSDoHカテゴリーにアノテートし,いくつかのトランスフォーマーモデルを評価した。 また,合成データ生成実験を行い,アルゴリズムバイアスの評価を行った。 我々の最高の性能モデルは、どのSDoHでもFlan-T5 XL(macro-F1 0.71)、Flan-T5 XXL(macro-F1 0.70)でした。 合成データによる微調整の利点は、モデルアーキテクチャやサイズによって異なり、より小さなFlan-T5モデル(ベースと大型)では、パフォーマンスが最大(デルタF1+0.12から+0.23)向上した。 モデル性能は病院内システムデータセットと似ているが、MIMIC-IIIデータセットでは悪い。 最も優れた微調整モデルでは、両方のタスクにおいてChatGPTファミリーモデルのゼロおよび少数ショットのパフォーマンスが向上した。 これらの微調整されたモデルは、人種・民族性や性別記述子をテキストに追加した場合の予測をChatGPTより変更する可能性が低く、アルゴリズムバイアスが低い(p<0.05。 患者レベルでは, 有害なSDoH症例の93.8%, ICD-10は2.0%であった。 本手法は,臨床ノートからsdoh情報を効果的に抽出し,gptゼロショットおよびマイショット設定と比較する。 これらのモデルは、SDoHに関する現実世界の証拠を高め、社会的支援を必要とする患者を特定する助けになるかもしれない。

Social determinants of health (SDoH) have an important impact on patient outcomes but are incompletely collected from the electronic health records (EHR). This study researched the ability of large language models to extract SDoH from free text in EHRs, where they are most commonly documented, and explored the role of synthetic clinical text for improving the extraction of these scarcely documented, yet extremely valuable, clinical data. 800 patient notes were annotated for SDoH categories, and several transformer-based models were evaluated. The study also experimented with synthetic data generation and assessed for algorithmic bias. Our best-performing models were fine-tuned Flan-T5 XL (macro-F1 0.71) for any SDoH, and Flan-T5 XXL (macro-F1 0.70). The benefit of augmenting fine-tuning with synthetic data varied across model architecture and size, with smaller Flan-T5 models (base and large) showing the greatest improvements in performance (delta F1 +0.12 to +0.23). Model performance was similar on the in-hospital system dataset but worse on the MIMIC-III dataset. Our best-performing fine-tuned models outperformed zero- and few-shot performance of ChatGPT-family models for both tasks. These fine-tuned models were less likely than ChatGPT to change their prediction when race/ethnicity and gender descriptors were added to the text, suggesting less algorithmic bias (p<0.05). At the patient-level, our models identified 93.8% of patients with adverse SDoH, while ICD-10 codes captured 2.0%. Our method can effectively extracted SDoH information from clinic notes, performing better compare to GPT zero- and few-shot settings. These models could enhance real-world evidence on SDoH and aid in identifying patients needing social support.
翻訳日:2023-08-15 17:53:51 公開日:2023-08-11
# モンテカルロ辺縁化による学習分布

Learning Distributions via Monte-Carlo Marginalization ( http://arxiv.org/abs/2308.06352v1 )

ライセンス: Link先を確認
Chenqiu Zhao, Guanfang Dong, Anup Basu(参考訳) サンプルから抽出可能な分布を学習する新しい手法を提案する。 主な考え方は、ガウス混合モデル(GMM)のようなパラメトリック分布モデルを用いて、KL分散を最小化することで、難解分布を近似することである。 この考えに基づいて、対処すべき課題が2つあります。 まず、分布の次元が大きくなると、KL分割の計算複雑性は受け入れられない。 モンテカルロ・マルギナライゼーション(MCMarg)はこの問題に対処するために提案されている。 第2の課題は、ターゲット分布が難解であるため、最適化プロセスの微分可能性である。 我々はカーネル密度推定(KDE)を用いてこの問題に対処する。 提案手法は複雑な分布を学習するための強力なツールであり、プロセス全体が微分可能である。 したがって、変分オートエンコーダ(VAE)における変分推論のより良い代用となる。 提案手法の利点の1つは,提案手法によって得られた分布が,事前学習されたVAEデコーダを用いても,より良い画像を生成することができることである。 この点に基づいて、同じネットワークアーキテクチャの下で、VAEよりも優れた分散学習オートエンコーダを考案する。 標準データセットと合成データに関する実験は、提案手法の有効性を示している。

We propose a novel method to learn intractable distributions from their samples. The main idea is to use a parametric distribution model, such as a Gaussian Mixture Model (GMM), to approximate intractable distributions by minimizing the KL-divergence. Based on this idea, there are two challenges that need to be addressed. First, the computational complexity of KL-divergence is unacceptable when the dimensions of distributions increases. The Monte-Carlo Marginalization (MCMarg) is proposed to address this issue. The second challenge is the differentiability of the optimization process, since the target distribution is intractable. We handle this problem by using Kernel Density Estimation (KDE). The proposed approach is a powerful tool to learn complex distributions and the entire process is differentiable. Thus, it can be a better substitute of the variational inference in variational auto-encoders (VAE). One strong evidence of the benefit of our method is that the distributions learned by the proposed approach can generate better images even based on a pre-trained VAE's decoder. Based on this point, we devise a distribution learning auto-encoder which is better than VAE under the same network architecture. Experiments on standard dataset and synthetic data demonstrate the efficiency of the proposed approach.
翻訳日:2023-08-15 17:53:18 公開日:2023-08-11
# ミラー拡散モデル

Mirror Diffusion Models ( http://arxiv.org/abs/2308.06342v1 )

ライセンス: Link先を確認
Jaesung Tae(参考訳) 拡散モデルは様々な連続領域の生成タスクにうまく適用されている。 しかし、離散的分類データへの拡散を適用することは非自明な課題である。 さらに、連続ドメインの生成には実際にクリップングが必要であり、制限されたドメインに拡散を適用するための理論的枠組みが必要である。 制約サンプリング問題に対するミラーランゲヴィンアルゴリズムに着想を得たこの理論報告ではミラー拡散モデル(MDM)を提案する。 我々は,シンプルな拡散の文脈でMDMを実証し,画像やテキスト生成などの一般的な領域への自然な拡張を提案する。

Diffusion models have successfully been applied to generative tasks in various continuous domains. However, applying diffusion to discrete categorical data remains a non-trivial task. Moreover, generation in continuous domains often requires clipping in practice, which motivates the need for a theoretical framework for adapting diffusion to constrained domains. Inspired by the mirror Langevin algorithm for the constrained sampling problem, in this theoretical report we propose Mirror Diffusion Models (MDMs). We demonstrate MDMs in the context of simplex diffusion and propose natural extensions to popular domains such as image and text generation.
翻訳日:2023-08-15 17:53:01 公開日:2023-08-11
# 地質CO2貯蔵のサロゲートモデルとMCMCによる履歴マッチングへの応用

Surrogate Model for Geological CO2 Storage and Its Use in MCMC-based History Matching ( http://arxiv.org/abs/2308.06341v1 )

ライセンス: Link先を確認
Yifu Han, Francois P. Hamon, Su Jiang, Louis J. Durlofsky(参考訳) 深層学習に基づくサロゲートモデルは、地質的な炭素貯蔵操作において非常に有望である。 本研究は,高度な地質学的不確かさを特徴とするストレージシステムの履歴マッチングを,重要な応用を対象とする。 この目的に向けて,最近導入されたr-u-netサロゲートモデルを拡張し,多岐にわたる地質シナリオから得られたジオモデル実現を扱う。 これらのシナリオは、対数透過性の平均および標準偏差、透過性異方性比、水平相関長などのメタパラメータによって定義される。 各メタパラメータのセットに対して無限個の実現が生成されるので、事前の不確かさの範囲は大きい。 surrogateモデルは、2000のランダム実現のために、オープンソースのシミュレータgeosを使って生成されたフローシミュレーション結果で訓練される。 流れの問題には4つの井戸があり、それぞれ1mtco2/年を30年間注入している。 訓練されたサーロゲートモデルは、平均的な相対誤差が1.3%、飽和度が4.5%と、地質学的シナリオ全体にわたる新しい実現の正確な予測をもたらすことが示されている。 サロゲートモデルはマルコフ連鎖モンテカルロ履歴マッチングワークフローに組み込まれており、メタパラメータの履歴マッチング実現と後方推定を生成することを目標としている。 人工「真」モデルにおける坑井の観測データを用いて, 地質学的不確かさが大幅に減少することを示した。 これにより、後続の3次元圧力と飽和場は、以前の予測よりも真のモデル応答とより近い一致を示す。

Deep-learning-based surrogate models show great promise for use in geological carbon storage operations. In this work we target an important application - the history matching of storage systems characterized by a high degree of (prior) geological uncertainty. Toward this goal, we extend the recently introduced recurrent R-U-Net surrogate model to treat geomodel realizations drawn from a wide range of geological scenarios. These scenarios are defined by a set of metaparameters, which include the mean and standard deviation of log-permeability, permeability anisotropy ratio, horizontal correlation length, etc. An infinite number of realizations can be generated for each set of metaparameters, so the range of prior uncertainty is large. The surrogate model is trained with flow simulation results, generated using the open-source simulator GEOS, for 2000 random realizations. The flow problems involve four wells, each injecting 1 Mt CO2/year, for 30 years. The trained surrogate model is shown to provide accurate predictions for new realizations over the full range of geological scenarios, with median relative error of 1.3% in pressure and 4.5% in saturation. The surrogate model is incorporated into a Markov chain Monte Carlo history matching workflow, where the goal is to generate history matched realizations and posterior estimates of the metaparameters. We show that, using observed data from monitoring wells in synthetic `true' models, geological uncertainty is reduced substantially. This leads to posterior 3D pressure and saturation fields that display much closer agreement with the true-model responses than do prior predictions.
翻訳日:2023-08-15 17:52:53 公開日:2023-08-11
# 深部演算子ネットワークのためのサイズダウンバウンド

Size Lowerbounds for Deep Operator Networks ( http://arxiv.org/abs/2308.06338v1 )

ライセンス: Link先を確認
Anirbit Mukherjee and Amartya Roy(参考訳) ディープ・オペレーター・ネットワークは無限次元の回帰を解き、従ってPDEの族を1ショットで解くためのパラダイムとして人気が高まっている。 本研究は,ノイズデータに対する経験的誤差を低減できる深層ネットのサイズに対して,最初のデータ依存下限を確立することを目的としている。 特に、$n$のデータポイント上で低トレーニング誤差が得られるためには、ブランチとトランクネットの共通出力次元を$\Omega \left ( {\sqrt{n}} \right )$としてスケールする必要がある。 このことがDeepONetsによる実験にインスピレーションを与え、このモデルサイズが固定された場合、この共通出力次元の増加を活用でき、トレーニングエラーの単調な低減を実現するためには、トレーニングデータのサイズを2次的にスケールする必要があることを実証する。

Deep Operator Networks are an increasingly popular paradigm for solving regression in infinite dimensions and hence solve families of PDEs in one shot. In this work, we aim to establish a first-of-its-kind data-dependent lowerbound on the size of DeepONets required for them to be able to reduce empirical error on noisy data. In particular, we show that for low training errors to be obtained on $n$ data points it is necessary that the common output dimension of the branch and the trunk net be scaling as $\Omega \left ( {\sqrt{n}} \right )$. This inspires our experiments with DeepONets solving the advection-diffusion-reaction PDE, where we demonstrate the possibility that at a fixed model size, to leverage increase in this common output dimension and get monotonic lowering of training error, the size of the training data might necessarily need to scale quadratically with it.
翻訳日:2023-08-15 17:52:30 公開日:2023-08-11
# 文脈性に関するバンドル視点:バンドルシナリオ上の経験的モデルと単純分布

A bundle perspective on contextuality: Empirical models and simplicial distributions on bundle scenarios ( http://arxiv.org/abs/2308.06336v1 )

ライセンス: Link先を確認
Rui Soares Barbosa, Aziz Kharoof, Cihan Okay(参考訳) 本稿では, 単体錯体と単体集合のバンドルに基づく文脈性シナリオの新たなカテゴリを導入することにより, 文脈性に対するバンドル視点を提供する。 前者のアプローチは、文脈性に関する層論的視点に関する初期の研究を一般化し、後者は、単純化集合の言語で定式化された文脈性へのより最近のアプローチである、単純分布を拡張した。 バンドル圏を構成する後、それらと2つの言語で定式化された文脈性の概念を比較できる自然同型を関連付ける関手も構築する。 我々は、これらの圏の射によって捉えられる文脈性という資源理論への応用によって動機付けられている。 本稿では, 主な形式論を展開し, 応用を今後の課題に委ねる。

This paper provides a bundle perspective to contextuality by introducing new categories of contextuality scenarios based on bundles of simplicial complexes and simplicial sets. The former approach generalizes earlier work on the sheaf-theoretic perspective on contextuality, and the latter extends simplicial distributions, a more recent approach to contextuality formulated in the language of simplicial sets. After constructing our bundle categories, we also construct functors that relate them and natural isomorphisms that allow us to compare the notions of contextuality formulated in two languages. We are motivated by applications to the resource theory of contextuality, captured by the morphisms in these categories. In this paper, we develop the main formalism and leave applications to future work.
翻訳日:2023-08-15 17:52:11 公開日:2023-08-11
# 特徴集合と幾何学的類似性を組み合わせたパターン動物の再同定

Combining feature aggregation and geometric similarity for re-identification of patterned animals ( http://arxiv.org/abs/2308.06335v1 )

ライセンス: Link先を確認
Veikka Immonen, Ekaterina Nepovinnykh, Tuomas Eerola, Charles V. Stewart, Heikki K\"alvi\"ainen(参考訳) 画像に基づく動物個体の再識別は、時間とともに動物の移動パターンなどの情報の収集を可能にする。 これは、カメラトラップとクラウドソーシングを使って収集された大きな画像量とともに、動物の集団を研究する新しい可能性を開く。 多くの種では、各個体に固有の永久的な毛皮、羽毛、皮膚パターンを分析して再同定を行うことができる。 本稿では,2種類のパターン類似度メトリクスを組み合わせることにより,再同定を行う。 1)パターン特徴集約により得られるパターンの外観類似性と 2) パターン類似性の幾何学的一貫性を解析した幾何学的パターン類似性。 この組み合わせにより、局所パターンとグローバルパターンの両方を効率的に利用することができ、様々なパターンタイプに適用できる一般的な再同定アプローチを提供する。 実験では,ササメやアザラシのアザラシやアザラシに対して,有望な再同定の精度が得られた。

Image-based re-identification of animal individuals allows gathering of information such as migration patterns of the animals over time. This, together with large image volumes collected using camera traps and crowdsourcing, opens novel possibilities to study animal populations. For many species, the re-identification can be done by analyzing the permanent fur, feather, or skin patterns that are unique to each individual. In this paper, we address the re-identification by combining two types of pattern similarity metrics: 1) pattern appearance similarity obtained by pattern feature aggregation and 2) geometric pattern similarity obtained by analyzing the geometric consistency of pattern similarities. The proposed combination allows to efficiently utilize both the local and global pattern features, providing a general re-identification approach that can be applied to a wide variety of different pattern types. In the experimental part of the work, we demonstrate that the method achieves promising re-identification accuracies for Saimaa ringed seals and whale sharks.
翻訳日:2023-08-15 17:51:57 公開日:2023-08-11
# r2s100k: 野生の半教師付き自動運転のための道路領域セグメンテーションデータセット

R2S100K: Road-Region Segmentation Dataset For Semi-Supervised Autonomous Driving in the Wild ( http://arxiv.org/abs/2308.06393v1 )

ライセンス: Link先を確認
Muhammad Atif Butt, Hassan Ali, Adnan Qayyum, Waqas Sultani, Ala Al-Fuqaha, Junaid Qadir(参考訳) 道路の意味理解は、安全な自動運転の鍵となる要素である。 しかし、既存の自律走行データセットは、難易度、穴、水たまり、各種道路パッチ(土砂、砂利など)を含む非構造道路を無視しながら、よく構造化された都市道路を提供する。 この目的のために,道路分割データセット(R2S100K)を紹介した。これは,前述の未構造道路における道路分割のトレーニングと評価のための大規模データセットとベンチマークである。 R2S100Kは、1000KM以上の道路を網羅する大規模で多様なビデオシーケンスから抽出された100K画像からなる。 この100Kのプライバシーを尊重する画像のうち、14,000枚の画像は、道路領域の細かなラベル付けがあり、86,000枚の未ラベル画像は、半教師付き学習手法で活用できる。 同時に、ラベルのないデータを活用することで学習を改善するための、EDS(Efficient Data Smpling)ベースの自己学習フレームワークを提案する。 提案手法は,汎用性において学習方法を大幅に改善し,意味セグメンテーションタスクのラベリングコストを低減できることを示す。 私たちのベンチマークはhttps://r2s100k.github.io/で公開されます。

Semantic understanding of roadways is a key enabling factor for safe autonomous driving. However, existing autonomous driving datasets provide well-structured urban roads while ignoring unstructured roadways containing distress, potholes, water puddles, and various kinds of road patches i.e., earthen, gravel etc. To this end, we introduce Road Region Segmentation dataset (R2S100K) -- a large-scale dataset and benchmark for training and evaluation of road segmentation in aforementioned challenging unstructured roadways. R2S100K comprises 100K images extracted from a large and diverse set of video sequences covering more than 1000 KM of roadways. Out of these 100K privacy respecting images, 14,000 images have fine pixel-labeling of road regions, with 86,000 unlabeled images that can be leveraged through semi-supervised learning methods. Alongside, we present an Efficient Data Sampling (EDS) based self-training framework to improve learning by leveraging unlabeled data. Our experimental results demonstrate that the proposed method significantly improves learning methods in generalizability and reduces the labeling cost for semantic segmentation tasks. Our benchmark will be publicly available to facilitate future research at https://r2s100k.github.io/.
翻訳日:2023-08-15 17:43:57 公開日:2023-08-11
# LLMによる動的計画

Dynamic Planning with a LLM ( http://arxiv.org/abs/2308.06391v1 )

ライセンス: Link先を確認
Gautier Dagan, Frank Keller, Alex Lascarides(参考訳) 大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、エンボディエージェントを含むアプリケーションは依然として問題である。 特に、マルチステップ推論を必要とする複雑なプランは、コンテキストウィンドウが大きくなるにつれて困難でコストがかかりすぎる。 計画には、行動の潜在的影響を理解し、現在の環境が目標状態を満たすかどうかを識別する必要がある。 シンボリックプランナーは最適解を素早く見つけるが、計画問題の完全かつ正確な表現が必要であり、実践的なシナリオでの使用を著しく制限する。 対照的に、現代のLLMはタスクを推論する際にノイズの多い観測と高いレベルの不確実性に対処する。 LLM動的プランナー (LLM-DP) は, 従来のプランナーと協調して動作し, 具体的課題を解決する, ニューロシンボリック・シンボリック・フレームワークである。 アクション記述が与えられた後、LSM-DPはALFworldを単純かつ効率的に解決する。

While Large Language Models (LLMs) can solve many NLP tasks in zero-shot settings, applications involving embodied agents remain problematic. In particular, complex plans that require multi-step reasoning become difficult and too costly as the context window grows. Planning requires understanding the likely effects of one's actions and identifying whether the current environment satisfies the goal state. While symbolic planners find optimal solutions quickly, they require a complete and accurate representation of the planning problem, severely limiting their use in practical scenarios. In contrast, modern LLMs cope with noisy observations and high levels of uncertainty when reasoning about a task. Our work presents LLM Dynamic Planner (LLM-DP): a neuro-symbolic framework where an LLM works hand-in-hand with a traditional planner to solve an embodied task. Given action-descriptions, LLM-DP solves Alfworld faster and more efficiently than a naive LLM ReAct baseline.
翻訳日:2023-08-15 17:43:36 公開日:2023-08-11
# zyn: ゼロショット報酬モデルに疑問なし

ZYN: Zero-Shot Reward Models with Yes-No Questions ( http://arxiv.org/abs/2308.06385v1 )

ライセンス: Link先を確認
Victor Gallego(参考訳) 本研究では, LLMのテキスト生成を所望の動作に向け, 生成したテキストと人間の操作者の好みを一致させる問題に対処する。 本稿では,さらにラベル付けされたデータを必要とすることなく,ユーザの好みを表すYes-No質問のプロンプトにより,ゼロショット方式で他の言語モデルを用いた報酬モデルを提案する。 このゼロショット報酬モデルは、RLAIFのような強化学習を用いてベースLSMをさらに微調整する学習信号を提供するが、我々のアプローチは品質多様性探索のような他の文脈でも互換性がある。 提案するzinフレームワークの機能に関する広範な証拠は、テキスト生成に関連するさまざまなドメインの実験、映画レビューの感情の最適化、モデルが持つ可能性のある特定のトピックに関する意見の調整、テキストから画像へのタスクのためのプロンプトジェネレータのパーソナライズなどを通じて提供される。 コードは \url{https://github.com/vicgalle/zero-shot-reward-models/} でリリースされる。

In this work, we address the problem of directing the text generations of a LLM towards a desired behavior, aligning the generated text with the preferences of the human operator. We propose using another language model as a critic, reward model in a zero-shot way thanks to the prompt of a Yes-No question that represents the user preferences, without requiring further labeled data. This zero-shot reward model provides the learning signal to further fine-tune the base LLM using reinforcement learning, as in RLAIF; yet our approach is also compatible in other contexts such as quality-diversity search. Extensive evidence of the capabilities of the proposed ZYN framework is provided through experiments in different domains related to text generation, including detoxification; optimizing sentiment of movie reviews, or any other attribute; steering the opinion about a particular topic the model may have; and personalizing prompt generators for text-to-image tasks. Code to be released at \url{https://github.com/vicgalle/zero-shot-reward-models/}.
翻訳日:2023-08-15 17:43:21 公開日:2023-08-11
# U-RED:部分点雲の教師なし3次元形状検索と変形

U-RED: Unsupervised 3D Shape Retrieval and Deformation for Partial Point Clouds ( http://arxiv.org/abs/2308.06383v1 )

ライセンス: Link先を確認
Yan Di, Chenyangguang Zhang, Ruida Zhang, Fabian Manhardt, Yongzhi Su, Jason Rambach, Didier Stricker, Xiangyang Ji and Federico Tombari(参考訳) 本稿では,任意の物体を入力として入力し,通常rgb画像やスキャンでキャプチャし,予め確立したデータベースから幾何学的に類似したcadモデルを共同検索して変形する非教師あり形状検索・変形パイプラインであるu-redを提案する。 既存の手法ではノイズの多い部分観測を処理できないため、u-redは2つの側面からこの問題に対処するように設計されている。 第一に、ある部分形状が複数のポテンシャルフル形状に対応する可能性があるため、検索方法はそのような曖昧な一対一の関係を許容する必要がある。 これによりU-REDは、部分的対象の可能なすべての完全な形状を単位球面に投影することを学ぶ。 そして、推論の間、球面上の各サンプリングは、実行可能な検索をもたらす。 第二に, 実世界の部分的観測には目に見えるノイズが伴うため, 形状の類似性を測定するための信頼性の高い学習指標が必要である。 U-REDでは、ノイズ・ロバスト比較が可能な新しいポイントワイド残差誘導計量を設計する。 合成データセット partnet, complementme, real-world dataset scan2cad に関する広範な実験により、u-red は既存の最先端のアプローチを 47.3%, 16.7%, 31.6% のチャンファー距離でそれぞれ上回っていることが示されている。

In this paper, we propose U-RED, an Unsupervised shape REtrieval and Deformation pipeline that takes an arbitrary object observation as input, typically captured by RGB images or scans, and jointly retrieves and deforms the geometrically similar CAD models from a pre-established database to tightly match the target. Considering existing methods typically fail to handle noisy partial observations, U-RED is designed to address this issue from two aspects. First, since one partial shape may correspond to multiple potential full shapes, the retrieval method must allow such an ambiguous one-to-many relationship. Thereby U-RED learns to project all possible full shapes of a partial target onto the surface of a unit sphere. Then during inference, each sampling on the sphere will yield a feasible retrieval. Second, since real-world partial observations usually contain noticeable noise, a reliable learned metric that measures the similarity between shapes is necessary for stable retrieval. In U-RED, we design a novel point-wise residual-guided metric that allows noise-robust comparison. Extensive experiments on the synthetic datasets PartNet, ComplementMe and the real-world dataset Scan2CAD demonstrate that U-RED surpasses existing state-of-the-art approaches by 47.3%, 16.7% and 31.6% respectively under Chamfer Distance.
翻訳日:2023-08-15 17:42:58 公開日:2023-08-11
# Phoneme Hallucinator: セット拡張によるワンショット音声変換

Phoneme Hallucinator: One-shot Voice Conversion via Set Expansion ( http://arxiv.org/abs/2308.06382v1 )

ライセンス: Link先を確認
Siyuan Shan, Yang Li, Amartya Banerjee, Junier B. Oliva(参考訳) 音声変換(VC)は、人の声を他の人の声に似せて、言語的内容を保存することを目的としている。 既存の手法は、コンテンツインテリジェンスと話者類似性の間のジレンマに悩まされる;すなわち、高いインテリジェンスを持つ方法は通常、低い話者類似性を持つが、高い話者類似性を持つ方法は、高いインテリジェンスを達成するために、多くのターゲット話者音声データを必要とする。 本研究では,両世界の最良を達成できる新しい方法であるtextit{Phoneme Hallucinator}を提案する。 Phoneme HallucinatorはワンショットVCモデルであり、短いターゲット話者の声(例えば3秒)のみに基づいて、多様化された高忠実度ターゲット話者音素を幻覚させる新しいモデルを採用している。 幻覚音素は、隣人に基づく音声変換を行うために利用される。 私たちのモデルはテキストフリーで任意のvcモデルで、テキストアノテーションを必要とせず、見当たらない話者への変換をサポートします。 客観的および主観的評価は, 既存のVC手法よりも, 可知性と話者類似性の両方において優れていたことを示している。

Voice conversion (VC) aims at altering a person's voice to make it sound similar to the voice of another person while preserving linguistic content. Existing methods suffer from a dilemma between content intelligibility and speaker similarity; i.e., methods with higher intelligibility usually have a lower speaker similarity, while methods with higher speaker similarity usually require plenty of target speaker voice data to achieve high intelligibility. In this work, we propose a novel method \textit{Phoneme Hallucinator} that achieves the best of both worlds. Phoneme Hallucinator is a one-shot VC model; it adopts a novel model to hallucinate diversified and high-fidelity target speaker phonemes based just on a short target speaker voice (e.g. 3 seconds). The hallucinated phonemes are then exploited to perform neighbor-based voice conversion. Our model is a text-free, any-to-any VC model that requires no text annotations and supports conversion to any unseen speaker. Objective and subjective evaluations show that \textit{Phoneme Hallucinator} outperforms existing VC methods for both intelligibility and speaker similarity.
翻訳日:2023-08-15 17:42:31 公開日:2023-08-11
# dcnfis:深層畳み込み型ニューロファジー推論システム

DCNFIS: Deep Convolutional Neuro-Fuzzy Inference System ( http://arxiv.org/abs/2308.06378v1 )

ライセンス: Link先を確認
Mojtaba Yeganejou, Kimia Honari, Ryan Kluzinski, Scott Dick, Michael Lipsett, James Miller(参考訳) eXplainable Artificial Intelligenceの鍵となる課題は、アルゴリズムの透明性(つまり、人間がポストホックな説明を受けるのとは対照的に、どのようにしてアルゴリズムを直接理解できるか)と、その正確さの間のよく知られたトレードオフである。 精度を犠牲にすることなく透明性を向上させる新しいディープネットワークの設計について報告する。 ファジィ論理とディープラーニングモデルのハイブリッド化による深部畳み込みニューラルファジィ推論システム(DCNFIS)を設計し、DCNFISが4つのよく知られたデータセット上で3つの既存の畳み込みニューラルネットの精度を示す。 さらに、DCNFISは最先端の深層ファジィシステムより優れています。 そこで我々は,DCNFISで符号化されたファジィ規則から,ファジィ論理の透明性を,サリエンシマップの形で導出した。 ファッショナリズムデータセットを用いて,これらの説明の性質をより深く検討する。

A key challenge in eXplainable Artificial Intelligence is the well-known tradeoff between the transparency of an algorithm (i.e., how easily a human can directly understand the algorithm, as opposed to receiving a post-hoc explanation), and its accuracy. We report on the design of a new deep network that achieves improved transparency without sacrificing accuracy. We design a deep convolutional neuro-fuzzy inference system (DCNFIS) by hybridizing fuzzy logic and deep learning models and show that DCNFIS performs as accurately as three existing convolutional neural networks on four well-known datasets. We furthermore that DCNFIS outperforms state-of-the-art deep fuzzy systems. We then exploit the transparency of fuzzy logic by deriving explanations, in the form of saliency maps, from the fuzzy rules encoded in DCNFIS. We investigate the properties of these explanations in greater depth using the Fashion-MNIST dataset.
翻訳日:2023-08-15 17:42:08 公開日:2023-08-11
# CATS v2: 堅牢な医療セグメント化のためのハイブリッドエンコーダ

CATS v2: Hybrid encoders for robust medical segmentation ( http://arxiv.org/abs/2308.06377v1 )

ライセンス: Link先を確認
Hao Li, Han Liu, Dewei Hu, Xing Yao, Jiacheng Wang, Ipek Oguz(参考訳) 畳み込みニューラルネットワーク(CNN)は、エッジやテクスチャといった高レベルな(ローカルな)情報をキャプチャすることで、医用画像セグメンテーションタスクにおいて強力なパフォーマンスを示した。 しかし、畳み込みカーネルの視野が限られているため、CNNがグローバル情報を完全に表現することは困難である。 近年,医療画像のセグメンテーションにおいて,長距離依存関係をモデル化する能力により,トランスフォーマーの性能が向上している。 それでもトランスフォーマーはcnnのような高レベルな空間的特徴を効果的に捉えるのに苦労している。 優れたセグメンテーションモデルは、ローカル機能とグローバル機能の両方が正確かつセマンティックに正確であるように、より良い表現を学ぶべきです。 本稿では,トランスエンコーダを付加したU字型セグメンテーションネットワークであるCATSを提案する。 本研究では,このモデルをさらに拡張し,ハイブリッドエンコーダを用いたCATS v2を提案する。 特に、ハイブリッドエンコーダは、CNNベースのエンコーダパスからなり、シフトウィンドウを持つトランスフォーマーパスに平行して、ローカル情報とグローバル情報の両方を利用して、堅牢な3次元医用画像セグメンテーションを生成する。 我々は、異なる解像度のスキップ接続で畳み込みエンコーダとトランスから情報を融合し、最終的なセグメンテーションを形成する。 提案手法は,CrossMoDA (CrossMoDA) とMSD-5 (Medical Segmentation Decathlon) のタスク5 (タスク5) の2つの公的な課題データセットを用いて,前庭神経腫 (VS) と前立腺腫 (prestate) を区分する。 提案手法は最先端の手法と比較して高いDiceスコアの点で優れた性能を示す。

Convolutional Neural Networks (CNNs) have exhibited strong performance in medical image segmentation tasks by capturing high-level (local) information, such as edges and textures. However, due to the limited field of view of convolution kernel, it is hard for CNNs to fully represent global information. Recently, transformers have shown good performance for medical image segmentation due to their ability to better model long-range dependencies. Nevertheless, transformers struggle to capture high-level spatial features as effectively as CNNs. A good segmentation model should learn a better representation from local and global features to be both precise and semantically accurate. In our previous work, we proposed CATS, which is a U-shaped segmentation network augmented with transformer encoder. In this work, we further extend this model and propose CATS v2 with hybrid encoders. Specifically, hybrid encoders consist of a CNN-based encoder path paralleled to a transformer path with a shifted window, which better leverage both local and global information to produce robust 3D medical image segmentation. We fuse the information from the convolutional encoder and the transformer at the skip connections of different resolutions to form the final segmentation. The proposed method is evaluated on two public challenge datasets: Cross-Modality Domain Adaptation (CrossMoDA) and task 5 of Medical Segmentation Decathlon (MSD-5), to segment vestibular schwannoma (VS) and prostate, respectively. Compared with the state-of-the-art methods, our approach demonstrates superior performance in terms of higher Dice scores.
翻訳日:2023-08-15 17:41:49 公開日:2023-08-11
# UAMM:UBETの自動化市場

UAMM: UBET Automated Market Maker ( http://arxiv.org/abs/2308.06375v1 )

ライセンス: Link先を確認
Daniel Jiwoong Im, Alexander Kondratskiy, Vincent Harvey, Hsuan-Wei Fu(参考訳) AMM(Automated Marketmaker)は、分散型取引所(DEX)が利用する価格設定機構である。 従来のAMMアプローチは、外部市場や流動性プロバイダのリスク管理を考慮せずに、独自の流動性プールのみに基づく価格設定によって制約されている。 本稿では,外部市場価格と流動性プールの不連続損失を考慮し,価格を算出する手法である ubet amm (uamm) を提案する。 外部の市場価格に依存するにもかかわらず,本手法は製品曲線の所望の特性を一定に維持する。 UAMMの鍵となる要素は、所望の目標バランスに基づいて適切なすべり量を決定することである。 当社のアプローチは,外部市場価格が効率的である場合の仲裁機会を排除できることを実証する。

Automated market makers (AMMs) are pricing mechanisms utilized by decentralized exchanges (DEX). Traditional AMM approaches are constrained by pricing solely based on their own liquidity pool, without consideration of external markets or risk management for liquidity providers. In this paper, we propose a new approach known as UBET AMM (UAMM), which calculates prices by considering external market prices and the impermanent loss of the liquidity pool. Despite relying on external market prices, our method maintains the desired properties of a constant product curve when computing slippages. The key element of UAMM is determining the appropriate slippage amount based on the desired target balance, which encourages the liquidity pool to minimize impermanent loss. We demonstrate that our approach eliminates arbitrage opportunities when external market prices are efficient.
翻訳日:2023-08-15 17:41:15 公開日:2023-08-11
# 大規模言語モデルと知識グラフ: 機会と課題

Large Language Models and Knowledge Graphs: Opportunities and Challenges ( http://arxiv.org/abs/2308.06374v1 )

ライセンス: Link先を確認
Jeff Z. Pan, Simon Razniewski, Jan-Christoph Kalo, Sneha Singhania, Jiaoyan Chen, Stefan Dietze, Hajira Jabeen, Janna Omeliyanenko, Wen Zhang, Matteo Lissandrini, Russa Biswas, Gerard de Melo, Angela Bonifati, Edlira Vakaj, Mauro Dragoni, Damien Graux(参考訳) 大規模言語モデル(llm)は、知識表現 -- と世界 -- を嵐にさらしている。 この屈折点は、明示的な知識表現から、明示的な知識とパラメトリックな知識のハイブリッド表現への新たな焦点へのシフトを示す。 本稿では,LLM(パラメトリック知識)と知識グラフ(専門知識)のコミュニティ内での共通する議論点について論じ,新たな焦点がもたらす機会やビジョン,関連する研究トピックや課題について考察する。

Large Language Models (LLMs) have taken Knowledge Representation -- and the world -- by storm. This inflection point marks a shift from explicit knowledge representation to a renewed focus on the hybrid representation of both explicit knowledge and parametric knowledge. In this position paper, we will discuss some of the common debate points within the community on LLMs (parametric knowledge) and Knowledge Graphs (explicit knowledge) and speculate on opportunities and visions that the renewed focus brings, as well as related research topics and challenges.
翻訳日:2023-08-15 17:41:03 公開日:2023-08-11
# 非コヒーレントオーバーザエア計算によるワイヤレスフェデレーション$k$-Meansクラスタリング

Wireless Federated $k$-Means Clustering with Non-coherent Over-the-Air Computation ( http://arxiv.org/abs/2308.06371v1 )

ライセンス: Link先を確認
Alphan Sahin(参考訳) 本研究では,無線ネットワーク上で実装された場合の通信遅延を低減するために,フェデレートk平均クラスタリングアルゴリズムに対してoac(over-the-air computation)方式を提案する。 OAC方式は、バランスの取れた数系における数値の表現を利用するエンコーダに依存し、無線マルチアクセスチャネルの信号重畳特性を介して連合k平均の更新の総和を非整合的に計算し、正確な位相と時間同期の必要性をなくす。 また,不有効利用したセンチロイドの再初期化手法を提案し,不均一なデータ分散のための提案手法の性能向上を図った。 ユーザロケーションクラスタリングのシナリオでは、提案アルゴリズムの性能を実証し、標準のk-meansクラスタリングと比較する。 提案手法は,通信遅延を低減しつつ,標準的なk-meansと同様の動作を示す。

In this study, we propose using an over-the-air computation (OAC) scheme for the federated k-means clustering algorithm to reduce the per-round communication latency when it is implemented over a wireless network. The OAC scheme relies on an encoder exploiting the representation of a number in a balanced number system and computes the sum of the updates for the federated k-means via signal superposition property of wireless multiple-access channels non-coherently to eliminate the need for precise phase and time synchronization. Also, a reinitialization method for ineffectively used centroids is proposed to improve the performance of the proposed method for heterogeneous data distribution. For a customer-location clustering scenario, we demonstrate the performance of the proposed algorithm and compare it with the standard k-means clustering. Our results show that the proposed approach performs similarly to the standard k-means while reducing communication latency.
翻訳日:2023-08-15 17:40:54 公開日:2023-08-11
# M&M:マルチビュー・マルチインスタンス学習スパース検出器を用いたマンモグラフィーにおける偽陽性の対応

M&M: Tackling False Positives in Mammography with a Multi-view and Multi-instance Learning Sparse Detector ( http://arxiv.org/abs/2308.06420v1 )

ライセンス: Link先を確認
Yen Nhi Truong Vu, Dan Guo, Ahmed Taha, Jason Su, Thomas Paul Matthews(参考訳) 深層学習に基づく物体検出法は, マンモグラフィーのスクリーニングの改善を約束するが, 偽陽性率が高いと臨床効果を阻害する可能性がある。 偽陽性を減少させるには,(1) 自然画像と異なり,悪性マンモグラフィは1つの悪性所見しか含まない,(2) マンモグラフィ検査は各乳房の2つの所見を包含する,(2) どちらの見解も正しい評価をすべきである,(3) マンモグラムは否定的であり,何の所見も含まない,の3つの課題を見いだす。 本研究では,(1)スパースR-CNNの活用と,(2)マンモグラフィの高密度検出器よりもスパース検出器の方が適切であることを示すこと,(2)異なる視点から情報を合成するための多視点クロスアテンションモジュールを含むこと,(3)マルチインスタンス・ラーニング(MIL)を取り入れた乳房レベルの分類を行うこと,の3つの課題に取り組む。 得られたモデルであるM&Mは、悪性所見の局所化と乳房レベルの予測を提供するマルチビューおよびマルチインスタンス学習システムである。 5つのマンモグラフィーデータセットを用いてM&Mの検出と分類性能を検証する。 また,提案する各成分の有効性を包括的アブレーション研究により実証する。

Deep-learning-based object detection methods show promise for improving screening mammography, but high rates of false positives can hinder their effectiveness in clinical practice. To reduce false positives, we identify three challenges: (1) unlike natural images, a malignant mammogram typically contains only one malignant finding; (2) mammography exams contain two views of each breast, and both views ought to be considered to make a correct assessment; (3) most mammograms are negative and do not contain any findings. In this work, we tackle the three aforementioned challenges by: (1) leveraging Sparse R-CNN and showing that sparse detectors are more appropriate than dense detectors for mammography; (2) including a multi-view cross-attention module to synthesize information from different views; (3) incorporating multi-instance learning (MIL) to train with unannotated images and perform breast-level classification. The resulting model, M&M, is a Multi-view and Multi-instance learning system that can both localize malignant findings and provide breast-level predictions. We validate M&M's detection and classification performance using five mammography datasets. In addition, we demonstrate the effectiveness of each proposed component through comprehensive ablation studies.
翻訳日:2023-08-15 17:35:27 公開日:2023-08-11
# 歩行者・車両混在環境における歩行者軌道予測 : システムレビュー

Pedestrian Trajectory Prediction in Pedestrian-Vehicle Mixed Environments: A Systematic Review ( http://arxiv.org/abs/2308.06419v1 )

ライセンス: Link先を確認
Mahsa Golchoubian, Moojan Ghafurian, Kerstin Dautenhahn, Nasser Lashgarian Azad(参考訳) 歩行者と共有する空間における自律走行車(av)の経路計画には、歩行者の将来の軌道についての推論が必要である。 avs使用のための実用的な歩行者軌跡予測アルゴリズムは、歩行者と車両の相互作用が歩行者の将来の行動に与える影響を考慮する必要がある。 本稿では,非構造環境に適用可能な車両の存在下での歩行者軌道予測をモデル化するための文献的手法を体系的に検討する。 本研究は, 歩行者と車両の相互作用(歩行者と歩行者の相互作用)に関する具体的な考察や, 予測の不確実性, 行動的差異などの変数の違いが, 従来提案されていた予測モデルにおいてどのように説明されているかを考察する。 PRISMAガイドラインが守られた。 車両と歩行者の相互作用や実際の軌道を考慮しない記事や道路横断にのみ焦点を絞った記事は除外された。 ACM Digital Library、IEEE Xplore、Scopusデータベースからの1260のユニークなピアレビュー記事が検索で特定された。 64の論文が最終レビューに含まれ、包含と排他の基準を満たした。 本論文では,歩行者と車両の軌跡データを含むデータセットの概要について概説した。 深層学習における対話エージェントの効果的な定義や,非構造化環境における混在トラフィックのデータセット収集の必要性など,今後の研究のギャップと方向性について論じる。

Planning an autonomous vehicle's (AV) path in a space shared with pedestrians requires reasoning about pedestrians' future trajectories. A practical pedestrian trajectory prediction algorithm for the use of AVs needs to consider the effect of the vehicle's interactions with the pedestrians on pedestrians' future motion behaviours. In this regard, this paper systematically reviews different methods proposed in the literature for modelling pedestrian trajectory prediction in presence of vehicles that can be applied for unstructured environments. This paper also investigates specific considerations for pedestrian-vehicle interaction (compared with pedestrian-pedestrian interaction) and reviews how different variables such as prediction uncertainties and behavioural differences are accounted for in the previously proposed prediction models. PRISMA guidelines were followed. Articles that did not consider vehicle and pedestrian interactions or actual trajectories, and articles that only focused on road crossing were excluded. A total of 1260 unique peer-reviewed articles from ACM Digital Library, IEEE Xplore, and Scopus databases were identified in the search. 64 articles were included in the final review as they met the inclusion and exclusion criteria. An overview of datasets containing trajectory data of both pedestrians and vehicles used by the reviewed papers has been provided. Research gaps and directions for future work, such as having more effective definition of interacting agents in deep learning methods and the need for gathering more datasets of mixed traffic in unstructured environments are discussed.
翻訳日:2023-08-15 17:34:27 公開日:2023-08-11
# 開語彙オブジェクト検出のための擬似ラベルの改良

Improving Pseudo Labels for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2308.06412v1 )

ライセンス: Link先を確認
Shiyu Zhao, Samuel Schulter, Long Zhao, Zhixing Zhang, Vijay Kumar B.G, Yumin Suh, Manmohan Chandraker, Dimitris N. Metaxas(参考訳) 近年の研究では、事前学習された視覚と言語モデル(VLM)から擬似ラベル(PL)を用いたオープン語彙オブジェクト検出(OVD)において有望な性能を示す。 しかしながら, VLM が生成する PL は, PL のさらなる進歩を阻害する VLM と OVD の事前学習目標とのギャップのため, 非常にうるさい。 本稿では,plsの騒音低減を目的として,オンライン自己学習とovdのための分割・融合ヘッド(sas-det)を提案する。 第一に、自己学習ファインチューンVLMは高品質なPLを生成し、事前学習で学んだ知識を忘れないようにする。 第2に、saf(slit-and-fusion)ヘッドはplsの局在におけるノイズを除去するように設計されている。 また、正確な根拠の真理と騒がしい偽のラベルの両方から学んだ補完的な知識を融合してパフォーマンスを高めている。 SAS-Detは効率的かつ効果的である。 擬似ラベリングは、以前のメソッドの3倍高速です。 sas-detは、同じスケールの以前の最先端モデルを明確なマージンで上回り、cocoベンチマークとlvisベンチマークでそれぞれ37.4 ap$_{50}$と27.3 ap$_r$を達成した。

Recent studies show promising performance in open-vocabulary object detection (OVD) using pseudo labels (PLs) from pretrained vision and language models (VLMs). However, PLs generated by VLMs are extremely noisy due to the gap between the pretraining objective of VLMs and OVD, which blocks further advances on PLs. In this paper, we aim to reduce the noise in PLs and propose a method called online Self-training And a Split-and-fusion head for OVD (SAS-Det). First, the self-training finetunes VLMs to generate high quality PLs while prevents forgetting the knowledge learned in the pretraining. Second, a split-and-fusion (SAF) head is designed to remove the noise in localization of PLs, which is usually ignored in existing methods. It also fuses complementary knowledge learned from both precise ground truth and noisy pseudo labels to boost the performance. Extensive experiments demonstrate SAS-Det is both efficient and effective. Our pseudo labeling is 3 times faster than prior methods. SAS-Det outperforms prior state-of-the-art models of the same scale by a clear margin and achieves 37.4 AP$_{50}$ and 27.3 AP$_r$ on novel categories of the COCO and LVIS benchmarks, respectively.
翻訳日:2023-08-15 17:33:47 公開日:2023-08-11
# uam航空交通管理とヒューマン・スーパーバイザーとの対話の可能性--ルート変更

Dialogue Possibilities between a Human Supervisor and UAM Air Traffic Management: Route Alteration ( http://arxiv.org/abs/2308.06411v1 )

ライセンス: Link先を確認
Jeongseok Kim and Kangjin Kim(参考訳) 本稿では,知識表現と推論を用いた都市大気交通管理(UATM)におけるデトゥールマネジメントの新しいアプローチを提案する。 UAMデトゥールの複雑さと要求を理解することを目的としており、慎重にサンプリングされた環境で安全で効率的なルートを素早く識別する手法を実現する。 この解集合プログラミングで実装される手法は、安全性や潜在的影響などの要因を考慮して、人間マネージャとuatmシステムの間での非単調推論と二相会話を用いる。 提案手法のロバスト性と有効性は,2つのシミュレーションシナリオから得られた複数の質問によって検証され,人間の知識と高度なai技術の共生に寄与した。 論文では、関連する研究、問題定式化、解決策、議論、コメントのまとめについて紹介する。

This paper introduces a novel approach to detour management in Urban Air Traffic Management (UATM) using knowledge representation and reasoning. It aims to understand the complexities and requirements of UAM detours, enabling a method that quickly identifies safe and efficient routes in a carefully sampled environment. This method implemented in Answer Set Programming uses non-monotonic reasoning and a two-phase conversation between a human manager and the UATM system, considering factors like safety and potential impacts. The robustness and efficacy of the proposed method were validated through several queries from two simulation scenarios, contributing to the symbiosis of human knowledge and advanced AI techniques. The paper provides an introduction, citing relevant studies, problem formulation, solution, discussions, and concluding comments.
翻訳日:2023-08-15 17:33:19 公開日:2023-08-11
# タブーとコラボレーティブな知識生産:wikipediaからの証拠

Taboo and Collaborative Knowledge Production: Evidence from Wikipedia ( http://arxiv.org/abs/2308.06403v1 )

ライセンス: Link先を確認
Kaylea Champion and Benjamin Mako Hill(参考訳) 定義上、人々はタブーの主題について話したくない、あるいは興味をそそられる。 多くの文化において、セクシュアリティ、健康、暴力といったテーマはタブーであるため、それぞれのテーマに関する重要な情報は入手が困難である。 wikipediaのようなピア生成の知識ベースは、タブーの主題に関する情報を人々に提供するための有望なアプローチだろうか? タブーに逆らうボランティアに頼っているため、ピア生産モデルはタブーの被験者に高品質な情報を作り出すことができるのか? 本稿では,ボランティアによる知識ベースにおけるタブーの役割を理解することを目的とする。 本研究では,タブー対象を識別するための新しい計算手法を開発し,この手法を用いて,英語ウィキペディアにおけるタブー対象の集合を同定する。 タブー主題の記事はタブー以外の記事よりも人気が高く、しばしば破壊される。 頻繁な破壊攻撃にもかかわらず、タブー記事は非タブー記事よりも品質が高いこともわかりました。 我々は、社会的態度の便宜化が、タブーの被験者への貢献者に対して、より識別しにくくすることにつながると仮定する。 私たちの結果はいくつかの点でこの提案と一致していますが、コントリビュータが他人でより身元を特定できるのは驚くべきことです。

By definition, people are reticent or even unwilling to talk about taboo subjects. Because subjects like sexuality, health, and violence are taboo in most cultures, important information on each of these subjects can be difficult to obtain. Are peer produced knowledge bases like Wikipedia a promising approach for providing people with information on taboo subjects? With its reliance on volunteers who might also be averse to taboo, can the peer production model produce high-quality information on taboo subjects? In this paper, we seek to understand the role of taboo in knowledge bases produced by volunteers. We do so by developing a novel computational approach to identify taboo subjects and by using this method to identify a set of articles on taboo subjects in English Wikipedia. We find that articles on taboo subjects are more popular than non-taboo articles and that they are frequently vandalized. Despite frequent vandalism attacks, we also find that taboo articles are higher quality than non-taboo articles. We hypothesize that stigmatizing societal attitudes will lead contributors to taboo subjects to seek to be less identifiable. Although our results are consistent with this proposal in several ways, we surprisingly find that contributors make themselves more identifiable in others.
翻訳日:2023-08-15 17:33:03 公開日:2023-08-11
# 自動適応SSVEP認識を用いた脳-コンピュータインタフェース拡張現実感フレームワーク

A Brain-Computer Interface Augmented Reality Framework with Auto-Adaptive SSVEP Recognition ( http://arxiv.org/abs/2308.06401v1 )

ライセンス: Link先を確認
Yasmine Mustafa, Mohamed Elmahallawy, Tie Luo, Seif Eldawlatly(参考訳) Brain-Computer Interface (BCI) は当初、身体障害者を支援するアプリケーションの開発で注目を集めた。 近年、BCIと拡張現実(AR)を統合するというアイデアが登場し、BCIは障害者の生活の質を高めるだけでなく、健康なユーザー向けのメインストリームアプリケーションの開発にも利用されている。 一般的に用いられるBCIシグナルパターンの1つはステアディ状態視覚誘発電位(SSVEP)であり、脳の刺激に対する反応を捉えている。 SSVEPベースのBCI-ARアプリケーションは、ユーザが対応するコマンドオプションを単に見るだけで、ニーズ/要求を表現できる。 しかし、個体は脳のシグナルが異なるため、サブジェクト毎のssvep認識が必要である。 さらに、筋肉の動きと眼球の瞬きは脳の信号に干渉するため、被験者はarの関与を制限するbci実験中に静止することが求められる。 本稿では,(1)サブジェクト間可変性を扱う簡易適応アンサンブル分類システムを提案し,(2)幅広いssvepベースのbci-arアプリケーションの開発を支援するシンプルなbci-arフレームワークを提案し,(3)移動干渉に対して頑健な頭部回転を持つssvepベースのbci-arアプリケーションにおいて,アンサンブルアルゴリズムの性能を評価する。 複数の被験者で行ったテストでは、pcで80\%、hololens arヘッドセットで77\%の平均精度が達成され、どちらも個々の分類器と頭の動きを組み込んだ以前の研究を上回った。 さらに、視覚刺激時間は5秒であり、比較的短い。 統計的に有意な結果は,SSVEPに基づくBCIにおいて,アンサンブル分類法が個々の分類器より優れていることを示している。

Brain-Computer Interface (BCI) initially gained attention for developing applications that aid physically impaired individuals. Recently, the idea of integrating BCI with Augmented Reality (AR) emerged, which uses BCI not only to enhance the quality of life for individuals with disabilities but also to develop mainstream applications for healthy users. One commonly used BCI signal pattern is the Steady-state Visually-evoked Potential (SSVEP), which captures the brain's response to flickering visual stimuli. SSVEP-based BCI-AR applications enable users to express their needs/wants by simply looking at corresponding command options. However, individuals are different in brain signals and thus require per-subject SSVEP recognition. Moreover, muscle movements and eye blinks interfere with brain signals, and thus subjects are required to remain still during BCI experiments, which limits AR engagement. In this paper, we (1) propose a simple adaptive ensemble classification system that handles the inter-subject variability, (2) present a simple BCI-AR framework that supports the development of a wide range of SSVEP-based BCI-AR applications, and (3) evaluate the performance of our ensemble algorithm in an SSVEP-based BCI-AR application with head rotations which has demonstrated robustness to the movement interference. Our testing on multiple subjects achieved a mean accuracy of 80\% on a PC and 77\% using the HoloLens AR headset, both of which surpass previous studies that incorporate individual classifiers and head movements. In addition, our visual stimulation time is 5 seconds which is relatively short. The statistically significant results show that our ensemble classification approach outperforms individual classifiers in SSVEP-based BCIs.
翻訳日:2023-08-15 17:32:44 公開日:2023-08-11
# 混合効果モデルと階層クラスタリングによる異種農業データセットを用いたベイズネットワークの学習

Learning Bayesian Networks with Heterogeneous Agronomic Data Sets via Mixed-Effect Models and Hierarchical Clustering ( http://arxiv.org/abs/2308.06399v1 )

ライセンス: Link先を確認
Lorenzo Vallegi and Marco Scutari and Federico Mattia Stefanini(参考訳) 共変量と結果の関連性が異なる多様だが関連するデータセットに関する研究は、農学研究を含む様々な分野において一般的である。 これらのシナリオでは、階層モデル(マルチレベルモデルとも呼ばれる)は、異なるデータセットからの情報を同化しつつ、それぞれの特徴を調節するために頻繁に使用される。 しかし、それらの構造は単純な不均一性を超えて、変数はしばしば因果関係の複雑なネットワークを形成する。 ベイズネットワーク(BN)は、変数間の関係を説明するために有向非巡回グラフを用いてそのような関係をモデル化するための強力なフレームワークを提供する。 本研究では,ランダム効果をBN学習に統合する新しい手法を提案する。 線形混合効果モデルでは、このアプローチは階層データを扱うのに特に適している。 実世界の農業試験の結果は、このアプローチを用いることで構造学習が向上し、新たな接続の発見とモデル仕様の改善につながることを示唆している。 さらに,予測誤差が28\%から17\%に減少するのを観察した。 BNの複雑なデータセット構造への適用性を拡張することにより、階層的な農業データに対するBNの有効活用に寄与する。 これにより、この分野における意思決定支援ツールとしての価値が高まる。

Research involving diverse but related data sets, where associations between covariates and outcomes may vary, is prevalent in various fields including agronomic studies. In these scenarios, hierarchical models, also known as multilevel models, are frequently employed to assimilate information from different data sets while accommodating their distinct characteristics. However, their structure extend beyond simple heterogeneity, as variables often form complex networks of causal relationships. Bayesian networks (BNs) provide a powerful framework for modelling such relationships using directed acyclic graphs to illustrate the connections between variables. This study introduces a novel approach that integrates random effects into BN learning. Rooted in linear mixed-effects models, this approach is particularly well-suited for handling hierarchical data. Results from a real-world agronomic trial suggest that employing this approach enhances structural learning, leading to the discovery of new connections and the improvement of improved model specification. Furthermore, we observe a reduction in prediction errors from 28\% to 17\%. By extending the applicability of BNs to complex data set structures, this approach contributes to the effective utilisation of BNs for hierarchical agronomic data. This, in turn, enhances their value as decision-support tools in the field.
翻訳日:2023-08-15 17:32:13 公開日:2023-08-11
# 大規模視覚言語モデルにおける幻覚の検出と防止

Detecting and Preventing Hallucinations in Large Vision Language Models ( http://arxiv.org/abs/2308.06394v1 )

ライセンス: Link先を確認
Anisha Gunjal, Jihan Yin, Erhan Bas(参考訳) LVLM(Large Vision Language Models)は、様々なマルチモーダルタスク、特にVQA(Visual Question Answering)における一般化において大きな進歩を遂げている。 しかし、視覚的に接地された詳細な応答を生成することは、これらのモデルにとって依然として難しい課題である。 現在最先端のLVLM(InstructBLIP)でさえも、存在しないオブジェクト、不信な記述、不正確な関係という形で、幻覚文の30%が停滞している。 そこで本研究では,幻覚検出と予防のためのモデルの構築とベンチマークに使用可能なM-HalDetect, {M}ultimodal {Hal}lucination {Detect}ion Datasetを紹介する。 M-HalDetectは、VQA例の16kのきめ細かいラベルで構成されており、詳細な画像記述のための最初の総合的なマルチモーダル幻覚検出データセットである。 オブジェクト幻覚のみを考える以前の作業とは異なり、エンティティ記述と不適切な関係の両方に注釈を付けます。 このデータセットの選好アライメントの可能性を示すために,粒度直接選好最適化を提案するとともに,粒度多モーダル報奨モデルを訓練し,ベスト・オブ・n・リジェクションサンプリングの有効性を評価する。 dpo標本と拒絶標本の両方について人為的評価を行い,それぞれ41%,55%の幻覚率を低下させ,基準値よりも有意に改善した。

Instruction tuned Large Vision Language Models (LVLMs) have made significant advancements in generalizing across a diverse set of multimodal tasks, especially for Visual Question Answering (VQA). However, generating detailed responses that are visually grounded is still a challenging task for these models. We find that even the current state-of-the-art LVLMs (InstructBLIP) still contain a staggering 30 percent of hallucinatory text in the form of non-existent objects, unfaithful descriptions, and inaccurate relationships. To address this, we introduce M-HalDetect, a {M}ultimodal {Hal}lucination {Detect}ion Dataset that can be used to train and benchmark models for hallucination detection and prevention. M-HalDetect consists of 16k fine-grained labels on VQA examples, making it the first comprehensive multi-modal hallucination detection dataset for detailed image descriptions. Unlike previous work that only consider object hallucination, we additionally annotate both entity descriptions and relationships that are unfaithful. To demonstrate the potential of this dataset for preference alignment, we propose fine-grained Direct Preference Optimization, as well as train fine-grained multi-modal reward models and evaluate their effectiveness with best-of-n rejection sampling. We perform human evaluation on both DPO and rejection sampling, and find that they reduce hallucination rates by 41% and 55% respectively, a significant improvement over the baseline.
翻訳日:2023-08-15 17:31:55 公開日:2023-08-11
# 因果表現学習のための新しい挑戦的データセットであるshadow datasets

Shadow Datasets, New challenging datasets for Causal Representation Learning ( http://arxiv.org/abs/2308.05707v2 )

ライセンス: Link先を確認
Jiageng Zhu, Hanchen Xie, Jianhua Wu, Jiazhi Li, Mahyar Khayatkhoei, Mohamed E. Hussein, Wael AbdAlmageed(参考訳) 意味的要因間の因果関係の発見は、表現学習において創発的な話題である。 ほとんどの因果表現学習(CRL)は、コストのかかるラベリングのため、完全に管理されている。 この制限を解決するために、弱い教師付きCRL法が導入された。 CRLの性能を評価するために、Pendulum、Flow、CelebA(BEARD)、CelebA(SMILE)の4つの既存のデータセットを利用する。 しかし、既存のCRLデータセットは生成因子が少ない単純なグラフに限られている。 そこで我々は多種多様な生成因子とより洗練された因果グラフを持つ2つの新しいデータセットを提案する。 さらに、現在の実データセットであるceleba(beard)とceleba(smile)では、当初提案された因果グラフはデータセット分布と一致しない。 そこで我々は修正を提案する。

Discovering causal relations among semantic factors is an emergent topic in representation learning. Most causal representation learning (CRL) methods are fully supervised, which is impractical due to costly labeling. To resolve this restriction, weakly supervised CRL methods were introduced. To evaluate CRL performance, four existing datasets, Pendulum, Flow, CelebA(BEARD) and CelebA(SMILE), are utilized. However, existing CRL datasets are limited to simple graphs with few generative factors. Thus we propose two new datasets with a larger number of diverse generative factors and more sophisticated causal graphs. In addition, current real datasets, CelebA(BEARD) and CelebA(SMILE), the originally proposed causal graphs are not aligned with the dataset distributions. Thus, we propose modifications to them.
翻訳日:2023-08-15 10:15:42 公開日:2023-08-11
# 形状加工のための3次元データの構造化2次元表現

Structured 2D Representation of 3D Data for Shape Processing ( http://arxiv.org/abs/1903.10360v2 )

ライセンス: Link先を確認
Kripasindhu Sarkar, Elizabeth Mathews, Didier Stricker(参考訳) 固定長の2次元構造表現を用いて3次元形状を表現し、よく研究された2次元畳み込みニューラルネットワーク(CNN)を3次元形状の識別的および幾何学的タスクに応用することができる。 まず,このような構造化ディスクリプタの一般的な紹介を行い,それらの異なる形式を分析し,良好な分類結果を達成するために単純な2d cnnをどのように利用できるかを示す。 画像の特殊分類ネットワークと構造化表現を用いて,ModelNet40テストセットの99.7\%の分類精度を実現し,従来の最先端技術を大きなマージンで改善した。 最終的に2次元CNNと構造化表現を用いて3次元セグメント化の幾何学的タスクを実行するための新しいフレームワークを提供する。

We represent 3D shape by structured 2D representations of fixed length making it feasible to apply well investigated 2D convolutional neural networks (CNN) for both discriminative and geometric tasks on 3D shapes. We first provide a general introduction to such structured descriptors, analyze their different forms and show how a simple 2D CNN can be used to achieve good classification result. With a specialized classification network for images and our structured representation, we achieve the classification accuracy of 99.7\% in the ModelNet40 test set - improving the previous state-of-the-art by a large margin. We finally provide a novel framework for performing the geometric task of 3D segmentation using 2D CNNs and the structured representation - concluding the utility of such descriptors for both discriminative and geometric tasks.
翻訳日:2023-08-15 08:21:52 公開日:2023-08-11
# bビット量子化による非パラメトリック推論

Nonparametric Inference under B-bits Quantization ( http://arxiv.org/abs/1901.08571v3 )

ライセンス: Link先を確認
Kexuan Li, Ruiqi Liu, Ganggang Xu, Zuofeng Shang(参考訳) 損失や不完全なサンプルに基づく統計的推論は、信号/画像処理、医療画像保存、リモートセンシング、信号伝送などの研究領域でしばしば必要となる。 本稿では,計算効率のよいアルゴリズムを用いて,B$ビットに量子化されたサンプルに基づく非パラメトリック試験手法を提案する。 軽度な技術的条件下では,提案するテスト統計の漸近性を確立し,b$が増加するにつれてテストパワーがどのように変化するかを検討する。 特に、もし$b$が一定のしきい値を超えると、提案された非パラメトリックテスト手順は、スプラインモデルの古典的な最小テスト率(shang and cheng, 2015)を達成する。 さらに,非パラメトリック線形性テストと適応的非パラメトリックテストに理論的な研究を拡張し,提案手法の適用性を拡大する。 実データ解析を用いた大規模シミュレーション研究は,提案試験の有効性と有効性を示すために用いられる。

Statistical inference based on lossy or incomplete samples is often needed in research areas such as signal/image processing, medical image storage, remote sensing, signal transmission. In this paper, we propose a nonparametric testing procedure based on samples quantized to $B$ bits through a computationally efficient algorithm. Under mild technical conditions, we establish the asymptotic properties of the proposed test statistic and investigate how the testing power changes as $B$ increases. In particular, we show that if $B$ exceeds a certain threshold, the proposed nonparametric testing procedure achieves the classical minimax rate of testing (Shang and Cheng, 2015) for spline models. We further extend our theoretical investigations to a nonparametric linearity test and an adaptive nonparametric test, expanding the applicability of the proposed methods. Extensive simulation studies {together with a real-data analysis} are used to demonstrate the validity and effectiveness of the proposed tests.
翻訳日:2023-08-14 18:27:29 公開日:2023-08-11
# 株式取引のための機械学習分類器と効果的な特徴抽出

Combining Machine Learning Classifiers for Stock Trading with Effective Feature Extraction ( http://arxiv.org/abs/2107.13148v3 )

ライセンス: Link先を確認
A. K. M. Amanat Ullah, Fahim Imtiaz, Miftah Uddin Md Ihsan, Md. Golam Rabiul Alam, Mahbub Majumdar(参考訳) 株式市場の予測不可能性とボラティリティは、一般化されたスキームを使ってかなりの利益を上げることを困難にしている。 これまでの多くの研究は、機械学習モデルを構築するために異なる手法を試し、ライブトレーディングを行うことで米国株式市場で大きな利益を得ることができた。 しかし、特定の取引期間に最適な特徴を見つけることの重要性に焦点を当てた研究はほとんどない。 私たちのトップのアプローチでは、パフォーマンスを使用して、148から30まで機能を絞りました。 さらに、トップ25の機能は、機械学習モデルをトレーニングするたびに動的に選択されました。 ガウシアン・ネイヴ・ベイズ、決定木、L1正規化によるロジスティック・回帰、Stochastic Gradient Descentの4つの分類子によるアンサンブル学習を使用して、特定のストックで長いか短いかを決定する。 当社のベストモデルは2011年7月から2019年1月までの日替わり取引を行い、54.35%の利益を生み出した。 最後に、重み付けされた分類器の混合は、株式市場での取引決定を行う個々の予測器よりも優れていることを示した。

The unpredictability and volatility of the stock market render it challenging to make a substantial profit using any generalised scheme. Many previous studies tried different techniques to build a machine learning model, which can make a significant profit in the US stock market by performing live trading. However, very few studies have focused on the importance of finding the best features for a particular trading period. Our top approach used the performance to narrow down the features from a total of 148 to about 30. Furthermore, the top 25 features were dynamically selected before each time training our machine learning model. It uses ensemble learning with four classifiers: Gaussian Naive Bayes, Decision Tree, Logistic Regression with L1 regularization, and Stochastic Gradient Descent, to decide whether to go long or short on a particular stock. Our best model performed daily trade between July 2011 and January 2019, generating 54.35% profit. Finally, our work showcased that mixtures of weighted classifiers perform better than any individual predictor of making trading decisions in the stock market.
翻訳日:2023-08-14 18:23:59 公開日:2023-08-11
# 線形鎖CRFを正規言語に制約する

Constraining Linear-chain CRFs to Regular Languages ( http://arxiv.org/abs/2106.07306v6 )

ライセンス: Link先を確認
Sean Papay, Roman Klinger and Sebastian Pad\'o(参考訳) 構造化予測における大きな課題は、出力構造内の相互依存を表現することである。 出力がシーケンスとして構成されるとき、線形鎖条件付き確率場(crfs)は、出力内の\textit{local}依存性を学習できる広く使用されるモデルクラスである。 しかし、CRFのマルコフ仮定は、CRFが \textit{nonlocal} 依存関係を持つ分布を表現することは不可能であり、標準 CRF はデータの非局所的制約(出力ラベルのグローバルアリティ制約など)を尊重できない。 出力構造の空間を正規言語 $\mathcal{L}$ として指定することにより、非局所構造を含む幅広い制約を強制できる CRF の一般化を提案する。 結果として得られる正則制約 CRF (RegCCRF) は標準 CRF と同じ形式的性質を持つが、$\mathcal{L}$ でないすべてのラベル列にゼロ確率を割り当てる。 特に、RegCCRFはトレーニング中に制約を組み込むことができ、関連するモデルはデコード時にのみ制約を強制する。 制約付きトレーニングは、制約付き復号化よりも決して悪くないことを実証し、実際は大幅に改善できることを実証的に示す。 さらに,RegCCRFをセマンティックロールラベリングのためのディープニューラルモデルに組み込むことで,ダウンストリームタスクに実用的なメリットを実証する。

A major challenge in structured prediction is to represent the interdependencies within output structures. When outputs are structured as sequences, linear-chain conditional random fields (CRFs) are a widely used model class which can learn \textit{local} dependencies in the output. However, the CRF's Markov assumption makes it impossible for CRFs to represent distributions with \textit{nonlocal} dependencies, and standard CRFs are unable to respect nonlocal constraints of the data (such as global arity constraints on output labels). We present a generalization of CRFs that can enforce a broad class of constraints, including nonlocal ones, by specifying the space of possible output structures as a regular language $\mathcal{L}$. The resulting regular-constrained CRF (RegCCRF) has the same formal properties as a standard CRF, but assigns zero probability to all label sequences not in $\mathcal{L}$. Notably, RegCCRFs can incorporate their constraints during training, while related models only enforce constraints during decoding. We prove that constrained training is never worse than constrained decoding, and show empirically that it can be substantially better in practice. Additionally, we demonstrate a practical benefit on downstream tasks by incorporating a RegCCRF into a deep neural model for semantic role labeling, exceeding state-of-the-art results on a standard dataset.
翻訳日:2023-08-14 18:23:36 公開日:2023-08-11
# 仮想知識グラフのためのマッピングパターン

Mapping Patterns for Virtual Knowledge Graphs ( http://arxiv.org/abs/2012.01917v2 )

ライセンス: Link先を確認
Diego Calvanese and Avigdor Gal and Davide Lanti and Marco Montali and Alessandro Mosca and Roee Shraga(参考訳) 仮想知識グラフ(VKG)は、レガシーデータソースの統合とアクセスのための最も有望なパラダイムの1つである。 統合プロセスにおける重要なボトルネックは、データソースをドメインオントロジーにリンクするマッピングの定義、検証、保守である。 ライフサイクル全体を通してマッピングの管理を支援するため,データベースとオントロジをリンクする場合に現れる高度なマッピングパターンの包括的カタログを提案する。 そのために私たちは、データ管理、データ分析、概念モデリングで研究されている確立された方法論とパターンに基づいています。 これらは、具体的なVKGベンチマークと実世界のユースケースを分析し、データソースとオントロジー間の固有のインピーダンスミスマッチを考慮して拡張され、洗練される。 検討したVKGシナリオに基づいて,私たちのカタログを検証し,そのパターンの大部分をカバーすることを示す。

Virtual Knowledge Graphs (VKG) constitute one of the most promising paradigms for integrating and accessing legacy data sources. A critical bottleneck in the integration process involves the definition, validation, and maintenance of mappings that link data sources to a domain ontology. To support the management of mappings throughout their entire lifecycle, we propose a comprehensive catalog of sophisticated mapping patterns that emerge when linking databases to ontologies. To do so, we build on well-established methodologies and patterns studied in data management, data analysis, and conceptual modeling. These are extended and refined through the analysis of concrete VKG benchmarks and real-world use cases, and considering the inherent impedance mismatch between data sources and ontologies. We validate our catalog on the considered VKG scenarios, showing that it covers the vast majority of patterns present therein.
翻訳日:2023-08-14 18:22:54 公開日:2023-08-11
# ゲーテッドバッチ正規化による複数$\ell_p$-norm境界境界摂動の抑制に向けて

Towards Defending Multiple $\ell_p$-norm Bounded Adversarial Perturbations via Gated Batch Normalization ( http://arxiv.org/abs/2012.01654v2 )

ライセンス: Link先を確認
Aishan Liu, Shiyu Tang, Xinyun Chen, Lei Huang, Haotong Qin, Xianglong Liu, Dacheng Tao(参考訳) ディープニューラルネットワークが敵の攻撃に対する防御の開発を動機付ける敵の事例に対して脆弱であることを示す証拠が広く存在する。 既存の敵防御は、個々の特定の摂動タイプに対するモデルのロバスト性を改善する(\eg, $\ell_{\infty}$-normbounded adversarial example)。 しかし、敵は実際には複数のタイプの摂動を生成する可能性が高い(\eg, $\ell_1$, $\ell_2$, $\ell_{\infty}$摂動)。 最近の手法では、複数の$\ell_p$球における敵攻撃に対するモデルロバスト性を改善するが、各摂動型に対するそれらの性能は、まだ十分ではない。 本稿では,異なる$\ell_p$有界対向摂動が,バッチ正規化(BN)の統計によって分離・特徴付けられる異なる統計特性を誘導することを示す。 そこで我々は,複数の$\ell_p$の有界摂動を守るために,摂動不変予測器を逆向きに訓練するGated Batch Normalization (GBN)を提案する。 GBNはマルチブランチBN層とゲートサブネットワークからなる。 GBNの各BN分岐は、正規化された出力が学習摂動不変表現に整合していることを保証するために、1つの摂動型を担っている。 一方、ゲート付きサブネットワークは、異なる摂動タイプで追加された入力を分離するように設計されている。 我々は、MNIST、CIFAR-10、Tiny-ImageNetを含む一般的なデータセットに対する我々のアプローチを広範囲に評価し、GBNが複数の摂動型(\ie, $\ell_1$, $\ell_2$, $\ell_{\infty}$摂動)に対する従来の防御提案よりも大きなマージンで優れていることを示した。

There has been extensive evidence demonstrating that deep neural networks are vulnerable to adversarial examples, which motivates the development of defenses against adversarial attacks. Existing adversarial defenses typically improve model robustness against individual specific perturbation types (\eg, $\ell_{\infty}$-norm bounded adversarial examples). However, adversaries are likely to generate multiple types of perturbations in practice (\eg, $\ell_1$, $\ell_2$, and $\ell_{\infty}$ perturbations). Some recent methods improve model robustness against adversarial attacks in multiple $\ell_p$ balls, but their performance against each perturbation type is still far from satisfactory. In this paper, we observe that different $\ell_p$ bounded adversarial perturbations induce different statistical properties that can be separated and characterized by the statistics of Batch Normalization (BN). We thus propose Gated Batch Normalization (GBN) to adversarially train a perturbation-invariant predictor for defending multiple $\ell_p$ bounded adversarial perturbations. GBN consists of a multi-branch BN layer and a gated sub-network. Each BN branch in GBN is in charge of one perturbation type to ensure that the normalized output is aligned towards learning perturbation-invariant representation. Meanwhile, the gated sub-network is designed to separate inputs added with different perturbation types. We perform an extensive evaluation of our approach on commonly-used dataset including MNIST, CIFAR-10, and Tiny-ImageNet, and demonstrate that GBN outperforms previous defense proposals against multiple perturbation types (\ie, $\ell_1$, $\ell_2$, and $\ell_{\infty}$ perturbations) by large margins.
翻訳日:2023-08-14 18:22:42 公開日:2023-08-11
# 深層強化学習によるロバスト四足ジャンプ

Robust Quadruped Jumping via Deep Reinforcement Learning ( http://arxiv.org/abs/2011.07089v3 )

ライセンス: Link先を確認
Guillaume Bellegarda, Chuong Nguyen, Quan Nguyen(参考訳) 本稿では,不均一な地形や可変ロボットの動特性などの騒音環境において,四足ロボットの移動距離や高さを跳躍する一般的な課題について考察する。 そこで本研究では,四足跳躍のための非線形軌道最適化の複雑な解を活用し,拡張する深層強化学習を用いた枠組みを提案する。 スタンドアロンの最適化は、平地からの離陸を制限し、ロボット力学の正確な仮定を必要とするが、提案手法は、ロボットの動的パラメータや環境条件によって、かなり不均一な地形から飛び降りられるように、ロバスト性を改善する。 歩行や走行と比較して、ハードウェアへの攻撃的なジャンプを実現するには、モーターのトルク-速度関係とロボットのトータルパワー限界が不可欠である。 これらの制約を学習フレームワークに組み込むことで、当社のポリシsim-to-realを更なるチューニングなしにデプロイし、利用可能な電源とモーターを完全に活用しました。 体長2倍の体長をジャンプしながら、高さ6cm以上の足の障害や、ロボットの立位33%の環境騒音に対する頑健さを実証した。

In this paper, we consider a general task of jumping varying distances and heights for a quadrupedal robot in noisy environments, such as off of uneven terrain and with variable robot dynamics parameters. To accurately jump in such conditions, we propose a framework using deep reinforcement learning that leverages and augments the complex solution of nonlinear trajectory optimization for quadrupedal jumping. While the standalone optimization limits jumping to take-off from flat ground and requires accurate assumptions of robot dynamics, our proposed approach improves the robustness to allow jumping off of significantly uneven terrain with variable robot dynamical parameters and environmental conditions. Compared with walking and running, the realization of aggressive jumping on hardware necessitates accounting for the motors' torque-speed relationship as well as the robot's total power limits. By incorporating these constraints into our learning framework, we successfully deploy our policy sim-to-real without further tuning, fully exploiting the available onboard power supply and motors. We demonstrate robustness to environment noise of foot disturbances of up to 6 cm in height, or 33% of the robot's nominal standing height, while jumping 2x the body length in distance.
翻訳日:2023-08-14 18:22:06 公開日:2023-08-11
# 不均質転移の定量化のための高精度高次元漸近力学

Precise High-Dimensional Asymptotics for Quantifying Heterogeneous Transfers ( http://arxiv.org/abs/2010.11750v3 )

ライセンス: Link先を確認
Fan Yang, Hongyang R. Zhang, Sen Wu, Christopher R\'e, Weijie J. Su(参考訳) あるタスクを別のタスクからサンプルで学習する問題は、最近大きな関心を集めている。 本稿では,1つのタスクのみを学習するよりも,2つのタスクからのデータを統合する方がよいのか,という基本的な質問を行う。 直感的には、あるタスクから別のタスクへの転送効果は、サンプルサイズや共分散行列などのデータセットシフトに依存する。 しかし,共同学習と単タスク学習のリスクを比較する必要があるため,このような伝達効果の定量化は困難である。 本稿では,ランダム行列理論を用いて2つのタスクからなる線形回帰系において,この課題に取り組む。 サンプルサイズが固定比で特徴次元に比例して増加するとき, 高次元状態においてよく用いられる推定器の過大なリスクについて, 正確な漸近性を与える。 ランダム・エフェクトモデルでは、2つのタスクの学習と1つのタスクの学習の間に正と負の伝達を決定する条件を与え、データセットのシフトと転送効果の間の複雑な関係を明らかにする。 シミュレーションは有限次元における漸近性の妥当性を正当化する。 本稿では2つの異なるサンプル共分散行列のいくつかの関数を解析し、古典的な結果をランダム行列理論の文献に一般化するいくつかの推定値を明らかにする。

The problem of learning one task with samples from another task has received much interest recently. In this paper, we ask a fundamental question: when is combining data from two tasks better than learning one task alone? Intuitively, the transfer effect from one task to another task depends on dataset shifts such as sample sizes and covariance matrices. However, quantifying such a transfer effect is challenging since we need to compare the risks between joint learning and single-task learning, and the comparative advantage of one over the other depends on the exact kind of dataset shift between both tasks. This paper uses random matrix theory to tackle this challenge in a linear regression setting with two tasks. We give precise asymptotics about the excess risks of some commonly used estimators in the high-dimensional regime, when the sample sizes increase proportionally with the feature dimension at fixed ratios. The precise asymptotics is provided as a function of the sample sizes and covariate/model shifts, which can be used to study transfer effects: In a random-effects model, we give conditions to determine positive and negative transfers between learning two tasks versus single-task learning; the conditions reveal intricate relations between dataset shifts and transfer effects. Simulations justify the validity of the asymptotics in finite dimensions. Our analysis examines several functions of two different sample covariance matrices, revealing some estimates that generalize classical results in the random matrix theory literature, which may be of independent interest.
翻訳日:2023-08-14 18:21:44 公開日:2023-08-11
# GAN訓練における限界サイクルの回避法

A method for escaping limit cycles in training GANs ( http://arxiv.org/abs/2010.03322v3 )

ライセンス: Link先を確認
Li Keke and Yang Xinmin(参考訳) 本稿では,提案する予測遠心加速度アルゴリズム(pcaa)を用いて,gans(generative adversarial network)におけるリミティブサイクリングの問題を緩和するための研究を主に実施する。 具体的には,まず,PCAAの最終点収束率の上限と下限を導出し,上限は前回の結果より顕著に改善した。 次に,PCAAと適応モーメント推定アルゴリズム(Adam)を組み合わせることで,GANを訓練するための実践的アプローチであるPCAA-Adamを提案する。 最後に,両線形ゲーム,多変量ガウス分布,CelebAデータセットを用いて提案アルゴリズムの有効性を検証する。

This paper mainly conducts further research to alleviate the issue of limit cycling behavior in training generative adversarial networks (GANs) through the proposed predictive centripetal acceleration algorithm (PCAA). Specifically, we first derive the upper and lower bounds on the last-iterate convergence rates of PCAA for the general bilinear game, with the upper bound notably improving upon previous results. Then, we combine PCAA with the adaptive moment estimation algorithm (Adam) to propose PCAA-Adam, a practical approach for training GANs. Finally, we validate the effectiveness of the proposed algorithm through experiments conducted on bilinear games, multivariate Gaussian distributions, and the CelebA dataset, respectively.
翻訳日:2023-08-14 18:21:03 公開日:2023-08-11
# AIの法医学に向けて:人工知能システムはそれをしたのか?

Towards AI Forensics: Did the Artificial Intelligence System Do It? ( http://arxiv.org/abs/2005.13635v3 )

ライセンス: Link先を確認
Johannes Schneider and Frank Breitinger(参考訳) 人工知能(AI)は、日々の生活に影響を与える決定をますます自律的に行う。 彼らの行動は、事故、危害、あるいはより一般的には規則に違反する可能性がある。 AIが特定のイベントを引き起こしたかどうかを判断し、もしそうなら、AIのアクションを引き起こしたのは、重要な法医学的問題である。 我々は,法医学調査の問題点と戦略について概念化を行う。 私たちは、'設計が難しい'可能性のあるAIとグレーボックス分析に重点を置いています。 畳み込みニューラルネットワークによる評価は、悪意のあるAIを特定する上での課題とアイデアを示している。

Artificial intelligence (AI) makes decisions impacting our daily lives in an increasingly autonomous manner. Their actions might cause accidents, harm, or, more generally, violate regulations. Determining whether an AI caused a specific event and, if so, what triggered the AI's action, are key forensic questions. We provide a conceptualization of the problems and strategies for forensic investigation. We focus on AI that is potentially ``malicious by design'' and grey box analysis. Our evaluation using convolutional neural networks illustrates challenges and ideas for identifying malicious AI.
翻訳日:2023-08-14 18:20:43 公開日:2023-08-11
# 確率的誤差モデルによるグラフニューラルネットワークの感度

Graph Neural Network Sensitivity Under Probabilistic Error Model ( http://arxiv.org/abs/2203.07831v3 )

ライセンス: Link先を確認
Xinjue Wang, Esa Ollila and Sergiy A. Vorobyov(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ畳み込みによってグラフ信号表現をうまく学習することができる。 グラフの畳み込みは、データのトポロジ的依存関係を含み、データ特徴を伝播するグラフフィルタに依存する。 しかし、伝播行列(例えば、隣接行列)における推定誤差は、グラフフィルタやGCNに大きな影響を与える可能性がある。 本稿では,確率的グラフ誤差モデルがGCNの性能に与える影響について検討する。 誤差モデルの下での隣接行列はグラフサイズと誤差確率の関数によって境界づけられていることを証明する。 さらに,自己ループを付加した正規化隣接行列の上界を解析的に指定する。 最後に, この確率的誤差モデルを用いて, 合成データセット上で実験を行い, 簡易GCNの感度について検討する。

Graph convolutional networks (GCNs) can successfully learn the graph signal representation by graph convolution. The graph convolution depends on the graph filter, which contains the topological dependency of data and propagates data features. However, the estimation errors in the propagation matrix (e.g., the adjacency matrix) can have a significant impact on graph filters and GCNs. In this paper, we study the effect of a probabilistic graph error model on the performance of the GCNs. We prove that the adjacency matrix under the error model is bounded by a function of graph size and error probability. We further analytically specify the upper bound of a normalized adjacency matrix with self-loop added. Finally, we illustrate the error bounds by running experiments on a synthetic dataset and study the sensitivity of a simple GCN under this probabilistic error model on accuracy.
翻訳日:2023-08-14 18:14:27 公開日:2023-08-11
# 局所的腐敗回復のためのロバストグラフ表現学習

Robust Graph Representation Learning for Local Corruption Recovery ( http://arxiv.org/abs/2202.04936v4 )

ライセンス: Link先を確認
Bingxin Zhou, Yuanhong Jiang, Yu Guang Wang, Jingwei Liang, Junbin Gao, Shirui Pan, Xiaoqun Zhang(参考訳) グラフ表現学習の性能は、グラフ入力の品質に影響される。 既存の研究は通常、グローバルに滑らかなグラフ埋め込みを追求するが、稀に観測される異常は正確な予測に有害であると信じている。 この研究は、(局所的に)破損した機能属性を自動的に検出し、予測タスクのための堅牢な埋め込みを回復するグラフ学習スキームを確立します。 検出操作はグラフオートエンコーダを利用するが、これは局所的な腐敗の分布を仮定するものではない。 非バイアスマスク行列における異常ノード属性の位置をピンポイントで特定し、ロバストな推定を正則化の促進とともに行う。 オプティマイザは、フレームレット領域にスパースし、条件付きで入力観測に近い新しい埋め込みにアプローチする。 ブラックボックス中毒から頑健なグラフ表現を復元し,優れた性能を実現するため,提案モデルの有効性を検証した。

The performance of graph representation learning is affected by the quality of graph input. While existing research usually pursues a globally smoothed graph embedding, we believe the rarely observed anomalies are as well harmful to an accurate prediction. This work establishes a graph learning scheme that automatically detects (locally) corrupted feature attributes and recovers robust embedding for prediction tasks. The detection operation leverages a graph autoencoder, which does not make any assumptions about the distribution of the local corruptions. It pinpoints the positions of the anomalous node attributes in an unbiased mask matrix, where robust estimations are recovered with sparsity promoting regularizer. The optimizer approaches a new embedding that is sparse in the framelet domain and conditionally close to input observations. Extensive experiments are provided to validate our proposed model can recover a robust graph representation from black-box poisoning and achieve excellent performance.
翻訳日:2023-08-14 18:14:15 公開日:2023-08-11
# ロバストルーティング, 絡み合い発生, 位相センシングのための量子スピンネットワークのユニタリ設計

Unitary Design of Quantum Spin Networks for Robust Routing, Entanglement Generation, and Phase Sensing ( http://arxiv.org/abs/2202.02632v3 )

ライセンス: Link先を確認
Abdulsalam H. Alsulami, Irene D'Amico, Marta P. Estarellas, and Timothy P. Spiller(参考訳) スピン鎖は、量子計算と量子情報のための幅広いプラットフォームを記述するのに使うことができる。 量子状態の高忠実性移動、絡み合いの生成と分布、測定に基づく量子処理のための資源の生成など、多くの有用な現象の理解、実証、モデリングを可能にしている。 本稿では, 2つの非結合スピン鎖に適切なユニタリを適用することで, より複雑なスピン系である2次元スピンネットワーク(sn)について検討した。 SNの単一励起部分空間のみを考慮すると、SNを介して情報を誘導してルータとして操作できることが示される。 また、2つのサイト間で最大に絡み合った状態を生成するのに役立つことも示されている。 さらに、このSNシステムは、システムスピンに適用される未知の位相を判定できるセンサデバイスとして使用できることを示す。 システムにおける静的障害の影響に関する詳細なモデリング研究は、このシステムが様々な種類の障害に対して堅牢であることを示している。

Spin chains can be used to describe a wide range of platforms for quantum computation and quantum information. They enable the understanding, demonstration, and modeling of numerous useful phenomena, such as high fidelity transfer of quantum states, creation and distribution of entanglement, and creation of resources for measurement-based quantum processing. In this paper, a more complex spin system, a 2D spin network (SN) engineered by applying suitable unitaries to two uncoupled spin chains, is studied. Considering only the single-excitation subspace of the SN, it is demonstrated that the system can be operated as a router, directing information through the SN. It is also shown that it can serve to generate maximally entangled states between two sites. Furthermore, it is illustrated that this SN system can be used as a sensor device able to determine an unknown phase applied to a system spin. A detailed modeling investigation of the effects of static disorder in the system shows that this system is robust against different types of disorder.
翻訳日:2023-08-14 18:13:58 公開日:2023-08-11
# 環上のディラックフェルミオンの量子バックフロー

Quantum backflow of a Dirac fermion on a ring ( http://arxiv.org/abs/2201.12916v2 )

ライセンス: Link先を確認
Valentin Daniel Paccoia (1), Orlando Panella (2) and Pinaki Roy (3) ((1) Dipartimento di Fisica e Geologia, Universit\`a degli Studi di Perugia, (2) Istituto Nazionale di Fisica Nucleare, Sezione di Perugia, (3) Faculty of Applied Sciences, Ton Duc Thang University, Ho Chi Minh City, Vietnam.)(参考訳) 相対論的に荷電したディラックフェルミオンの量子逆流問題を半径$R$の環上での移動に制約する。 相対論的電流演算子を用いて、一般的な時間間隔を通して確率フラックスを計算し、量子バックフローの出現を示す。 また、粒子が直線に沿って移動するときの制限事例についても論じる。

We study the quantum backflow problem of a relativistic charged Dirac fermion constrained to move on a ring of radius $R$. Using the relativistic current operator we compute the probability flux through a generic time interval to show emergence of quantum backflow. We also discuss the limiting case when the particle moves along a line.
翻訳日:2023-08-14 18:13:39 公開日:2023-08-11
# 生物医用画像解析のための生成型adversarial networkの訓練課題に関する調査研究

A Survey on Training Challenges in Generative Adversarial Networks for Biomedical Image Analysis ( http://arxiv.org/abs/2201.07646v4 )

ライセンス: Link先を確認
Muhammad Muneeb Saad, Ruairi O'Reilly, and Mubashir Husain Rehmani(参考訳) 生体画像解析において、深層学習法の適用性は、利用可能な画像データ量によって直接影響を受ける。 これは、大規模な画像データセットを必要とするディープラーニングモデルがハイレベルなパフォーマンスを提供するためである。 generative adversarial networks (gans) は合成バイオメディカル画像の生成を通じてデータ制限に対処するために広く利用されている。 GANは2つのモデルで構成される。 ジェネレータは、受信したフィードバックに基づいて合成画像を生成する方法を学ぶモデルである。 判別器(discriminator)は、画像を合成またはリアルに分類し、ジェネレータにフィードバックを提供するモデルである。 トレーニングプロセスを通じて、GANは適切な合成画像の生成を妨げるいくつかの技術的課題を経験することができる。 まず、生成装置が同一の画像を生成するか、異なる入力特徴から一様画像を生成するモード崩壊問題である。 第二に、勾配降下最適化器がナッシュ平衡に達することができない非収束問題である。 第三に、最適分類性能を達成した判別器による不安定な訓練行動が発生し、発電機に有意なフィードバックが得られない、消滅する勾配問題である。 これらの問題は、ぼやけた、非現実的で、多様性の低い合成画像を生み出す。 これまでのところ、バイオメディカル画像領域におけるこれらの技術的課題の影響を概説した調査記事は存在していない。 本研究は, バイオメディカルイメージング領域におけるGANのトレーニング問題に対する解決策に基づくレビューと分類について述べる。 本調査では, バイオメディカルイメージの領域におけるGANの育成について, 今後の研究の方向性を概説する。

In biomedical image analysis, the applicability of deep learning methods is directly impacted by the quantity of image data available. This is due to deep learning models requiring large image datasets to provide high-level performance. Generative Adversarial Networks (GANs) have been widely utilized to address data limitations through the generation of synthetic biomedical images. GANs consist of two models. The generator, a model that learns how to produce synthetic images based on the feedback it receives. The discriminator, a model that classifies an image as synthetic or real and provides feedback to the generator. Throughout the training process, a GAN can experience several technical challenges that impede the generation of suitable synthetic imagery. First, the mode collapse problem whereby the generator either produces an identical image or produces a uniform image from distinct input features. Second, the non-convergence problem whereby the gradient descent optimizer fails to reach a Nash equilibrium. Thirdly, the vanishing gradient problem whereby unstable training behavior occurs due to the discriminator achieving optimal classification performance resulting in no meaningful feedback being provided to the generator. These problems result in the production of synthetic imagery that is blurry, unrealistic, and less diverse. To date, there has been no survey article outlining the impact of these technical challenges in the context of the biomedical imagery domain. This work presents a review and taxonomy based on solutions to the training problems of GANs in the biomedical imaging domain. This survey highlights important challenges and outlines future research directions about the training of GANs in the domain of biomedical imagery.
翻訳日:2023-08-14 18:13:05 公開日:2023-08-11
# CDistNet:ロバストテキスト認識のためのマルチドメイン文字距離の認識

CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition ( http://arxiv.org/abs/2111.11011v4 )

ライセンス: Link先を確認
Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang(参考訳) Transformerベースのエンコーダ・デコーダフレームワークは、視覚とセマンティックの両方のドメインから認識ヒントを自然に統合するため、シーンテキスト認識において人気が高まっている。 しかし、近年の研究では、この2種類の手がかりが必ずしもよく登録されているとは限らないため、特徴と性格は難しいテキスト(例:珍しい形)でミスアライメントされる可能性がある。 その結果、この問題を軽減するために文字位置などの制約が導入される。 一定の成功にもかかわらず、視覚と意味はいまだに別々にモデル化されており、それらは単に疎結合である。 本稿では,マルチドメイン文字距離知覚(mdcdp)と呼ばれる,視覚的かつ意味的に関連した位置埋め込みを実現するモジュールを提案する。 MDCDPは位置埋め込みを使用して、クロスアテンションメカニズムに従って視覚的特徴と意味的特徴の両方を問う。 この2種類の手がかりを位置分岐に融合させ、文字間隔と向きのバリエーション、文字意味の親和性、および2種類の情報を結ぶ手がかりをよく認識するコンテンツ認識埋め込みを生成する。 それらはマルチドメインキャラクタ距離として要約される。 我々は、複数のmdcdpを積み重ねて、徐々に正確な距離モデリングを導くcdistnetを開発した。 これにより、様々な認識困難を伴っても特徴特性アライメントが良好に構築される。 我々は10の挑戦的な公開データセットと2つの拡張データセットについてcdistnetを検証する。 実験の結果,CDistNetは競争力が高いことがわかった。 標準ベンチマークでトップレベルにランクされるだけでなく、テキストの変形、言語サポートの貧弱さ、まれな文字レイアウトを示す実データや拡張データセットの明らかなマージンによって、最近の人気メソッドを上回っている。 コードはhttps://github.com/simplify23/CDistNetで入手できる。

The Transformer-based encoder-decoder framework is becoming popular in scene text recognition, largely because it naturally integrates recognition clues from both visual and semantic domains. However, recent studies show that the two kinds of clues are not always well registered and therefore, feature and character might be misaligned in difficult text (e.g., with a rare shape). As a result, constraints such as character position are introduced to alleviate this problem. Despite certain success, visual and semantic are still separately modeled and they are merely loosely associated. In this paper, we propose a novel module called Multi-Domain Character Distance Perception (MDCDP) to establish a visually and semantically related position embedding. MDCDP uses the position embedding to query both visual and semantic features following the cross-attention mechanism. The two kinds of clues are fused into the position branch, generating a content-aware embedding that well perceives character spacing and orientation variants, character semantic affinities, and clues tying the two kinds of information. They are summarized as the multi-domain character distance. We develop CDistNet that stacks multiple MDCDPs to guide a gradually precise distance modeling. Thus, the feature-character alignment is well built even various recognition difficulties are presented. We verify CDistNet on ten challenging public datasets and two series of augmented datasets created by ourselves. The experiments demonstrate that CDistNet performs highly competitively. It not only ranks top-tier in standard benchmarks, but also outperforms recent popular methods by obvious margins on real and augmented datasets presenting severe text deformation, poor linguistic support, and rare character layouts. Code is available at https://github.com/simplify23/CDistNet.
翻訳日:2023-08-14 18:12:43 公開日:2023-08-11
# Oracleの教師: CTCモデルのより良い知識蒸留のためにターゲット情報を活用する

Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models ( http://arxiv.org/abs/2111.03664v4 )

ライセンス: Link先を確認
Ji Won Yoon, Hyung Yong Kim, Hyeonseung Lee, Sunghwan Ahn, and Nam Soo Kim(参考訳) モデル圧縮の効果的な方法として知られる知識蒸留(KD)は、より大きなネットワーク(教師)の知識をはるかに小さなネットワーク(学生)に転送することを目的としている。 従来のKD手法では、通常は教師モデルを用いて、出力ラベルはターゲットとしてのみ扱われる。 さらに、この教師付きスキームを拡張して、教師モデルの入力として、ソース入力と出力ラベルの両方を活用するコネクショニスト時間分類(CTC)ベースのシーケンスモデル、すなわち、Oracle Teacherを導入した新しいタイプの教師モデルを導入する。 Oracle Teacherは、ターゲット情報を参照することによって、より正確なCTCアライメントを学ぶため、より最適なガイダンスを提供することができる。 提案手法の潜在的なリスクの1つは、モデル出力がターゲット入力を直接コピーする自明な解決策である。 我々は,ctcアルゴリズムの多対一マッピング特性に基づいて,自明な解を効果的に防止し,モデルトレーニングにソースとターゲットの両方の入力を活用できるトレーニング戦略を提案する。 音声認識とシーンテキスト認識の2つのシーケンス学習タスクについて広範な実験を行った。 実験結果から,教師モデルの学習時間を大幅に短縮しながら,提案モデルが各課題の生徒を改善できることを実証的に示した。

Knowledge distillation (KD), best known as an effective method for model compression, aims at transferring the knowledge of a bigger network (teacher) to a much smaller network (student). Conventional KD methods usually employ the teacher model trained in a supervised manner, where output labels are treated only as targets. Extending this supervised scheme further, we introduce a new type of teacher model for connectionist temporal classification (CTC)-based sequence models, namely Oracle Teacher, that leverages both the source inputs and the output labels as the teacher model's input. Since the Oracle Teacher learns a more accurate CTC alignment by referring to the target information, it can provide the student with more optimal guidance. One potential risk for the proposed approach is a trivial solution that the model's output directly copies the target input. Based on a many-to-one mapping property of the CTC algorithm, we present a training strategy that can effectively prevent the trivial solution and thus enables utilizing both source and target inputs for model training. Extensive experiments are conducted on two sequence learning tasks: speech recognition and scene text recognition. From the experimental results, we empirically show that the proposed model improves the students across these tasks while achieving a considerable speed-up in the teacher model's training time.
翻訳日:2023-08-14 18:12:12 公開日:2023-08-11
# クラスタ数、クラスタリングモデル、アルゴリズムを選択する。 二次判別スコアに基づく統一的アプローチ

Selecting the number of clusters, clustering models, and algorithms. A unifying approach based on the quadratic discriminant score ( http://arxiv.org/abs/2111.02302v3 )

ライセンス: Link先を確認
Luca Coraggio and Pietro Coretto(参考訳) クラスタ分析には、クラスタリング法と暗黙の参照モデル、クラスタの数、そしてしばしば、いくつかのハイパーパラメータとアルゴリズムのチューニングなど、多くの決定が必要である。 実際には、いくつかのパーティションを生成し、最後のパーティションは検証基準や選択基準に基づいて選択される。 暗黙的または明示的に特定のクラスタリングの概念を仮定する検証方法が多数存在する。 さらに、特定のメソッドから取得したパーティションの操作に制限されることが多い。 本稿では,2次境界あるいは線形境界で十分に分離できる群に焦点をあてる。 参照クラスタの概念は、二次判別スコア関数とクラスタのサイズ、中心、散乱を記述するパラメータによって定義される。 我々は二次スコアと呼ばれる2つのクラスタ品質基準を考案する。 これらの基準は、楕円対称分布の一般クラスから生成される群と一致することを示す。 この種のグループの探求はアプリケーションで一般的である。 混合モデルとモデルに基づくクラスタリングの確率論との関連について検討した。 二次スコアのブートストラップ再サンプリングに基づいて,多数のクラスタリングソリューションの中から選択可能な選択規則を提案する。 提案手法は,他の最先端手法と比較できない分割を比較できるという特徴的利点を有する。 広範な数値実験と実データの解析は、たとえいくつかの競合手法がいくつかの設定で優れていると判明しても、提案手法により全体的な性能が向上することを示している。

Cluster analysis requires many decisions: the clustering method and the implied reference model, the number of clusters and, often, several hyper-parameters and algorithms' tunings. In practice, one produces several partitions, and a final one is chosen based on validation or selection criteria. There exist an abundance of validation methods that, implicitly or explicitly, assume a certain clustering notion. Moreover, they are often restricted to operate on partitions obtained from a specific method. In this paper, we focus on groups that can be well separated by quadratic or linear boundaries. The reference cluster concept is defined through the quadratic discriminant score function and parameters describing clusters' size, center and scatter. We develop two cluster-quality criteria called quadratic scores. We show that these criteria are consistent with groups generated from a general class of elliptically-symmetric distributions. The quest for this type of groups is common in applications. The connection with likelihood theory for mixture models and model-based clustering is investigated. Based on bootstrap resampling of the quadratic scores, we propose a selection rule that allows choosing among many clustering solutions. The proposed method has the distinctive advantage that it can compare partitions that cannot be compared with other state-of-the-art methods. Extensive numerical experiments and the analysis of real data show that, even if some competing methods turn out to be superior in some setups, the proposed methodology achieves a better overall performance.
翻訳日:2023-08-14 18:11:49 公開日:2023-08-11
# Lib-SibGMU-レコメンダシステムのための大学図書館循環データセット

Lib-SibGMU -- A University Library Circulation Dataset for Recommender Systems Developmen ( http://arxiv.org/abs/2208.12356v2 )

ライセンス: Link先を確認
Eduard Zubchuk, Mikhail Arhipkin, Dmitry Menshikov, Aleksandr Karaush, Nikolay Mikhaylovskiy(参考訳) CC BY 4.0ライセンスのLib-SibGMUを、幅広い研究コミュニティのためにオープンソースにし、このデータセット上で推奨システムのための主要なアルゴリズムをベンチマークします。 借本履歴をベクトルに変換するベクタライザと、別々に訓練した地区ベースのレコメンデータで構成されるレコメンダアーキテクチャでは、高速テキストモデルをベクタライザとして使用すると競合する結果が得られることを示す。

We opensource under CC BY 4.0 license Lib-SibGMU - a university library circulation dataset - for a wide research community, and benchmark major algorithms for recommender systems on this dataset. For a recommender architecture that consists of a vectorizer that turns the history of the books borrowed into a vector, and a neighborhood-based recommender, trained separately, we show that using the fastText model as a vectorizer delivers competitive results.
翻訳日:2023-08-14 18:03:32 公開日:2023-08-11
# 一般化された共塩物体検出

Generalised Co-Salient Object Detection ( http://arxiv.org/abs/2208.09668v3 )

ライセンス: Link先を確認
Jiawei Liu, Jing Zhang, Ruikai Cui, Kaihao Zhang, Weihao Li, Nick Barnes(参考訳) 本稿では,共有共塩対象を呈しない「ノイズ画像」の存在を許容することにより,従来の共塩物体検出(cosod)設定における仮定を緩和する新たな設定を提案する。 我々はこの新しい設定をGeneralized Co-Salient Object Detection (GCoSOD)と呼ぶ。 本稿では,コサリエントオブジェクトのイメージ間欠如の認識をCoSODモデルに再現する,新しいランダムサンプリングに基づく一般CoSODトレーニング(Generalized CoSOD Training, GCT)手法を提案する。 Diverse Smpling Self-Supervised Learning (DS3L) は、提供された教師付き共塩性ラベルに加えて、ノイズの多い画像のための自己教師付きラベルを導入する。 さらに、GCT固有のランダムサンプリングプロセスにより、インスタンスレベルでの潜在的な偽陽性予測を強調する高品質の不確実性マップの生成が可能になる。 GCoSOD設定下でのCoSODモデルの性能を評価するために,CoCA-CommonとCoCA-Zeroという2つの新しいテストデータセットを提案する。 大規模実験により,提案手法はGCoSOD設定時の性能とモデル校正度において,CoSODモデルの性能を著しく向上することが示された。

We propose a new setting that relaxes an assumption in the conventional Co-Salient Object Detection (CoSOD) setting by allowing the presence of "noisy images" which do not show the shared co-salient object. We call this new setting Generalised Co-Salient Object Detection (GCoSOD). We propose a novel random sampling based Generalised CoSOD Training (GCT) strategy to distill the awareness of inter-image absence of co-salient objects into CoSOD models. It employs a Diverse Sampling Self-Supervised Learning (DS3L) that, in addition to the provided supervised co-salient label, introduces additional self-supervised labels for noisy images (being null, that no co-salient object is present). Further, the random sampling process inherent in GCT enables the generation of a high-quality uncertainty map highlighting potential false-positive predictions at instance level. To evaluate the performance of CoSOD models under the GCoSOD setting, we propose two new testing datasets, namely CoCA-Common and CoCA-Zero, where a common salient object is partially present in the former and completely absent in the latter. Extensive experiments demonstrate that our proposed method significantly improves the performance of CoSOD models in terms of the performance under the GCoSOD setting as well as the model calibration degrees.
翻訳日:2023-08-14 18:03:21 公開日:2023-08-11
# リレーショナルアクションベース:形式化、効果的な安全性検証、不変量(拡張版)

Relational Action Bases: Formalization, Effective Safety Verification, and Invariants (Extended Version) ( http://arxiv.org/abs/2208.06377v2 )

ライセンス: Link先を確認
Silvio Ghilardi and Alessandro Gianola and Marco Montali and Andrey Rivkin(参考訳) 状態のリレーショナル表現上で動作する動的システムのモデリングと検証は、ai、ビジネスプロセス管理、データベース理論においてますます研究されている。 これらのシステムを検証しやすいものにするには、各関係状態に格納された情報量が境界づけされるか、あるいは事前条件とアクションの効果に制限が課される必要がある。 これらの制約を解除することで既存のモデルを一般化する関係行動基盤(RAB)の一般的な枠組みを導入する。非有界な関係状態は、データ上で存在量と普遍性の両方を定量化し、算術的な述語で数値データ型を活用できるアクションによって進化することができる。 次に、SMTに基づく後方探索によるRABのパラメータ化安全性について検討し、その結果のメタプロパティを歌い、現状のMCMTモデルチェッカーの既存の検証モジュールの既製の組み合わせによってどのように実現できるかを示す。 データ対応ビジネスプロセスのベンチマークにおいて,このアプローチの有効性を示す。 最後に、この手続きを完全に正すために普遍不変量をどのように活用できるかを示す。

Modeling and verification of dynamic systems operating over a relational representation of states are increasingly investigated problems in AI, Business Process Management, and Database Theory. To make these systems amenable to verification, the amount of information stored in each relational state needs to be bounded, or restrictions are imposed on the preconditions and effects of actions. We introduce the general framework of relational action bases (RABs), which generalizes existing models by lifting both these restrictions: unbounded relational states can be evolved through actions that can quantify both existentially and universally over the data, and that can exploit numerical datatypes with arithmetic predicates. We then study parameterized safety of RABs via (approximated) SMT-based backward search, singling out essential meta-properties of the resulting procedure, and showing how it can be realized by an off-the-shelf combination of existing verification modules of the state-of-the-art MCMT model checker. We demonstrate the effectiveness of this approach on a benchmark of data-aware business processes. Finally, we show how universal invariants can be exploited to make this procedure fully correct.
翻訳日:2023-08-14 18:02:58 公開日:2023-08-11
# 交通予測における相反学習と時空間埋め込みによるロバスト性の向上

Enhancing the Robustness via Adversarial Learning and Joint Spatial-Temporal Embeddings in Traffic Forecasting ( http://arxiv.org/abs/2208.03063v2 )

ライセンス: Link先を確認
Juyong Jiang, Binqing Wu, Ling Chen, Kai Zhang, Sunghun Kim(参考訳) 交通予測は都市計画とコンピューティングにおいて不可欠な問題である。 交通物体(センサや道路セグメントなど)の複雑な時空間依存性は、非常に柔軟なモデルを求めているが、残念ながら、洗練されたモデルは、特に時系列の傾向(時間とともに1次微分)を捉え、非現実的な予測をもたらす。 そこで本研究では,gcnの柔軟性と,固有統計相関を用いた逐次データ処理における生成的損失と敵対的損失の分布保存能力を拡張する新しい手法であるtrendgcnを提案する。 一方,我々は空間的(ノード的)埋め込みと時間的(時間的)埋め込みを同時に組み込んで不均質な空間的・時間的畳み込みを考慮し,gan構造を用いて時間的トレンドと複雑な空間的・時間的依存性の両方の観点から実時間と予測時間との統計的構成を体系的に評価する。 ステップワイドな予測エラーを独立して扱う従来のアプローチと比較して、我々のアプローチはより現実的で堅牢な予測を生み出すことができる。 6つのベンチマークトラヒック予測データセットと理論的解析に関する実験は、trendgcnの優位性と最先端のパフォーマンスを示している。 ソースコードはhttps://github.com/juyongjiang/TrendGCNで入手できる。

Traffic forecasting is an essential problem in urban planning and computing. The complex dynamic spatial-temporal dependencies among traffic objects (e.g., sensors and road segments) have been calling for highly flexible models; unfortunately, sophisticated models may suffer from poor robustness especially in capturing the trend of the time series (1st-order derivatives with time), leading to unrealistic forecasts. To address the challenge of balancing dynamics and robustness, we propose TrendGCN, a new scheme that extends the flexibility of GCNs and the distribution-preserving capacity of generative and adversarial loss for handling sequential data with inherent statistical correlations. On the one hand, our model simultaneously incorporates spatial (node-wise) embeddings and temporal (time-wise) embeddings to account for heterogeneous space-and-time convolutions; on the other hand, it uses GAN structure to systematically evaluate statistical consistencies between the real and the predicted time series in terms of both the temporal trending and the complex spatial-temporal dependencies. Compared with traditional approaches that handle step-wise predictive errors independently, our approach can produce more realistic and robust forecasts. Experiments on six benchmark traffic forecasting datasets and theoretical analysis both demonstrate the superiority and the state-of-the-art performance of TrendGCN. Source code is available at https://github.com/juyongjiang/TrendGCN.
翻訳日:2023-08-14 18:02:37 公開日:2023-08-11
# hrfuser: 2次元物体検出のためのマルチレゾリューションセンサ融合アーキテクチャ

HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object Detection ( http://arxiv.org/abs/2206.15157v3 )

ライセンス: Link先を確認
Tim Broedermann (1), Christos Sakaridis (1), Dengxin Dai (2) and Luc Van Gool (1 and 3) ((1) ETH Zurich, (2) MPI for Informatics, (3) KU Leuven)(参考訳) 通常のカメラに加えて、自動運転車にはライダーやレーダーなどの複数のセンサーが含まれており、運転シーンの内容を認識するためによりリッチな情報を取得するのに役立つ。 近年のいくつかの研究は、カメラとライダー、レーダーのような特定のセンサーのペアを、検査された設定に特有のアーキテクチャコンポーネントを使用することに焦点を当てているが、汎用的でモジュラーなセンサー融合アーキテクチャは文献から欠落している。 本研究では,マルチモーダル2次元オブジェクト検出のためのモジュールアーキテクチャであるHRFuserを提案する。 マルチレゾリューション方式で複数のセンサーを融合させ、任意の数の入力モードにスケールする。 hrfuserの設計は、画像のみの高密度予測のための最先端の高解像度ネットワークに基づいており、複数の解像度で複数のモードの融合を行う手段として、新しいマルチウィンドウクロスアテンションブロックが組み込まれている。 提案手法は,2次元物体検出指標で評価される最先端の3次元および2次元融合法と,カメラのみの性能を著しく向上させ,補足的な特徴を効果的に活用できることを,ヌースセンと有害条件の密集したデータセットに関する広範囲な実験により実証する。 ソースコードは公開されている。

Besides standard cameras, autonomous vehicles typically include multiple additional sensors, such as lidars and radars, which help acquire richer information for perceiving the content of the driving scene. While several recent works focus on fusing certain pairs of sensors - such as camera with lidar or radar - by using architectural components specific to the examined setting, a generic and modular sensor fusion architecture is missing from the literature. In this work, we propose HRFuser, a modular architecture for multi-modal 2D object detection. It fuses multiple sensors in a multi-resolution fashion and scales to an arbitrary number of input modalities. The design of HRFuser is based on state-of-the-art high-resolution networks for image-only dense prediction and incorporates a novel multi-window cross-attention block as the means to perform fusion of multiple modalities at multiple resolutions. We demonstrate via extensive experiments on nuScenes and the adverse conditions DENSE datasets that our model effectively leverages complementary features from additional modalities, substantially improving upon camera-only performance and consistently outperforming state-of-the-art 3D and 2D fusion methods evaluated on 2D object detection metrics. The source code is publicly available.
翻訳日:2023-08-14 18:01:50 公開日:2023-08-11
# ECLAD: ローカル集約記述子による概念抽出

ECLAD: Extracting Concepts with Local Aggregated Descriptors ( http://arxiv.org/abs/2206.04531v3 )

ライセンス: Link先を確認
Andres Felipe Posada-Moreno, Nikita Surya, Sebastian Trimpe(参考訳) 畳み込みニューラルネットワーク(cnns)は、ロバスト性とアライメントが重要となる重要なシステムでますます使われている。 この文脈において、説明可能な人工知能の分野は、概念抽出によるcnnの予測過程の高レベルな説明の生成を提案している。 これらの手法は、画像に概念が存在するかどうかを検出することができるが、その位置を特定できない。 さらに、適切な検証手順が欠如しているため、このようなアプローチを公平に比較することは困難である。 そこで本研究では,CNNアクティベーションマップの画素ワイドアグリゲーションから得られた表現に基づいて,概念の自動抽出とローカライズを行う手法を提案する。 さらに,主成分の画素別アノテーションを用いた合成データセットに基づく概念抽出手法の検証プロセスを導入し,人間の介入の必要性を低減した。 合成と実世界の両方のデータセットに対する大規模な実験は、我々の手法が最先端の代替よりも優れていることを示す。

Convolutional neural networks (CNNs) are increasingly being used in critical systems, where robustness and alignment are crucial. In this context, the field of explainable artificial intelligence has proposed the generation of high-level explanations of the prediction process of CNNs through concept extraction. While these methods can detect whether or not a concept is present in an image, they are unable to determine its location. What is more, a fair comparison of such approaches is difficult due to a lack of proper validation procedures. To address these issues, we propose a novel method for automatic concept extraction and localization based on representations obtained through pixel-wise aggregations of CNN activation maps. Further, we introduce a process for the validation of concept-extraction techniques based on synthetic datasets with pixel-wise annotations of their main components, reducing the need for human intervention. Extensive experimentation on both synthetic and real-world datasets demonstrates that our method outperforms state-of-the-art alternatives.
翻訳日:2023-08-14 18:01:24 公開日:2023-08-11
# 訓練可能な重量平均化:サブスペーストレーニングのための一般的なアプローチ

Trainable Weight Averaging: A General Approach for Subspace Training ( http://arxiv.org/abs/2205.13104v3 )

ライセンス: Link先を確認
Tao Li, Zhehao Huang, Yingwen Wu, Zhengbao He, Qinghua Tao, Xiaolin Huang, Chih-Jen Lin(参考訳) 低次元部分空間におけるディープニューラルネットワーク(DNN)のトレーニングは、効率的なトレーニングとより良い一般化性能を達成する上で有望な方向である。 本研究は,DNNが小部分空間で十分に訓練可能であることを検証したトレーニング軌道上の次元低減法を用いて,部分空間を抽出する。 しかし、この手法は部分空間抽出に非効率であり、数値的に不安定であり、より一般的なタスクに適用可能である。 本稿では,部分空間トレーニングを平均化に結び付けて,部分空間トレーニングの一般的なアプローチである \emph{Trainable Weight Averaging} (TWA) を提案する。 TWAは、サブスペース抽出の点で効率的で使いやすく、DNNのトレーニングに期待できる新しいオプティマイザである。 また,大規模な問題に対処し,各ノードにメモリと計算負荷を均等に分散する並列トレーニングを,複数のノードで行うことができる。 twaは、効率的なトレーニングと一般化の強化、さまざまなニューラルネットワークアーキテクチャ、画像分類やオブジェクト検出からニューラルネットワーク処理に至るまで、さまざまなタスクに使用することができる。 実装コードはhttps://github.com/nblt/twaで利用可能であり、様々なアーキテクチャによるベンチマークコンピュータビジョンとニューラルネットワーク処理タスクをカバーする広範な実験が含まれている。

Training deep neural networks (DNNs) in low-dimensional subspaces is a promising direction for achieving efficient training and better generalization performance. Our previous work extracts the subspaces by performing the dimension reduction method over the training trajectory, which verifies that DNN could be well-trained in a tiny subspace. However, that method is inefficient for subspace extraction and numerically unstable, limiting its applicability to more general tasks. In this paper, we connect subspace training to weight averaging and propose \emph{Trainable Weight Averaging} (TWA), a general approach for subspace training. TWA is efficient in terms of subspace extraction and easy to use, making it a promising new optimizer for DNN's training. Our design also includes an efficient scheme that allows parallel training across multiple nodes to handle large-scale problems and evenly distribute the memory and computation burden to each node. TWA can be used for both efficient training and generalization enhancement, for different neural network architectures, and for various tasks from image classification and object detection, to neural language processing. The code of implementation is available at https://github.com/nblt/TWA, which includes extensive experiments covering various benchmark computer vision and neural language processing tasks with various architectures.
翻訳日:2023-08-14 18:01:09 公開日:2023-08-11
# 統合多視点教師なし特徴選択とグラフ学習

Joint Multi-view Unsupervised Feature Selection and Graph Learning ( http://arxiv.org/abs/2204.08247v3 )

ライセンス: Link先を確認
Si-Guo Fang, Dong Huang, Chang-Dong Wang, Yong Tang(参考訳) 大幅な進歩にもかかわらず、以前のマルチビューの教師なし機能選択手法は、ほとんど2つの制限に苦しむ。 まず、クラスタ構造または類似性構造を用いて特徴選択を導くが、これは相互利益を伴う共同定式化の可能性を無視している。 第2に,グローバル構造学習とローカル構造学習のどちらでも類似性構造を学ぶことがよくあり,グローバル構造学習とローカル構造認識のいずれにおいてもグラフ学習の能力に欠ける。 そこで本稿では,JMVFG(Jonti-view unsupervised feature selection and graph learning)アプローチについて述べる。 特に,多視点特徴選択を直交分解で定式化し,各対象行列をビュー固有基底行列とビュー一貫性クラスタインジケータに分解する。 クロススペース局所性保存は、投影空間におけるクラスタ構造学習と、元の空間における類似性学習(グラフ学習)とを橋渡しするために組み込まれている。 さらに,クラスタ構造,大域的および局所的類似性構造,多視点整合性と不整合を同時に学習し,理論的に証明された収束により交互最適化アルゴリズムを開発するための統一目的関数を提案する。 様々な実世界のマルチビューデータセットに対する大規模な実験は、マルチビューの特徴選択とグラフ学習の両方において、我々のアプローチの優位性を示している。 コードはhttps://github.com/huangdonghere/jmvfgで入手できる。

Despite significant progress, previous multi-view unsupervised feature selection methods mostly suffer from two limitations. First, they generally utilize either cluster structure or similarity structure to guide the feature selection, which neglect the possibility of a joint formulation with mutual benefits. Second, they often learn the similarity structure by either global structure learning or local structure learning, which lack the capability of graph learning with both global and local structural awareness. In light of this, this paper presents a joint multi-view unsupervised feature selection and graph learning (JMVFG) approach. Particularly, we formulate the multi-view feature selection with orthogonal decomposition, where each target matrix is decomposed into a view-specific basis matrix and a view-consistent cluster indicator. The cross-space locality preservation is incorporated to bridge the cluster structure learning in the projected space and the similarity learning (i.e., graph learning) in the original space. Further, a unified objective function is presented to enable the simultaneous learning of the cluster structure, the global and local similarity structures, and the multi-view consistency and inconsistency, upon which an alternating optimization algorithm is developed with theoretically proved convergence. Extensive experiments on a variety of real-world multi-view datasets demonstrate the superiority of our approach for both the multi-view feature selection and graph learning tasks. The code is available at https://github.com/huangdonghere/JMVFG.
翻訳日:2023-08-14 18:00:44 公開日:2023-08-11
# con$^{2}$da:一貫性と対比的特徴表現の学習による半教師付きドメイン適応の簡略化

Con$^{2}$DA: Simplifying Semi-supervised Domain Adaptation by Learning Consistent and Contrastive Feature Representations ( http://arxiv.org/abs/2204.01558v2 )

ライセンス: Link先を確認
Manuel P\'erez-Carrasco and Pavlos Protopapas and Guillermo Cabrera-Vives(参考訳) 本稿では,半教師付きドメイン適応(SSDA)問題への半教師付き学習の最近の進歩を拡張した,シンプルなフレームワークであるCon$^{2}$DAを紹介する。 我々のフレームワークは、与えられた入力に対して確率的データ変換を行うことにより、関連するサンプルのペアを生成する。 関連データペアを特徴抽出器を用いて特徴表現空間にマッピングする。 異なる損失関数を使用して、サンプルのデータペアの特徴表現間の一貫性を強制します。 これらの学習表現は、ドメイン適応問題におけるデータ分布の違いを扱うのに有用であることを示す。 我々はモデルの主要な構成要素を研究する実験を行い、それを実証した。 (i)異なる領域にまたがる良質な識別的特徴を抽出するためには、一貫性のある、対照的な特徴表現の学習が不可欠である。 二 当社のモデルは、強化政策の強化による恩恵を受ける。 これらの結果から,本手法はSSDAの3つのベンチマークデータセットの最先端性能を実現する。

In this work, we present Con$^{2}$DA, a simple framework that extends recent advances in semi-supervised learning to the semi-supervised domain adaptation (SSDA) problem. Our framework generates pairs of associated samples by performing stochastic data transformations to a given input. Associated data pairs are mapped to a feature representation space using a feature extractor. We use different loss functions to enforce consistency between the feature representations of associated data pairs of samples. We show that these learned representations are useful to deal with differences in data distributions in the domain adaptation problem. We performed experiments to study the main components of our model and we show that (i) learning of the consistent and contrastive feature representations is crucial to extract good discriminative features across different domains, and ii) our model benefits from the use of strong augmentation policies. With these findings, our method achieves state-of-the-art performances in three benchmark datasets for SSDA.
翻訳日:2023-08-14 18:00:19 公開日:2023-08-11
# Kuaipedia: 大規模マルチモーダルショートビデオ百科事典

Kuaipedia: a Large-scale Multi-modal Short-video Encyclopedia ( http://arxiv.org/abs/2211.00732v3 )

ライセンス: Link先を確認
Haojie Pan, Zepeng Zhai, Yuzhou Zhang, Ruiji Fu, Ming Liu, Yangqiu Song, Zhongyuan Wang and Bing Qin(参考訳) Wikipediaのようなオンライン百科事典は過去20年間によく開発され研究されてきた。 ウィキアイテムの属性やその他の情報は、ボランティアのコミュニティによって編集されたウィキページで見つけることができる。 しかし、伝統的なテキスト、画像、テーブルはwiki項目のいくつかの側面を表現できない。 例えば、『芝犬』について語るとき、その食べ物を守らないよう『食べ方』や『食べ方』をもっと気にするかもしれない。 現在、ショートビデオプラットフォームはオンラインの世界では目玉となっている。 TikTok、Instagram、Kuaishou、YouTube Shortsでも、ショートビデオアプリは今日のコンテンツの消費方法を変えました。 エンターテイメントのために短いビデオを制作する以外に、あらゆる人生で洞察に富んだ知識を共有する作家が増えている。 これらの短いビデオはナレッジビデオと呼ばれ、消費者がアイテム(例えば芝犬)について知りたがるあらゆる側面(例えば、毛髪やハウツーフィード)を表現でき、それらを系統的に分析し、オンライン百科事典のように整理することができる。 本稿では,中国で有名なショートビデオプラットフォームであるKuaishou(Kwai)の数十億本のビデオから抽出した,アイテム,アスペクト,ショートビデオからなる大規模マルチモーダル百科事典であるKuaipediaを提案する。 まず、複数のソースからアイテムを収集し、数百万のユーザのクエリからユーザ中心のアスペクトをマイニングしてアイテムアスペクトツリーを構築しました。 そこで我々は,「マルチモーダルアイテム-アスペクトリンク」と呼ばれる新しいタスクを提案し,ショートビデオをアイテム-アスペクトペアにリンクし,ショートビデオ・百科事典全体を構築する。 内科的評価は,我々の百科事典は大規模かつ高精度であることを示している。 また、Kuaipediaがエンティティタイピングやエンティティリンクといった基本的なアプリケーションにどのように役立つかを示すために、十分な外部実験も行っています。

Online encyclopedias, such as Wikipedia, have been well-developed and researched in the last two decades. One can find any attributes or other information of a wiki item on a wiki page edited by a community of volunteers. However, the traditional text, images and tables can hardly express some aspects of an wiki item. For example, when we talk about ``Shiba Inu'', one may care more about ``How to feed it'' or ``How to train it not to protect its food''. Currently, short-video platforms have become a hallmark in the online world. Whether you're on TikTok, Instagram, Kuaishou, or YouTube Shorts, short-video apps have changed how we consume and create content today. Except for producing short videos for entertainment, we can find more and more authors sharing insightful knowledge widely across all walks of life. These short videos, which we call knowledge videos, can easily express any aspects (e.g. hair or how-to-feed) consumers want to know about an item (e.g. Shiba Inu), and they can be systematically analyzed and organized like an online encyclopedia. In this paper, we propose Kuaipedia, a large-scale multi-modal encyclopedia consisting of items, aspects, and short videos lined to them, which was extracted from billions of videos of Kuaishou (Kwai), a well-known short-video platform in China. We first collected items from multiple sources and mined user-centered aspects from millions of users' queries to build an item-aspect tree. Then we propose a new task called ``multi-modal item-aspect linking'' as an expansion of ``entity linking'' to link short videos into item-aspect pairs and build the whole short-video encyclopedia. Intrinsic evaluations show that our encyclopedia is of large scale and highly accurate. We also conduct sufficient extrinsic experiments to show how Kuaipedia can help fundamental applications such as entity typing and entity linking.
翻訳日:2023-08-14 17:55:21 公開日:2023-08-11
# CodeEditor: トレーニング済みモデルでソースコードを編集する学習

CodeEditor: Learning to Edit Source Code with Pre-trained Models ( http://arxiv.org/abs/2210.17040v2 )

ライセンス: Link先を確認
Jia Allen Li, Ge Li, Zhuo Li, Zhi Jin, Xing Hu, Kechi Zhang, Zhiyi Fu(参考訳) 開発者はソフトウェア開発において、様々な理由で反復的なコード編集活動(例えば、コードリファクタリング)を行うことが多い。 事前訓練されたコード編集モデルは、最先端(SOTA)の結果を得た。 事前トレーニングされたモデルは、まず事前トレーニングタスクで事前トレーニングされ、コード編集タスクで微調整される。 既存の事前トレーニングタスクは、主に、自然言語処理分野から派生したコードインフィルディングタスク(例えば、マスク付き言語モデリング)であり、自動コード編集用に設計されていない。 本稿では,コード編集に特化した新しい事前学習タスクを提案し,CodeEditorというコード編集モデルを提案する。 我々の事前学習タスクは、コード編集モデルの性能と一般化能力をさらに向上させる。 具体的には、多くの現実世界のコードスニペットを基礎として収集し、強力なジェネレータを使用して変更バージョンに書き換えます。 次に、CodeEditorをトレーニングして、修正されたバージョンを対応する真実に編集し、編集パターンを学ぶ。 4つのコード編集データセットの実験を行い、事前学習したCodeEditorを3つの設定で評価する。 1)微調整設定では,事前学習したCodeEditorを4つのデータセットでトレーニングし,テストデータ上で評価する。 CodeEditorは4つのデータセットでSOTAベースラインを15%、25.5%、9.4%、26.6%で上回っている。 2) 数ショット設定では,訓練済みのCodeEditorを限られたデータでトレーニングし,テストデータで評価する。 CodeEditorは、すべてのベースラインよりも大幅にパフォーマンスが向上する。 (3) ゼロショット設定では, sotaベースラインが動作しない間,codeeditor は 1,113 のプログラムを正しく編集する。

Developers often perform repetitive code editing activities for various reasons (e.g., code refactoring) during software development. Pre-trained code editing models have achieved the state-of-the-art (SOTA) results. Pre-trained models are first pre-trained with pre-training tasks and fine-tuned with the code editing task. Existing pre-training tasks mainly are code infilling tasks (e.g., masked language modeling), which are derived from the natural language processing field and are not designed for automatic code editing. This paper proposes a novel pre-training task specialized in code editing and presents an effective pre-trained code editing model named CodeEditor. Our pre-training task further improves the performance and generalization ability of code editing models. Specifically, we collect lots of real-world code snippets as the ground truth and use a powerful generator to rewrite them into mutated versions. Then, we pre-train our CodeEditor to edit mutated versions into the corresponding ground truth, to learn edit patterns. We conduct experiments on four code editing datasets and evaluate the pre-trained CodeEditor in three settings. (1) In the fine-tuning setting, we train the pre-trained CodeEditor with four datasets and evaluate it on the test data. CodeEditor outperforms the SOTA baselines by 15%, 25.5%, and 9.4% and 26.6% on four datasets. (2) In the few-shot setting, we train the pre-trained CodeEditor with limited data and evaluate it on the test data. CodeEditor substantially performs better than all baselines. (3) In the zero-shot setting, CodeEditor correctly edits 1,113 programs while the SOTA baselines can not work.
翻訳日:2023-08-14 17:54:32 公開日:2023-08-11
# ディープラーニングにおけるデータ分離の法則

A Law of Data Separation in Deep Learning ( http://arxiv.org/abs/2210.17020v2 )

ライセンス: Link先を確認
Hangfeng He and Weijie J. Su(参考訳) ディープラーニングは科学の多くの分野で大きな進歩をもたらしたが、ブラックボックスの性質は将来の人工知能応用のためのアーキテクチャ設計を妨げ、高い意思決定のための解釈を妨げている。 我々は、中間層でどのようにディープニューラルネットワークがデータを処理するかという根本的な問題を研究することでこの問題に対処した。 我々の発見は単純で定量的な法則であり、ディープニューラルネットワークが分類のためのすべての層でクラスメンバーシップに従ってどのようにデータを分離するかを決定する。 この法則は、各層が一定の幾何速度でデータ分離を改善し、トレーニング中にネットワークアーキテクチャとデータセットのコレクションでその出現が観測されることを示している。 この法則は、アーキテクチャの設計、モデルロバスト性の改善、サンプル外パフォーマンス、予測の解釈のための実践的なガイドラインを提供する。

While deep learning has enabled significant advances in many areas of science, its black-box nature hinders architecture design for future artificial intelligence applications and interpretation for high-stakes decision makings. We addressed this issue by studying the fundamental question of how deep neural networks process data in the intermediate layers. Our finding is a simple and quantitative law that governs how deep neural networks separate data according to class membership throughout all layers for classification. This law shows that each layer improves data separation at a constant geometric rate, and its emergence is observed in a collection of network architectures and datasets during training. This law offers practical guidelines for designing architectures, improving model robustness and out-of-sample performance, as well as interpreting the predictions.
翻訳日:2023-08-14 17:54:03 公開日:2023-08-11
# メタデータとコントラスト学習を用いた呼吸音の事前学習

Pretraining Respiratory Sound Representations using Metadata and Contrastive Learning ( http://arxiv.org/abs/2210.16192v3 )

ライセンス: Link先を確認
Ilyass Moummad, Nicolas Farrugia(参考訳) アノテーションを用いた教師あり学習に基づく手法は, 分類問題に対して最先端の手法である。 しかしながら、特に低データレジームでは、その一般化能力に制限がある可能性がある。 本研究では、教師付きコントラスト学習と利用可能なメタデータを組み合わせることで、データの優れた表現を学習する複数のプリテキストタスクを解決する。 我々は呼吸音の分類にアプローチを適用する。 この課題は、性別や年齢などの人口統計情報が肺疾患の存在と相関し、暗黙的にこの情報をエンコードするシステムを学ぶことで、異常を検出するのに適している。 教師付きコントラスト学習(supervised contrastive learning)は、同じクラスラベルを共有するサンプルと異なるクラスラベルを持つサンプルとの類似表現を学ぶパラダイムである。 本手法を用いて得られた特徴抽出器は,2つの異なるデータセットにおける呼吸異常の分類において,クロスエントロピーよりも優れていることを示す。 また,クラスラベルを使わずにメタデータのみを用いた学習表現は,それらのラベルのみを用いたクロスエントロピーと同様のパフォーマンスが得られることを示す。 さらに、複数の教師付きコントラスト学習を用いて、クラスラベルとメタデータを組み合わせる場合、同じ性別と年齢グループ内で患者をグループ化する追加タスクを解決する教師付きコントラスト学習の拡張により、より情報的な特徴が学習される。 この研究は、教師付きコントラスト設定、特にクラス不均衡と少ないデータの設定で複数のメタデータソースを使用する可能性を示唆している。 私たちのコードはhttps://github.com/ilyassmoummad/scl_icbhi2017でリリースされています。

Methods based on supervised learning using annotations in an end-to-end fashion have been the state-of-the-art for classification problems. However, they may be limited in their generalization capability, especially in the low data regime. In this study, we address this issue using supervised contrastive learning combined with available metadata to solve multiple pretext tasks that learn a good representation of data. We apply our approach on respiratory sound classification. This task is suited for this setting as demographic information such as sex and age are correlated with presence of lung diseases, and learning a system that implicitly encode this information may better detect anomalies. Supervised contrastive learning is a paradigm that learns similar representations to samples sharing the same class labels and dissimilar representations to samples with different class labels. The feature extractor learned using this paradigm extract useful features from the data, and we show that it outperforms cross-entropy in classifying respiratory anomalies in two different datasets. We also show that learning representations using only metadata, without class labels, obtains similar performance as using cross entropy with those labels only. In addition, when combining class labels with metadata using multiple supervised contrastive learning, an extension of supervised contrastive learning solving an additional task of grouping patients within the same sex and age group, more informative features are learned. This work suggests the potential of using multiple metadata sources in supervised contrastive settings, in particular in settings with class imbalance and few data. Our code is released at https://github.com/ilyassmoummad/scl_icbhi2017
翻訳日:2023-08-14 17:53:37 公開日:2023-08-11
# 時間的スライスにおける自由フェルミオンの絡み合いエントロピー

Entanglement Entropy of Free Fermions in Timelike Slices ( http://arxiv.org/abs/2210.03134v2 )

ライセンス: Link先を確認
Bowei Liu, Hao Chen, Biao Lian(参考訳) 離散的点集合の任意の時空スライスにおける自由フェルミオン量子状態の絡み合いエントロピーを定義し、特に時間的(causal)スライスについて検討する。 エネルギー帯域 $e_0$ の1次元格子自由フェルミオンに対して、同じサイトで時間長さ $t$ にまたがる $t_n=n\tau$ ($1\le n\le k$) の時間方向スライスにおいて、時間方向エンタングルメントエントロピー $s_a$ を計算する。 ゼロ温度基底状態の場合、$S_A$は、$\tau\gg\tau_0=2\pi/E_0$, 対照的に、$S_A\sim \frac{1}{3}\ln t$, $\tau=\tau_0$, $S_A\sim\frac{1}{6}\ln t$, $S_A\sim\frac{1}{6}\ln t$, $\tau<\tau_0$, それぞれ非キラルフェルミオンのカラブレス・カルディ式に類似している。 有限温度状態の場合、相互情報は$\tau<\tau_0$の場合も飽和する。 非固有状態の場合、$t$の体積法則とリーブ・ロビンソン境界速度の符号は$S_A$で観測できる。 サイト毎の1点の一般時空スライスに対して、ゼロ温度エンタングルメントエントロピーは、スライスが空間的から時相的に変化するとき、領域法則から体積法則への明確な遷移を示す。

We define the entanglement entropy of free fermion quantum states in an arbitrary spacetime slice of a discrete set of points, and particularly investigate timelike (causal) slices. For 1D lattice free fermions with an energy bandwidth $E_0$, we calculate the time-direction entanglement entropy $S_A$ in a time-direction slice of a set of times $t_n=n\tau$ ($1\le n\le K$) spanning a time length $t$ on the same site. For zero temperature ground states, we find that $S_A$ shows volume law when $\tau\gg\tau_0=2\pi/E_0$; in contrast, $S_A\sim \frac{1}{3}\ln t$ when $\tau=\tau_0$, and $S_A\sim\frac{1}{6}\ln t$ when $\tau<\tau_0$, resembling the Calabrese-Cardy formula for one flavor of nonchiral and chiral fermion, respectively. For finite temperature thermal states, the mutual information also saturates when $\tau<\tau_0$. For non-eigenstates, volume law in $t$ and signatures of the Lieb-Robinson bound velocity can be observed in $S_A$. For generic spacetime slices with one point per site, the zero temperature entanglement entropy shows a clear transition from area law to volume law when the slice varies from spacelike to timelike.
翻訳日:2023-08-14 17:52:55 公開日:2023-08-11
# 仮想光ステージによるポートレート画像のリライトと合成・再適応の学習

Learning to Relight Portrait Images via a Virtual Light Stage and Synthetic-to-Real Adaptation ( http://arxiv.org/abs/2209.10510v3 )

ライセンス: Link先を確認
Yu-Ying Yeh, Koki Nagano, Sameh Khamis, Jan Kautz, Ming-Yu Liu, Ting-Chun Wang(参考訳) 人物の肖像画と対象照明の環境マップが与えられた場合、ポートレートリライティングは、対象照明のある環境に現れたように、画像中の人物を再照明することを目的としている。 高品質な結果を得るために、近年の手法はディープラーニングに依存している。 効果的なアプローチは、光ステージでキャプチャされた、望ましい入出力ペアの忠実度の高いデータセットでディープニューラルネットワークのトレーニングを監督することである。 しかし、そのようなデータを取得するには高価な特別なキャプチャリグと時間を要する作業が必要であり、少数のリソースに満ちた研究所へのアクセスは制限されている。 この制限に対処するため,光ステージを必要とせずにSOTA(State-of-the-art Relighting)手法に匹敵する新しい手法を提案する。 我々のアプローチは、肖像画のリライティングの成功は2つの条件に依存するという認識に基づいている。 まず、物理的なリライティングの振る舞いを模倣する必要がある。 第二に、出力はフォトリアリスティックでなければならない。 第1の条件を満たすために,様々な3d合成人間に対して異なる環境マップ下で物理的にレンダリングを行う仮想光ステージによって生成されたトレーニングデータを用いて,リライトネットワークを訓練することを提案する。 第2の条件を満たすために,光合成から現実への新たなアプローチを開発した。 sota結果の達成に加えて,メガネのグラアの制御性向上や映像のリライトにおける時間的一貫性の向上など,従来の手法よりもいくつかの利点がある。

Given a portrait image of a person and an environment map of the target lighting, portrait relighting aims to re-illuminate the person in the image as if the person appeared in an environment with the target lighting. To achieve high-quality results, recent methods rely on deep learning. An effective approach is to supervise the training of deep neural networks with a high-fidelity dataset of desired input-output pairs, captured with a light stage. However, acquiring such data requires an expensive special capture rig and time-consuming efforts, limiting access to only a few resourceful laboratories. To address the limitation, we propose a new approach that can perform on par with the state-of-the-art (SOTA) relighting methods without requiring a light stage. Our approach is based on the realization that a successful relighting of a portrait image depends on two conditions. First, the method needs to mimic the behaviors of physically-based relighting. Second, the output has to be photorealistic. To meet the first condition, we propose to train the relighting network with training data generated by a virtual light stage that performs physically-based rendering on various 3D synthetic humans under different environment maps. To meet the second condition, we develop a novel synthetic-to-real approach to bring photorealism to the relighting network output. In addition to achieving SOTA results, our approach offers several advantages over the prior methods, including controllable glares on glasses and more temporally-consistent results for relighting videos.
翻訳日:2023-08-14 17:52:14 公開日:2023-08-11
# Sparse-View Computed Tomography のための自己監督型座標投影ネットワーク

Self-Supervised Coordinate Projection Network for Sparse-View Computed Tomography ( http://arxiv.org/abs/2209.05483v2 )

ライセンス: Link先を確認
Qing Wu, Ruimin Feng, Hongjiang Wei, Jingyi Yu, and Yuyao Zhang(参考訳) 本研究では,逆トモグラフィ問題を解くことにより,単一のsvシンノグラムからアーチファクトフリーct画像を再構成する自己教師付き座標投影ネットワーク(scope)を提案する。 暗黙的ニューラル表現ネットワーク(INR)を用いて類似の問題を解決する最近の研究と比較すると,我々の重要な貢献はトモグラフィ画像再構成の質を教師付きディープラーニングCT再構成作業よりも向上させる,効果的でシンプルな再投影戦略である。 提案手法は線形代数と逆問題の間の単純な関係に着想を得ている。 非決定線形方程式系を解くために,まず,画像連続性によって解空間を制約し,粗い解を得るinrを導入する。 次に,線形方程式系の階調を向上し,より安定したCT画像解空間を創出する高密度なビュー・シングラムを提案する。 実験の結果,再投影戦略が画像再構成品質(psnr+3db)を大幅に向上させることが示された。 さらに、最近のハッシュエンコーディングをスコープモデルに統合することで、モデルのトレーニングを大幅に加速します。 最後に,SCOPEを並列に評価し,ファンX線SVCT再構成作業を行った。 実験結果から,提案したSCOPEモデルは,INRに基づく最新の2つの手法と,定性的に定量的に2つのよく知られたDL手法より優れていることが示された。

In the present work, we propose a Self-supervised COordinate Projection nEtwork (SCOPE) to reconstruct the artifacts-free CT image from a single SV sinogram by solving the inverse tomography imaging problem. Compared with recent related works that solve similar problems using implicit neural representation network (INR), our essential contribution is an effective and simple re-projection strategy that pushes the tomography image reconstruction quality over supervised deep learning CT reconstruction works. The proposed strategy is inspired by the simple relationship between linear algebra and inverse problems. To solve the under-determined linear equation system, we first introduce INR to constrain the solution space via image continuity prior and achieve a rough solution. And secondly, we propose to generate a dense view sinogram that improves the rank of the linear equation system and produces a more stable CT image solution space. Our experiment results demonstrate that the re-projection strategy significantly improves the image reconstruction quality (+3 dB for PSNR at least). Besides, we integrate the recent hash encoding into our SCOPE model, which greatly accelerates the model training. Finally, we evaluate SCOPE in parallel and fan X-ray beam SVCT reconstruction tasks. Experimental results indicate that the proposed SCOPE model outperforms two latest INR-based methods and two well-popular supervised DL methods quantitatively and qualitatively.
翻訳日:2023-08-14 17:51:20 公開日:2023-08-11
# 時間計画のための効率的なインクリメンタル簡易時間ネットワークデータ構造

An Efficient Incremental Simple Temporal Network Data Structure for Temporal Planning ( http://arxiv.org/abs/2212.07226v2 )

ライセンス: Link先を確認
Andrea Micheli(参考訳) 時間計画問題を解決する一般的な手法は、因果決定を分離し、時間的決定からヒューリスティックな探索を要求し、単純な時間的ネットワーク(stn)解決者に要求することである。 このアーキテクチャでは、相互に関連のある一連のsnsの一貫性を確認する必要があるため、前回の計算を段階的に再利用し、高価なメモリ重複を回避する方法が最重要となる。 本稿では,STNが時間的計画においてどのように使用されるのかを詳述し,このユースケースをサポートするための明確なインターフェースを特定し,時間的・メモリ効率の両面から,このインターフェースを実装する効率的なデータ構造を提案する。 我々のデータ構造は \deltastn と呼ばれ、時間的計画順序に関する他の最先端のアプローチよりも優れていることを示す。

One popular technique to solve temporal planning problems consists in decoupling the causal decisions, demanding them to heuristic search, from temporal decisions, demanding them to a simple temporal network (STN) solver. In this architecture, one needs to check the consistency of a series of STNs that are related one another, therefore having methods to incrementally re-use previous computations and that avoid expensive memory duplication is of paramount importance. In this paper, we describe in detail how STNs are used in temporal planning, we identify a clear interface to support this use-case and we present an efficient data-structure implementing this interface that is both time- and memory-efficient. We show that our data structure, called \deltastn, is superior to other state-of-the-art approaches on temporal planning sequences of problems.
翻訳日:2023-08-14 17:42:59 公開日:2023-08-11
# RT-1:ロボットトランスによる実世界制御

RT-1: Robotics Transformer for Real-World Control at Scale ( http://arxiv.org/abs/2212.06817v2 )

ライセンス: Link先を確認
Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Joseph Dabis, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Tomas Jackson, Sally Jesmonth, Nikhil J Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Kuang-Huei Lee, Sergey Levine, Yao Lu, Utsav Malla, Deeksha Manjunath, Igor Mordatch, Ofir Nachum, Carolina Parada, Jodilyn Peralta, Emily Perez, Karl Pertsch, Jornell Quiambao, Kanishka Rao, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Kevin Sayed, Jaspiar Singh, Sumedh Sontakke, Austin Stone, Clayton Tan, Huong Tran, Vincent Vanhoucke, Steve Vega, Quan Vuong, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich(参考訳) 大規模で多様なタスクに依存しないデータセットから知識を移すことで、現代の機械学習モデルは、ゼロショットまたは小さなタスク固有のデータセットで特定の下流タスクを高いレベルのパフォーマンスに解決することができる。 この機能はコンピュータビジョン、自然言語処理、音声認識といった他の分野で実証されているが、ロボット工学では、実世界のロボットデータの収集が困難であるため、モデルの一般化能力が特に重要である。 このような一般的なロボットモデルの成功の鍵の1つは、オープンなタスク非依存のトレーニングと、多様なロボットデータをすべて吸収できる高容量アーキテクチャである、と我々は主張する。 本稿では,ロボットトランスフォーマーと呼ばれる,有望なスケーラブルなモデル特性を示すモデルクラスを提案する。 実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。 プロジェクトのウェブサイトとビデオはrobotics-transformer1.github.ioで見ることができる。

By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data. We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data. In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties. We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks. The project's website and videos can be found at robotics-transformer1.github.io
翻訳日:2023-08-14 17:42:40 公開日:2023-08-11
# ディープグラフニューラルネットワークにおけるオーバースムーシングとオーバースキャッシングのトレードオフについて

On the Trade-off between Over-smoothing and Over-squashing in Deep Graph Neural Networks ( http://arxiv.org/abs/2212.02374v2 )

ライセンス: Link先を確認
Jhony H. Giraldo, Konstantinos Skianis, Thierry Bouwmans, Fragkiskos D. Malliaros(参考訳) グラフニューラルネットワーク(GNN)は様々なコンピュータ科学の応用に成功しているが、ディープラーニングが他の領域で成功したにもかかわらず、深いGNNは浅い分野よりも優れていた。 グラフ畳み込み層を積み重ねることで、深層表現学習や遠方ノードからの情報伝達を妨げる、オーバースムーシングとオーバースキャッシングが鍵となる課題である。 我々の研究は、過密化と過密化がグラフラプラシアンのスペクトルギャップと本質的に関係していることを明らかにし、同時に緩和できないため、これらの2つの問題の間に必然的なトレードオフをもたらす。 適切な妥協を実現するために,エッジの追加と削除を実行可能なアプローチとして提案する。 本稿では,従来の曲率に基づく手法と比較して,計算効率が高く基本特性を保った確率的jostおよびliu曲率リワイリング(sjlr)アルゴリズムを提案する。 既存のアプローチとは異なり、SJLRはGNNトレーニング中にエッジの追加と削除を行い、テスト中にグラフを変更せずに維持する。 総合的な比較では、SJLRのオーバースムーシングとオーバースキャッシングの競合性能を示している。

Graph Neural Networks (GNNs) have succeeded in various computer science applications, yet deep GNNs underperform their shallow counterparts despite deep learning's success in other domains. Over-smoothing and over-squashing are key challenges when stacking graph convolutional layers, hindering deep representation learning and information propagation from distant nodes. Our work reveals that over-smoothing and over-squashing are intrinsically related to the spectral gap of the graph Laplacian, resulting in an inevitable trade-off between these two issues, as they cannot be alleviated simultaneously. To achieve a suitable compromise, we propose adding and removing edges as a viable approach. We introduce the Stochastic Jost and Liu Curvature Rewiring (SJLR) algorithm, which is computationally efficient and preserves fundamental properties compared to previous curvature-based methods. Unlike existing approaches, SJLR performs edge addition and removal during GNN training while maintaining the graph unchanged during testing. Comprehensive comparisons demonstrate SJLR's competitive performance in addressing over-smoothing and over-squashing.
翻訳日:2023-08-14 17:41:57 公開日:2023-08-11
# 対称量子系をシミュレートする効率的な古典アルゴリズム

Efficient classical algorithms for simulating symmetric quantum systems ( http://arxiv.org/abs/2211.16998v3 )

ライセンス: Link先を確認
Eric R. Anschuetz and Andreas Bauer and Bobak T. Kiani and Seth Lloyd(参考訳) 量子アドバンテージを期待して、最近提案された量子アルゴリズムに対称性を組み込むことにより、古典的アルゴリズムは、入力の特定の古典的記述を与えられた量子対応するものを効率的にエミュレートできることを示す。 具体的には,可換不変ハミルトニアンに対する基底状態と時間発展期待値を計算する古典的アルゴリズムを,システムサイズのランタイム多項式を用いて対称性のパウリ基底で指定する。 テンソルネットワーク法を用いて対称同値作用素を多項式サイズであるブロック対角シュアー基底へ変換し、この基底において厳密な行列乗算や対角化を行う。 これらの方法は、シュア基底で規定された値を含む幅広い入力および出力状態、行列積状態、または低深さ回路と単一量子ビット測定を適用するパワーを与えられたときの任意の量子状態に適用可能である。

In light of recently proposed quantum algorithms that incorporate symmetries in the hope of quantum advantage, we show that with symmetries that are restrictive enough, classical algorithms can efficiently emulate their quantum counterparts given certain classical descriptions of the input. Specifically, we give classical algorithms that calculate ground states and time-evolved expectation values for permutation-invariant Hamiltonians specified in the symmetrized Pauli basis with runtimes polynomial in the system size. We use tensor-network methods to transform symmetry-equivariant operators to the block-diagonal Schur basis that is of polynomial size, and then perform exact matrix multiplication or diagonalization in this basis. These methods are adaptable to a wide range of input and output states including those prescribed in the Schur basis, as matrix product states, or as arbitrary quantum states when given the power to apply low depth circuits and single qubit measurements.
翻訳日:2023-08-14 17:41:38 公開日:2023-08-11
# トランスフォーマーは短文分類器である:ベンチマークと実世界のデータセットにおける帰納的短文分類器の研究

Transformers are Short Text Classifiers: A Study of Inductive Short Text Classifiers on Benchmarks and Real-world Datasets ( http://arxiv.org/abs/2211.16878v3 )

ライセンス: Link先を確認
Fabian Karl and Ansgar Scherp(参考訳) 短いテキスト分類は自然言語処理において重要かつ困難な側面である。 このため、高度に専門化された短文分類器が多数存在する。 しかし、近年のショートテキスト研究では、伝統的なテキスト分類、特にトランスフォーマーの純粋使用のための最先端技術(sota)手法が未解明となっている。 本研究では,様々な短文分類器の性能と,従来のテキスト分類器の最高性能について検討する。 さらに、限られた特徴を持つベンチマークデータセットに過度に依存する問題に対処するために、2つの新しい実世界の短文データセットの効果について検討する。 本実験は,短いテキスト分類タスクにおいてトランスフォーマーがsoma精度を達成することをあいまいに証明し,特殊な短いテキスト技術が必要かどうかという疑問を提起する。

Short text classification is a crucial and challenging aspect of Natural Language Processing. For this reason, there are numerous highly specialized short text classifiers. However, in recent short text research, State of the Art (SOTA) methods for traditional text classification, particularly the pure use of Transformers, have been unexploited. In this work, we examine the performance of a variety of short text classifiers as well as the top performing traditional text classifier. We further investigate the effects on two new real-world short text datasets in an effort to address the issue of becoming overly dependent on benchmark datasets with a limited number of characteristics. Our experiments unambiguously demonstrate that Transformers achieve SOTA accuracy on short text classification tasks, raising the question of whether specialized short text techniques are necessary.
翻訳日:2023-08-14 17:41:23 公開日:2023-08-11
# 画像再構成のためのニューラルネットワークに基づく凸正規化器

A Neural-Network-Based Convex Regularizer for Image Reconstruction ( http://arxiv.org/abs/2211.12461v2 )

ライセンス: Link先を確認
Alexis Goujon, Sebastian Neumayer, Pakshal Bohra, Stanislas Ducotterd, Michael Unser(参考訳) 画像再構成問題を解決するディープラーニング手法の出現により、復元品質が大幅に向上した。 残念ながら、これらの新しい手法は信頼性と説明性に欠けることが多く、パフォーマンスの向上を維持しながらこれらの欠点に対処する関心が高まっている。 本研究では,凸リッジ関数の和である正規化子を再検討することでこの問題に取り組む。 このような正規化器の勾配は、活性化関数が増加し学習可能な単一の隠蔽層を持つニューラルネットワークによってパラメータ化される。 このニューラルネットワークは、多段階ガウスデノイザーとして数分以内に訓練される。 難聴,CT,MRIの再建のための数値実験では,同様の信頼性保証を提供する手法よりも改善が見られた。

The emergence of deep-learning-based methods to solve image-reconstruction problems has enabled a significant increase in reconstruction quality. Unfortunately, these new methods often lack reliability and explainability, and there is a growing interest to address these shortcomings while retaining the boost in performance. In this work, we tackle this issue by revisiting regularizers that are the sum of convex-ridge functions. The gradient of such regularizers is parameterized by a neural network that has a single hidden layer with increasing and learnable activation functions. This neural network is trained within a few minutes as a multistep Gaussian denoiser. The numerical experiments for denoising, CT, and MRI reconstruction show improvements over methods that offer similar reliability guarantees.
翻訳日:2023-08-14 17:41:08 公開日:2023-08-11
# ヒートマップを用いた分布外検出

Heatmap-based Out-of-Distribution Detection ( http://arxiv.org/abs/2211.08115v2 )

ライセンス: Link先を確認
Julia Hornauer, Vasileios Belagiannis(参考訳) 本研究は,ニューラルネットワークの出力説明問題として,分布外検出(ood)について検討する。 分布領域と分布領域を同時に可視化しながら,ood画像を検出するためのヒートマップ表現を学習する。 トレーニングされた固定分類器が与えられた場合、分類器の特徴とクラス予測に基づいて、分布内サンプルに対する応答ゼロのヒートマップとOODサンプルに対する応答高ヒートマップを生成するようにデコーダニューラルネットワークを訓練する。 我々の主な革新は、OODサンプルのヒートマップ定義であり、最も近い分布内サンプルとの正規化の違いである。 ヒートマップは、分布内サンプルと分布外サンプルを区別するためのマージンとして機能する。 提案手法は,OOD検出だけでなく,入力画像の分布内領域や分布外領域を示すためのヒートマップを生成する。 評価では, CIFAR-10, CIFAR-100, Tiny ImageNet でトレーニングした固定分類器の先行研究よりも高い性能を示した。 コードはhttps://github.com/jhornauer/heatmap_ood.com/で公開されている。

Our work investigates out-of-distribution (OOD) detection as a neural network output explanation problem. We learn a heatmap representation for detecting OOD images while visualizing in- and out-of-distribution image regions at the same time. Given a trained and fixed classifier, we train a decoder neural network to produce heatmaps with zero response for in-distribution samples and high response heatmaps for OOD samples, based on the classifier features and the class prediction. Our main innovation lies in the heatmap definition for an OOD sample, as the normalized difference from the closest in-distribution sample. The heatmap serves as a margin to distinguish between in- and out-of-distribution samples. Our approach generates the heatmaps not only for OOD detection, but also to indicate in- and out-of-distribution regions of the input image. In our evaluations, our approach mostly outperforms the prior work on fixed classifiers, trained on CIFAR-10, CIFAR-100 and Tiny ImageNet. The code is publicly available at: https://github.com/jhornauer/heatmap_ood.
翻訳日:2023-08-14 17:40:58 公開日:2023-08-11
# 円錐交叉周りの力学における幾何学的位相の直接観察

Direct observation of geometric phase in dynamics around a conical intersection ( http://arxiv.org/abs/2211.07320v3 )

ライセンス: Link先を確認
Christophe H. Valahu and Vanessa C. Olaya-Agudelo and Ryan J. MacDonell and Tomas Navickas and Arjun D. Rao and Maverick J. Millican and Juan B. P\'erez-S\'anchez and Joel Yuen-Zhou and Michael J. Biercuk and Cornelius Hempel and Ting Rei Tan and Ivan Kassal(参考訳) 円錐交差は化学や物理学においてユビキタスであり、しばしば光の収穫、視覚、光触媒、化学反応性などのプロセスを管理する。 分子の電子状態間のファンネルとして作用し、化学動力学において迅速かつ効率的な緩和を可能にする。 さらに、反応経路が円錐交叉を囲むとき、分子波動関数は幾何学的な位相を経験し、量子力学的干渉による反応の結果に影響を与える。 過去の実験では散乱パターンや分光観測器の幾何学的位相の間接的なシグネチャを測定してきたが、波束干渉の直接観測は行われていない。 そこで本研究では,プログラム可能な閉じ込めイオン量子シミュレータにおいて,設計された円錐交差を回る波束の力学における幾何学的位相干渉を実験的に観察する。 そこで我々は, 捕捉イオンの2次元波動束密度を再構成する手法を開発した。 実験は理論モデルと一致し、トラップされたイオンを用いて実現したアナログ量子シミュレーターの核量子効果を正確に記述する能力を示す。

Conical intersections are ubiquitous in chemistry and physics, often governing processes such as light harvesting, vision, photocatalysis, and chemical reactivity. They act as funnels between electronic states of molecules, allowing rapid and efficient relaxation during chemical dynamics. In addition, when a reaction path encircles a conical intersection, the molecular wavefunction experiences a geometric phase, which can affect the outcome of the reaction through quantum-mechanical interference. Past experiments have measured indirect signatures of geometric phases in scattering patterns and spectroscopic observables, but there has been no direct observation of the underlying wavepacket interference. Here, we experimentally observe geometric-phase interference in the dynamics of a wavepacket travelling around an engineered conical intersection in a programmable trapped-ion quantum simulator. To achieve this, we develop a technique to reconstruct the two-dimensional wavepacket densities of a trapped ion. Experiments agree with the theoretical model, demonstrating the ability of analog quantum simulators -- such as those realised using trapped ions -- to accurately describe nuclear quantum effects.
翻訳日:2023-08-14 17:40:39 公開日:2023-08-11
# 逆カーネル分解

Inverse Kernel Decomposition ( http://arxiv.org/abs/2211.05961v2 )

ライセンス: Link先を確認
Chengrui Li and Anqi Wu(参考訳) 最先端の次元削減アプローチは主に複雑な最適化手順に依存している。 一方、単に固有分解を必要とする閉形式アプローチは、洗練度と非線形性が十分ではない。 本稿では,データのサンプル共分散行列の固有分解に基づく非線形次元低減法である逆核分解(ikd)を提案する。 このメソッドはガウスのプロセス潜在変数モデル(GPLVM)にインスパイアされ、GPLVMと同等のパフォーマンスを持つ。 弱相関を持つ非常にノイズの多いデータを扱うために,我々は,局所相関データ点を利用するためのブロックワイズと測地線という2つの解を提案する。 我々は合成データセットと4つの実世界のデータセットを用いて、ikdが他の固有分解法よりも優れた次元性低減法であることを示す。 pythonのオープンソースikd実装は、この \url{https://github.com/jerrysoybean/ikd}でアクセスできる。

The state-of-the-art dimensionality reduction approaches largely rely on complicated optimization procedures. On the other hand, closed-form approaches requiring merely eigen-decomposition do not have enough sophistication and nonlinearity. In this paper, we propose a novel nonlinear dimensionality reduction method -- Inverse Kernel Decomposition (IKD) -- based on an eigen-decomposition of the sample covariance matrix of data. The method is inspired by Gaussian process latent variable models (GPLVMs) and has comparable performance with GPLVMs. To deal with very noisy data with weak correlations, we propose two solutions -- blockwise and geodesic -- to make use of locally correlated data points and provide better and numerically more stable latent estimations. We use synthetic datasets and four real-world datasets to show that IKD is a better dimensionality reduction method than other eigen-decomposition-based methods, and achieves comparable performance against optimization-based methods with faster running speeds. Open-source IKD implementation in Python can be accessed at this \url{https://github.com/JerrySoybean/ikd}.
翻訳日:2023-08-14 17:40:20 公開日:2023-08-11
# 光場画像の超解像に対する非局所空間角相関の学習

Learning Non-Local Spatial-Angular Correlation for Light Field Image Super-Resolution ( http://arxiv.org/abs/2302.08058v3 )

ライセンス: Link先を確認
Zhengyu Liang, Yingqian Wang, Longguang Wang, Jungang Yang, Shilin Zhou, Yulan Guo(参考訳) 空間-角相関の爆発は光場(LF)画像超解像(SR)にとって重要であるが、LF画像間の相違による非局所性のため、非常に困難である。 多くのディープニューラルネットワーク(dnn)がlfイメージsr用に開発され、性能が継続的に向上しているが、既存の手法では長距離空間-三角形相関を十分に活用できないため、大きなばらつきを持つシーンを扱う場合のパフォーマンス低下が著しい。 本稿では,LF画像SRの非局所空間角相関を学習するための簡易かつ効果的な手法を提案する。 本研究では,複数の2次元EPI平面に4次元空間角相関を投影するために,エピポーラ平面画像(EPI)表現を採用し,また,反復的な自己アテンション操作を施したトランスフォーマーネットワークを開発し,それぞれのEPI画素間の依存関係をモデル化して空間角相関を学習する。 提案手法は,全角視からの情報を完全に取り入れつつ,極上線に沿った大域的受容場を達成できる。 本手法の有効性を検証するため,洞察力のある可視化実験を行った。 5つの公開データセットの比較結果から,本手法は最先端のsr性能を実現するだけでなく,ばらつきに頑健な性能を示す。 コードはhttps://github.com/ZhengyuLiang24/EPIT.comで公開されている。

Exploiting spatial-angular correlation is crucial to light field (LF) image super-resolution (SR), but is highly challenging due to its non-local property caused by the disparities among LF images. Although many deep neural networks (DNNs) have been developed for LF image SR and achieved continuously improved performance, existing methods cannot well leverage the long-range spatial-angular correlation and thus suffer a significant performance drop when handling scenes with large disparity variations. In this paper, we propose a simple yet effective method to learn the non-local spatial-angular correlation for LF image SR. In our method, we adopt the epipolar plane image (EPI) representation to project the 4D spatial-angular correlation onto multiple 2D EPI planes, and then develop a Transformer network with repetitive self-attention operations to learn the spatial-angular correlation by modeling the dependencies between each pair of EPI pixels. Our method can fully incorporate the information from all angular views while achieving a global receptive field along the epipolar line. We conduct extensive experiments with insightful visualizations to validate the effectiveness of our method. Comparative results on five public datasets show that our method not only achieves state-of-the-art SR performance, but also performs robust to disparity variations. Code is publicly available at https://github.com/ZhengyuLiang24/EPIT.
翻訳日:2023-08-14 17:36:21 公開日:2023-08-11
# 大規模音声録音における音声生成の検出と分類

Detection and classification of vocal productions in large scale audio recordings ( http://arxiv.org/abs/2302.07640v2 )

ライセンス: Link先を確認
Guillem Bonafos, Pierre Pudlo, Jean-Marc Freyermuth, Thierry Legou, Jo\"el Fagot, Samuel Tron\c{c}on, Arnaud Rey(参考訳) 大規模自然音声録音から発声音声を抽出し,これらの発声音声を分類する自動データ処理パイプラインを提案する。 パイプラインはディープニューラルネットワークに基づいており、両方の問題を同時に処理する。 一連の計算ステップ(ウィンドウ、ノイズクラスの作成、データ拡張、再サンプリング、転送学習、ベイジアン最適化)は、ラベル付きデータの大量のサンプルや重要なコンピューティングリソースを必要とせずに、自動的にニューラルネットワークをトレーニングする。 エンド・ツー・エンドの手法は,異なる記録条件下で発生するノイズを処理できる。 1つは霊長類研究センターで記録されたギニアバブーンのグループで、もう1つは自宅で記録された人間の赤ちゃんのものだ。 このパイプラインは72分間と77分間のラベル付き録音のモデルを訓練しており、精度は94.58%と99.76%である。 その後、443時間と174時間の連続録音を処理し、それぞれ38.8時間と35.2時間の2つの新しいデータベースを作成する。 大規模オーディオ録音に適用可能なこのアプローチの長所と短所について論じる。

We propose an automatic data processing pipeline to extract vocal productions from large-scale natural audio recordings and classify these vocal productions. The pipeline is based on a deep neural network and adresses both issues simultaneously. Though a series of computationel steps (windowing, creation of a noise class, data augmentation, re-sampling, transfer learning, Bayesian optimisation), it automatically trains a neural network without requiring a large sample of labeled data and important computing resources. Our end-to-end methodology can handle noisy recordings made under different recording conditions. We test it on two different natural audio data sets, one from a group of Guinea baboons recorded from a primate research center and one from human babies recorded at home. The pipeline trains a model on 72 and 77 minutes of labeled audio recordings, with an accuracy of 94.58% and 99.76%. It is then used to process 443 and 174 hours of natural continuous recordings and it creates two new databases of 38.8 and 35.2 hours, respectively. We discuss the strengths and limitations of this approach that can be applied to any massive audio recording.
翻訳日:2023-08-14 17:35:54 公開日:2023-08-11
# Reveal the Unknown: エンティティリンクによるアウトオブ知識ベースメンションディスカバリ

Reveal the Unknown: Out-of-Knowledge-Base Mention Discovery with Entity Linking ( http://arxiv.org/abs/2302.07189v3 )

ライセンス: Link先を確認
Hang Dong, Jiaoyan Chen, Yuan He, Yinan Liu, Ian Horrocks(参考訳) テキストから知識ベース(kb)外にあるエンティティ参照を見つけることは、kbのメンテナンスにおいて重要な役割を果たすが、まだ完全には検討されていない。 現在の手法は主に単純なしきい値に基づくアプローチと特徴に基づく分類に限られており、評価のためのデータセットは比較的稀である。 我々はBERTベースの新しいエンティティリンク(EL)手法であるBLINKoutを提案し、特別なNILエンティティとマッチングすることで、対応するKBエンティティを持たない参照を識別する。 BERT をよりよく活用するために,NIL エンティティの表現と分類を含む新しい手法を提案する。 また、KBプルーニングとバージョニングの手法を用いて、共通のKB内ELデータセットからKB外のデータセットを自動的に構築する。 臨床ノート, バイオメディカル出版, ウィキペディア記事の5つのデータセットの結果は, 医療オントロジー, UMLS, SNOMED CT, 一般KB, WikiDataの既往の記載を識別する手法よりも, BLINKoutの利点を示している。

Discovering entity mentions that are out of a Knowledge Base (KB) from texts plays a critical role in KB maintenance, but has not yet been fully explored. The current methods are mostly limited to the simple threshold-based approach and feature-based classification, and the datasets for evaluation are relatively rare. We propose BLINKout, a new BERT-based Entity Linking (EL) method which can identify mentions that do not have corresponding KB entities by matching them to a special NIL entity. To better utilize BERT, we propose new techniques including NIL entity representation and classification, with synonym enhancement. We also apply KB Pruning and Versioning strategies to automatically construct out-of-KB datasets from common in-KB EL datasets. Results on five datasets of clinical notes, biomedical publications, and Wikipedia articles in various domains show the advantages of BLINKout over existing methods to identify out-of-KB mentions for the medical ontologies, UMLS, SNOMED CT, and the general KB, WikiData.
翻訳日:2023-08-14 17:35:35 公開日:2023-08-11
# スパース符号化による無拘束動的後悔

Unconstrained Dynamic Regret via Sparse Coding ( http://arxiv.org/abs/2301.13349v4 )

ライセンス: Link先を確認
Zhiyu Zhang, Ashok Cutkosky, Ioannis Ch. Paschalidis(参考訳) 逐次的意思決定における非定常性の問題に動機づけられたオンライン凸最適化(oco)を,2つの問題構造の結合の下で検討した。 すべてのコンパレータシーケンスに対して同時に低い後悔を保証できないため、この設定を扱うにはミニマックス最適化からコンパレータ適応性に移行する必要がある。 すなわち、合理的な後悔の限界は、前者の知識に対するコンパレータのある種の複雑さの尺度に依存するべきである。 本稿では, スパースコーディングフレームワークを用いて, 適応的再帰境界を新たに実現した。 コンパレータの複雑さは、そのエネルギーとユーザが指定した辞書のスパーシティによって測定され、かなりの汎用性を提供する。 例えばウェーブレット辞書を具備した我々のフレームワークは、コンパレータの最大値である$||\bar u||=||\sum_{t=1}^Tu_t/T||$と$$\sum_{t=1}^T|u_t-\bar u|$に代えて、コンパレータの最大値である$||\bar u|||=1}^T|u_t|||$の両方に適応することで、最先端境界(Jacobsen & Cutkosky, 2022)を改善する。 さらに, 再帰最小化によるデカップリング関数近似により解析が簡単になる。

Motivated by the challenge of nonstationarity in sequential decision making, we study Online Convex Optimization (OCO) under the coupling of two problem structures: the domain is unbounded, and the comparator sequence $u_1,\ldots,u_T$ is arbitrarily time-varying. As no algorithm can guarantee low regret simultaneously against all comparator sequences, handling this setting requires moving from minimax optimality to comparator adaptivity. That is, sensible regret bounds should depend on certain complexity measures of the comparator relative to one's prior knowledge. This paper achieves a new type of these adaptive regret bounds via a sparse coding framework. The complexity of the comparator is measured by its energy and its sparsity on a user-specified dictionary, which offers considerable versatility. Equipped with a wavelet dictionary for example, our framework improves the state-of-the-art bound (Jacobsen & Cutkosky, 2022) by adapting to both ($i$) the magnitude of the comparator average $||\bar u||=||\sum_{t=1}^Tu_t/T||$, rather than the maximum $\max_t||u_t||$; and ($ii$) the comparator variability $\sum_{t=1}^T||u_t-\bar u||$, rather than the uncentered sum $\sum_{t=1}^T||u_t||$. Furthermore, our analysis is simpler due to decoupling function approximation from regret minimization.
翻訳日:2023-08-14 17:35:14 公開日:2023-08-11
# 局所近似モデルによるニューラル画像圧縮の統計的忠実度向上

Improving Statistical Fidelity for Neural Image Compression with Implicit Local Likelihood Models ( http://arxiv.org/abs/2301.11189v3 )

ライセンス: Link先を確認
Matthew J. Muckley, Alaaeldin El-Nouby, Karen Ullrich, Herv\'e J\'egou, Jakob Verbeek(参考訳) ロスシー画像圧縮は、オリジナルへの忠実さを維持しながら、可能な限り数ビットで画像を表現することを目的としている。 理論的には、PSNRやMS-SSIMなどの歪み測定値の最適化は、圧縮された画像のぼやけによってしばしば現れる、特に低ビットレートでの再構成画像と元の画像の統計に違いをもたらす。 以前の研究では、adversarial discriminatorsを利用して統計の忠実性を改善した。 しかし、生成的モデリングタスクから採用されているこれらのバイナリ判別器は、画像圧縮に理想的ではないかもしれない。 本稿では,VQ-VAEオートエンコーダを用いて得られた局所像の量子化を条件とした非バイナリ判別器を提案する。 CLIC2020,DIV2K,Kodakのデータセットによる評価から,我々の判別器は,最先端HiFiCモデルのPatchGANよりも,歪み(PSNRなど)と統計的忠実度(FIDなど)を共同最適化するのに有効であることが示された。 CLIC2020では、30~40倍のビット数のHiFiCと同じFIDが得られる。

Lossy image compression aims to represent images in as few bits as possible while maintaining fidelity to the original. Theoretical results indicate that optimizing distortion metrics such as PSNR or MS-SSIM necessarily leads to a discrepancy in the statistics of original images from those of reconstructions, in particular at low bitrates, often manifested by the blurring of the compressed images. Previous work has leveraged adversarial discriminators to improve statistical fidelity. Yet these binary discriminators adopted from generative modeling tasks may not be ideal for image compression. In this paper, we introduce a non-binary discriminator that is conditioned on quantized local image representations obtained via VQ-VAE autoencoders. Our evaluations on the CLIC2020, DIV2K and Kodak datasets show that our discriminator is more effective for jointly optimizing distortion (e.g., PSNR) and statistical fidelity (e.g., FID) than the PatchGAN of the state-of-the-art HiFiC model. On CLIC2020, we obtain the same FID as HiFiC with 30-40\% fewer bits.
翻訳日:2023-08-14 17:32:55 公開日:2023-08-11
# コヒーレンスと不確かさの関連に基づく量子生物学的効果の生理学的探索

Physiological search for quantum biological effects based on the Wigner-Yanase connection between coherence and uncertainty ( http://arxiv.org/abs/2301.11023v3 )

ライセンス: Link先を確認
I. K. Kominis(参考訳) 量子物理学の基本的な概念であるウィグナー・ヤナーゼ情報(wigner yanase information)は、生物磁気センシングに関連するスピン依存ラジカルペア反応における量子コヒーレンスの測定に用いられる。 この測定は、反応収量の不確かさ、さらに、磁場の変化を生化学的に伝達するために用いられる細胞受容体リガンド系の統計と結びついている。 受容体の数やリガンド濃度のゆらぎなどの測定可能な生理量は、一重項コヒーレンスのwigner-yanase測度を反映している。 我々は、生物資源の積と、wigner-yanaseコヒーレンスとをつなぐ量子生物学的不確実性関係に到達する。 我々のアプローチは、細胞内環境における量子コヒーレント効果の一般探索に役立つ。

A fundamental concept of quantum physics, the Wigner Yanase information, is here used as a measure of quantum coherence in spin-dependent radical-pair reactions pertaining to biological magnetic sensing. This measure is connected to the uncertainty of the reaction yields, and further, to the statistics of a cellular receptor-ligand system used to biochemically convey magnetic-field changes. Measurable physiological quantities, such as the number of receptors and fluctuations in ligand concentration, are shown to reflect the introduced Wigner-Yanase measure of singlet-triplet coherence. We arrive at a quantum-biological uncertainty relation, connecting the product of a biological resource and a biological figure of merit with the Wigner-Yanase coherence. Our approach can serve a general search for quantum-coherent effects within cellular environments.
翻訳日:2023-08-14 17:32:32 公開日:2023-08-11
# UNAEN:MRI運動アーチファクト削減のための教師なし異常抽出ネットワーク

UNAEN: Unsupervised Abnormality Extraction Network for MRI Motion Artifact Reduction ( http://arxiv.org/abs/2301.01732v4 )

ライセンス: Link先を確認
Yusheng Zhou, Hao Li, Jianan Liu, Zhengmin Kong, Tao Huang, Euijoon Ahn, Zhihan Lv, Jinman Kim and David Dagan Feng(参考訳) モーションアーティファクトは磁気共鳴イメージング(mri)の品質を損ね、診断結果と画像誘導療法を達成するための課題を提起する。 近年,モーションアーティファクトリダクション(MAR)のソリューションとして,教師付きディープラーニングアプローチが登場している。 これらの方法の欠点のひとつは、トレーニング目的のモーションアーティファクトラップ(ma-corrupted)とモーションアーティファクトフリー(ma-free)mr画像のペアセットを取得することにある。 このようなイメージペアの取得は困難であり、教師付きトレーニングの適用が制限される。 本稿では,この問題を緩和するためのunsupervised Abnormality extract Network (UNAEN)を提案する。 我々のネットワークは、未ペアMA故障画像やMAフリー画像を扱うことができる。 提案するアーティファクト抽出器を用いて、ma分解画像から異常を抽出し、ma分解されたmr画像から残存アーティファクトマップを明示的にインターセプトし、ma還元画像から元の入力を復元する再構成器を用いて、ma分解画像からma分解画像に変換する。 UNAENの性能は、様々な公開MRIデータセットで実験し、最先端の手法と比較することによって評価された。 定量的評価は、代替のMAR法よりもUNAENの方が優れており、視覚的にも残留物が少ないことを示している。 本研究は, 診断精度の向上と画像誘導療法の促進を図り, 現実の臨床環境に適用可能な有望なソリューションとしてUNAENの可能性を裏付けるものである。

Motion artifacts compromise the quality of magnetic resonance imaging (MRI) and pose challenges to achieving diagnostic outcomes and image-guided therapies. In recent years, supervised deep learning approaches have emerged as successful solutions for motion artifact reduction (MAR). One disadvantage of these methods is their dependency on acquiring paired sets of motion artifact-corrupted (MA-corrupted) and motion artifact-free (MA-free) MR images for training purposes. Obtaining such image pairs is difficult and therefore limits the application of supervised training. In this paper, we propose a novel UNsupervised Abnormality Extraction Network (UNAEN) to alleviate this problem. Our network is capable of working with unpaired MA-corrupted and MA-free images. It converts the MA-corrupted images to MA-reduced images by extracting abnormalities from the MA-corrupted images using a proposed artifact extractor, which intercepts the residual artifact maps from the MA-corrupted MR images explicitly, and a reconstructor to restore the original input from the MA-reduced images. The performance of UNAEN was assessed by experimenting on various publicly available MRI datasets and comparing them with state-of-the-art methods. The quantitative evaluation demonstrates the superiority of UNAEN over alternative MAR methods and visually exhibits fewer residual artifacts. Our results substantiate the potential of UNAEN as a promising solution applicable in real-world clinical environments, with the capability to enhance diagnostic accuracy and facilitate image-guided therapies.
翻訳日:2023-08-14 17:32:03 公開日:2023-08-11
# 深い低ランク行列分解における入射正則化のダイナミクス理論

A Dynamics Theory of Implicit Regularization in Deep Low-Rank Matrix Factorization ( http://arxiv.org/abs/2212.14150v2 )

ライセンス: Link先を確認
Jian Cao, Chen Qian, Yihui Huang, Dicheng Chen, Yuncheng Gao, Jiyang Dong, Di Guo, Xiaobo Qu(参考訳) 入射正則化はニューラルネットワークを解釈する重要な方法である。 最近の理論は、深い行列分解(DMF)モデルで暗黙の正則化を説明し始め、最適化過程における離散勾配ダイナミクスの軌跡を分析する。 これらの離散勾配力学は比較的小さいが無限小ではないため、ニューラルネットワークの実践的な実装に相応しい。 現在、離散勾配解析は浅層ネットワークに適用されているが、深層ネットワークでは複雑な計算が困難である。 本研究では,暗黙の正規化,すなわちランドスケープ解析を説明するために,別の離散勾配ダイナミクス手法を導入する。 主にサドルポイントやローカルミニマといった勾配領域に焦点を当てている。 DMFにおけるサドル点エスケープ(SPE)ステージと行列ランクの関係を理論的に確立する。 階数-R行列再構成において、DMF は SPE の R 段階の後に 2 階臨界点に収束することを示す。 この結論は低ランク行列再構成問題に対してさらに実験的に検証される。 この研究は、ディープラーニングにおける暗黙の正規化を分析する新しい理論を提供する。

Implicit regularization is an important way to interpret neural networks. Recent theory starts to explain implicit regularization with the model of deep matrix factorization (DMF) and analyze the trajectory of discrete gradient dynamics in the optimization process. These discrete gradient dynamics are relatively small but not infinitesimal, thus fitting well with the practical implementation of neural networks. Currently, discrete gradient dynamics analysis has been successfully applied to shallow networks but encounters the difficulty of complex computation for deep networks. In this work, we introduce another discrete gradient dynamics approach to explain implicit regularization, i.e. landscape analysis. It mainly focuses on gradient regions, such as saddle points and local minima. We theoretically establish the connection between saddle point escaping (SPE) stages and the matrix rank in DMF. We prove that, for a rank-R matrix reconstruction, DMF will converge to a second-order critical point after R stages of SPE. This conclusion is further experimentally verified on a low-rank matrix reconstruction problem. This work provides a new theory to analyze implicit regularization in deep learning.
翻訳日:2023-08-14 17:31:37 公開日:2023-08-11
# diffumask:拡散モデルを用いた意味セグメンテーションのためのピクセルレベルアノテーションによる画像合成

DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic Segmentation Using Diffusion Models ( http://arxiv.org/abs/2303.11681v2 )

ライセンス: Link先を確認
Weijia Wu, Yuzhong Zhao, Mike Zheng Shou, Hong Zhou, Chunhua Shen(参考訳) ピクセルワイドラベルによる画像の収集と注釈付けは、時間と労力を要する。 対照的に、合成データは生成モデル(例えば、DALL-E、安定拡散)で自由に利用できる。 本稿では,トレーニング中にテキストイメージペアのみを使用するオフザシェルフ安定拡散モデルによって生成された合成画像の正確なセマンティックマスクを自動で取得可能であることを示す。 diffumaskと呼ばれるこのアプローチは、テキストと画像間の相互接続マップの可能性を利用しており、自然かつシームレスにテキスト駆動画像合成をセマンティックマスク生成に拡張する。 diffumaskは、テキストガイドによるクロスアテンション情報を使用して、クラス/単語固有の領域をローカライズする。 このメソッドは明らかにデータ収集とアノテーションのコストを削減するのに役立つ。 実験により、DiffuMaskの合成データに基づいて訓練された既存のセグメンテーション手法は、実際のデータ(VOC 2012 Cityscapes)と競合する性能を発揮することが示された。 いくつかのクラス(例えば鳥)では、DiffuMaskは実データ(3% mIoUギャップ)の最先端結果に近い、有望なパフォーマンスを示す。 さらに、開語彙セグメンテーション(ゼロショット)設定では、DiffuMaskはVOC 2012のUnseenクラスで新しいSOTA結果を達成する。 プロジェクトのWebサイトはhttps://weijiawu.github.io/DiffusionMask/にある。

Collecting and annotating images with pixel-wise labels is time-consuming and laborious. In contrast, synthetic data can be freely available using a generative model (e.g., DALL-E, Stable Diffusion). In this paper, we show that it is possible to automatically obtain accurate semantic masks of synthetic images generated by the Off-the-shelf Stable Diffusion model, which uses only text-image pairs during training. Our approach, called DiffuMask, exploits the potential of the cross-attention map between text and image, which is natural and seamless to extend the text-driven image synthesis to semantic mask generation. DiffuMask uses text-guided cross-attention information to localize class/word-specific regions, which are combined with practical techniques to create a novel high-resolution and class-discriminative pixel-wise mask. The methods help to reduce data collection and annotation costs obviously. Experiments demonstrate that the existing segmentation methods trained on synthetic data of DiffuMask can achieve a competitive performance over the counterpart of real data (VOC 2012, Cityscapes). For some classes (e.g., bird), DiffuMask presents promising performance, close to the stateof-the-art result of real data (within 3% mIoU gap). Moreover, in the open-vocabulary segmentation (zero-shot) setting, DiffuMask achieves a new SOTA result on Unseen class of VOC 2012. The project website can be found at https://weijiawu.github.io/DiffusionMask/.
翻訳日:2023-08-14 17:23:38 公開日:2023-08-11
# NeTO:自己閉塞を意識した透明物体のニューラル再構築

NeTO:Neural Reconstruction of Transparent Objects with Self-Occlusion Aware Refraction-Tracing ( http://arxiv.org/abs/2303.11219v2 )

ライセンス: Link先を確認
Zongcheng Li, Xiaoxiao Long, Yusen Wang, Tuo Cao, Wenping Wang, Fei Luo and Chunxia Xiao(参考訳) 本稿では,2次元画像から立体透明物体の3次元形状をボリュームレンダリングにより捉えるnetoという新しい手法を提案する。 透明物体の再構成は非常に困難な作業であり、光輸送現象による汎用的な再構築技術には不適当である。 この課題のために特別に設計された既存の屈折トラッキングベースの手法は印象的な結果をもたらすが、彼らが採用した明示的な表面表現は最適化が困難であり、自己遮蔽問題は屈折トラッシングでは無視されるため、依然として不安定な最適化と細部の減少に苦しむ。 本稿では,暗黙的符号距離関数(SDF)を表面表現として活用し,自己閉塞型屈折線トレーシングによるボリュームレンダリングによるSDFフィールドの最適化を提案する。 暗黙的表現により,限られた画像でも高品質な再構築が可能となり,自己排他的認識戦略により,自己排他的領域を正確に再構築することが可能となった。 実験により,本手法が忠実な再構築結果を達成し,先行研究よりも大きなマージンで上回ることを示した。 プロジェクトページは \url{https://www.xxlong.site/NeTO/} にある。

We present a novel method, called NeTO, for capturing 3D geometry of solid transparent objects from 2D images via volume rendering. Reconstructing transparent objects is a very challenging task, which is ill-suited for general-purpose reconstruction techniques due to the specular light transport phenomena. Although existing refraction-tracing based methods, designed specially for this task, achieve impressive results, they still suffer from unstable optimization and loss of fine details, since the explicit surface representation they adopted is difficult to be optimized, and the self-occlusion problem is ignored for refraction-tracing. In this paper, we propose to leverage implicit Signed Distance Function (SDF) as surface representation, and optimize the SDF field via volume rendering with a self-occlusion aware refractive ray tracing. The implicit representation enables our method to be capable of reconstructing high-quality reconstruction even with a limited set of images, and the self-occlusion aware strategy makes it possible for our method to accurately reconstruct the self-occluded regions. Experiments show that our method achieves faithful reconstruction results and outperforms prior works by a large margin. Visit our project page at \url{https://www.xxlong.site/NeTO/}
翻訳日:2023-08-14 17:23:10 公開日:2023-08-11
# 自動信頼度評価のロバスト性検証

Verifying the Robustness of Automatic Credibility Assessment ( http://arxiv.org/abs/2303.08032v2 )

ライセンス: Link先を確認
Piotr Przyby{\l}a, Alexander Shvets, Horacio Saggion(参考訳) テキスト分類法は、偽ニュース、ソーシャルメディアボット、プロパガンダなど、信頼性の低いコンテンツを検出する手段として広く研究されている。 非常に正確なモデル(おそらくディープニューラルネットワークに基づく)は、パブリックな電子プラットフォームをモデレートするのに役立ち、コンテンツクリエーターが既に公開されたテキストの提出や削除を拒否されることが多い。 コンテンツクリエーターは、さらなる検出を避けるインセンティブを得て、分類器の弱点を悪用して異なる出力をもたらす、わずかに修正されたテキスト(敵の例による攻撃として知られる)の版を考え出そうとする。 ここでは,一般的なテキスト分類器のロバスト性を攻撃的手法に対して体系的にテストし,場合によっては入力テキストの変更がモデルを誤解させる可能性があることを発見した。 コンテンツモデレーションの実際のユースケースをシミュレートするために設計された評価フレームワークにおいて,4つの誤情報検出タスクにおいて,被害者モデルと攻撃方法の両方をテストするためのベンチマークであるbodegaも紹介する。 最後に、サブセットの逆例を手動で分析し、どの種類の修正が攻撃の成功に使われているかを確認する。 BODEGAのコードとデータはオープンに共有され、この分野におけるさらなる研究の可視性と複製性の向上が期待されている。

Text classification methods have been widely investigated as a way to detect content of low credibility: fake news, social media bots, propaganda, etc. Quite accurate models (likely based on deep neural networks) help in moderating public electronic platforms and often cause content creators to face rejection of their submissions or removal of already published texts. Having the incentive to evade further detection, content creators try to come up with a slightly modified version of the text (known as an attack with an adversarial example) that exploit the weaknesses of classifiers and result in a different output. Here we systematically test the robustness of popular text classifiers against available attacking techniques and discover that, indeed, in some cases insignificant changes in input text can mislead the models. We also introduce BODEGA: a benchmark for testing both victim models and attack methods on four misinformation detection tasks in an evaluation framework designed to simulate real use-cases of content moderation. Finally, we manually analyse a subset adversarial examples and check what kinds of modifications are used in successful attacks. The BODEGA code and data is openly shared in hope of enhancing the comparability and replicability of further research in this area
翻訳日:2023-08-14 17:22:49 公開日:2023-08-11
# 視覚言語モデルの連続学習におけるゼロショット転送劣化の防止

Preventing Zero-Shot Transfer Degradation in Continual Learning of Vision-Language Models ( http://arxiv.org/abs/2303.06628v2 )

ライセンス: Link先を確認
Zangwei Zheng, Mingyuan Ma, Kai Wang, Ziheng Qin, Xiangyu Yue, Yang You(参考訳) 継続学習(CL)は、事前学習された視覚言語モデルが、再学習することなく、新しいまたは未学習のデータ分布に効率的に適応するのに役立つ。 それにもかかわらず、コントラスト言語-画像事前訓練(CLIP)モデルの継続トレーニングでは、壊滅的な忘れが原因でゼロショット転送能力は著しく低下する。 既存のCLメソッドは、以前のデータを再生することで忘れを軽減できる。 しかし、CLIPデータセットはプライベートであるため、replayメソッドはトレーニング済みデータセットにアクセスできない。 さらに、以前に学習した下流タスクのデータ再生はパフォーマンスを向上させることができるが、ゼロショットのパフォーマンスを犠牲にするコストがかかる。 この課題に対処するために、特徴空間とパラメータ空間の両方における視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法ZSCLを提案する。 機能領域では、現在のモデルと初期モデルの蒸留のために参照データセットが導入される。 参照データセットはセマンティックな多様性を持つべきであるが、ラベル付け、事前トレーニング、画像とテキストのペアに表示される必要はない。 パラメータ空間では、トレーニング中に重みを平均することで大きなパラメータシフトを防止する。 そこで本研究では,マルチドメインタスクインクリメンタルラーニング(MTIL)ベンチマークを提案する。 本手法は,従来のクラス増分学習設定とMTILの平均スコアを9.7%向上させる。 私たちのコードはhttps://github.com/Thunderbeee/ZSCLにあります。

Continual learning (CL) can help pre-trained vision-language models efficiently adapt to new or under-trained data distributions without re-training. Nevertheless, during the continual training of the Contrastive Language-Image Pre-training (CLIP) model, we observe that the model's zero-shot transfer ability significantly degrades due to catastrophic forgetting. Existing CL methods can mitigate forgetting by replaying previous data. However, since the CLIP dataset is private, replay methods cannot access the pre-training dataset. In addition, replaying data of previously learned downstream tasks can enhance their performance but comes at the cost of sacrificing zero-shot performance. To address this challenge, we propose a novel method ZSCL to prevent zero-shot transfer degradation in the continual learning of vision-language models in both feature and parameter space. In the feature space, a reference dataset is introduced for distillation between the current and initial models. The reference dataset should have semantic diversity but no need to be labeled, seen in pre-training, or matched image-text pairs. In parameter space, we prevent a large parameter shift by averaging weights during the training. We propose a more challenging Multi-domain Task Incremental Learning (MTIL) benchmark to evaluate different methods, where tasks are from various domains instead of class-separated in a single dataset. Our method outperforms other methods in the traditional class-incremental learning setting and the MTIL by 9.7% average score. Our code locates at https://github.com/Thunderbeee/ZSCL.
翻訳日:2023-08-14 17:22:26 公開日:2023-08-11
# O2CTA:冠動脈プラーク解析におけるOCTからCCTAへのアノテーション導入

O2CTA: Introducing Annotations from OCT to CCTA in Coronary Plaque Analysis ( http://arxiv.org/abs/2303.06358v2 )

ライセンス: Link先を確認
Jun Li, Kexin Li, Yafeng Zhou, S. Kevin Zhou(参考訳) 冠動脈疾患の診断と治療計画は動脈硬化プラーク成分によって異なる。 冠動脈造影(CCTA)は動脈造影や狭窄度判定に広く用いられている。 しかし, 人工物に対する空間分解能と感受性の制限は, 腔形態特性とプラーク組成を得る際にCCTAを損なう。 侵襲的光コヒーレンス断層撮影(OCT)により、医師のトラブルを伴わずに解決できるが、高いコストと潜在的なリスクをもたらす。 そこで本論文では,OCTからペアCCTAスキャンへのプラーク組織および腔内性状のアノテーションの導入が臨床的に重要である。 O2CTA問題に対処する手法を提案する。 cctaスキャンはまずマルチプランナー・リフォーム・アット(mpr)画像に再構成され、意味的な内容でoct画像と一致する。 OCTの動脈セグメントは手動でラベル付けされ、提案したアライメント戦略を介してMPR画像の動脈全体と空間的に整列する。 最後に、3D CNNとTransformerを含む分類モデルを学習し、局所的な特徴を抽出し、動脈に沿って依存を捕捉する。 55対の OCT と CCTA の実験では,OCT ラベルに基づいて CCTA の分類が可能であり,精度は 86.2% であり,OCT と CCTA のマニュアル読み出しは Kappa 係数が0.113 である。 私たちは、研究コミュニティに利益をもたらすために、ソースコード、モデル、データ、結果を公開します。

Targeted diagnosis and treatment plans for patients with coronary artery disease vary according to atherosclerotic plaque component. Coronary CT angiography (CCTA) is widely used for artery imaging and determining the stenosis degree. However, the limited spatial resolution and susceptibility to artifacts fail CCTA in obtaining lumen morphological characteristics and plaque composition. It can be settled by invasive optical coherence tomography (OCT) without much trouble for physicians, but bringing higher costs and potential risks to patients. Therefore, it is clinically critical to introduce annotations of plaque tissue and lumen characteristics from OCT to paired CCTA scans, denoted as \textbf{the O2CTA problem} in this paper. We propose a method to handle the O2CTA problem. CCTA scans are first reconstructed into multi-planar reformatted (MPR) images, which agree with OCT images in term of semantic contents. The artery segment in OCT, which is manually labelled, is then spatially aligned with the entire artery in MPR images via the proposed alignment strategy. Finally, a classification model involving a 3D CNN and a Transformer, is learned to extract local features and capture dependence along arteries. Experiments on 55 paired OCT and CCTA we curate demonstrate that it is feasible to classify the CCTA based on the OCT labels, with an accuracy of 86.2%, while the manual readings of OCT and CCTA vary significantly, with a Kappa coefficient of 0.113. We will make our source codes, models, data, and results publicly available to benefit the research community.
翻訳日:2023-08-14 17:22:01 公開日:2023-08-11
# 原子構造表現の完全性

Completeness of Atomic Structure Representations ( http://arxiv.org/abs/2302.14770v2 )

ライセンス: Link先を確認
Jigyasa Nigam, Sergey N. Pozdnyakov, Kevin K. Huguenin-Dumittan, and Michele Ceriotti(参考訳) 本稿では,分子内の原子などの点粒子群の包括的かつ対称的な表現を得ることが,物理学や理論化学において重要な課題である。 この問題は、基本的な対称性や保存法と整合性を保ちながら、物理的関係を正確に再現するモデルの能力を支えるため、科学における機械学習技術の普及によってさらに重要になっている。 しかし、一般的に点雲を表すために使われる記述子(特に原子規模で物質を記述するために使われるもの)は、粒子の特別な配置を区別できない。 これにより、マシンでプロパティを学習することは不可能である。 証明可能な完全性を持つフレームワークは存在するが、それらは全ての原子間の相互関係を同時に記述する限界にしか存在しない。 本稿では, 粒子三重項の相対配置に基づいて, 有限相関の記述子を構築するための新しい手法を提案する。 我々の戦略は、従来の対称ディスクリプタの幅広いクラスに対抗するために特別に構築された原子配列のクラスで実証され、その制限に対処する可能性を示している。

In this paper, we address the challenge of obtaining a comprehensive and symmetric representation of point particle groups, such as atoms in a molecule, which is crucial in physics and theoretical chemistry. The problem has become even more important with the widespread adoption of machine-learning techniques in science, as it underpins the capacity of models to accurately reproduce physical relationships while being consistent with fundamental symmetries and conservation laws. However, the descriptors that are commonly used to represent point clouds -- most notably those adopted to describe matter at the atomic scale -- are unable to distinguish between special arrangements of particles. This makes it impossible to machine learn their properties. Frameworks that are provably complete exist but are only so in the limit in which they simultaneously describe the mutual relationship between all atoms, which is impractical. We present a novel approach to construct descriptors of finite correlations based on the relative arrangement of particle triplets, which can be employed to create symmetry-adapted models with universal approximation capabilities. Our strategy is demonstrated on a class of atomic arrangements that are specifically built to defy a broad class of conventional symmetric descriptors, showcasing its potential for addressing their limitations.
翻訳日:2023-08-14 17:21:11 公開日:2023-08-11
# マルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習

Cross-modal Contrastive Learning for Multimodal Fake News Detection ( http://arxiv.org/abs/2302.14057v2 )

ライセンス: Link先を確認
Longzheng Wang, Chuang Zhang, Hongbo Xu, Yongxiu Xu, Xiaohan Xu, Siqi Wang(参考訳) 近年,マルチモーダルフェイクニュースの自動検出が注目されている。 既存の多くのアプローチは、マルチモーダルなニュース表現を生成するためにユニモーダル機能を融合させようとしている。 しかし,偽ニュース検出のための強力なクロスモーダルコントラスト学習手法は十分に活用されていない。 さらに、さまざまなモダリティから機能を集約して意思決定プロセスのパフォーマンスを高める方法も、まだ未解決の問題です。 そこで我々は,より正確な画像テキストアライメントを実現することを目的とした,マルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークであるCOOLANTを提案する。 さらにアライメント精度を向上させるため,コントラストプロセス中に負サンプルの損失項を軟化するために補助タスクを利用する。 クロスモダリティ相関を学ぶためにクロスモダリティ融合モジュールを開発した。 注目誘導モジュールを用いたアテンションメカニズムを実装し、アライメントされた不動表現とモダリティ間の相関を効果的に解釈する。 最後に、COOLANTを評価し、TwitterとWeiboの2つの広く使われているデータセットの比較研究を行う。 実験の結果, 冷却剤は従来の方法よりも大きなマージンで勝っており, 2つのデータセットで最新の結果が得られた。

Automatic detection of multimodal fake news has gained a widespread attention recently. Many existing approaches seek to fuse unimodal features to produce multimodal news representations. However, the potential of powerful cross-modal contrastive learning methods for fake news detection has not been well exploited. Besides, how to aggregate features from different modalities to boost the performance of the decision-making process is still an open question. To address that, we propose COOLANT, a cross-modal contrastive learning framework for multimodal fake news detection, aiming to achieve more accurate image-text alignment. To further improve the alignment precision, we leverage an auxiliary task to soften the loss term of negative samples during the contrast process. A cross-modal fusion module is developed to learn the cross-modality correlations. An attention mechanism with an attention guidance module is implemented to help effectively and interpretably aggregate the aligned unimodal representations and the cross-modality correlations. Finally, we evaluate the COOLANT and conduct a comparative study on two widely used datasets, Twitter and Weibo. The experimental results demonstrate that our COOLANT outperforms previous approaches by a large margin and achieves new state-of-the-art results on the two datasets.
翻訳日:2023-08-14 17:20:52 公開日:2023-08-11
# 遅延チョイス量子消去器における非局所現実性のコヒーレンス解釈

A coherence interpretation of nonlocal realism in the delayed-choice quantum eraser ( http://arxiv.org/abs/2302.13474v4 )

ライセンス: Link先を確認
B. S. Ham(参考訳) ウィーラーが提唱した遅延選択思考実験は、過去数十年間、単一光子の波動-粒子双対性について実証されてきた。 スカリーとドルルによって提案された遅延チョイス量子消光器は、干渉計系における一対の絡み合った光子と同様に、単一の光子の因果効果関係に違反するため、集中的に研究されている。 ここでは、Physで観測された空間状分離光子の非局所現実性についてコヒーレンス解釈を行う。 Rev. Lett. 84, 1 (2000). その結果、観測された非局所フリンジのコヒーレンス解は偶然検出による選択的な測定から決定的に導かれ、結果として生成した積-基底重ね合わせは非局所フリンジの他の量子ミステリーの起源となる。 このため、絡み合った光子間の固定的な和位相関係は前提条件であり、従来の粒子の性質に基づく量子力学では説明できない。

The delayed-choice thought experiment proposed by Wheeler has been demonstrated over the last several decades for the wave-particle duality of a single photon. The delayed-choice quantum eraser proposed by Scully and Druhl has also been intensively studied for the violation of the cause-effect relation of a single photon as well as a pair of entangled photons in an interferometric system. Here, a coherence interpretation is conducted for the nonlocal realism of the space-like separated photons observed in Phys. Rev. Lett. 84, 1 (2000). As a result, coherence solutions of the observed nonlocal fringes are deterministically derived from coincidence detection-caused selective measurements, where the resulting product-basis superposition becomes the origin of the otherwise quantum mystery of the nonlocal fringes. For this, a fixed sum-phase relation between entangled photons is a prerequisite, which cannot be explained by conventional particle nature-based quantum mechanics.
翻訳日:2023-08-14 17:20:32 公開日:2023-08-11
# 多部量子状態の絡み合いの検出

Detection of entanglement for multipartite quantum states ( http://arxiv.org/abs/2302.08655v2 )

ライセンス: Link先を確認
Hui Zhao, Yu-Qiu Liu, Naihuan Jing, Zhi-Xi Wang(参考訳) 密度行列の一般化されたパウリ作用素を用いた表現を用いて、任意の$n$-partite量子状態の真の三部交絡と多部交絡を研究する。 密度行列の通常のブロッホ表現は特殊ユニタリリー代数$\mathfrak{su}(d)$の3種類の生成子を用いるが、一般化されたパウリ作用素の表現は1つの一様生成子を持ち、計算を単純化する。 本稿では,この単純さの利点を生かして,真に三成分の絡み合いを検出するための有用かつ操作上の基準を導出する。 また、任意の次元における多部量子状態の絡み合いを検出するのに十分な基準を得る。 新しい手法は、詳細な例によって、以前の方法よりも絡み合った状態を検出することができる。

We study genuine tripartite entanglement and multipartite entanglement of arbitrary $n$-partite quantum states by using the representations with generalized Pauli operators of a density matrices. While the usual Bloch representation of a density matrix uses three types of generators in the special unitary Lie algebra $\mathfrak{su}(d)$, the representation with generalized Pauli operators has one uniformed type of generators and it simplifies computation. In this paper, we take the advantage of this simplicity to derive useful and operational criteria to detect genuine tripartite entanglement. We also obtain a sufficient criterion to detect entanglement for multipartite quantum states in arbitrary dimensions. The new method can detect more entangled states than previous methods as backed by detailed examples.
翻訳日:2023-08-14 17:20:13 公開日:2023-08-11
# 非マルコフ開量子系シミュレーションにおけるサブ線形スケーリング

Sublinear scaling in non-Markovian open quantum systems simulations ( http://arxiv.org/abs/2304.05291v2 )

ライセンス: Link先を確認
Moritz Cygorek, Jonathan Keeling, Brendon W. Lovett, Erik M. Gauger(参考訳) 非マルコフ開量子システムのダイナミクスを予測するためにいくつかの数値的手法が利用可能であるが、多くの場合、非常に長い記憶時間と伝播時間のシミュレーションに苦労している。 そこで本研究では,ガウス環境を表すテンソルネットワークの自己相似性を活用することで,従来のアルゴリズムに比較して,プロセステンソル(環境影響のコンパクト表現)を計算する数値的厳密なアルゴリズムを提案する。 分割・分割戦略に基づいて、無限メモリ環境に対して、このアプローチは$\mathcal{o}(n\log n)$ 特異値分解しか必要としない。 n_c$ 時間ステップの後にメモリを切断できる場合には、$n$ とは独立に$\mathcal{o}(n_c\log n_c)$ をスケーリングする。 この改良されたスケーリングは、繰り返し可能なブロックでプロセステンソルを識別することで実現されている。 このアプローチのパワーと有用性を示すために,3つの例を挙げる。 1)強い駆動と強いドットフォノンカップリングの両方の下で量子ドットの蛍光スペクトルを計算する。 2) マルチエミッタの超輝度を記述するプロセステンソルを効率よく見つける。 (3) 強結合環境下でのコヒーレンス崩壊を考慮したアルゴリズムの限界について検討する。 ここで提案するアルゴリズムは、数値的精度の高い手法の範囲を長いメモリ時間で開ける量子システムにまで拡大するだけでなく、シミュレーションの複雑さにも根本的な影響を与える。

While several numerical techniques are available for predicting the dynamics of non-Markovian open quantum systems, most struggle with simulations for very long memory and propagation times, e.g., due to superlinear scaling with the number of time steps $n$. Here, we introduce a numerically exact algorithm to calculate process tensors -- compact representations of environmental influences -- which provides a scaling advantage over previous algorithms by leveraging self-similarity of the tensor networks that represent Gaussian environments. Based on a divide-and-conquer strategy, our approach requires only $\mathcal{O}(n\log n)$ singular value decompositions for environments with infinite memory. Where the memory can be truncated after $n_c$ time steps, a scaling $\mathcal{O}(n_c\log n_c)$ is found, which is independent of $n$. This improved scaling is enabled by identifying process tensors with repeatable blocks. To demonstrate the power and utility of our approach we provide three examples. (1) We calculate the fluorescence spectra of a quantum dot under both strong driving and strong dot-phonon couplings, a task requiring simulations over millions of time steps, which we are able to perform in minutes. (2) We efficiently find process tensors describing superradiance of multiple emitters. (3) We explore the limits of our algorithm by considering coherence decay with a very strongly coupled environment. The algorithm we present here not only significantly extends the scope of numerically exact techniques to open quantum systems with long memory times, but also has fundamental implications for simulation complexity.
翻訳日:2023-08-14 17:14:30 公開日:2023-08-11
# 励起状態からの量子クエンチ

Quantum quenches from an excited state ( http://arxiv.org/abs/2304.02314v2 )

ライセンス: Link先を確認
Gesualdo Delfino and Marianna Sorba(参考訳) 後期進化における初期条件の役割を決定することは、孤立量子系の非平衡ダイナミクスの理論にとって重要な問題である。 ここでは量子クエンチの理論を、クエンチ前に系が励起状態にある場合にまで拡張する。 特に, 1点関数の持続的振動は, [j. phys. a 47 (2014) 402001] で示されるような非平衡状態に対する 1-四粒子の寄与の存在を必要とするというクエンチの大きさ(および準粒子間の任意に強い相互作用)を摂動的に示す。 また,本事例では,結果が汎用的に非摂動的意味を持つと主張する。 摂動時間スケールをはるかに超えた、アクセス可能な時間間隔内にとどまる振動は、現在では数値シミュレーションで観測されている。

Determining the role of initial conditions in the late time evolution is a key issue for the theory of nonequilibrium dynamics of isolated quantum systems. Here we extend the theory of quantum quenches to the case in which before the quench the system is in an excited state. In particular, we show perturbatively in the size of the quench (and for arbitrarily strong interactions among the quasiparticles) that persistent oscillations of one-point functions require the presence of a one-quasiparticle contribution to the nonequilibrium state, as originally shown in [J. Phys. A 47 (2014) 402001] for the quenches from the ground state. Also in the present case, we argue that the results generically have nonperturbative implications. Oscillations staying undamped within the accessible time interval, far beyond the perturbative time scale, are nowadays observed in numerical simulations.
翻訳日:2023-08-14 17:14:02 公開日:2023-08-11
# 非ガウス演算を用いた低圧縮状態に対するCV-MDI-QKDの適用

Enabling CV-MDI-QKD for low squeezed states using non-Gaussian operations ( http://arxiv.org/abs/2304.02295v2 )

ライセンス: Link先を確認
Farsad Ahmad, Aeysha Khalique(参考訳) 連続変数計測装置独立量子鍵分布(CV-MDI-QKD)プロトコルにおいて,光子付加置換(PAS)状態と2つの光子置換(2PR)状態の有用性を示す。 単モードと2モードのPAS状態と2モードのPR状態は、低スチーズおよび高雑音状態において純粋状態プロトコルより優れていることを報告した。 単一モードPAS状態と2モードPAS状態は、余剰ノイズに対する大きな耐性を示し、純粋およびPR状態CV-MDIプロトコルと比較して伝送距離が長い。 また,CV-MDI-QKDでは対数ネガティビティが高い状態が必ずしも最適ではないことを示す。

We show the utility of photon added-then-subtracted (PAS) state and two photon replaced (2PR) state when used in continuous variables measurement device independent quantum key distribution (CV-MDI-QKD) protocol. We report that single and two mode PAS state as well as two mode PR state outperform pure state protocol in the low squeezing and high noise regime. Single mode PAS state and two mode PAS state showed significant resilience to excess noise and offered a longer transmission distance when compared to pure and PR state CV-MDI protocol. Additionally we show that states with higher logarithmic negativity are not necessarily the best choice when used in CV-MDI-QKD.
翻訳日:2023-08-14 17:13:43 公開日:2023-08-11
# 例外点近傍のピーターマン因子と位相剛性

Petermann factors and phase rigidities near exceptional points ( http://arxiv.org/abs/2304.00764v2 )

ライセンス: Link先を確認
Jan Wiersig(参考訳) ピーターマン因子と位相剛性は、摂動に対するエネルギー固有値の感度やレーザーにおける量子過剰ノイズの大きさなど、オープン量子および波動系の様々な側面に便利な尺度である。 非エルミート退化に近い2つの重要な量の挙動を議論する。 小型の一般摂動の場合、例外点のスペクトル応答強度との関係を示す解析的明示的な公式を導出する。 これらの公式はパッシブシステムにおけるセンシングの強化の可能性に光を当てた。 一般理論の予測は、おもちゃモデルの解析解と比較に成功している。 さらに, ピーターマン係数とスペクトル応答強度との関係は, 後者を計算するための効率的な数値計算の基礎となることを証明した。 我々の理論は、実験で研究されたような不完全な例外点に対する感度の残余を決定できるため、例外点の作成において避けられない欠陥の存在においても重要である。

The Petermann factor and the phase rigidity are convenient measures for various aspects of open quantum and wave systems, such as the sensitivity of energy eigenvalues to perturbations or the magnitude of quantum excess noise in lasers. We discuss the behavior of these two important quantities near non-Hermitian degeneracies, so-called exceptional points. For small generic perturbations, we derive analytically explicit formulas which reveal a relation to the spectral response strength of the exceptional point. These formulas shed light on the possibilities for enhanced sensing in passive systems. The predictions of the general theory are successfully compared to analytical solutions of a toy model. Moreover, it is demonstrated that the connection between the Petermann factor and the spectral response strength provides the basis for an efficient numerical scheme to calculate the latter. Our theory is also important in the presence of the unavoidable imperfections in the fabrication of exceptional points as it allows to determine of what is left of the sensitivity for such imperfect exceptional points studied in experiments.
翻訳日:2023-08-14 17:13:29 公開日:2023-08-11
# AceCoder: 既存のコードを使用してコード生成を促進する

AceCoder: Utilizing Existing Code to Enhance Code Generation ( http://arxiv.org/abs/2303.17780v2 )

ライセンス: Link先を確認
Jia Allen Li, Yunfei Zhao, Yongmin Li, Ge Li, Zhi Jin(参考訳) 大きな言語モデル(LLM)はコード生成で大きな成功を収めています。 LLMは入力としてプロンプトを受け取り、コードを出力する。 重要な質問は、プロンプト(すなわちプロンプトテクニック)の作り方である。 既存のプロンプト技術は自然言語生成用に設計されており、コード生成の精度は低い。 本稿では,AceCoderという新しいプロンプト手法を提案する。 私たちのモチベーションは、コード生成が2つの固有の課題(要求理解とコード実装)を満たすことです。 AceCoderには、これらの課題を解決するための2つの新しいメカニズム(ガイド付きコード生成とサンプル検索)が含まれている。 1) 誘導型コード生成はまずllmに要求を分析し,中間予備(テストケースなど)を出力する。 プリミティブは要件を明確にし、llmに"何を書くべきか"を伝えるために使用される。 2)例検索はプロンプトの例として類似したプログラムを選択し,関連するコンテンツ(アルゴリズムやapiなど)を多数提供し,llmに"書き方"を教える。 AceCoderを3つのLLM(例えばCodex)に適用し、Pass@kを使って3つの公開ベンチマークで評価する。 その結果、AceCoderはコード生成におけるLLMの性能を大幅に改善できることがわかった。 1) Pass@1 では、AceCoder は最先端のベースラインを MBPP で 56.4% 、MBJP で 70.7% 、MBJSP で 88.4% で上回っている。 2) AceCoderは、異なるサイズ(6Bから13B)と異なる言語(Python、Java、JavaScript)のLLMで有効である。 (3)人間の開発者はAceCoderのプログラムを好む。

Large Language Models (LLMs) have shown great success in code generation. LLMs take as the input a prompt and output the code. A key question is how to make prompts (i.e., Prompting Techniques). Existing prompting techniques are designed for natural language generation and have low accuracy in code generation. In this paper, we propose a new prompting technique named AceCoder. Our motivation is that code generation meets two unique challenges (i.e., requirement understanding and code implementation). AceCoder contains two novel mechanisms (i.e., guided code generation and example retrieval) to solve these challenges. (1) Guided code generation asks LLMs first to analyze requirements and output an intermediate preliminary (e.g., test cases). The preliminary is used to clarify requirements and tell LLMs "what to write". (2) Example retrieval selects similar programs as examples in prompts, which provide lots of relevant content (e.g., algorithms, APIs) and teach LLMs "how to write". We apply AceCoder to three LLMs (e.g., Codex) and evaluate it on three public benchmarks using the Pass@k. Results show that AceCoder can significantly improve the performance of LLMs on code generation. (1) In terms of Pass@1, AceCoder outperforms the state-of-the-art baseline by up to 56.4% in MBPP, 70.7% in MBJP, and 88.4% in MBJSP. (2) AceCoder is effective in LLMs with different sizes (i.e., 6B to 13B) and different languages (i.e., Python, Java, and JavaScript). (3) Human evaluation shows human developers prefer programs from AceCoder.
翻訳日:2023-08-14 17:13:13 公開日:2023-08-11
# リッチメタデータアノテーションを用いた文字のパーソナライズド言語モデリング

Personalised Language Modelling of Screen Characters Using Rich Metadata Annotations ( http://arxiv.org/abs/2303.16618v2 )

ライセンス: Link先を確認
Sebastian Vincent, Rowanne Sumner, Alice Dowek, Charlotte Blundell, Emily Preston, Chris Bayliss, Chris Oakley, Carolina Scarton(参考訳) 外部の文脈に敏感な言語モデルは、特定の特徴を持つ個人の発話パターンをより効果的に捉えることができる。 しかし、このようなアノテーションの入手と活用は困難である。 本研究では,リッチなキャラクタとフィルムアノテーションを利用して,言語モデルをスケーラブルにパーソナライズする方法を示す。 我々の最良のモデルはパラメータマッチング言語モデルと比較してパープレキシティを最大6.5%削減できる。 提案手法は,話者毎の微調整データ(過去の対話)が利用できる場合に,話者固有の微調整と同等に動作する。 それに加えて、メタデータを通じて表現される人口統計特性の組み合わせに依存して、そのようなデータを持たないシナリオにもよく当てはまる。 コーネルリッチにはコーネル映画ダイアログコーパスの853文字に対する豊富な手話アノテーションが含まれており、特徴的引用や文字記述などの特徴や、95%以上の特徴のある映画のメタデータを自動抽出する6つの特徴が含まれている。 最後に、どのアノテーションが難易度を減らすのに最もコスト効率が良いかを示すコスト便益分析も提示する。

Language models that are sensitive to external context can more effectively capture the speaking patterns of individuals with specific characteristics or in particular environments. However, obtaining and leveraging such annotations can be challenging. In this work, we show how to leverage rich character and film annotations to personalise language models in a scalable manner. Our best model can reduce perplexity by up to 6.5% compared to a parameter-matched language model. Our approach performs on par with speaker-specific fine-tuning when the fine-tuning data (i.e. past dialogue) for individual speakers is available. On top of that, it also generalises well to a scenario with no such data, relying on combinations of demographic characteristics expressed via metadata. Our findings are consistent across two corpora, one of which is also a contribution of this paper: Cornell-rich contains rich manual annotations for 863 speaking characters from the Cornell Movie Dialog Corpus, including features such as characteristic quotes and character descriptions, along with six automatically extracted metadata features for over 95% of the featured films. Finally, we also present a cost-benefit analysis highlighting which annotations are most cost-effective in reducing perplexity.
翻訳日:2023-08-14 17:12:45 公開日:2023-08-11
# 物理誘導逆ネットワークを用いた人工デジタル画像相関データの生成

Generating artificial digital image correlation data using physics-guided adversarial networks ( http://arxiv.org/abs/2303.15939v2 )

ライセンス: Link先を確認
David Melching, Erik Schultheis, Eric Breitbarth(参考訳) デジタル画像相関(DIC)は, 機械的実験, 特に疲労き裂進展実験の評価において重要なツールとなっている。 この評価には亀裂経路と亀裂先端位置の正確な情報が必要である。 機械学習モデルは、この関連情報を認識するのに非常に成功した。 しかし、よく一般化された堅牢なモデルのトレーニングには、ビッグデータが必要です。 しかし、実験は高価で時間がかかるため、材料科学や工学の分野ではデータが不足することが多い。 本稿では,物理誘導型判別器を用いた生成逆数ネットワークを用いた合成DICデータ生成手法を提案する。 データサンプルが実物か偽物かを決定するために、この判別器は、派生したvon Mises等価ひずみを受信する。 この物理誘導アプローチは, 試料の視覚的品質, スライスワッサースタイン距離, 幾何スコアの点で, よりよい結果をもたらすことが示されている。

Digital image correlation (DIC) has become a valuable tool in the evaluation of mechanical experiments, particularly fatigue crack growth experiments. The evaluation requires accurate information of the crack path and crack tip position, which is difficult to obtain due to inherent noise and artefacts. Machine learning models have been extremely successful in recognizing this relevant information. But for the training of robust models, which generalize well, big data is needed. However, data is typically scarce in the field of material science and engineering because experiments are expensive and time-consuming. We present a method to generate synthetic DIC data using generative adversarial networks with a physics-guided discriminator. To decide whether data samples are real or fake, this discriminator additionally receives the derived von Mises equivalent strain. We show that this physics-guided approach leads to improved results in terms of visual quality of samples, sliced Wasserstein distance, and geometry score.
翻訳日:2023-08-14 17:12:27 公開日:2023-08-11
# 方向調整による逆例の転送性の向上

Improving the Transferability of Adversarial Examples via Direction Tuning ( http://arxiv.org/abs/2303.15109v2 )

ライセンス: Link先を確認
Xiangyuan Yang, Jie Lin, Hanlin Zhang, Xinyu Yang, Peng Zhao(参考訳) 移動型対人攻撃では、敵対例は代理モデルによってのみ生成され、犠牲者モデルにおいて効果的な摂動が達成される。 本研究は,移動型対向攻撃によって生じる対向例の転送性向上に多大な努力を払っているが,現在の移動型対向攻撃の実際の更新方向と急激な更新方向の差は,大きな更新ステップ長によって引き起こされるため,生成対向例は十分に収束しないことがわかった。 しかし、更新ステップ長の直接削減は深刻な更新発振を引き起こすため、生成した敵の例も犠牲者モデルへの大きな転送性を得ることができない。 これらの問題に対処するために,新しい転送ベース攻撃,すなわち方向チューニング攻撃を提案し,大きなステップ長の更新偏差を減少させるだけでなく,小さなサンプリングステップ長の更新振動を緩和し,生成された敵対的サンプルをうまく収束させ,被害者モデルにおける大きな転送可能性を達成する。 さらに,ネットワークプルーニング手法を提案し,決定境界を円滑にすることで,更新振動を低減し,生成した逆数例の転送性を向上させる。 ImageNetにおける実験結果から,本手法が生成した敵の攻撃成功率(ASR)は,防御のない5つの犠牲者モデルでは87.9\%から94.5\%に向上し,最新の勾配攻撃と比較して8つの先進防衛手法では69.1\%から76.2\%に改善できることが示された。

In the transfer-based adversarial attacks, adversarial examples are only generated by the surrogate models and achieve effective perturbation in the victim models. Although considerable efforts have been developed on improving the transferability of adversarial examples generated by transfer-based adversarial attacks, our investigation found that, the big deviation between the actual and steepest update directions of the current transfer-based adversarial attacks is caused by the large update step length, resulting in the generated adversarial examples can not converge well. However, directly reducing the update step length will lead to serious update oscillation so that the generated adversarial examples also can not achieve great transferability to the victim models. To address these issues, a novel transfer-based attack, namely direction tuning attack, is proposed to not only decrease the update deviation in the large step length, but also mitigate the update oscillation in the small sampling step length, thereby making the generated adversarial examples converge well to achieve great transferability on victim models. In addition, a network pruning method is proposed to smooth the decision boundary, thereby further decreasing the update oscillation and enhancing the transferability of the generated adversarial examples. The experiment results on ImageNet demonstrate that the average attack success rate (ASR) of the adversarial examples generated by our method can be improved from 87.9\% to 94.5\% on five victim models without defenses, and from 69.1\% to 76.2\% on eight advanced defense methods, in comparison with that of latest gradient-based attacks.
翻訳日:2023-08-14 17:12:13 公開日:2023-08-11
# PENTACET データ -- 2300万のコンテキストコードコメントと25万のSATDコメント

PENTACET data -- 23 Million Contextual Code Comments and 250,000 SATD comments ( http://arxiv.org/abs/2303.14029v2 )

ライセンス: Link先を確認
Murali Sridharan, Leevi Rantala, Mika M\"antyl\"a(参考訳) 多くのSATD研究は、SATD検出に「TODO」や「FIXME」のような明示的なSATD特徴を利用している。 より詳しく見てみると、SATDの研究は、文脈データ(ソースコードコンテキストの先行と継承)なしで、単純なSATD('Easy to Find')コードコメントを使用する。 この作業はpentacet(または5cデータセット)データを通じてこのギャップに対処する。 PENTACETは、コントリビュータ毎のCurated Contextual Code Commentsと、最も広範なSATDデータである。 9,096のオープンソースソフトウェアJavaプロジェクトと合計4億3500万LOCをマイニングしています。 その結果、各コメントのソースコードコンテキストに先行して続く2300万のコードコメントと、"Easy to Find"と"Hard to Find"の2つを含む25万以上のSATDというラベルが付けられたデータセットが得られた。 我々は、PENTACETデータが人工知能技術を用いてSATDの研究をさらに進めると考えている。

Most Self-Admitted Technical Debt (SATD) research utilizes explicit SATD features such as 'TODO' and 'FIXME' for SATD detection. A closer look reveals several SATD research uses simple SATD ('Easy to Find') code comments without the contextual data (preceding and succeeding source code context). This work addresses this gap through PENTACET (or 5C dataset) data. PENTACET is a large Curated Contextual Code Comments per Contributor and the most extensive SATD data. We mine 9,096 Open Source Software Java projects with a total of 435 million LOC. The outcome is a dataset with 23 million code comments, preceding and succeeding source code context for each comment, and more than 250,000 comments labeled as SATD, including both 'Easy to Find' and 'Hard to Find' SATD. We believe PENTACET data will further SATD research using Artificial Intelligence techniques.
翻訳日:2023-08-14 17:11:41 公開日:2023-08-11
# ExBEHRT:病気のサブタイプと進展を予測する電子健康記録用拡張トランス

ExBEHRT: Extended Transformer for Electronic Health Records to Predict Disease Subtypes & Progressions ( http://arxiv.org/abs/2303.12364v3 )

ライセンス: Link先を確認
Maurice Rupp, Oriane Peter, Thirupathi Pattipaka(参考訳) 本研究では、BEHRTの拡張版であるExBEHRT(BERT)を紹介し、その結果を解釈するために異なるアルゴリズムを適用した。 BEHRTは、診断と患者年齢のみを考慮しているが、異なる特徴の周波数と時間次元を統一する新しい手法を適用して、特徴空間を複数のマルチモーダル記録(人口統計、臨床特徴、バイタルサイン、喫煙状態、診断、処置、薬品、検査検査)に拡張する。 さまざまな疾患におけるダウンストリームタスクのモデルパフォーマンスが大幅に向上することを示す。 頑健性を確保するため,従来EHRデータを用いたトランスフォーマーには適用されていなかった期待勾配の適応を用いてモデル予測を解釈し,特徴やトークンの重要度といった従来の手法よりも詳細な解釈を行う。 さらに,腫瘍患者のモデル表現をクラスタ化することにより,本モデルが疾患を暗黙的に理解し,同一型のがん患者を異なるリスクグループに分類できることを示す。 追加の特徴と解釈可能性を考えると、ExBEHRTは疾患の軌跡、診断、および様々な疾患の危険因子に関する情報的決定に役立てることができる。

In this study, we introduce ExBEHRT, an extended version of BEHRT (BERT applied to electronic health records), and apply different algorithms to interpret its results. While BEHRT considers only diagnoses and patient age, we extend the feature space to several multimodal records, namely demographics, clinical characteristics, vital signs, smoking status, diagnoses, procedures, medications, and laboratory tests, by applying a novel method to unify the frequencies and temporal dimensions of the different features. We show that additional features significantly improve model performance for various downstream tasks in different diseases. To ensure robustness, we interpret model predictions using an adaptation of expected gradients, which has not been previously applied to transformers with EHR data and provides more granular interpretations than previous approaches such as feature and token importances. Furthermore, by clustering the model representations of oncology patients, we show that the model has an implicit understanding of the disease and is able to classify patients with the same cancer type into different risk groups. Given the additional features and interpretability, ExBEHRT can help make informed decisions about disease trajectories, diagnoses, and risk factors of various diseases.
翻訳日:2023-08-14 17:11:25 公開日:2023-08-11
# より大きなものは良くない:共通の腐敗に対するコンピュータビジョンモデルのロバスト性に関する調査

Larger is not Better: A Survey on the Robustness of Computer Vision Models against Common Corruptions ( http://arxiv.org/abs/2305.06024v2 )

ライセンス: Link先を確認
Shunxin Wang, Raymond Veldhuis, Christoph Brune, Nicola Strisciuglio(参考訳) コンピュータビジョンモデルの性能は、一般的な汚職(ノイズ、ぼかし、照明変更など)として知られる入力画像の予期せぬ変化に影響を受けやすいため、実際のシナリオに展開する際の信頼性を損なう可能性がある。 これらの腐敗は必ずしもモデル一般化と堅牢性をテストするものではない。 本稿では,コンピュータビジョンモデルの汎用汚職に対する堅牢性向上手法について概説する。 提案手法は,データ拡張,表現学習,知識蒸留,ネットワークコンポーネントの4つのグループに分類される。 また,近道学習の一般化と緩和のための間接的手法についても紹介する。 いくつかのデータセットにおけるロバスト性性能を比較するための統一ベンチマークフレームワークをリリースし、文献における評価の不整合に対処する。 本稿では,一般的な視覚バックボーンの基部破壊堅牢性について実験的に概説し,破壊堅牢性は必ずしもモデルサイズに及ばないことを示す。 非常に大きなモデル(1億以上のパラメータ)は、計算要求の増加を考慮して無視可能な堅牢性を得る。 汎用的で堅牢なコンピュータビジョンモデルを実現するためには、限られたデータを効率的に活用し、望ましくない学習行動を緩和する新しい学習戦略を開発する必要がある。

The performance of computer vision models are susceptible to unexpected changes in input images, known as common corruptions (e.g. noise, blur, illumination changes, etc.), that can hinder their reliability when deployed in real scenarios. These corruptions are not always considered to test model generalization and robustness. In this survey, we present a comprehensive overview of methods that improve the robustness of computer vision models against common corruptions. We categorize methods into four groups based on the model part and training method addressed: data augmentation, representation learning, knowledge distillation, and network components. We also cover indirect methods for generalization and mitigation of shortcut learning, potentially useful for corruption robustness. We release a unified benchmark framework to compare robustness performance on several datasets, and address the inconsistencies of evaluation in the literature. We provide an experimental overview of the base corruption robustness of popular vision backbones, and show that corruption robustness does not necessarily scale with model size. The very large models (above 100M parameters) gain negligible robustness, considering the increased computational requirements. To achieve generalizable and robust computer vision models, we foresee the need of developing new learning strategies to efficiently exploit limited data and mitigate unwanted or unreliable learning behaviors.
翻訳日:2023-08-14 17:03:38 公開日:2023-08-11
# ベル実験と量子基礎について

On the Bell Experiment and Quantum Foundation ( http://arxiv.org/abs/2305.05299v3 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) ベル実験は、量子力学の基礎に対する新しいアプローチとして議論されている。 基本的なモデルから、どんなオブザーバーの心も何らかの方法で制限されなければならないと結論づけられる: ある文脈では、彼は単に意思決定時に十分な変数を心に保持できない。 これはベルの定理の帰結であるが、より広い結果をもたらすようである。

The Bell experiment is discussed in the light of a new approach to the foundation of quantum mechanics. It is concluded from the basic model that the mind of any observer must be limited in some way: In certain contexts, he is simply not able to keep enough variables in his mind when making decisions. This has consequences for Bell's theorem, but it also seems to have wider consequences.
翻訳日:2023-08-14 17:03:14 公開日:2023-08-11
# 医用画像分割のためのsegment anything model(sam)に向けて

Towards Segment Anything Model (SAM) for Medical Image Segmentation: A Survey ( http://arxiv.org/abs/2305.03678v3 )

ライセンス: Link先を確認
Yichi Zhang, Rushi Jiao(参考訳) プロンプトの柔軟性のため、基盤モデルは自然言語処理と画像生成の領域において支配的な力となっている。 最近のSAM(Segment Anything Model)の導入により、プロンプト駆動のパラダイムがイメージセグメンテーションの領域に入り、これまで探索されていなかったさまざまな機能を実現した。 しかし, 天然画像と医用画像の有意差により, 医用画像セグメンテーションに適用できるかどうかは不明であり, 本研究では, 経験的ベンチマークと方法論的適応を含む医療用画像セグメンテーションタスクへのSAMの成功を拡大するための最近の取り組みを要約し, 医療用画像セグメンテーションにおけるSAMの今後の方向性について論じる。 医療画像セグメンテーションにsamを直接適用しても、マルチモーダルおよびマルチターゲットの医療データセットで満足できる性能は得られないが、医療画像解析の基礎モデルを開発するための今後の研究を導くために、多くの洞察が寄せられている。 今後の研究を容易にするため、我々は最新のペーパーリストとオープンソースプロジェクトの概要を含むアクティブリポジトリをhttps://github.com/yichizhang98/sam4misに保持する。

Due to the flexibility of prompting, foundation models have become the dominant force in the domains of natural language processing and image generation. With the recent introduction of the Segment Anything Model (SAM), the prompt-driven paradigm has entered the realm of image segmentation, bringing with a range of previously unexplored capabilities. However, it remains unclear whether it can be applicable to medical image segmentation due to the significant differences between natural images and medical images.In this work, we summarize recent efforts to extend the success of SAM to medical image segmentation tasks, including both empirical benchmarking and methodological adaptations, and discuss potential future directions for SAM in medical image segmentation. Although directly applying SAM to medical image segmentation cannot obtain satisfying performance on multi-modal and multi-target medical datasets, many insights are drawn to guide future research to develop foundation models for medical image analysis. To facilitate future research, we maintain an active repository that contains up-to-date paper list and open-source project summary at https://github.com/YichiZhang98/SAM4MIS.
翻訳日:2023-08-14 17:03:08 公開日:2023-08-11
# 不確定データからの因果表現学習と解答に向けて

Towards Causal Representation Learning and Deconfounding from Indefinite Data ( http://arxiv.org/abs/2305.02640v4 )

ライセンス: Link先を確認
Hang Chen and Xinyu Yang and Qing Yang(参考訳) 因果関係の発見とディープラーニングの相互関係から、非統計的データ(画像やテキストなど)は、従来の因果関係データとプロパティやメソッドの面で大きな衝突に遭遇する。 これらのデータ型を様々な形態で統一するために、2つの新しい視点から因果データを再定義し、3つのデータパラダイムを提案する。 それらのうち、不定値データ(対話やビデオソースなど)は、サンプル使用率の低下と分布仮定の不能を招き、どちらも不定値データから因果表現を学ぶことは、まだほとんど未定である。 この2つの問題を解決するために因果強度変動モデルを設計する。 具体的には、独立雑音の代わりに因果強度を潜伏変数として利用し、証拠を下限に構築する。 この設計エトスにより、異なる構造の因果強度は分布と見なされ、2次元行列として表現できる。 因果グラフ g を二つの関係部分グラフ o と c に分解する。 o は観測変数間の純粋関係を含み、c は潜在変数と観測変数の関係を表す。 上記の設計を動的変分推論モデルとして実装し,不定値データからの因果表現を潜在結合下で学習する。 最後に,本手法の有効性を実証するために,合成および実世界のデータに関する包括的実験を行った。

Owing to the cross-pollination between causal discovery and deep learning, non-statistical data (e.g., images, text, etc.) encounters significant conflicts in terms of properties and methods with traditional causal data. To unify these data types of varying forms, we redefine causal data from two novel perspectives and then propose three data paradigms. Among them, the indefinite data (like dialogues or video sources) induce low sample utilization and incapability of the distribution assumption, both leading to the fact that learning causal representation from indefinite data is, as of yet, largely unexplored. We design the causal strength variational model to settle down these two problems. Specifically, we leverage the causal strength instead of independent noise as the latent variable to construct evidence lower bound. By this design ethos, The causal strengths of different structures are regarded as a distribution and can be expressed as a 2D matrix. Moreover, considering the latent confounders, we disentangle the causal graph G into two relation subgraphs O and C. O contains pure relations between observed variables, while C represents the relations from latent variables to observed variables. We implement the above designs as a dynamic variational inference model, tailored to learn causal representation from indefinite data under latent confounding. Finally, we conduct comprehensive experiments on synthetic and real-world data to demonstrate the effectiveness of our method.
翻訳日:2023-08-14 17:02:43 公開日:2023-08-11
# 103kmの都市ファイバー上の量子双方向時間移動

Quantum two-way time transfer over a 103 km urban fiber ( http://arxiv.org/abs/2305.01897v2 )

ライセンス: Link先を確認
Huibo Hong, Runai Quan, Xiao Xiang, Yuting Liu, Tao Liu, Mingtao Cao, Ruifang Dong, and Shougang Zhang(参考訳) 遠隔時間スケール間の高精度時間同期を実現するための新しいアプローチとして、実験室のファイバーリンクによる量子双方向時間転送は、数十フェムト秒間の転送安定性を著しく向上させた。 実用システムにおけるその大きな可能性を検証するためには, 長距離設置光ファイバインフラストラクチャにおけるフィールドテストの実証が必要である。 本稿では,103kmの都市ファイバーリンク上での2方向量子時間転送を実現する。 10sで3.67ps、40000sで0.28psの時間移動安定性が達成されているが、38dBの大きな減衰は毎秒40回未満の相関現象をもたらす。 この成果は、高精度長距離場移動システムのタスクにおける量子二方向時間移動の最初の成功例である。

As a new approach to realizing high-precision time synchronization between remote time scales, quantum two-way time transfer via laboratory fiber link has shown significant enhancement of the transfer stability to several tens of femtoseconds. To verify its great potential in practical systems, the field test in long-haul installed fiber optic infrastructure is required to be demonstrated. In this paper, we implement the two-way quantum time transfer over a 103 km urban fiber link. A time transfer stability of 3.67 ps at 10 s and 0.28 ps at 40000 s has been achieved, despite the large attenuation of 38 dB leading to fewer than 40 correlated events per second. This achievement marks the first successful step of quantum two-way time transfer in the task of high-precision long-distance field transfer systems.
翻訳日:2023-08-14 17:02:18 公開日:2023-08-11
# DQS3D: 厳密に整合した量子化対応半教師付き3次元検出

DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection ( http://arxiv.org/abs/2304.13031v2 )

ライセンス: Link先を確認
Huan-ang Gao, Beiwen Tian, Pengfei Li, Hao Zhao, Guyue Zhou(参考訳) 本研究では, 3次元室内シーンのクラッタ化に要するアノテーションコストを考慮し, 半教師付き3次元物体検出の問題点について検討する。 自己啓発の強固で原則化された枠組みは,近年,半教師付き学習に顕著な進歩をもたらしている。 このパラダイムは画像レベルやピクセルレベルの予測には自然であるが、提案マッチングの問題により検出問題に適応する。 従来の手法は2段階のパイプラインに基づいており、第1段階で生成したヒューリスティックに選択された提案に一致し、空間的に疎い訓練信号をもたらす。 対照的に,一段階的に動作し,空間的に密集したトレーニング信号を可能にする,最初の半教師付き3次元検出アルゴリズムを提案する。 この新設計の根本的な問題は、点対ボクセルの離散化に起因する量子化誤差であり、これは必然的に、ボクセル領域における2つの変換されたビュー間の不一致を引き起こす。 この目的のために、我々はこのミスアライメントを補うクローズドフォームルールを導出し実装する。 ScanNet mAP@0.5 を 20% のアノテーションで 35.2% から 48.5% まで推し進めるなど、我々の結果は重要である。 コードとデータは公開される予定だ。

In this paper, we study the problem of semi-supervised 3D object detection, which is of great importance considering the high annotation cost for cluttered 3D indoor scenes. We resort to the robust and principled framework of selfteaching, which has triggered notable progress for semisupervised learning recently. While this paradigm is natural for image-level or pixel-level prediction, adapting it to the detection problem is challenged by the issue of proposal matching. Prior methods are based upon two-stage pipelines, matching heuristically selected proposals generated in the first stage and resulting in spatially sparse training signals. In contrast, we propose the first semisupervised 3D detection algorithm that works in the singlestage manner and allows spatially dense training signals. A fundamental issue of this new design is the quantization error caused by point-to-voxel discretization, which inevitably leads to misalignment between two transformed views in the voxel domain. To this end, we derive and implement closed-form rules that compensate this misalignment onthe-fly. Our results are significant, e.g., promoting ScanNet mAP@0.5 from 35.2% to 48.5% using 20% annotation. Codes and data will be publicly available.
翻訳日:2023-08-14 17:02:04 公開日:2023-08-11
# ディラックの自由場の量子論

Quantum theory of Dirac's free field ( http://arxiv.org/abs/2304.12182v4 )

ライセンス: Link先を確認
Ion I. Cotaescu(参考訳) 自由質量フェルミオンのディラック理論は、新しい保存されたスピン作用素とその対応する位置について、Pryceが昔から提案し、最近は適切なスペクトル表現を用いて再定義している。 I. Cot\u aescu, Eur Phys J.C (2022) 82:1073。 このアプローチは、任意の積分作用素に、モードスピノルの代わりに運動量表現における粒子と反粒子波スピノルに作用する一対の積分作用素の構成表現を関連づける。 その結果、アイソメトリジェネレータや位置演算子を含む様々な一粒子演算子によって形成される可観測物の集合全体と、ジッタベウングングを生成するベクトル電流の場合のように振動項を持つ演算子を有効量子化する。 このような作用素の多くは、発振項を持つ作用素の集合を含む、初めてここで導出される。 このフレームワークでは、スピン作用素は保存されるが、Pryceによって最初に提案された位置演算子は、保存された速度で線形に進化する双極子作用素の量子化の後になる。 初回として、これらの新しい演算子を測定する装置が1粒子波束を準備して検出すると、これらはジッタベグングやスピンダイナミクスを使わずに均一に動き、通常、他のスカラー波束や非相対論的波束のように時間的に広がることを示す。

The Dirac theory of free massive fermions is reconstructed around the new conserved spin operator and its corresponding position one proposed initially by Pryce long time ago and re-defined recently by using suitable spectral representations [I. I. Cot\u aescu, Eur. Phys. J. C (2022) 82:1073]. This approach is generalized here associating to any integral operator in configuration representation a pair of integral operators acting on particle and antiparticle wave spinors in momentum representation instead on the mode spinors. It results an effective quantization procedure giving the entire collection of observables formed by various one-particle operators, including the isometry generators and position operators, as well as operators having oscillating terms as in the case of the vector current producing zitterbewegung. Many such operators are derived here for the first time including a collection of operators having oscillating terms. In this framework the spin operator is conserved while the position one, proposed initially by Pryce as mass-center operator, becomes after quantization the dipole operator evolving linearly in time with a conserved velocity. As a premiere it is shown that when an apparatus which measures these new operators prepares and detects the one-particle wave-packets then these appear as moving uniformly without zitterbewegung or spin dynamics, spreading in time normally as any other scalar or even non-relativistic wave-packet.
翻訳日:2023-08-14 17:01:41 公開日:2023-08-11
# 量子輸送における多体コヒーレンス

Many-Body Coherence in Quantum Transport ( http://arxiv.org/abs/2304.11151v5 )

ライセンス: Link先を確認
Ching-Chi Hang, Liang-Yan Hsu(参考訳) 本研究では,多体系における電子輸送を制御するために,量子コヒーレンスを利用する概念を提案する。 ハバード作用素に基づくオープン量子システム手法を組み合わせることで,多体コヒーレンスが有名なクーロン階段を取り除き,強い負の差動抵抗を引き起こすことを示した。 この機構を解明するため、ゼロ電子-フォノンカップリング限界における電流-コヒーレンス関係を解析的に導出する。 さらに,ゲートフィールドを組み込むことで,コヒーレンス制御トランジスタ構築の可能性を示す。 この開発は、多体コヒーレンスに基づく量子電子デバイス探索のための新しい方向を開く。

In this study, we propose the concept of harnessing quantum coherence to control electron transport in a many-body system. Combining an open quantum system technique based on Hubbard operators, we show that many-body coherence can eliminate the well-known Coulomb staircase and cause strong negative differential resistance. To explore the mechanism, we analytically derive the current-coherence relationship in the zero electron-phonon coupling limit. Furthermore, by incorporating a gate field, we demonstrate the possibility of constructing a coherence-controlled transistor. This development opens up a new direction for exploring quantum electronic devices based on many-body coherence.
翻訳日:2023-08-14 17:01:16 公開日:2023-08-11
# MAMAF-Net:ストローク診断のためのモーションアウェア・マルチアテンション融合ネットワーク

MAMAF-Net: Motion-Aware and Multi-Attention Fusion Network for Stroke Diagnosis ( http://arxiv.org/abs/2304.09466v2 )

ライセンス: Link先を確認
Aysen Degerli, Pekka Jakala, Juha Pajula, Milla Immonen, and Miguel Bordallo Lopez(参考訳) ストロークは世界中で死亡率と障害の主な原因であり、そのうち4人に1人が生涯で死亡する恐れがある。 脳卒中前の評価は、脳卒中患者を正確に同定し、病院でのさらなる検査と治療を促進する上で重要な役割を果たす。 そのため、National Institutes of Health Stroke Scale (NIHSS)、Cincinnati Pre-Hospital Stroke Scale (CPSS)、Face Arm Speed Time (F.A.S.T.)は世界中で知られている脳卒中評価試験である。 しかし、これらの検査の有効性は神経学者の欠如に懐疑的であり、医療へのアクセスは制限される可能性がある。 そこで本研究では,マルチモーダル検査ビデオからストロークを検出できる動き認識・マルチアテンション融合ネットワーク(MAMAF-Net)を提案する。 ビデオ解析による脳卒中検出に関する他の研究とは対照的に,本研究では,脳卒中,一過性虚血発作(TIA)および健康管理をカプセル化したデータセットを用いて,各被験者の複数のビデオ記録からエンドツーエンドのソリューションを提案する。 提案するMAMAF-Netは,患者の動きを感知する動き認識モジュールと,多入力映像データを融合する注意モジュールと,注意ベース抽出特徴から診断する3次元畳み込み層から構成される。 収集したストロークデータに対する実験の結果、提案されたMAMAF-Netは93.62%の感度と95.33%のAUCスコアで脳卒中の検出に成功した。

Stroke is a major cause of mortality and disability worldwide from which one in four people are in danger of incurring in their lifetime. The pre-hospital stroke assessment plays a vital role in identifying stroke patients accurately to accelerate further examination and treatment in hospitals. Accordingly, the National Institutes of Health Stroke Scale (NIHSS), Cincinnati Pre-hospital Stroke Scale (CPSS) and Face Arm Speed Time (F.A.S.T.) are globally known tests for stroke assessment. However, the validity of these tests is skeptical in the absence of neurologists and access to healthcare may be limited. Therefore, in this study, we propose a motion-aware and multi-attention fusion network (MAMAF-Net) that can detect stroke from multimodal examination videos. Contrary to other studies on stroke detection from video analysis, our study for the first time proposes an end-to-end solution from multiple video recordings of each subject with a dataset encapsulating stroke, transient ischemic attack (TIA), and healthy controls. The proposed MAMAF-Net consists of motion-aware modules to sense the mobility of patients, attention modules to fuse the multi-input video data, and 3D convolutional layers to perform diagnosis from the attention-based extracted features. Experimental results over the collected Stroke-data dataset show that the proposed MAMAF-Net achieves a successful detection of stroke with 93.62% sensitivity and 95.33% AUC score.
翻訳日:2023-08-14 17:01:04 公開日:2023-08-11
# 位相材料からの点ギャップ位相の普遍的プラットフォーム

Universal platform of point-gap topological phases from topological materials ( http://arxiv.org/abs/2304.08110v3 )

ライセンス: Link先を確認
Daichi Nakamura, Kazuya Inaka, Nobuyuki Okuma, Masatoshi Sato(参考訳) 点ギャップ位相は非エルミート系に固有の例外現象の原因であるが、量子材料におけるそれらの実現はいまだ解明されていない。 ここでは、エルミートトポロジカル絶縁体と超伝導体から構築された点ギャップ位相の単純で普遍的なプラットフォームを提案する。 d-次元位相絶縁体と超伝導体の境界を散逸させることにより(d-1)次元の点ギャップ位相相を実現する。 この提案の重要な観察は、D次元トポロジカル絶縁体と超伝導体における境界モードに崩壊定数を加えることは、(d-1)次元ポイントギャップトポロジカル位相を境界に取り付けることと位相的に等価であるということである。 さらに、散逸的なギャップレスモードを点ギャップ位相数に関連付けるNielsen-Ninomiya定理の拡張版から提案をさらに確立する。 点ギャップ位相のバルク境界対応から、点ギャップ位相は例外的な境界状態または高次非エルミート皮膚効果を示す。

Whereas point-gap topological phases are responsible for exceptional phenomena intrinsic to non-Hermitian systems, their realization in quantum materials is still elusive. Here we propose a simple and universal platform of point-gap topological phases constructed from Hermitian topological insulators and superconductors. We show that (d-1)-dimensional point-gap topological phases are realized by making a boundary in d-dimensional topological insulators and superconductors dissipative. A crucial observation of the proposal is that adding a decay constant to boundary modes in d-dimensional topological insulators and superconductors is topologically equivalent to attaching a (d-1)-dimensional point-gap topological phase to the boundary. We furthermore establish the proposal from the extended version of the Nielsen-Ninomiya theorem, relating dissipative gapless modes to point-gap topological numbers. From the bulk-boundary correspondence of the point-gap topological phases, the resultant point-gap topological phases exhibit exceptional boundary states or in-gap higher-order non-Hermitian skin effects.
翻訳日:2023-08-14 17:00:31 公開日:2023-08-11
# 忠実な知識蒸留

Faithful Knowledge Distillation ( http://arxiv.org/abs/2306.04431v3 )

ライセンス: Link先を確認
Tom A. Lamb, Rudy Brunel, Krishnamurthy DJ Dvijotham, M. Pawan Kumar, Philip H. S. Torr, Francisco Eiras(参考訳) 知識蒸留(KD)は、資源の制約されたシステムへの展開を可能にするために、ネットワークの圧縮に成功したため、多くの注目を集めている。 対角的堅牢性の問題は、KD設定において以前にも研究されてきたが、従来の研究は、教師に対する学生ネットワークの相対的キャリブレーションをソフトな自信の観点から見落としている。 特に,教師と学生のペアに関する2つの重要な質問に焦点をあてる。 i)教師と学生は、正しく分類されたデータセットの例に近い点で意見が一致しないか。 (ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか? これらは、安全クリティカルな環境でロバストな教師から訓練された小さな学生ネットワークの配置を考えるとき、重要な問題である。 そこで本研究では,自信の相対的校正を議論し,教師の相対校正を評価するための経験的・認定的手法を提供するための忠実な模倣フレームワークを提案する。 さらに, 生徒の相対校正インセンティブと教師の校正インセンティブを確実に一致させるために, 忠実蒸留を導入する。 MNIST, Fashion-MNIST, CIFAR-10データセットを用いた実験により, 代替対角蒸留法に対する忠実蒸留の信頼性向上のメリットと分析の必要性が示された。

Knowledge distillation (KD) has received much attention due to its success in compressing networks to allow for their deployment in resource-constrained systems. While the problem of adversarial robustness has been studied before in the KD setting, previous works overlook what we term the relative calibration of the student network with respect to its teacher in terms of soft confidences. In particular, we focus on two crucial questions with regard to a teacher-student pair: (i) do the teacher and student disagree at points close to correctly classified dataset examples, and (ii) is the distilled student as confident as the teacher around dataset examples? These are critical questions when considering the deployment of a smaller student network trained from a robust teacher within a safety-critical setting. To address these questions, we introduce a faithful imitation framework to discuss the relative calibration of confidences and provide empirical and certified methods to evaluate the relative calibration of a student w.r.t. its teacher. Further, to verifiably align the relative calibration incentives of the student to those of its teacher, we introduce faithful distillation. Our experiments on the MNIST, Fashion-MNIST and CIFAR-10 datasets demonstrate the need for such an analysis and the advantages of the increased verifiability of faithful distillation over alternative adversarial distillation methods.
翻訳日:2023-08-14 16:55:22 公開日:2023-08-11
# 統一テキスト型人物検索に向けて:大規模マルチ属性と言語検索ベンチマーク

Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark ( http://arxiv.org/abs/2306.02898v3 )

ライセンス: Link先を確認
Shuyu Yang, Yinan Zhou, Yaxiong Wang, Yujiao Wu, Li Zhu, Zhedong Zheng(参考訳) 本稿では,テキストベース人物検索のための大規模多属性・言語検索データセットmalsを紹介し,属性認識と画像テキストマッチングタスクの両方で事前学習を行う可能性について検討する。 特にMALSには1,510,330のイメージテキストペアがあり、CUHK-PEDESの約37.5倍の大きさで、すべてのイメージに27の属性が付加されている。 プライバシの懸念とアノテーションのコストを考慮すると、オフザシェルフ拡散モデルを利用してデータセットを生成する。 生成されたデータから学習する可能性を検証するため,属性とテキストの共有知識を考慮し,新たにaptm(joint attribute prompt learning and text matching learning)フレームワークを開発した。 名前が示すように、APTMには属性プロンプト学習ストリームとテキストマッチング学習ストリームが含まれている。 1)属性プロンプト学習は属性プロンプトを利用して画像-属性アライメントを行い,テキストマッチング学習を強化する。 2) テキストマッチング学習は, きめ細かな細部での表現学習を促進するとともに, 属性のプロンプト学習を促進させる。 大規模な実験により、MALSの事前学習の有効性が検証され、3つの挑戦的な実世界のベンチマーク上でAPTMによる最先端の検索性能が達成された。 特にAPTMは、CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットをそれぞれ明確なマージンで、+6.96%、+7.68%、+16.95%のリコール@1精度で一貫した改善を実現している。

In this paper, we introduce a large Multi-Attribute and Language Search dataset for text-based person retrieval, called MALS, and explore the feasibility of performing pre-training on both attribute recognition and image-text matching tasks in one stone. In particular, MALS contains 1,510,330 image-text pairs, which is about 37.5 times larger than prevailing CUHK-PEDES, and all images are annotated with 27 attributes. Considering the privacy concerns and annotation costs, we leverage the off-the-shelf diffusion models to generate the dataset. To verify the feasibility of learning from the generated data, we develop a new joint Attribute Prompt Learning and Text Matching Learning (APTM) framework, considering the shared knowledge between attribute and text. As the name implies, APTM contains an attribute prompt learning stream and a text matching learning stream. (1) The attribute prompt learning leverages the attribute prompts for image-attribute alignment, which enhances the text matching learning. (2) The text matching learning facilitates the representation learning on fine-grained details, and in turn, boosts the attribute prompt learning. Extensive experiments validate the effectiveness of the pre-training on MALS, achieving state-of-the-art retrieval performance via APTM on three challenging real-world benchmarks. In particular, APTM achieves a consistent improvement of +6.96%, +7.68%, and +16.95% Recall@1 accuracy on CUHK-PEDES, ICFG-PEDES, and RSTPReid datasets by a clear margin, respectively.
翻訳日:2023-08-14 16:54:16 公開日:2023-08-11
# F? D:顔生成評価における深部特徴空間の役割の理解について

F?D: On understanding the role of deep feature spaces on face generation evaluation ( http://arxiv.org/abs/2305.20048v3 )

ライセンス: Link先を確認
Krish Kabra, Guha Balakrishnan(参考訳) Fr\'echet Inception Distance (FID)のような知覚メトリクスは、合成生成画像と地上の真実画像(実画像)の類似性を評価するために広く用いられている。 これらのメトリクスの背後にある重要なアイデアは、知覚的かつセマンティックにリッチな画像特徴をキャプチャする、深い機能領域におけるエラーの計算である。 その人気にもかかわらず、異なる深い特徴とその設計選択が知覚的メートル法に与える影響はよく研究されていない。 本研究では,いくつかの一般的な深層特徴空間を用いて,顔画像分布とfr\'echet距離(fd)との間の意味属性と歪みの差異を関連付けた因果分析を行う。 分析の重要な要素は,ディープフェイスジェネレータを用いた合成偽顔の作成である。 実験の結果,FDは特徴空間のトレーニングデータセットと目的関数に大きく影響されていることがわかった。 例えば、ImageNetでトレーニングされたモデルから抽出された機能を使用してFDは、目や口などの領域に重きを置く。 さらに、顔の性別分類器の特徴を用いたFDは、アイデンティティ(認識)特徴空間における距離よりも髪の長さを強調する。 最後に,特徴空間にまたがる複数の人気顔生成モデルを評価し,識別(認識)機能を除き,StyleGAN2が他の顔生成装置よりも常に上位にあることを確認する。 これは、生成モデルを評価し、関心領域のニュアンスに合わせて調整された特徴空間を使用する際に、複数の特徴空間を考える必要性を示唆する。

Perceptual metrics, like the Fr\'echet Inception Distance (FID), are widely used to assess the similarity between synthetically generated and ground truth (real) images. The key idea behind these metrics is to compute errors in a deep feature space that captures perceptually and semantically rich image features. Despite their popularity, the effect that different deep features and their design choices have on a perceptual metric has not been well studied. In this work, we perform a causal analysis linking differences in semantic attributes and distortions between face image distributions to Fr\'echet distances (FD) using several popular deep feature spaces. A key component of our analysis is the creation of synthetic counterfactual faces using deep face generators. Our experiments show that the FD is heavily influenced by its feature space's training dataset and objective function. For example, FD using features extracted from ImageNet-trained models heavily emphasize hats over regions like the eyes and mouth. Moreover, FD using features from a face gender classifier emphasize hair length more than distances in an identity (recognition) feature space. Finally, we evaluate several popular face generation models across feature spaces and find that StyleGAN2 consistently ranks higher than other face generators, except with respect to identity (recognition) features. This suggests the need for considering multiple feature spaces when evaluating generative models and using feature spaces that are tuned to nuances of the domain of interest.
翻訳日:2023-08-14 16:53:44 公開日:2023-08-11
# マスク付きシークエンシャルオートエンコーダによる自己事前学習によるロバストレーン検出とカスタマイズポリロスによる微調整

Robust Lane Detection through Self Pre-training with Masked Sequential Autoencoders and Fine-tuning with Customized PolyLoss ( http://arxiv.org/abs/2305.17271v2 )

ライセンス: Link先を確認
Ruohan Li, Yongqi Dong(参考訳) 車線検出は、自動運転と多くのインテリジェントで高度な運転支援システムの基礎となる車両のローカライゼーションに不可欠である。 利用可能な視覚に基づく車線検出手法は、貴重な特徴をフル活用せず、特に連続フレームにおける車線線と画像の他の領域間の相互関係を集約する。 この研究ギャップを埋め、レーン検出性能を向上するために、マスク付きシーケンシャルオートエンコーダによる自己事前学習と、マルチ連続画像フレームを用いたエンドツーエンドニューラルネットワークモデルのためのカスタマイズされたPolyLossによる微調整からなるパイプラインを提案する。 マスク付きシーケンシャルオートエンコーダを用いてニューラルネットワークモデルを事前訓練し、目的とするランダムマスク画像から欠落した画素を再構成する。 そして、レーン検出セグメンテーションが行われる微調整セグメンテーションフェーズにおいて、連続した画像フレームを入力として提供し、予め訓練されたモデル重みを、出力されたレーン検出結果とラベル付き基底真理との重み付き誤差を算出するカスタマイズされたポリロスによりバックプロパゲーション機構を用いて、さらに更新する。 提案したパイプラインでは、通常シーンと挑戦シーンの両方における車線検出モデルの性能が最先端を超えて向上し、通常のシーンテストセットにおける最高のテスト精度(98.38%)、精度(0.937)、F1測定(0.924)、そして挑戦シーンテストセットにおける最高の総合精度(98.36%)、精度(0.844)を実現し、トレーニング時間を著しく短縮できることを示した。

Lane detection is crucial for vehicle localization which makes it the foundation for automated driving and many intelligent and advanced driving assistant systems. Available vision-based lane detection methods do not make full use of the valuable features and aggregate contextual information, especially the interrelationships between lane lines and other regions of the images in continuous frames. To fill this research gap and upgrade lane detection performance, this paper proposes a pipeline consisting of self pre-training with masked sequential autoencoders and fine-tuning with customized PolyLoss for the end-to-end neural network models using multi-continuous image frames. The masked sequential autoencoders are adopted to pre-train the neural network models with reconstructing the missing pixels from a random masked image as the objective. Then, in the fine-tuning segmentation phase where lane detection segmentation is performed, the continuous image frames are served as the inputs, and the pre-trained model weights are transferred and further updated using the backpropagation mechanism with customized PolyLoss calculating the weighted errors between the output lane detection results and the labeled ground truth. Extensive experiment results demonstrate that, with the proposed pipeline, the lane detection model performance on both normal and challenging scenes can be advanced beyond the state-of-the-art, delivering the best testing accuracy (98.38%), precision (0.937), and F1-measure (0.924) on the normal scene testing set, together with the best overall accuracy (98.36%) and precision (0.844) in the challenging scene test set, while the training time can be substantially shortened.
翻訳日:2023-08-14 16:53:16 公開日:2023-08-11
# 最適線形部分空間探索:拡散モデルのための高速かつ高品質なスケジューリングを学習する

Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models ( http://arxiv.org/abs/2305.14677v2 )

ライセンス: Link先を確認
Zhongjie Duan, Chengyu Wang, Cen Chen, Jun Huang and Weining Qian(参考訳) 近年、拡散モデルは画像合成の分野で最も人気があり、強力な手法となり、芸術的創造性において人間の芸術家に匹敵するものさえある。 しかし、現在拡散モデルの適用を制限する重要な問題は、非常に遅い生成プロセスである。 生成プロセスを高速化するためにいくつかの方法が提案されたが、効率と品質の間にはトレードオフがある。 本稿では,まず,スケジューラに基づく拡散モデル生成過程の詳細な理論的・経験的解析を行う。 我々はスケジューラの設計問題をいくつかのパラメータの決定に変換し、さらに加速された生成プロセスを線形部分空間の拡張プロセスに変換する。 そこで本研究では,線形部分空間に潜む線形部分空間における完全生成過程の最適近似過程を探索することにより生成過程を高速化する,最適線形部分空間探索 (OLSS) という新しい手法を提案する。 OLSSは、非常に少ないステップで高品質な画像を生成することができる。 本手法の有効性を実証するため,オープンソース拡散モデルを用いた広範囲比較実験を行った。 実験の結果,任意のステップ数でolsは生成画像の品質を大幅に向上できることがわかった。 NVIDIA A100 GPUを用いて,他の最適化手法を使わずに,安定拡散による高品質な画像を生成することができる。

In recent years, diffusion models have become the most popular and powerful methods in the field of image synthesis, even rivaling human artists in artistic creativity. However, the key issue currently limiting the application of diffusion models is its extremely slow generation process. Although several methods were proposed to speed up the generation process, there still exists a trade-off between efficiency and quality. In this paper, we first provide a detailed theoretical and empirical analysis of the generation process of the diffusion models based on schedulers. We transform the designing problem of schedulers into the determination of several parameters, and further transform the accelerated generation process into an expansion process of the linear subspace. Based on these analyses, we consequently propose a novel method called Optimal Linear Subspace Search (OLSS), which accelerates the generation process by searching for the optimal approximation process of the complete generation process in the linear subspaces spanned by latent variables. OLSS is able to generate high-quality images with a very small number of steps. To demonstrate the effectiveness of our method, we conduct extensive comparative experiments on open-source diffusion models. Experimental results show that with a given number of steps, OLSS can significantly improve the quality of generated images. Using an NVIDIA A100 GPU, we make it possible to generate a high-quality image by Stable Diffusion within only one second without other optimization techniques.
翻訳日:2023-08-14 16:52:42 公開日:2023-08-11
# ML-SUPERB:多言語音声ユニバーサルパフォーマンスベンチマーク

ML-SUPERB: Multilingual Speech Universal PERformance Benchmark ( http://arxiv.org/abs/2305.10615v2 )

ライセンス: Link先を確認
Jiatong Shi, Dan Berrebbi, William Chen, Ho-Lam Chung, En-Pei Hu, Wei Ping Huang, Xuankai Chang, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Shinji Watanabe(参考訳) 音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。 しかし、SUPERBはその評価において主に英語を話す。 本稿では,143言語をカバーする多言語スーパーブ(ml-superb)について述べる。 SUPERBのコンセプトに従って、ML-SUPERBは凍結SSL機能を使用し、浅い下流モデルを学ぶことで、多言語タスクのためのシンプルなフレームワークを使用する。 superbベンチマークと同様に、音声sslモデルはfbankの機能よりもパフォーマンスが大幅に向上する。 さらに,多言語モデルが必ずしも単言語モデルよりも優れた性能を発揮するとは限らない。 ML-SUPERBは、将来の多言語表現研究のための組織化されたデータセットと再現可能なトレーニングスクリプトの課題としてリリースする。

Speech processing Universal PERformance Benchmark (SUPERB) is a leaderboard to benchmark the performance of Self-Supervised Learning (SSL) models on various speech processing tasks. However, SUPERB largely considers English speech in its evaluation. This paper presents multilingual SUPERB (ML-SUPERB), covering 143 languages (ranging from high-resource to endangered), and considering both automatic speech recognition and language identification. Following the concept of SUPERB, ML-SUPERB utilizes frozen SSL features and employs a simple framework for multilingual tasks by learning a shallow downstream model. Similar to the SUPERB benchmark, we find speech SSL models can significantly improve performance compared to FBANK features. Furthermore, we find that multilingual models do not always perform better than their monolingual counterparts. We will release ML-SUPERB as a challenge with organized datasets and reproducible training scripts for future multilingual representation research.
翻訳日:2023-08-14 16:52:20 公開日:2023-08-11
# TwitterとMastodon間のプラットフォーム移行パターンの探索 - ユーザ行動調査

Exploring Platform Migration Patterns between Twitter and Mastodon: A User Behavior Study ( http://arxiv.org/abs/2305.09196v2 )

ライセンス: Link先を確認
Ujun Jeong, Paras Sheth, Anique Tahir, Faisal Alatawi, H. Russell Bernard, Huan Liu(参考訳) 最近、twitterからmastodonなどの代替プラットフォームに移行するユーザの急増は、移行パターンとは何か、さまざまなプラットフォームがユーザの行動にどう影響するか、ユーザ移行が移行プロセスにどのように収まるのか、といった疑問を提起した。 本研究では,Elon MuskがTwitterを買収した最初の10週間で,TwitterからMastodonに移行した1万人以上のユーザからデータを収集して,これらの質問を詳細に調査する。 私たちの研究は3つの主要な段階に分かれている。 まず,移動パターの抽出と解析を行うアルゴリズムを開発する。 第二に、行動分析を活用することで、TwitterとMastodonの異なるアーキテクチャを調べ、異なるプラットフォームが各プラットフォーム上でのユーザー行動をどのように形成するかを学ぶ。 最後に,特定の行動要因がユーザに与える影響を判断する。 我々は,ユーザの行動調査から得られたユーザマイグレーション,洞察,教訓について共有する。

A recent surge of users migrating from Twitter to alternative platforms, such as Mastodon, raised questions regarding what migration patterns are, how different platforms impact user behaviors, and how migrated users settle in the migration process. In this study, we elaborate how we investigate these questions by collecting data over 10,000 users who migrated from Twitter to Mastodon within the first ten weeks following Elon Musk's acquisition of Twitter. Our research is structured in three primary steps. First, we develop algorithms to extract and analyze migration patters. Second, by leveraging behavioral analysis, we examine the distinct architectures of Twitter and Mastodon to learn how different platforms shape user behaviors on each platform. Last, we determine how particular behavioral factors influence users to stay on Mastodon. We share our findings of user migration, insights, and lessons learned from the user behavior study.
翻訳日:2023-08-14 16:52:03 公開日:2023-08-11
# 閉形式Monge写像の学習表現とドメイン適応への応用

Learning representations that are closed-form Monge mapping optimal with application to domain adaptation ( http://arxiv.org/abs/2305.07500v2 )

ライセンス: Link先を確認
Oliver Struckmeier, Ievgen Redko, Anton Mallasto, Karol Arndt, Markus Heinonen, Ville Kyrki(参考訳) 最適輸送(OT)は、最小の努力原理に従って確率測度を比較し調整するために使用される強力な幾何学的ツールである。 機械学習(ML)で広く使われているにもかかわらず、OT問題は計算負担を伴い、同時に一般的な高次元空間で支援される測度に対する次元性の呪いに悩まされている。 本稿では,表現学習を用いてこれらの課題に取り組むことを提案する。 特に,2つの入力尺度のサンプルが整合性を持つような埋め込み空間を,閉形式で効率的に計算できる単純なアフィン写像を用いて学習する。 このような手法が,同種および異種の両方のDA設定で以前に評価された多くのOTベースラインを持つ伝達学習タスクに適用した場合,元のOT問題と同等の結果をもたらすことを示す。 コントリビューションのコードは \url{https://github.com/oleffa/laot} で利用可能です。

Optimal transport (OT) is a powerful geometric tool used to compare and align probability measures following the least effort principle. Despite its widespread use in machine learning (ML), OT problem still bears its computational burden, while at the same time suffering from the curse of dimensionality for measures supported on general high-dimensional spaces. In this paper, we propose to tackle these challenges using representation learning. In particular, we seek to learn an embedding space such that the samples of the two input measures become alignable in it with a simple affine mapping that can be calculated efficiently in closed-form. We then show that such approach leads to results that are comparable to solving the original OT problem when applied to the transfer learning task on which many OT baselines where previously evaluated in both homogeneous and heterogeneous DA settings. The code for our contribution is available at \url{https://github.com/Oleffa/LaOT}.
翻訳日:2023-08-14 16:51:48 公開日:2023-08-11
# undercover deepfakes: ビデオ中の偽のセグメントを検出する

Undercover Deepfakes: Detecting Fake Segments in Videos ( http://arxiv.org/abs/2305.06564v3 )

ライセンス: Link先を確認
Sanjay Saha, Rashindrie Perera, Sachith Seneviratne, Tamasha Malepathirana, Sanka Rasnayaka, Deshani Geethika, Terence Sim, Saman Halgamuge(参考訳) 近年のジェネレーティブモデルのルネッサンスは、主に拡散モデルの出現とGAN法の反復的な改善により、多くのクリエイティブな応用を可能にしている。 しかし、それぞれの進歩には誤用の可能性の高まりも伴っている。 ディープフェイク世代においては、これは重要な社会問題である。 特に、このような生成技術を用いてビデオのセグメントを修正できることは、主に真実を歪めるためにわずかに修正された実際のビデオであるディープフェイクの新たなパラダイムを生み出し、このパラダイムは、現在の学術文献におけるディープフェイク検出手法によって過小評価されている。 本稿では,フレームおよび映像レベルでのディープフェイク予測を行うことにより,この問題に対処できるディープフェイク検出手法を提案する。 提案手法の検証を容易にするため,ビデオが実フレームシーケンスと偽フレームシーケンスの両方を持ち,微妙な遷移を伴うベンチマークデータセットを構築した。 本研究では,視覚トランスフォーマを使用して空間的特徴を学習し,時系列トランスフォーマを用いて映像の時間的特徴を学習し,可能なディープフェイクの解釈を容易にする手法を提案する。 様々なディープフェイク生成手法に関する広範囲な実験は、時間分割法や古典的なビデオレベルの予測においても優れた結果を示す。 特に、私たちが取り組んでいるパラダイムは、ディープフェイクのモデレーションのための強力なツールを形成します。 すべての実験は、 https://t.ly/\_bOh9で再現できる。

The recent renaissance in generative models, driven primarily by the advent of diffusion models and iterative improvement in GAN methods, has enabled many creative applications. However, each advancement is also accompanied by a rise in the potential for misuse. In the arena of the deepfake generation, this is a key societal issue. In particular, the ability to modify segments of videos using such generative techniques creates a new paradigm of deepfakes which are mostly real videos altered slightly to distort the truth.This paradigm has been under-explored by the current deepfake detection methods in the academic literature. In this paper, we present a deepfake detection method that can address this issue by performing deepfake prediction at the frame and video levels. To facilitate testing our method, we prepared a new benchmark dataset where videos have both real and fake frame sequences with very subtle transitions. We provide a benchmark on the proposed dataset with our detection method which utilizes the Vision Transformer based on Scaling and Shifting to learn spatial features, and a Timeseries Transformer to learn temporal features of the videos to help facilitate the interpretation of possible deepfakes. Extensive experiments on a variety of deepfake generation methods show excellent results by the proposed method on temporal segmentation and classical video-level predictions as well. In particular, the paradigm we address will form a powerful tool for the moderation of deepfakes, where human oversight can be better targeted to the parts of videos suspected of being deepfakes. All experiments can be reproduced at: https://t.ly/\_bOh9.
翻訳日:2023-08-14 16:51:33 公開日:2023-08-11
# ゼロショット学習のための積分投影型セマンティックオートエンコーダ

An Integral Projection-based Semantic Autoencoder for Zero-Shot Learning ( http://arxiv.org/abs/2306.14628v2 )

ライセンス: Link先を確認
William Heyden, Habib Ullah, M. Salman Siddiqui, Fadi Al Machot(参考訳) ゼロショット学習(ZSL)分類は、トレーニングセット(見えないクラス)に含まれていないクラス(ラベル)を分類または予測する。 最近の研究では、異なるセマンティックオートエンコーダ(sae)モデルを提案しており、エンコーダは視覚特徴ベクトル空間を意味空間に埋め込み、デコーダは元の視覚特徴空間を再構築する。 目的は、異なるが関連するターゲットデータ分布に効果的に適用可能な、ソースデータ分布を活用することで埋め込みを学習することである。 このような埋め込みベースのメソッドはドメインシフト問題を起こしやすく、バイアスに弱い。 本稿では,意味空間と連結した視覚的特徴空間を潜在表現空間に投影する統合投影型セマンティックオートエンコーダ(IP-SAE)を提案する。 我々はデコーダに視覚意味データ空間の再構築を強制する。 この制約により、視覚意味投影関数は、元の視覚特徴空間に含まれる識別データを保存する。 リッチ射影は、領域多様体に不変な視覚的特徴空間をより正確に再構成する。 その結果、学習された射影関数はドメイン固有性が低く、ドメインシフト問題を緩和する。 提案するIP-SAEモデルは,埋め込みおよび投影のための対称変換関数を統合し,ZSLにおける生成的応用を透過的に解釈する。 したがって,4つのベンチマークデータセットを考慮した最先端手法を上回ることに加えて,ゼロショット推論のユニークな文脈で生成型法の特徴を解析的に検討できる。

Zero-shot Learning (ZSL) classification categorizes or predicts classes (labels) that are not included in the training set (unseen classes). Recent works proposed different semantic autoencoder (SAE) models where the encoder embeds a visual feature vector space into the semantic space and the decoder reconstructs the original visual feature space. The objective is to learn the embedding by leveraging a source data distribution, which can be applied effectively to a different but related target data distribution. Such embedding-based methods are prone to domain shift problems and are vulnerable to biases. We propose an integral projection-based semantic autoencoder (IP-SAE) where an encoder projects a visual feature space concatenated with the semantic space into a latent representation space. We force the decoder to reconstruct the visual-semantic data space. Due to this constraint, the visual-semantic projection function preserves the discriminatory data included inside the original visual feature space. The enriched projection forces a more precise reconstitution of the visual feature space invariant to the domain manifold. Consequently, the learned projection function is less domain-specific and alleviates the domain shift problem. Our proposed IP-SAE model consolidates a symmetric transformation function for embedding and projection, and thus, it provides transparency for interpreting generative applications in ZSL. Therefore, in addition to outperforming state-of-the-art methods considering four benchmark datasets, our analytical approach allows us to investigate distinct characteristics of generative-based methods in the unique context of zero-shot inference.
翻訳日:2023-08-14 16:44:08 公開日:2023-08-11
# 学習したトランスフォーマーは文脈内で線形モデルを学ぶ

Trained Transformers Learn Linear Models In-Context ( http://arxiv.org/abs/2306.09927v2 )

ライセンス: Link先を確認
Ruiqi Zhang, Spencer Frei, Peter L. Bartlett(参考訳) 意図しないタスクからトークンの短いプロンプトシーケンスを与えられたら、パラメータを更新することなく、関連するトーケンと次のトーケンの予測を定式化できます。 ラベル付きトレーニングデータとラベルなしテストデータをプロンプトとして組み込むことで、トランスフォーマーは教師付き学習アルゴリズムのように振る舞うことができる。 実際、最近の研究は、線形回帰問題のランダムなインスタンス上でトランスフォーマーアーキテクチャを訓練する場合、これらのモデルの予測は通常の最小二乗のアーキテクチャを模倣することを示している。 この現象のメカニズムを理解するために,線形回帰タスクにおける勾配流によって訓練された1つの線形自己アテンション層を持つ変圧器のICLのダイナミクスについて検討する。 非凸性にもかかわらず、適切なランダム初期化を伴う勾配流は目的関数の最大の最小値を求める。 このグローバル最小では、新しい予測タスクからラベル付きサンプルのテストプロンプトが与えられると、テストプロンプト分布よりも最適な線形予測器と競合する予測エラーが達成される。 さらに,訓練された変圧器のロバスト性を様々な分布シフトに特徴付け,多くのシフトが許容されるが,プロンプトの共変量分布のシフトはそうではないことを示す。 この動機付けにより,共変量分布がプロンプトによって変化する一般化icl設定を考える。 グラデーションフローはこの設定でグローバル最小値を求めるのに成功しているが、訓練されたトランスフォーマーは穏やかな共変量シフトの下でも不安定である。 この発見を、共変量シフトの下でより堅牢であることを示す大きな非線形トランスフォーマーアーキテクチャの実験で補完する。

Attention-based neural networks such as transformers have demonstrated a remarkable ability to exhibit in-context learning (ICL): Given a short prompt sequence of tokens from an unseen task, they can formulate relevant per-token and next-token predictions without any parameter updates. By embedding a sequence of labeled training data and unlabeled test data as a prompt, this allows for transformers to behave like supervised learning algorithms. Indeed, recent work has shown that when training transformer architectures over random instances of linear regression problems, these models' predictions mimic those of ordinary least squares. Towards understanding the mechanisms underlying this phenomenon, we investigate the dynamics of ICL in transformers with a single linear self-attention layer trained by gradient flow on linear regression tasks. We show that despite non-convexity, gradient flow with a suitable random initialization finds a global minimum of the objective function. At this global minimum, when given a test prompt of labeled examples from a new prediction task, the transformer achieves prediction error competitive with the best linear predictor over the test prompt distribution. We additionally characterize the robustness of the trained transformer to a variety of distribution shifts and show that although a number of shifts are tolerated, shifts in the covariate distribution of the prompts are not. Motivated by this, we consider a generalized ICL setting where the covariate distributions can vary across prompts. We show that although gradient flow succeeds at finding a global minimum in this setting, the trained transformer is still brittle under mild covariate shifts. We complement this finding with experiments on large, nonlinear transformer architectures which we show are more robust under covariate shifts.
翻訳日:2023-08-14 16:43:20 公開日:2023-08-11
# 生成画像とキャプションを用いたマルチメディアイベント抽出の訓練

Training Multimedia Event Extraction With Generated Images and Captions ( http://arxiv.org/abs/2306.08966v2 )

ライセンス: Link先を確認
Zilin Du, Yunxin Li, Xu Guo, Yidan Sun, Boyang Li(参考訳) 現代のニュースは、マルチメディアコンテンツがますます多くなり、マルチメディアイベント抽出の研究を動機付けている。 しかし、このタスクには注釈付きマルチモーダルトレーニングデータがなく、人工的に生成されたトレーニングデータは実世界のデータからの分散シフトに悩まされている。 本稿では、人工的に生成されたマルチモーダルトレーニングデータをうまく活用し、最先端のパフォーマンスを実現するクロスモーダル拡張マルチメディアイベント学習(CAMEL)を提案する。 まず、テキストと画像のラベル付きユニモーダルデータセットから始め、Stable Diffusionのようなオフザシェルフ画像生成器とBLIPのようなイメージキャプタを使って、欠落したモダリティを生成する。 その後、結果のマルチモーダルデータセットでネットワークをトレーニングします。 ドメイン間で有効な堅牢な機能を学ぶために、反復的かつ段階的なトレーニング戦略を考案する。 実質的な実験により、CAMELはM2E2ベンチマークの最先端(SOTA)ベースラインを超えている。 特にマルチメディアイベントでは、イベント参照識別では4.2%のSOTA、引数識別では9.8%のSOTAを上回り、CAMELは2つのモードから相乗表現を学習することを示す。 我々の研究は、構造化予測における合成トレーニングデータのパワーを解き放つ方法を示す。

Contemporary news reporting increasingly features multimedia content, motivating research on multimedia event extraction. However, the task lacks annotated multimodal training data and artificially generated training data suffer from distribution shift from real-world data. In this paper, we propose Cross-modality Augmented Multimedia Event Learning (CAMEL), which successfully utilizes artificially generated multimodal training data and achieves state-of-the-art performance. We start with two labeled unimodal datasets in text and image respectively, and generate the missing modality using off-the-shelf image generators like Stable Diffusion and image captioners like BLIP. After that, we train the network on the resultant multimodal datasets. In order to learn robust features that are effective across domains, we devise an iterative and gradual training strategy. Substantial experiments show that CAMEL surpasses state-of-the-art (SOTA) baselines on the M2E2 benchmark. On multimedia events in particular, we outperform the prior SOTA by 4.2% F1 on event mention identification and by 9.8% F1 on argument identification, which indicates that CAMEL learns synergistic representations from the two modalities. Our work demonstrates a recipe to unleash the power of synthetic training data in structured prediction.
翻訳日:2023-08-14 16:42:35 公開日:2023-08-11
# RANS-PINNを用いた乱流予測シミュレーション

RANS-PINN based Simulation Surrogates for Predicting Turbulent Flows ( http://arxiv.org/abs/2306.06034v3 )

ライセンス: Link先を確認
Shinjan Ghosh, Amit Chakraborty, Georgia Olympia Brikis, Biswadip Dey(参考訳) 物理情報ニューラルネットワーク(PINN)は、微分方程式によって支配される力学系の代理モデルを構築するためのフレームワークを提供する。 学習過程の間、ピンズは一般化性能を高めるために損失関数に物理ベースの正規化項を組み込む。 偏微分方程式(PDE)によって制御される力学のシミュレーションは計算コストがかかるため、PINNはナヴィエ・ストークス方程式が支配する流体問題に対するパラメトリックサロゲートの学習に人気がある。 本研究では,高レイノルズ数乱流領域における流れ場(すなわち速度と圧力)を予測するために,改良型ピンフレームワークであるrans-pinnを導入する。 乱流によってもたらされるさらなる複雑さを考慮するため、RANS-PINNはレイノルズ平均ナビエ・ストークス(RANS)の定式化に基づく2方程式渦粘性モデルを採用している。 さらに,損失関数の各種成分間の効果的な初期化とバランスを確保するための新しい訓練手法を採用する。 RANS-PINNフレームワークの有効性をパラメトリックPINNを用いて実証する。

Physics-informed neural networks (PINNs) provide a framework to build surrogate models for dynamical systems governed by differential equations. During the learning process, PINNs incorporate a physics-based regularization term within the loss function to enhance generalization performance. Since simulating dynamics controlled by partial differential equations (PDEs) can be computationally expensive, PINNs have gained popularity in learning parametric surrogates for fluid flow problems governed by Navier-Stokes equations. In this work, we introduce RANS-PINN, a modified PINN framework, to predict flow fields (i.e., velocity and pressure) in high Reynolds number turbulent flow regimes. To account for the additional complexity introduced by turbulence, RANS-PINN employs a 2-equation eddy viscosity model based on a Reynolds-averaged Navier-Stokes (RANS) formulation. Furthermore, we adopt a novel training approach that ensures effective initialization and balance among the various components of the loss function. The effectiveness of the RANS-PINN framework is then demonstrated using a parametric PINN.
翻訳日:2023-08-14 16:41:34 公開日:2023-08-11
# 非マルコフアルゴリズムのカバータイム研究

A Cover Time Study of a non-Markovian Algorithm ( http://arxiv.org/abs/2306.04902v2 )

ライセンス: Link先を確認
Guanhua Fang, Gennady Samorodnitsky, Zhiqiang Xu(参考訳) トラバーサルアルゴリズムが与えられた場合、カバータイムは、与えられたグラフの全ノードを訪問するために必要なステップ数である。 カバータイムが小さくなると、トラバースアルゴリズムの探索効率が向上する。 ランダムウォークアルゴリズムは既存の文献で広く研究されているが、非マルコフ法ではカバータイムは得られていない。 本研究では,理論的な視点から,負のフィードバック戦略(数に基づく探索法)がナイーブなランダムウォーク探索より優れていることを示す。 特に、前者の戦略は任意のグラフの探索効率を局所的に改善することができる。 また、クライクグラフやツリーグラフなど、特別なが重要なグラフのカバータイムも短縮する。 さらに,従来の UCB アルゴリズムと MCTS アルゴリズムがなぜ有用かという新たな知見を提供するため,本研究の結果と強化学習文献の関連付けを行う。 様々な数値結果が理論的知見を裏付ける。

Given a traversal algorithm, cover time is the expected number of steps needed to visit all nodes in a given graph. A smaller cover time means a higher exploration efficiency of traversal algorithm. Although random walk algorithms have been studied extensively in the existing literature, there has been no cover time result for any non-Markovian method. In this work, we stand on a theoretical perspective and show that the negative feedback strategy (a count-based exploration method) is better than the naive random walk search. In particular, the former strategy can locally improve the search efficiency for an arbitrary graph. It also achieves smaller cover times for special but important graphs, including clique graphs, tree graphs, etc. Moreover, we make connections between our results and reinforcement learning literature to give new insights on why classical UCB and MCTS algorithms are so useful. Various numerical results corroborate our theoretical findings.
翻訳日:2023-08-14 16:41:13 公開日:2023-08-11
# 拡散モデルの設計基礎について:サーベイ

On the Design Fundamentals of Diffusion Models: A Survey ( http://arxiv.org/abs/2306.04542v2 )

ライセンス: Link先を確認
Ziyi Chang, George Alex Koulieris, Hubert P. H. Shum(参考訳) 拡散モデルは生成モデルであり、徐々にノイズを加えて除去し、データ生成のためのトレーニングデータの基盤となる分布を学習する。 拡散モデルの構成要素は、多くの設計選択によって大きな注目を集めている。 既存のレビューは主に高レベルのソリューションに焦点を当てており、コンポーネントの設計基本にはあまり触れていない。 本研究は拡散モデルにおけるコンポーネント設計の選択に関する包括的かつコヒーレントなレビューを提供することによって,このギャップに対処しようとするものである。 具体的には,前処理,逆処理,サンプリング手順という3つの重要なコンポーネントに従って,このレビューを整理した。 これにより、拡散モデルに関するきめ細かい視点を提供し、個々の成分の分析、設計選択の適用可能性、拡散モデルの実装に関する今後の研究の恩恵を受けることができます。

Diffusion models are generative models, which gradually add and remove noise to learn the underlying distribution of training data for data generation. The components of diffusion models have gained significant attention with many design choices proposed. Existing reviews have primarily focused on higher-level solutions, thereby covering less on the design fundamentals of components. This study seeks to address this gap by providing a comprehensive and coherent review on component-wise design choices in diffusion models. Specifically, we organize this review according to their three key components, namely the forward process, the reverse process, and the sampling procedure. This allows us to provide a fine-grained perspective of diffusion models, benefiting future studies in the analysis of individual components, the applicability of design choices, and the implementation of diffusion models.
翻訳日:2023-08-14 16:40:58 公開日:2023-08-11
# 可視赤外ビデオパーソン再同定のための対向的自己攻撃防御と空間的時間的関係マイニング

Adversarial Self-Attack Defense and Spatial-Temporal Relation Mining for Visible-Infrared Video Person Re-Identification ( http://arxiv.org/abs/2307.03903v3 )

ライセンス: Link先を確認
Huafeng Li, Le Xu, Yafei Zhang, Dapeng Tao, Zhengtao Yu(参考訳) 可視赤外ビデオパーソナライゼーション(re-ID)では、複雑なシーン(モダリティ、カメラビュー、歩行者ポーズ、背景など)の変化の影響を受けない特徴を抽出し、移動情報をマイニングし活用することが、横断的歩行者識別マッチングの鍵となる。 そこで本研究では,新たな視点,すなわち対人自己攻撃防衛と時空間関係のマイニングの観点から,新しい可視赤外ビデオパーソンre-ID手法を提案する。 本研究では,視点,姿勢,背景,モーダルの不一致の変化が,人物のアイデンティティ特徴の摂動を引き起こす主な要因であると考えられる。 トレーニングサンプルに含まれるそのような干渉情報は、対向摂動として使用される。 トレーニング中にre-idモデルに対して敵対的な攻撃を行い、これらの不利な要因に対してモデルをより堅牢にする。 敵の摂動からの攻撃は、入力サンプルに含まれる干渉情報を敵のサンプルを発生させることなく活性化し、敵の自己攻撃(adversarial self-ack)と呼ばれる。 この設計により、敵の攻撃と防御を一つのフレームワークに統合できる。 本稿では,映像列における情報を利用する空間-時間情報案内特徴表現ネットワークを提案する。 ネットワークは、ビデオフレームシーケンスに含まれる情報を抽出するだけでなく、空間内のローカル情報の関係を利用してネットワークをガイドし、より堅牢な特徴を抽出する。 提案手法は,大規模なクロスモダリティビデオデータセットにおいて魅力的な性能を示す。 提案手法のソースコードはhttps://github.com/lhf12278/xxxで公開される。

In visible-infrared video person re-identification (re-ID), extracting features not affected by complex scenes (such as modality, camera views, pedestrian pose, background, etc.) changes, and mining and utilizing motion information are the keys to solving cross-modal pedestrian identity matching. To this end, the paper proposes a new visible-infrared video person re-ID method from a novel perspective, i.e., adversarial self-attack defense and spatial-temporal relation mining. In this work, the changes of views, posture, background and modal discrepancy are considered as the main factors that cause the perturbations of person identity features. Such interference information contained in the training samples is used as an adversarial perturbation. It performs adversarial attacks on the re-ID model during the training to make the model more robust to these unfavorable factors. The attack from the adversarial perturbation is introduced by activating the interference information contained in the input samples without generating adversarial samples, and it can be thus called adversarial self-attack. This design allows adversarial attack and defense to be integrated into one framework. This paper further proposes a spatial-temporal information-guided feature representation network to use the information in video sequences. The network cannot only extract the information contained in the video-frame sequences but also use the relation of the local information in space to guide the network to extract more robust features. The proposed method exhibits compelling performance on large-scale cross-modality video datasets. The source code of the proposed method will be released at https://github.com/lhf12278/xxx.
翻訳日:2023-08-14 16:34:55 公開日:2023-08-11
# アダプタを用いた文埋め込みの効率的なドメイン適応

Efficient Domain Adaptation of Sentence Embeddings Using Adapters ( http://arxiv.org/abs/2307.03104v3 )

ライセンス: Link先を確認
Tim Schopf, Dennis N. Schneider, Florian Matthes(参考訳) 文埋め込みにより、短いテキストの意味的類似性を捉えることができる。 ほとんどの文埋め込みモデルはsts(general semantic textual similarity)タスクのために訓練される。 したがって、特定のドメインに文を埋め込むには、良い結果を得るためにモデルを適用する必要がある。 通常、これは関心領域の文埋め込みモデル全体を微調整することによって行われる。 このアプローチは最先端の結果をもたらすが、モデルの重みはすべて微調整中に更新され、このメソッドはリソース集約的になる。 したがって,各対象領域の文埋め込みモデル全体を個別に微調整するのではなく,軽量アダプタのトレーニングを提案する。 これらのドメイン固有のアダプタは、基礎となるすべての文埋め込みモデルパラメータを微調整する必要はない。 代わりに、基礎となる文埋め込みモデルの重みを固定しながら、少数の追加パラメータのみをトレーニングします。 ドメイン固有のアダプタのトレーニングでは、常に同じベースモデルを使用することができ、特定のドメインに文の埋め込みを適用するためにのみドメイン固有のアダプタを交換することができる。 文埋め込みのパラメータ効率のよいドメイン適応のためのアダプタを用いることで、約3.6%のパラメータをトレーニングしながら、ドメイン適応された完全に微調整された文埋め込みモデルの1%以内の競争性能が得られることを示す。

Sentence embeddings enable us to capture the semantic similarity of short texts. Most sentence embedding models are trained for general semantic textual similarity (STS) tasks. Therefore, to use sentence embeddings in a particular domain, the model must be adapted to it in order to achieve good results. Usually, this is done by fine-tuning the entire sentence embedding model for the domain of interest. While this approach yields state-of-the-art results, all of the model's weights are updated during fine-tuning, making this method resource-intensive. Therefore, instead of fine-tuning entire sentence embedding models for each target domain individually, we propose to train lightweight adapters. These domain-specific adapters do not require fine-tuning all underlying sentence embedding model parameters. Instead, we only train a small number of additional parameters while keeping the weights of the underlying sentence embedding model fixed. Training domain-specific adapters allows always using the same base model and only exchanging the domain-specific adapters to adapt sentence embeddings to a specific domain. We show that using adapters for parameter-efficient domain adaptation of sentence embeddings yields competitive performance within 1% of a domain-adapted, entirely fine-tuned sentence embedding model while only training approximately 3.6% of the parameters.
翻訳日:2023-08-14 16:34:28 公開日:2023-08-11
# 人と人間のインタラクション検出

Human-to-Human Interaction Detection ( http://arxiv.org/abs/2307.00464v2 )

ライセンス: Link先を確認
Zhenhua Wang, Kaining Ying, Jiajun Meng, Jifeng Ning(参考訳) キューイング、ハンドシェイキング、戦闘、追跡などのビデオストリームにおける人間と人間の相互作用に関する包括的な理解は、キャンパス、広場、公園などの地域の公共安全の監視において非常に重要である。 振付映像を入力として使用し,同時に対話型グループを無視し,別段に検出と認識を行う従来のヒューマンインタラクション認識とは異なり,hid(human-to-human interaction detection)という新しいタスクを導入する。 HIDは、対象を検出し、個人的行動を認識し、対話的な関係に従って人々をグループ化する。 まず、アクション検出のために作成された人気のあるAVAデータセットに基づいて、フレームごとの対話的関係に関するアノテーションを追加することで、AVA-Interaction (AVA-I)と呼ばれる新しいHIDベンチマークを確立する。 AVA-Iは85,254フレームと86,338のインタラクティブグループで構成され、各画像は4つの同時対話グループを含む。 第2に、視覚特徴抽出器と、Transformerベースのモデルを用いてアクションインスタンスと対話型グループをデコードする分割ステージと、インスタンスとグループの関係を再構築するマージステージを含む、HIDのための新しいベースラインアプローチSaMFormerを提案する。 すべてのSaMFormerコンポーネントはエンドツーエンドで共同でトレーニングされる。 AVA-Iに関する大規模な実験は、代表法よりもSaMFormerの方が優れていることを検証する。 データセットとコードは公開され、さらなるフォローアップ研究が促進される。

A comprehensive understanding of interested human-to-human interactions in video streams, such as queuing, handshaking, fighting and chasing, is of immense importance to the surveillance of public security in regions like campuses, squares and parks. Different from conventional human interaction recognition, which uses choreographed videos as inputs, neglects concurrent interactive groups, and performs detection and recognition in separate stages, we introduce a new task named human-to-human interaction detection (HID). HID devotes to detecting subjects, recognizing person-wise actions, and grouping people according to their interactive relations, in one model. First, based on the popular AVA dataset created for action detection, we establish a new HID benchmark, termed AVA-Interaction (AVA-I), by adding annotations on interactive relations in a frame-by-frame manner. AVA-I consists of 85,254 frames and 86,338 interactive groups, and each image includes up to 4 concurrent interactive groups. Second, we present a novel baseline approach SaMFormer for HID, containing a visual feature extractor, a split stage which leverages a Transformer-based model to decode action instances and interactive groups, and a merging stage which reconstructs the relationship between instances and groups. All SaMFormer components are jointly trained in an end-to-end manner. Extensive experiments on AVA-I validate the superiority of SaMFormer over representative methods. The dataset and code will be made public to encourage more follow-up studies.
翻訳日:2023-08-14 16:34:08 公開日:2023-08-11
# 後方分布を積分しないベイズ実験設計のためのスケーラブルな方法

Scalable method for Bayesian experimental design without integrating over posterior distribution ( http://arxiv.org/abs/2306.17615v2 )

ライセンス: Link先を確認
Vinh Hoang, Luis Espath, Sebastian Krumscheid, Ra\'ul Tempone(参考訳) 観測写像が偏微分方程式に基づく実験問題のA-最適ベイズ設計を解く際の計算効率に対処し、その結果、評価に計算コストがかかる。 A-最適性はベイズの実験設計に広く用いられ、容易に解釈できる基準である。 この基準は、期待条件分散を最小化することで最適な実験設計を求めるものである。 本研究は,ベイズ後方分布のサンプリングや積分を必要とせず,a-オプティカルな実験設計への新しい可能性のないアプローチを提案する。 条件付き分散は全分散の法則を用いて条件付き期待値の分散によって得られ、条件付き期待値の近似のために直交射影特性を利用する。 提案した条件分散推定器の漸近誤差推定を導出し, 後部分布の誘引性は提案手法の性能に影響を及ぼさないことを示す。 提案手法の実装において, 非線形条件予測を近似するために, 人工ニューラルネットワーク (ANN) を用いる。 次に,実験的な設計パラメータの領域が連続である場合へのアプローチを拡張し,annのトレーニングプロセスを統合し,期待条件分散を最小化する。 数値実験により,本手法は広く用いられている重要サンプリング手法と比較して,観測モデル評価の回数を大幅に削減することを示した。 この削減は、観測モデルの高い計算コストを考える上で非常に重要である。 コードはhttps://github.com/vinh-tr-hoang/DOEviaPACEで入手できる。

We address the computational efficiency in solving the A-optimal Bayesian design of experiments problems for which the observational map is based on partial differential equations and, consequently, is computationally expensive to evaluate. A-optimality is a widely used and easy-to-interpret criterion for Bayesian experimental design. This criterion seeks the optimal experimental design by minimizing the expected conditional variance, which is also known as the expected posterior variance. This study presents a novel likelihood-free approach to the A-optimal experimental design that does not require sampling or integrating the Bayesian posterior distribution. The expected conditional variance is obtained via the variance of the conditional expectation using the law of total variance, and we take advantage of the orthogonal projection property to approximate the conditional expectation. We derive an asymptotic error estimation for the proposed estimator of the expected conditional variance and show that the intractability of the posterior distribution does not affect the performance of our approach. We use an artificial neural network (ANN) to approximate the nonlinear conditional expectation in the implementation of our method. We then extend our approach for dealing with the case that the domain of experimental design parameters is continuous by integrating the training process of the ANN into minimizing the expected conditional variance. Through numerical experiments, we demonstrate that our method greatly reduces the number of observation model evaluations compared with widely used importance sampling-based approaches. This reduction is crucial, considering the high computational cost of the observational models. Code is available at https://github.com/vinh-tr-hoang/DOEviaPACE.
翻訳日:2023-08-14 16:33:43 公開日:2023-08-11
# 効率的なヒューリスティックスを用いた時間最適マルチロボットカバレッジパス計画のための混合整数計画法

Mixed Integer Programming for Time-Optimal Multi-Robot Coverage Path Planning with Efficient Heuristics ( http://arxiv.org/abs/2306.17609v2 )

ライセンス: Link先を確認
Jingtao Tang and Hang Ma(参考訳) 本研究は,全ロボットの最大走行時間として定義される被加重地と加重地の両方について,時間最適化型マルチロボットカバーパス計画(mcpp)について検討する。 具体的には,MCPP から Min-Max Rooted Tree Cover (MMRTC) への削減に焦点を当てる。 そこで本研究では,mmrtcを最適に解くための混合整数プログラミング(mip)モデルを提案する。 さらに, MIPモデルの変数数を削減し, 大規模MCPPインスタンスの効率を向上する2つの準最適有効ヒューリスティックを提案する。 両ヒューリスティックスは、すべてのMMRTCインスタンスに対して、完全な(すなわち、存在すれば解を見つけることが保証される)大きさのMIPモデルをもたらすことを示す。 さらに,従来のMIPモデルと小型MIPモデルの両方の効率を改善するために,モデル最適化ウォームスタートの利用について検討する。 MIPをベースとしたMCPPプランナの有効性を,2つの最先端MCPPプランナとの比較実験により検証し,それぞれ平均27.65%,23.24%のカバレッジ時間を短縮した。

We investigate time-optimal Multi-Robot Coverage Path Planning (MCPP) for both unweighted and weighted terrains, which aims to minimize the coverage time, defined as the maximum travel time of all robots. Specifically, we focus on a reduction from MCPP to Min-Max Rooted Tree Cover (MMRTC). For the first time, we propose a Mixed Integer Programming (MIP) model to optimally solve MMRTC, resulting in an MCPP solution with a coverage time that is provably at most four times the optimal. Moreover, we propose two suboptimal yet effective heuristics that reduce the number of variables in the MIP model, thus improving its efficiency for large-scale MCPP instances. We show that both heuristics result in reduced-size MIP models that remain complete (i.e., guaranteed to find a solution if one exists) for all MMRTC instances. Additionally, we explore the use of model optimization warm-startup to further improve the efficiency of both the original MIP model and the reduced-size MIP models. We validate the effectiveness of our MIP-based MCPP planner through experiments that compare it with two state-of-the-art MCPP planners on various instances, demonstrating a reduction in the coverage time by an average of 27.65% and 23.24% over them, respectively.
翻訳日:2023-08-14 16:33:19 公開日:2023-08-11
# クエリ数最適化による量子期待値の推定

Quantum Expectation Value Estimation with Optimized Number of Queries ( http://arxiv.org/abs/2306.16695v3 )

ライセンス: Link先を確認
Xi Lu, Hongwei Lin(参考訳) 量子コンピューティングにおける重要なタスクは量子システムをシミュレートすることであり、$\ket{\psi}=\mathcal{G}\ket{\bm{0}}$であり、ある観測可能な$O$に対して期待値$\ev{O}{\psi}$を推定することである。 最適クエリ複雑性は$\mathcal{g}$スケールであり、ターゲットエラー$\epsilon$は$o(\epsilon^{-1})$である。 本稿では、一般化量子位相推定や一般化量子化のような手法を用いて、クエリの数を$\mathcal{G}$から$\frac{\pi\Delta\lambda_O}{\sqrt{6}\epsilon}$に最適化し、$\Delta\lambda_O$は$O$の最大値と最小値の差であり、$\epsilon$は標準偏差である。

An important task in quantum computing is to simulate quantum systems, says $\ket{\psi}=\mathcal{G}\ket{\bm{0}}$, and one key goal is to estimate the expectation value $\ev{O}{\psi}$ of some observable $O$. It is known that the optimal query complexity to $\mathcal{G}$ scales with the target error $\epsilon$ as $O(\epsilon^{-1})$. In this paper, we use techniques like generalized quantum phase estimation and generalized qubitization to optimize the number of queries to $\mathcal{G}$, to $\frac{\pi\Delta\lambda_O}{\sqrt{6}\epsilon}$, where $\Delta\lambda_O$ is the difference between the maximum and minimum eigenvalue of $O$, and $\epsilon$ is the standard deviation.
翻訳日:2023-08-14 16:32:56 公開日:2023-08-11
# NIPD:実世界の非IIDデータに基づくフェデレーション学習者検出ベンチマーク

NIPD: A Federated Learning Person Detection Benchmark Based on Real-World Non-IID Data ( http://arxiv.org/abs/2306.15932v2 )

ライセンス: Link先を確認
Kangning Yin, Zhen Ding, Zhihua Dong, Dongsheng Chen, Jie Fu, Xinhui Ji, Guangqiang Yin and Zhiguo Wang(参考訳) プライバシー保護型分散機械学習であるfederated learning(fl)は、無線通信ネットワークで急速に適用されている。 FLにより、IoT(Internet of Things)クライアントは、プライバシーの漏洩を防止しつつ、十分にトレーニングされたモデルを得ることができる。 人検出は、FLと組み合わせてビデオデータをエッジで直接処理する場合、限られた計算能力を持つエッジデバイスに展開することができる。 しかし、異なるカメラの異なるハードウェアおよび展開シナリオのため、カメラが収集したデータは非独立かつ同一に分布しており(非IID)、FLアグリゲーションから派生したグローバルモデルはより効果的ではない。 一方、既存の研究では、現実世界のFLオブジェクト検出のための公開データセットが欠如しており、IoTカメラにおける非IID問題の研究には適していない。 そこで我々は,5台のカメラから収集した非IID IoT 人物検出(NIPD)データセットをオープンソース化した。 我々の知る限り、これがデバイスベースの非IID人物検出データセットとしては初めてのものである。 このデータセットに基づいて,fl実験プラットフォームの構築方法を説明し,非iid者検出のためのベンチマークを提供する。 NIPDはFLの適用とスマートシティのセキュリティを促進することが期待されている。

Federated learning (FL), a privacy-preserving distributed machine learning, has been rapidly applied in wireless communication networks. FL enables Internet of Things (IoT) clients to obtain well-trained models while preventing privacy leakage. Person detection can be deployed on edge devices with limited computing power if combined with FL to process the video data directly at the edge. However, due to the different hardware and deployment scenarios of different cameras, the data collected by the camera present non-independent and identically distributed (non-IID), and the global model derived from FL aggregation is less effective. Meanwhile, existing research lacks public data set for real-world FL object detection, which is not conducive to studying the non-IID problem on IoT cameras. Therefore, we open source a non-IID IoT person detection (NIPD) data set, which is collected from five different cameras. To our knowledge, this is the first true device-based non-IID person detection data set. Based on this data set, we explain how to establish a FL experimental platform and provide a benchmark for non-IID person detection. NIPD is expected to promote the application of FL and the security of smart city.
翻訳日:2023-08-14 16:32:39 公開日:2023-08-11
# テキストからのオントロジエンリッチメント:概念発見と配置のための生物医学データセット

Ontology Enrichment from Texts: A Biomedical Dataset for Concept Discovery and Placement ( http://arxiv.org/abs/2306.14704v2 )

ライセンス: Link先を確認
Hang Dong, Jiaoyan Chen, Yuan He, Ian Horrocks(参考訳) 新しい概念の言及は、テキストに定期的に現れ、それらを知識ベース(例えばオントロジーや分類法)に収穫し配置する自動化アプローチを必要とする。 既存のデータセットには3つの問題がある。 (i)新しい概念が事前に発見され、KB外言及発見をサポートできないと仮定すること。 (ii)概念ラベルを入力として、kbと共にのみ使用し、概念ラベルの文脈を欠いていること。 (iii) 概ね概念配置 w.r.t は、複雑な概念、すなわち論理演算子ではなく、原子概念の分類である。 これらの課題に対処するため,2014年と2017年にSNOMED CT版を応用したMedMentionsデータセット(PubMedAbstracts)を病原体サブカテゴリおよびより広範な臨床発見・処置・医薬品・生物製品に応用した新しいベンチマークを提案する。 本稿では,最近のLarge Language Model に基づく手法を用いて,アウト・オブ・KB参照の発見と概念配置のためのデータセットを用いて評価を行う。

Mentions of new concepts appear regularly in texts and require automated approaches to harvest and place them into Knowledge Bases (KB), e.g., ontologies and taxonomies. Existing datasets suffer from three issues, (i) mostly assuming that a new concept is pre-discovered and cannot support out-of-KB mention discovery; (ii) only using the concept label as the input along with the KB and thus lacking the contexts of a concept label; and (iii) mostly focusing on concept placement w.r.t a taxonomy of atomic concepts, instead of complex concepts, i.e., with logical operators. To address these issues, we propose a new benchmark, adapting MedMentions dataset (PubMed abstracts) with SNOMED CT versions in 2014 and 2017 under the Diseases sub-category and the broader categories of Clinical finding, Procedure, and Pharmaceutical / biologic product. We provide usage on the evaluation with the dataset for out-of-KB mention discovery and concept placement, adapting recent Large Language Model based methods.
翻訳日:2023-08-14 16:32:20 公開日:2023-08-11
# 風車ピッチシステムの故障診断のためのコントラスト特徴学習を可能にするハードサンプルマイニング

Hard Sample Mining Enabled Supervised Contrastive Feature Learning for Wind Turbine Pitch System Fault Diagnosis ( http://arxiv.org/abs/2306.14701v2 )

ライセンス: Link先を確認
Zixuan Wang, Bo Qin, Mengxuan Li, Chenlu Zhan, Mark D. Butala, Peng Peng, Hongwei Wang(参考訳) 風力タービンによる風力の効率的な利用は、風速の変化に応じてブレードピッチ角を調整するためのピッチシステムの能力に依存する。 しかし、長期間の摩耗や涙によるピッチシステムにおける複数の健康状態の存在は、それらを正確に分類することは困難であり、風力タービンのメンテナンスコストを増加させたり、損傷させたりする。 本稿では, ハードサンプルマイニング可能な教師付きコントラスト学習(HSMSCL)に基づく新しい手法を提案する。 提案手法は,コサイン類似性を用いてハードサンプルを同定し,その後,教師付きコントラスト学習を利用してハードサンプルペアを構築し,より識別的な表現を学習する。 さらに, 本手法のハードサンプルマイニングフレームワークは, 多層パーセプトロン(MLP)のトレーニングプロセスをより困難にし, より効果的に分類できるようにするために, 学習した表現を用いたハードサンプルを構築する。 提案手法は,SCL および MLP フェーズにハードサンプルを導入することにより,故障診断モデルを徐々に改善し,複雑なマルチクラス故障診断タスクの性能を向上させる。 提案手法の有効性を評価するために,風力タービンピッチシステムcogベルト破壊データを含む2つの実データを用いた。 提案手法の故障診断性能を既存手法と比較し,その優れた性能を示した。 提案手法は故障診断性能が大幅に向上し,風力タービンピッチシステム故障診断の信頼性向上と効率向上が期待できる。

The efficient utilization of wind power by wind turbines relies on the ability of their pitch systems to adjust blade pitch angles in response to varying wind speeds. However, the presence of multiple health conditions in the pitch system due to the long-term wear and tear poses challenges in accurately classifying them, thus increasing the maintenance cost of wind turbines or even damaging them. This paper proposes a novel method based on hard sample mining-enabled supervised contrastive learning (HSMSCL) to address this problem. The proposed method employs cosine similarity to identify hard samples and subsequently, leverages supervised contrastive learning to learn more discriminative representations by constructing hard sample pairs. Furthermore, the hard sample mining framework in the proposed method also constructs hard samples with learned representations to make the training process of the multilayer perceptron (MLP) more challenging and make it a more effective classifier. The proposed approach progressively improves the fault diagnosis model by introducing hard samples in the SCL and MLP phases, thus enhancing its performance in complex multi-class fault diagnosis tasks. To evaluate the effectiveness of the proposed method, two real datasets comprising wind turbine pitch system cog belt fracture data are utilized. The fault diagnosis performance of the proposed method is compared against existing methods, and the results demonstrate its superior performance. The proposed approach exhibits significant improvements in fault diagnosis performance, providing promising prospects for enhancing the reliability and efficiency of wind turbine pitch system fault diagnosis.
翻訳日:2023-08-14 16:31:59 公開日:2023-08-11
# レコメンデーションシステムにおける人気バイアスに関する調査

A Survey on Popularity Bias in Recommender Systems ( http://arxiv.org/abs/2308.01118v2 )

ライセンス: Link先を確認
Anastasiia Klimashevskaia, Dietmar Jannach, Mehdi Elahi, Christoph Trattner(参考訳) レコメンダシステムは、パーソナライズされた方法で関連コンテンツを見つけるのに役立つ。 そのようなシステムの大きな約束の一つは、長い尾の項目、すなわちカタログのあまり知られていない項目の可視性を高めることができることである。 しかし、既存の研究は、現在のレコメンデーションアルゴリズムが人気バイアスを示す代わりに、リコメンデーションにおいてより人気のあるアイテムに焦点を当てることがしばしばあることを示唆している。 このような偏見は、短期的には消費者やプロバイダーのレコメンデーションの価値を限定するだけでなく、時間の経過とともに望ましくない補強効果を引き起こす可能性がある。 本稿では,人気バイアスの原因を考察し,推薦システムにおける人気バイアスの検出,定量化,緩和のための既存のアプローチについて検討する。 そこで本研究では,文献で使用される計算指標の概要と,バイアス低減のための主要な技術的アプローチについて概説した。 さらに,本研究がほぼ完全に計算実験に基づくものであること,およびレコメンデーションにロングテール項目を組み込むことによる実用的効果について,一定の仮定を前提として,今日の文献を批判的に論じる。

Recommender systems help people find relevant content in a personalized way. One main promise of such systems is that they are able to increase the visibility of items in the long tail, i.e., the lesser-known items in a catalogue. Existing research, however, suggests that in many situations today's recommendation algorithms instead exhibit a popularity bias, meaning that they often focus on rather popular items in their recommendations. Such a bias may not only lead to limited value of the recommendations for consumers and providers in the short run, but it may also cause undesired reinforcement effects over time. In this paper, we discuss the potential reasons for popularity bias and we review existing approaches to detect, quantify and mitigate popularity bias in recommender systems. Our survey therefore includes both an overview of the computational metrics used in the literature as well as a review of the main technical approaches to reduce the bias. We furthermore critically discuss today's literature, where we observe that the research is almost entirely based on computational experiments and on certain assumptions regarding the practical effects of including long-tail items in the recommendations.
翻訳日:2023-08-14 16:24:35 公開日:2023-08-11
# CLAMS:ビジュアルクラスタリングにおける知覚変数推定のためのクラスタ曖昧度測定

CLAMS: A Cluster Ambiguity Measure for Estimating Perceptual Variability in Visual Clustering ( http://arxiv.org/abs/2308.00284v2 )

ライセンス: Link先を確認
Hyeon Jeon, Ghulam Jilani Quadri, Hyunwook Lee, Paul Rosen, Danielle Albers Szafir, and Jinwook Seo(参考訳) 視覚的クラスタリングは、さまざまな分析タスク(例えば、クラスタ識別)をサポートする分散プロットにおける一般的な知覚タスクである。 しかし、同じ散乱体であっても、個人差とあいまいなクラスタ境界により、クラスタの知覚方法(すなわち、視覚的クラスタリング)が異なる可能性がある。 このような知覚的変動性は、視覚的クラスタリングに基づくデータ解析の信頼性に疑問を呈するが、この変動性を効果的に評価する体系的な方法が欠如している。 本研究では,クラスタアンビグニティ(Cluster Ambiguity)と呼ばれる視覚クラスタリングの実行における知覚的変動について検討する。 この目的のために,モノクロ散乱体におけるクラスタのあいまいさを自動的に予測するデータ駆動型視覚品質尺度であるCLAMSを導入する。 まず、クラスタの視覚的分離(例えば、クラスタ間の近接やサイズの違い)に影響を与える重要な要因を特定するための質的研究を行う。 研究結果に基づき,2つのクラスタの分離性を評価する回帰モジュールを配置した。 次に、clamは、モジュールが生成するクラスタ間の全ての対分離性の集計結果を分析することにより、クラスタのあいまいさを予測する。 CLAMSは、基底真理クラスタの曖昧さを予測するために広く使われているクラスタリング技術より優れている。 一方、CLAMSは人間のアノテーションと同等の性能を示す。 CLAMSを用いたデータマイニング手法の最適化とベンチマークのための2つのアプリケーションを提案することで,本研究を締めくくっている。 CLAMSのインタラクティブなデモは clusterambiguity.dev で公開されている。

Visual clustering is a common perceptual task in scatterplots that supports diverse analytics tasks (e.g., cluster identification). However, even with the same scatterplot, the ways of perceiving clusters (i.e., conducting visual clustering) can differ due to the differences among individuals and ambiguous cluster boundaries. Although such perceptual variability casts doubt on the reliability of data analysis based on visual clustering, we lack a systematic way to efficiently assess this variability. In this research, we study perceptual variability in conducting visual clustering, which we call Cluster Ambiguity. To this end, we introduce CLAMS, a data-driven visual quality measure for automatically predicting cluster ambiguity in monochrome scatterplots. We first conduct a qualitative study to identify key factors that affect the visual separation of clusters (e.g., proximity or size difference between clusters). Based on study findings, we deploy a regression module that estimates the human-judged separability of two clusters. Then, CLAMS predicts cluster ambiguity by analyzing the aggregated results of all pairwise separability between clusters that are generated by the module. CLAMS outperforms widely-used clustering techniques in predicting ground truth cluster ambiguity. Meanwhile, CLAMS exhibits performance on par with human annotators. We conclude our work by presenting two applications for optimizing and benchmarking data mining techniques using CLAMS. The interactive demo of CLAMS is available at clusterambiguity.dev.
翻訳日:2023-08-14 16:24:16 公開日:2023-08-11
# ZADU: 次元削減埋め込みの信頼性を評価するPythonライブラリ

ZADU: A Python Library for Evaluating the Reliability of Dimensionality Reduction Embeddings ( http://arxiv.org/abs/2308.00282v2 )

ライセンス: Link先を確認
Hyeon Jeon, Aeri Cho, Jinhwa Jang, Soohyun Lee, Jake Hyun, Hyung-Kwon Ko, Jaemin Jo, Jinwook Seo(参考訳) 次元還元(dr)技術は入力された高次元データの元の構造を歪め、不完全な低次元埋め込みを生成する。 DR埋め込みの信頼性を評価するために, 様々な歪み測定法が提案されている。 しかし, 実際に歪曲対策を実施・実施するのは, 時間と手間がかかる。 この問題に対処するため,歪み対策を提供するPythonライブラリZADUを提案する。 ZADUはインストールと実行が簡単であるだけでなく、3つの重要な機能を通じてDR埋め込みの包括的な評価を可能にする。 まず,本図書館は幅広い歪み対策を扱っている。 第二に、歪み測定の実行を自動的に最適化し、複数の測定を実行するのに必要な実行時間を大幅に削減する。 最後に、ライブラリは個々の点が全体の歪みにどのように寄与するかを知らせ、DR埋め込みの詳細な解析を容易にする。 DR埋め込みを最適化する実世界のシナリオをシミュレートすることで,我々の最適化手法が歪み対策の実行時間を大幅に短縮することを確認した。 最後に、zaduのアプリケーションとして、ユーザーが埋め込みの各領域が歪みに苦しむ程度を表す歪みの可視化を簡単に作成できるzaduvisという別のライブラリを提案する。

Dimensionality reduction (DR) techniques inherently distort the original structure of input high-dimensional data, producing imperfect low-dimensional embeddings. Diverse distortion measures have thus been proposed to evaluate the reliability of DR embeddings. However, implementing and executing distortion measures in practice has so far been time-consuming and tedious. To address this issue, we present ZADU, a Python library that provides distortion measures. ZADU is not only easy to install and execute but also enables comprehensive evaluation of DR embeddings through three key features. First, the library covers a wide range of distortion measures. Second, it automatically optimizes the execution of distortion measures, substantially reducing the running time required to execute multiple measures. Last, the library informs how individual points contribute to the overall distortions, facilitating the detailed analysis of DR embeddings. By simulating a real-world scenario of optimizing DR embeddings, we verify that our optimization scheme substantially reduces the time required to execute distortion measures. Finally, as an application of ZADU, we present another library called ZADUVis that allows users to easily create distortion visualizations that depict the extent to which each region of an embedding suffers from distortions.
翻訳日:2023-08-14 16:23:53 公開日:2023-08-11
# クラスはクラスタではない:次元削減のラベルベース評価の改善

Classes are not Clusters: Improving Label-based Evaluation of Dimensionality Reduction ( http://arxiv.org/abs/2308.00278v2 )

ライセンス: Link先を確認
Hyeon Jeon, Yun-Hsin Kuo, Micha\"el Aupetit, Kwan-Liu Ma, and Jinwook Seo(参考訳) 次元還元(dr)埋め込みの信頼性を評価する一般的な方法は、ラベル付きクラスがどのようにコンパクトで互いに分離されたクラスタを形成するかを定量化することである。 このアプローチは、クラスが元の高次元空間のクリアクラスタとして残るという仮定に基づいている。 しかし実際には、この仮定に違反する可能性がある。単一のクラスを複数のクラスタに分割することができ、複数のクラスをひとつのクラスタにマージすることができる。 したがって、クラスラベルを用いた評価の信頼性を常に保証することはできない。 本稿では,ラベル信頼性とラベル連続性(label-t&c)という2つの新しい品質指標を提案する。 クラスが元の空間で十分にクラスタ化されていると仮定する代わりに、ラベル・T&Cは(1)元の空間と埋め込み空間においてクラスがクラスタを形成する程度を推定し、(2)両者の違いを評価する。 定量的評価により, DRの埋込みがクラスタ構造をどれだけよく保存するかを評価する上で, DR評価尺度(例えば, 信頼性と継続性, Kullback-Leibler の偏差など)が広く用いられている。 さらに, DR法とそのハイパーパラメータの内在特性を明らかにするために, Label-T&C が有効であることを示す事例研究を行った。

A common way to evaluate the reliability of dimensionality reduction (DR) embeddings is to quantify how well labeled classes form compact, mutually separated clusters in the embeddings. This approach is based on the assumption that the classes stay as clear clusters in the original high-dimensional space. However, in reality, this assumption can be violated; a single class can be fragmented into multiple separated clusters, and multiple classes can be merged into a single cluster. We thus cannot always assure the credibility of the evaluation using class labels. In this paper, we introduce two novel quality measures -- Label-Trustworthiness and Label-Continuity (Label-T&C) -- advancing the process of DR evaluation based on class labels. Instead of assuming that classes are well-clustered in the original space, Label-T&C work by (1) estimating the extent to which classes form clusters in the original and embedded spaces and (2) evaluating the difference between the two. A quantitative evaluation showed that Label-T&C outperform widely used DR evaluation measures (e.g., Trustworthiness and Continuity, Kullback-Leibler divergence) in terms of the accuracy in assessing how well DR embeddings preserve the cluster structure, and are also scalable. Moreover, we present case studies demonstrating that Label-T&C can be successfully used for revealing the intrinsic characteristics of DR techniques and their hyperparameters.
翻訳日:2023-08-14 16:23:35 公開日:2023-08-11
# 模倣学習における初期状態介入

Initial State Interventions for Deconfounded Imitation Learning ( http://arxiv.org/abs/2307.15980v3 )

ライセンス: Link先を確認
Samuel Pfrommer, Yatong Bai, Hyunin Lee, Somayeh Sojoudi(参考訳) 模倣学習は因果的混乱に苦しむ。 この現象は、学習されたポリシーが専門家の行動に因果的に影響を与えず、代わりに急激な相関関係にある特徴に出席するときに起こる。 因果的に混乱したエージェントは、低いオープンループ制御損失を生じるが、デプロイ時にクローズループ性能は低下する。 我々は,観察空間の異方性表現において観察者共起者をマスキングする問題を考える。 提案するマスキングアルゴリズムは,初期システム状態における通常の介入機能を活用し,エキスパートクエリや専門家報酬関数,因果グラフ仕様といった要件を回避する。 特定の仮定の下では、このアルゴリズムは専門家に因果的に影響を及ぼす観察を誤って隠蔽しないという意味で保守的であることを理論的に証明する。 マスキングアルゴリズムは、cartopole と reacher の2つの図式制御系の動作クローニングに適用される。

Imitation learning suffers from causal confusion. This phenomenon occurs when learned policies attend to features that do not causally influence the expert actions but are instead spuriously correlated. Causally confused agents produce low open-loop supervised loss but poor closed-loop performance upon deployment. We consider the problem of masking observed confounders in a disentangled representation of the observation space. Our novel masking algorithm leverages the usual ability to intervene in the initial system state, avoiding any requirement involving expert querying, expert reward functions, or causal graph specification. Under certain assumptions, we theoretically prove that this algorithm is conservative in the sense that it does not incorrectly mask observations that causally influence the expert; furthermore, intervening on the initial state serves to strictly reduce excess conservatism. The masking algorithm is applied to behavior cloning for two illustrative control systems: CartPole and Reacher.
翻訳日:2023-08-14 16:22:18 公開日:2023-08-11
# 知識グラフを用いた薬物-薬物相互作用の予測

Predicting Drug-Drug Interactions Using Knowledge Graphs ( http://arxiv.org/abs/2308.04172v2 )

ライセンス: Link先を確認
Lizzy Farrugia, Lilian M. Azzopardi, Jeremy Debattista and Charlie Abela(参考訳) 過去数十年間、人々は以前よりも多くの薬物を消費し、組み合わせ、ドラッグ・ドラッグ・インタラクション(DDI)の数を増やしてきた。 未知のDDIを予測するために、近年では、単一の薬物特性を使用するよりも優れた薬物表現を提供するエンティティ間の関係を捉えることができるため、知識グラフ(KG)を導入し始めた。 本稿では,様々な翻訳,因子化,ニューラルネットワーク(nn)ベースのkg埋め込み(kge)手法を用いて,公開薬物リポジトリからいくつかの薬物機能を1kgに統合し,そのノードをグラフに組み込む,medicx end-to-endフレームワークを提案する。 最終的に、未知のDDIを予測する機械学習(ML)アルゴリズムを使用します。 異なる翻訳と分解に基づくKGEモデルの中で、最も優れた組み合わせは、ComplExとLong Short-Term Memory (LSTM) ネットワークの組込みであり、D薬バンクのバージョン5.1.8にあるDDIに基づくデータセットでF1スコアの95.19%を得ることができた。 このスコアは最先端のDeepDDIよりも5.61%良い。 さらに,グラフニューラルネットワーク(gnn)を用いたグラフ自動エンコーダモデルも開発し,91.94%のf1スコアを達成した。 その結果、GNNはComplExモデルよりもKGの基盤となるセマンティクスをマイニングする能力が強く、したがって、GNN内に高次元の埋め込みを使用することで、最先端のパフォーマンスを実現することができる。

In the last decades, people have been consuming and combining more drugs than before, increasing the number of Drug-Drug Interactions (DDIs). To predict unknown DDIs, recently, studies started incorporating Knowledge Graphs (KGs) since they are able to capture the relationships among entities providing better drug representations than using a single drug property. In this paper, we propose the medicX end-to-end framework that integrates several drug features from public drug repositories into a KG and embeds the nodes in the graph using various translation, factorisation and Neural Network (NN) based KG Embedding (KGE) methods. Ultimately, we use a Machine Learning (ML) algorithm that predicts unknown DDIs. Among the different translation and factorisation-based KGE models, we found that the best performing combination was the ComplEx embedding method with a Long Short-Term Memory (LSTM) network, which obtained an F1-score of 95.19% on a dataset based on the DDIs found in DrugBank version 5.1.8. This score is 5.61% better than the state-of-the-art model DeepDDI. Additionally, we also developed a graph auto-encoder model that uses a Graph Neural Network (GNN), which achieved an F1-score of 91.94%. Consequently, GNNs have demonstrated a stronger ability to mine the underlying semantics of the KG than the ComplEx model, and thus using higher dimension embeddings within the GNN can lead to state-of-the-art performance.
翻訳日:2023-08-14 16:15:48 公開日:2023-08-11
# DiT:動的トークンルーティングを用いた高能率ビジョントランス

DiT: Efficient Vision Transformers with Dynamic Token Routing ( http://arxiv.org/abs/2308.03409v2 )

ライセンス: Link先を確認
Yuchen Ma, Zhengcong Fei, Junshi Huang(参考訳) 近年、画像のトークンは、多くの高密度ネットワークで同じ静的データフローを共有している。 しかし、空間スケールの大きな変化や視覚的実体の認識の難しさなど、画像内の物体間のばらつきから課題が生じる。 本稿では,ダイナミックビジョン変換器のイメージトークンのルーティング経路を詳細に把握するための,データ依存型トークンルーティング方式を提案する。 提案フレームワークは,トークン毎のデータ依存パスを生成し,オブジェクトスケールとトークンの視覚的識別に適応する。 フィードフォワードでは、微分可能なルーティングゲートは、画像トークンのスケーリングパスと機能変換パスを選択するように設計され、マルチパスの特徴伝達に繋がる。 このように、オブジェクトスケールの影響と画像表現の視覚的識別を慎重に調整することができる。 さらに、ルーティングゲートに予算制約を与え、特徴抽出の早期停止を行うことにより、計算コストをさらに削減することができる。 実験では,画像ネット分類,オブジェクト検出,インスタンスセグメンテーション,セマンティクスセグメンテーションにおいて,多くのsata手法よりも優れた性能と適度な複雑性/正確性トレードオフを実現する。 特に、DiT-B5は10.3 GFLOPsのImageNet上で84.8\%のトップ-1Accを取得しており、同様の計算複雑性を持つSoTA法よりも1.0\%高い。 これらの広範な結果は、DiTが様々な視覚タスクのための多用途バックボーンとして機能できることを証明している。

Recently, the tokens of images share the same static data flow in many dense networks. However, challenges arise from the variance among the objects in images, such as large variations in the spatial scale and difficulties of recognition for visual entities. In this paper, we propose a data-dependent token routing strategy to elaborate the routing paths of image tokens for Dynamic Vision Transformer, dubbed DiT. The proposed framework generates a data-dependent path per token, adapting to the object scales and visual discrimination of tokens. In feed-forward, the differentiable routing gates are designed to select the scaling paths and feature transformation paths for image tokens, leading to multi-path feature propagation. In this way, the impact of object scales and visual discrimination of image representation can be carefully tuned. Moreover, the computational cost can be further reduced by giving budget constraints to the routing gate and early-stopping of feature extraction. In experiments, our DiT achieves superior performance and favorable complexity/accuracy trade-offs than many SoTA methods on ImageNet classification, object detection, instance segmentation, and semantic segmentation. Particularly, the DiT-B5 obtains 84.8\% top-1 Acc on ImageNet with 10.3 GFLOPs, which is 1.0\% higher than that of the SoTA method with similar computational complexity. These extensive results demonstrate that DiT can serve as versatile backbones for various vision tasks.
翻訳日:2023-08-14 16:15:01 公開日:2023-08-11
# 画像超解像用デュアルアグリゲーショントランス

Dual Aggregation Transformer for Image Super-Resolution ( http://arxiv.org/abs/2308.03364v2 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang, Fisher Yu(参考訳) Transformerは最近、画像超解像(SR)を含む低レベルの視覚タスクでかなりの人気を得ている。 これらのネットワークは、異なる次元、空間またはチャネルに沿って自己注意を利用し、印象的なパフォーマンスを達成する。 これにより、トランスフォーマーの2次元を組み合わせることで、より強力な表現能力を得ることができます。 そこで本稿では,画像srのための新しいトランスフォーマーモデルであるdual aggregation transformer (dat)を提案する。 DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。 具体的には、連続したトランスフォーマーブロックに空間的およびチャネル的自己アテンションを交互に適用する。 代替戦略により、DATはグローバルコンテキストをキャプチャし、ブロック間フィーチャーアグリゲーションを実現することができる。 さらに,ブロック内特徴集約を実現するために,適応インタラクションモジュール(aim)と空間ゲートフィードフォワードネットワーク(sgfn)を提案する。 AIMは2つの自己注意機構を対応する次元から補完する。 一方、SGFNはフィードフォワードネットワークに非線形空間情報を導入する。 大規模な実験により、我々のDATは現在の方法を上回ることがわかった。 コードとモデルはhttps://github.com/zhengchen1999/datで取得できる。

Transformer has recently gained considerable popularity in low-level vision tasks, including image super-resolution (SR). These networks utilize self-attention along different dimensions, spatial or channel, and achieve impressive performance. This inspires us to combine the two dimensions in Transformer for a more powerful representation capability. Based on the above idea, we propose a novel Transformer model, Dual Aggregation Transformer (DAT), for image SR. Our DAT aggregates features across spatial and channel dimensions, in the inter-block and intra-block dual manner. Specifically, we alternately apply spatial and channel self-attention in consecutive Transformer blocks. The alternate strategy enables DAT to capture the global context and realize inter-block feature aggregation. Furthermore, we propose the adaptive interaction module (AIM) and the spatial-gate feed-forward network (SGFN) to achieve intra-block feature aggregation. AIM complements two self-attention mechanisms from corresponding dimensions. Meanwhile, SGFN introduces additional non-linear spatial information in the feed-forward network. Extensive experiments show that our DAT surpasses current methods. Code and models are obtainable at https://github.com/zhengchen1999/DAT.
翻訳日:2023-08-14 16:14:37 公開日:2023-08-11
# 近代スカイサーベイデータにおけるL&Tブラウンドワーフ探索のための機械学習手法

Machine learning methods for the search for L&T brown dwarfs in the data of modern sky surveys ( http://arxiv.org/abs/2308.03045v2 )

ライセンス: Link先を確認
Aleksandra Avdeeva(参考訳) 様々な推定によれば、ブラウンドワーフ(bd)は銀河の全天体の最大25%を占めるはずである。 しかし、個体群と個体群の両方で発見・調査されているものは少ない。 ブラウンドワーフの均質で完全なサンプルは、この種の研究には必要である。 その弱さのため、ブラウン・ドワーフのスペクトル研究は比較的困難である。 そのため、分光観測で確認されたブラウン・ドワーフのかなりの信頼できるサンプルを作成することは、現時点では不可能である。 多数の調査データに適用された決定規則として、その色を用いて茶色の小星を探索し、生成する試みが数多くなされている。 本研究では,PanStarrs DR1,2MASS,WISEデータ上でのランダムフォレスト分類器,XGBoost,SVM分類器,TabNetなどの機械学習手法を用いて,LとTのブラウンドロームを他のスペクトルおよび光度クラスのオブジェクトと区別する。 モデルの説明について述べる。 また、我々のモデルを古典的な決定規則と比較し、その効率性と妥当性を証明する。

According to various estimates, brown dwarfs (BD) should account for up to 25 percent of all objects in the Galaxy. However, few of them are discovered and well-studied, both individually and as a population. Homogeneous and complete samples of brown dwarfs are needed for these kinds of studies. Due to their weakness, spectral studies of brown dwarfs are rather laborious. For this reason, creating a significant reliable sample of brown dwarfs, confirmed by spectroscopic observations, seems unattainable at the moment. Numerous attempts have been made to search for and create a set of brown dwarfs using their colours as a decision rule applied to a vast amount of survey data. In this work, we use machine learning methods such as Random Forest Classifier, XGBoost, SVM Classifier and TabNet on PanStarrs DR1, 2MASS and WISE data to distinguish L and T brown dwarfs from objects of other spectral and luminosity classes. The explanation of the models is discussed. We also compare our models with classical decision rules, proving their efficiency and relevance.
翻訳日:2023-08-14 16:14:21 公開日:2023-08-11
# 3D-EX : 定義と辞書の統一データセット

3D-EX : A Unified Dataset of Definitions and Dictionary Examples ( http://arxiv.org/abs/2308.03043v2 )

ライセンス: Link先を確認
Fatemah Almeman, Hadi Sheikhi, Luis Espinosa-Anke(参考訳) 定義は語彙学、言語学、計算意味論における基本的な構成要素である。 NLPでは、言語モデルにおける単語埋め込みや文脈表現の強化に使用されている。 しかし、定義を含む語彙資源は幅広い性質を示し、それらに基づいて訓練され評価されたモデルの振る舞いに影響を及ぼす。 本稿では,よく知られた英語資源を<term, definition, example>トリプルという形で1つの集中型知識リポジトリに組み合わせることで,このギャップを埋めることを目的としたデータセットである3d- exを紹介する。 3d-exは、列車/バリデーション/テスト分割を注意深く計算した統一評価フレームワークである。 我々は,このデータセットを下流のnlpタスクで効果的に活用できることを示す実験結果を報告する。 コードとデータはhttps://github.com/f-almeman/3d-exで入手できる。

Definitions are a fundamental building block in lexicography, linguistics and computational semantics. In NLP, they have been used for retrofitting word embeddings or augmenting contextual representations in language models. However, lexical resources containing definitions exhibit a wide range of properties, which has implications in the behaviour of models trained and evaluated on them. In this paper, we introduce 3D- EX , a dataset that aims to fill this gap by combining well-known English resources into one centralized knowledge repository in the form of <term, definition, example> triples. 3D- EX is a unified evaluation framework with carefully pre-computed train/validation/test splits to prevent memorization. We report experimental results that suggest that this dataset could be effectively leveraged in downstream NLP tasks. Code and data are available at https://github.com/F-Almeman/3D-EX .
翻訳日:2023-08-14 16:14:02 公開日:2023-08-11
# 自己教師付き表現学習手法は分布シフトや腐敗に耐えられるか?

Can Self-Supervised Representation Learning Methods Withstand Distribution Shifts and Corruptions? ( http://arxiv.org/abs/2308.02525v2 )

ライセンス: Link先を確認
Prakash Chandra Chhipa, Johan Rodahl Holmgren, Kanjar De, Rajkumar Saini and Marcus Liwicki(参考訳) コンピュータビジョンにおける自己教師付き学習は、データ内の固有の構造と関係を利用して、明示的な人間のアノテーションなしで意味のある表現を学習することを目的としており、視覚シーンの全体的理解を可能にする。 視覚機械学習におけるロバスト性は、信頼性と一貫したパフォーマンスを確保し、一般化、適応性、ノイズ、変動、敵攻撃に対する耐性を高める。 自己教師付きパラダイム、すなわちコントラスト学習、知識蒸留、相互情報最大化、クラスタリングは、不変学習表現の進歩を示していると考えられている。 本研究は,コンピュータビジョンにおける分散シフトと画像破壊に着目し,自己教師付き学習アプローチの学習表現のロバスト性について検討する。 分散シフトと画像劣化に対する自己教師型学習手法の堅牢性について,詳細な実験を行った。 実証分析は,自己監督パラダイムにおける学習表現のパフォーマンスと,分散シフトや腐敗の深刻さとの関係を明らかにした。 特に、より高いレベルのシフトと腐敗は、学習された表現の堅牢性を著しく低下させる。 これらの知見は, 自己指導型学習手法の性能とレジリエンスに及ぼす分布シフトと画像劣化の影響を強調し, その悪影響を軽減する効果的な戦略の必要性を強調した。 この研究は、自己指導型表現学習の分野における将来の研究を強く主張し、実用性を確保するために安全性と堅牢性の重要な側面を優先するものである。 ソースコードと結果はGitHubで公開されている。

Self-supervised learning in computer vision aims to leverage the inherent structure and relationships within data to learn meaningful representations without explicit human annotation, enabling a holistic understanding of visual scenes. Robustness in vision machine learning ensures reliable and consistent performance, enhancing generalization, adaptability, and resistance to noise, variations, and adversarial attacks. Self-supervised paradigms, namely contrastive learning, knowledge distillation, mutual information maximization, and clustering, have been considered to have shown advances in invariant learning representations. This work investigates the robustness of learned representations of self-supervised learning approaches focusing on distribution shifts and image corruptions in computer vision. Detailed experiments have been conducted to study the robustness of self-supervised learning methods on distribution shifts and image corruptions. The empirical analysis demonstrates a clear relationship between the performance of learned representations within self-supervised paradigms and the severity of distribution shifts and corruptions. Notably, higher levels of shifts and corruptions are found to significantly diminish the robustness of the learned representations. These findings highlight the critical impact of distribution shifts and image corruptions on the performance and resilience of self-supervised learning methods, emphasizing the need for effective strategies to mitigate their adverse effects. The study strongly advocates for future research in the field of self-supervised representation learning to prioritize the key aspects of safety and robustness in order to ensure practical applicability. The source code and results are available on GitHub.
翻訳日:2023-08-14 16:13:02 公開日:2023-08-11
# 放射線学の一般モデルに向けて

Towards Generalist Foundation Model for Radiology ( http://arxiv.org/abs/2308.02463v2 )

ライセンス: Link先を確認
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang and Weidi Xie(参考訳) 本研究では,RadFMと呼ばれるRadlogy Foundation Modelの開発を目標とし,データ,モデル設計,評価の観点から基礎モデルの構築を徹底的に検討する。 私たちの貢献は次のように結論づけられる。 i)16M2Dと3Dの医用スキャンからなる大規模医療用マルチモーダルデータセットMedMDを構築した。 私たちの知る限りでは、これが3D医療スキャンを含む最初のマルチモーダルデータセットである。 (II)2次元または3次元の医用スキャンとインターリーブされたテキスト入力の統合により,多様な放射線学的タスクに対する応答を生成できるアーキテクチャを提案する。 モデルは当初、MedMDで事前訓練され、その後、RadMDでドメイン固有の微調整が行われた。 (iii) 実践的臨床課題に対する基礎モデルの能力の包括的評価を目的とした, 5つのタスクからなる新しい評価ベンチマークを提案する。 実験の結果,RadFMは既存のマルチモーダル基礎モデルよりも大幅に優れていた。 コード、データ、モデルチェックポイントはすべて、この分野におけるさらなる研究と開発を促進するために公開されます。

In this study, we aim to initiate the development of Radiology Foundation Model, termed as RadFM.We consider the construction of foundational models from the perspectives of data, model design, and evaluation thoroughly. Our contribution can be concluded as follows: (i), we construct a large-scale Medical Multi-modal Dataset, MedMD, consisting of 16M 2D and 3D medical scans. To the best of our knowledge, this is the first multi-modal dataset containing 3D medical scans. (ii), We propose an architecture that enables visually conditioned generative pre-training, allowing for the integration of text input interleaved with 2D or 3D medical scans to generate response for diverse radiologic tasks. The model was initially pre-trained on MedMD and subsequently domain-specific fine-tuned on RadMD, a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs. (iii), we propose a new evaluation benchmark that comprises five tasks, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. Our experimental results confirm that RadFM significantly outperforms existing multi-modal foundation models. The codes, data, and model checkpoint will all be made publicly available to promote further research and development in the field.
翻訳日:2023-08-14 16:12:37 公開日:2023-08-11
# AIの開発ブートストラップ

Developmental Bootstrapping of AIs ( http://arxiv.org/abs/2308.04586v2 )

ライセンス: Link先を確認
Mark Stefik and Robert Price(参考訳) ボードゲームのような閉じた人工的な世界では、現在のaiは人間の能力を上回っているが、現実世界での能力は限られている。 彼らは奇妙な間違いを犯し、気づかない。 簡単には指示できないし、常識を使わず、好奇心を欠いている。 彼らは良い協力者はしない。 AIを作成するための主流のアプローチは、手作業で構築された従来の象徴的AIアプローチと、大きな言語モデル(LLM)を含む生成的およびディープラーニングAIアプローチを使用して構築されている。 これらのシステムは、堅牢で信頼できるAIを作成するのに適していない。 メインストリームの外にあるが、開発上のブートストラップアプローチはより有望である。 発達的なブートストラップでは、AIは人間の子供のように能力を生み出す。 彼らは生まれながらの能力から始まる。 彼らは環境と相互作用し、その相互作用から学びます。 彼らは自己発達能力で自然能力を徐々に拡張する。 彼らは対話し、人々から学び、知覚、認知、共通基盤を確立する。 彼らはインクリメンタルなブートストラッププロセスを通じて必要な能力を得る。 しかし、発達ロボット工学はまだ大人レベルの強力な能力を持つAIを生産していない。 プロジェクトは通常、人間の幼児の発達に対応するToddler Barrierで約2歳で停止した。 彼らはまた、読み取り障壁を橋渡しせず、llmを動力とする膨大な社会的に発達した情報リソースを巧みに、懐疑的に活用する。 人間の認知発達における次の能力は、本質的な動機づけ、模倣学習、想像、協調、コミュニケーションである。 このポジションペーパーは、開発ブートストラップの実践を拡張してさらなる能力を獲得し、堅牢でレジリエントなAIを作り出すための論理、見通し、ギャップ、課題を概説する。

Although some current AIs surpass human abilities especially in closed artificial worlds such as board games, their abilities in the real world are limited. They make strange mistakes and do not notice them. They cannot be instructed easily, fail to use common sense, and lack curiosity. They do not make good collaborators. Mainstream approaches for creating AIs are built using the traditional manually-constructed symbolic AI approach and generative and deep learning AI approaches including large language models (LLMs). These systems are not well suited for creating robust and trustworthy AIs. Although it is outside of the mainstream, the developmental bootstrapping approach has more promise. In developmental bootstrapping, AIs develop competences like human children do. They start with innate competences. They interact with the environment and learn from their interactions. They incrementally extend their innate competences with self-developed competences. They interact and learn from people and establish perceptual, cognitive, and common grounding. They acquire the competences that they need through an incremental bootstrapping process. However, developmental robotics has not yet produced AIs with robust adult-level competences. Projects have typically stopped at the Toddler Barrier corresponding to human infant development at about two years of age, before their speech is fluent. They also do not bridge the Reading Barrier, to skillfully and skeptically tap into the vast socially developed recorded information resources that power LLMs. The next competences in human cognitive development involve intrinsic motivation, imitation learning, imagination, coordination, and communication. This position paper lays out the logic, prospects, gaps, and challenges for extending the practice of developmental bootstrapping to acquire further competences and create robust and resilient AIs.
翻訳日:2023-08-14 16:02:44 公開日:2023-08-11
# 多様なデータ型のためのディープラーニング:レビュー

Deep Learning for Diverse Data Types Steganalysis: A Review ( http://arxiv.org/abs/2308.04522v2 )

ライセンス: Link先を確認
Hamza Kheddar, Mustapha Hemis, Yassine Himeur, David Meg\'ias, Abbes Amira(参考訳) ステガノグラフィーとステガナリシスは情報セキュリティの分野における2つの相互関係の側面である。 ステガノグラフィーは通信を隠蔽しようとするが、ステガナリシスはそれらを見つけるか、可能であればそれらを含むデータを回収することを目的としている。 ステガノグラフィーとステガナリシスは特に法執行機関から大きな関心を集めている。 ステガノグラフィーは、多くの国で暗号が禁止または制限されているため、しばしばサイバー犯罪者やテロリストが犯罪証拠を所持している間に捕らえられるのを避けるために使用される。 したがって、隠蔽情報を明らかにするための最先端技術に関する知識は、違法行為の暴露に不可欠である。 ここ数年、多くの強固で信頼性の高いステガノグラフィーとステグアナリシス技術が文献に紹介されている。 本稿では,デジタルメディア内の隠れ情報を検出するための深層学習に基づくseg analysis技術の概要について述べる。 本論文は、画像、音声、ビデオを含む、ステガナリシスにおけるあらゆる種類のカバーをカバーし、最もよく使われているディープラーニング技術について論じる。 さらに,より高度な深層学習技術である深層移動学習 (DTL) や深層強化学習 (DRL) をステガナリシスシステムの性能向上に活用することを検討した。 本稿は,最近の研究におけるデータセットや評価指標を含む最近の研究の体系的レビューを提供する。 また, dtlに基づくsteg analysisアプローチの詳細な解析と, 異なるデータセット上での性能について述べる。 このレビューは、ディープラーニングに基づくステガナリシスの現状、課題、今後の研究方向性に関する議論から締めくくっている。

Steganography and steganalysis are two interrelated aspects of the field of information security. Steganography seeks to conceal communications, whereas steganalysis is aimed to either find them or even, if possible, recover the data they contain. Steganography and steganalysis have attracted a great deal of interest, particularly from law enforcement. Steganography is often used by cybercriminals and even terrorists to avoid being captured while in possession of incriminating evidence, even encrypted, since cryptography is prohibited or restricted in many countries. Therefore, knowledge of cutting-edge techniques to uncover concealed information is crucial in exposing illegal acts. Over the last few years, a number of strong and reliable steganography and steganalysis techniques have been introduced in the literature. This review paper provides a comprehensive overview of deep learning-based steganalysis techniques used to detect hidden information within digital media. The paper covers all types of cover in steganalysis, including image, audio, and video, and discusses the most commonly used deep learning techniques. In addition, the paper explores the use of more advanced deep learning techniques, such as deep transfer learning (DTL) and deep reinforcement learning (DRL), to enhance the performance of steganalysis systems. The paper provides a systematic review of recent research in the field, including data sets and evaluation metrics used in recent studies. It also presents a detailed analysis of DTL-based steganalysis approaches and their performance on different data sets. The review concludes with a discussion on the current state of deep learning-based steganalysis, challenges, and future research directions.
翻訳日:2023-08-14 16:02:20 公開日:2023-08-11
# CLASSLA-Stanza:南スラヴ語の言語処理の次のステップ

CLASSLA-Stanza: The Next Step for Linguistic Processing of South Slavic Languages ( http://arxiv.org/abs/2308.04255v2 )

ライセンス: Link先を確認
Luka Ter\v{c}on, Nikola Ljube\v{s}i\'c(参考訳) 本稿では,南スラヴ語の自動言語アノテーションのためのパイプラインであるCLASSLA-Stanzaについて述べる。 我々は、Stanzaに対するCLASSLA-Stanzaの主な改善点を説明し、パイプラインの最新2.1リリースのモデルトレーニングプロセスの詳細を説明します。 また、異なる言語や品種のパイプラインによって生成されたパフォーマンススコアも報告する。 CLASSLA-Stanzaは、サポートするすべての言語で一貫して高いパフォーマンスを示し、サポート対象のすべてのタスクにおいて、親パイプラインStanzaをパフォーマンスまたは拡張する。 また、Webデータの効率的な処理を可能にするパイプラインの新機能と、その実装に繋がった理由についても紹介する。

We present CLASSLA-Stanza, a pipeline for automatic linguistic annotation of the South Slavic languages, which is based on the Stanza natural language processing pipeline. We describe the main improvements in CLASSLA-Stanza with respect to Stanza, and give a detailed description of the model training process for the latest 2.1 release of the pipeline. We also report performance scores produced by the pipeline for different languages and varieties. CLASSLA-Stanza exhibits consistently high performance across all the supported languages and outperforms or expands its parent pipeline Stanza at all the supported tasks. We also present the pipeline's new functionality enabling efficient processing of web data and the reasons that led to its implementation.
翻訳日:2023-08-14 16:01:53 公開日:2023-08-11
# AutoPCF: 大規模言語モデルを用いた効率的な製品カーボンフットプリント会計

AutoPCF: Efficient Product Carbon Footprint Accounting with Large Language Models ( http://arxiv.org/abs/2308.04241v2 )

ライセンス: Link先を確認
Zhu Deng, Jinjie Liu, Biao Luo, Can Yuan, Qingrun Yang, Lei Xiao, Wenwen Zhou, Zhu Liu(参考訳) 製品炭素フットプリント(pcf)はサプライチェーンの脱炭素化に不可欠であり、製品ライフサイクル中のすべての活動によって引き起こされる間接的および間接的な温室効果ガス排出量を測定する。 しかし、PCF会計は、しばしば専門知識とライフサイクルモデルを構築するのにかなりの時間を必要とする。 本研究では,5つの大規模言語モデル(llm)の創発的能力を用いて,製品の'cradle-to-gate'ライフサイクルをモデル化し,入力と出力のインベントリデータを生成し,その限界を一般化pcf知識データベースとして明らかにする。 llmsを活用することで,計算パラメータの自動マッチングにディープラーニングアルゴリズムを適用し,最終的にpcfを計算する,自動ai駆動型pcf会計フレームワークautopcfを提案する。 autopcfフレームワークを用いて3つのケース製品の炭素フットプリントを推定した結果,モデリング時間を数日から数分に短縮し,pcfの自動モデリングと推定を実現する可能性を示した。

The product carbon footprint (PCF) is crucial for decarbonizing the supply chain, as it measures the direct and indirect greenhouse gas emissions caused by all activities during the product's life cycle. However, PCF accounting often requires expert knowledge and significant time to construct life cycle models. In this study, we test and compare the emergent ability of five large language models (LLMs) in modeling the 'cradle-to-gate' life cycles of products and generating the inventory data of inputs and outputs, revealing their limitations as a generalized PCF knowledge database. By utilizing LLMs, we propose an automatic AI-driven PCF accounting framework, called AutoPCF, which also applies deep learning algorithms to automatically match calculation parameters, and ultimately calculate the PCF. The results of estimating the carbon footprint for three case products using the AutoPCF framework demonstrate its potential in achieving automatic modeling and estimation of PCF with a large reduction in modeling time from days to minutes.
翻訳日:2023-08-14 16:01:40 公開日:2023-08-11
# チームベースのナビゲーションへの学習:マルチエージェントパスフィニングのための深層強化学習手法のレビュー

Learning to Team-Based Navigation: A Review of Deep Reinforcement Learning Techniques for Multi-Agent Pathfinding ( http://arxiv.org/abs/2308.05893v1 )

ライセンス: Link先を確認
Jaehoon Chung, Jamil Fayyad, Younes Al Younes, and Homayoun Najjaran(参考訳) マルチエージェントパスフィンディング(MAPF)は、多くの大規模ロボットアプリケーションにおいて重要な分野であり、しばしばマルチエージェントシステムの基本的なステップである。 しかし、複雑で混み合った環境におけるMAPFの複雑さの増大は、既存のソリューションの有効性を著しく低下させる。 MAPFの最近の進歩を概観した研究や、マルチエージェントシステム設定におけるDeep Reinforcement Learning(DRL)を個別に検討した研究とは対照的に、本論文では、MAPFにおけるDRLベースのアプローチの統合を強調した。 さらに、統合評価指標の欠如に対処し、これらの指標を包括的に解明することで、MAPFソリューションの評価における現在のギャップを埋めることを目指している。 最後に,モデルベースDRLの将来的な方向性としての可能性について論じ,MAPFの課題に対処するために必要な基礎的理解を提供する。 我々の目標は、読者が現在の研究の方向性を知るのを支援し、異なるMAPFアルゴリズムを比較し、MAPFの既存の課題に対処するためにモデルベースDRLの知識を拡大するための統一的なメトリクスを提供することである。

Multi-agent pathfinding (MAPF) is a critical field in many large-scale robotic applications, often being the fundamental step in multi-agent systems. The increasing complexity of MAPF in complex and crowded environments, however, critically diminishes the effectiveness of existing solutions. In contrast to other studies that have either presented a general overview of the recent advancements in MAPF or extensively reviewed Deep Reinforcement Learning (DRL) within multi-agent system settings independently, our work presented in this review paper focuses on highlighting the integration of DRL-based approaches in MAPF. Moreover, we aim to bridge the current gap in evaluating MAPF solutions by addressing the lack of unified evaluation metrics and providing comprehensive clarification on these metrics. Finally, our paper discusses the potential of model-based DRL as a promising future direction and provides its required foundational understanding to address current challenges in MAPF. Our objective is to assist readers in gaining insight into the current research direction, providing unified metrics for comparing different MAPF algorithms and expanding their knowledge of model-based DRL to address the existing challenges in MAPF.
翻訳日:2023-08-14 15:25:10 公開日:2023-08-11
# privacylens: 過去、現在、将来のスマートデバイスのプライバシーポリシーを収集し、分析するフレームワーク

PrivacyLens: A Framework to Collect and Analyze the Landscape of Past, Present, and Future Smart Device Privacy Policies ( http://arxiv.org/abs/2308.05890v1 )

ライセンス: Link先を確認
Aamir Hamid, Hemanth Reddy Samidi, Tim Finin, Primal Pappachan, Roberto Yus(参考訳) スマートデバイスの採用が私たちの生活のあらゆる側面を浸透させ続けている中、ユーザーのプライバシーに関する懸念はこれまで以上に重要になっている。 プライバシポリシはメーカのデータ管理のプラクティスを定義する一方で,以前の研究では,ユーザによる読み取りや理解はまれであることが示されている。 したがって、プライバシーポリシーの自動分析は、ユーザに適切な洞察を提供するのに役立つことが示されている。 これまでの研究は、ウェブサイト、eコマース、モバイルアプリケーションのプライバシーポリシーを幅広く分析してきたが、スマートデバイスのプライバシーポリシーは、発見と収集が困難であるなど、いくつかの違いと具体的な課題を提示している。 我々は、過去、現在、将来のスマートデバイスプライバシポリシーを発見し、収集し、分析するためにNLPとMLアルゴリズムを活用する新しいフレームワークであるPrivacyLensを紹介する。 privacylensは現在、ユーザー、ポリシー作成者、規制当局など、スマートデバイスのさまざまな利害関係者を支援するために、プライバシーポリシーに関する洞察を展開、収集、分析、公開している。 プライバシレンスによって実現される分析タスクの例として,タイプ毎と製造国毎のデバイス比較,プライバシポリシの分類,データプラクティスに対するデータ規制の影響などを挙げる。 この論文を提出したとき、PrivacyLensは7300台のスマートデバイスで1200以上のプライバシーポリシーを収集し分析した。

As the adoption of smart devices continues to permeate all aspects of our lives, concerns surrounding user privacy have become more pertinent than ever before. While privacy policies define the data management practices of their manufacturers, previous work has shown that they are rarely read and understood by users. Hence, automatic analysis of privacy policies has been shown to help provide users with appropriate insights. Previous research has extensively analyzed privacy policies of websites, e-commerce, and mobile applications, but privacy policies of smart devices, present some differences and specific challenges such as the difficulty to find and collect them. We present PrivacyLens, a novel framework for discovering and collecting past, present, and future smart device privacy policies and harnessing NLP and ML algorithms to analyze them. PrivacyLens is currently deployed, collecting, analyzing, and publishing insights about privacy policies to assist different stakeholders of smart devices, such as users, policy authors, and regulators. We show several examples of analytical tasks enabled by PrivacyLens, including comparisons of devices per type and manufacturing country, categorization of privacy policies, and impact of data regulations on data practices. At the time of submitting this paper, PrivacyLens had collected and analyzed more than 1,200 privacy policies for 7,300 smart device
翻訳日:2023-08-14 15:24:48 公開日:2023-08-11
# df2: 分散フリーな意思決定中心の学習

DF2: Distribution-Free Decision-Focused Learning ( http://arxiv.org/abs/2308.05889v1 )

ライセンス: Link先を確認
Lingkai Kong, Wenhao Mu, Jiaming Cui, Yuchen Zhuang, B. Aditya Prakash, Bo Dai, Chao Zhang(参考訳) 近年DFL(Decision- Focus Learning)が,予測モデルを下流最適化タスクにカスタマイズすることで,予測テーマ最適化問題の強力なアプローチとして登場した。 しかし、既存のdfl法はモデルミスマッチ誤差、サンプル平均近似誤差、勾配近似誤差という3つの重大なボトルネックによって妨げられている。 モデルミスマッチ誤差は、モデルのパラメータ化予測分布と真の確率分布との相違に起因する。 サンプル平均近似誤差は、期待される最適化目標を近似するために有限サンプルを使用する場合に生じる。 勾配近似誤差は、DFLが正確な勾配計算にKKT条件に依存するのに対して、ほとんどの手法は非凸対象の後方伝播の勾配を近似する。 本稿では,これら3つのボトルネックに対処するために明示的に設計された,最初の \textit{distribution-free} 決定中心学習手法であるdf2を提案する。 正確なモデル仮定を必要とするタスク固有の予測器に依存するのではなく、トレーニング中に期待する最適化関数を直接学習する。 データ駆動方式で関数を効率的に学習するため,期待対象の分布に基づくパラメータ化に着想を得た注目モデルアーキテクチャを考案した。 私たちの手法は、私たちの知る限りでは、単一のモデル内で3つのボトルネックすべてに対処する最初の方法です。 我々は,DF2の合成問題,風力発電入札問題,非凸ワクチン配布問題についてDF2の評価を行い,DF2の有効性を実証した。

Decision-focused learning (DFL) has recently emerged as a powerful approach for predict-then-optimize problems by customizing a predictive model to a downstream optimization task. However, existing end-to-end DFL methods are hindered by three significant bottlenecks: model mismatch error, sample average approximation error, and gradient approximation error. Model mismatch error stems from the misalignment between the model's parameterized predictive distribution and the true probability distribution. Sample average approximation error arises when using finite samples to approximate the expected optimization objective. Gradient approximation error occurs as DFL relies on the KKT condition for exact gradient computation, while most methods approximate the gradient for backpropagation in non-convex objectives. In this paper, we present DF2 -- the first \textit{distribution-free} decision-focused learning method explicitly designed to address these three bottlenecks. Rather than depending on a task-specific forecaster that requires precise model assumptions, our method directly learns the expected optimization function during training. To efficiently learn the function in a data-driven manner, we devise an attention-based model architecture inspired by the distribution-based parameterization of the expected objective. Our method is, to the best of our knowledge, the first to address all three bottlenecks within a single model. We evaluate DF2 on a synthetic problem, a wind power bidding problem, and a non-convex vaccine distribution problem, demonstrating the effectiveness of DF2.
翻訳日:2023-08-14 15:24:24 公開日:2023-08-11
# PIPPA:部分合成会話データセット

PIPPA: A Partially Synthetic Conversational Dataset ( http://arxiv.org/abs/2308.05884v1 )

ライセンス: Link先を確認
Tear Gosling, Alpin Dale, Yinhe Zheng(参考訳) ますます強力な大規模言語モデルが登場し、カジュアルな会話やロールプレイアプリケーションでこれらのモデルを活用することへの関心が高まっている。 しかし、既存の会話やロールプレイングデータセットは、現実世界のロールプレイ参加者が通常示す多様でニュアンスなインタラクションをキャプチャできないことが多い。 この制限に対処し、急速に成長する分野に貢献するために、pippa(personal interaction pairs between people and ai)という部分合成データセットを導入する。 PIPPAは、ロールプレイ愛好家のグループを含むコミュニティ主導のクラウドソーシング活動の結果である。 このデータセットは、26,000の会話セッションに分散された100万以上の発話で構成されており、研究者やAI開発者がロールプレイシナリオの文脈で会話AIシステムを探索、洗練するための豊富なリソースを提供する。

With the emergence of increasingly powerful large language models, there is a burgeoning interest in leveraging these models for casual conversation and role-play applications. However, existing conversational and role-playing datasets often fail to capture the diverse and nuanced interactions typically exhibited by real-world role-play participants. To address this limitation and contribute to the rapidly growing field, we introduce a partially-synthetic dataset named PIPPA (Personal Interaction Pairs between People and AI). PIPPA is a result of a community-driven crowdsourcing effort involving a group of role-play enthusiasts. The dataset comprises over 1 million utterances that are distributed across 26,000 conversation sessions and provides a rich resource for researchers and AI developers to explore and refine conversational AI systems in the context of role-play scenarios.
翻訳日:2023-08-14 15:24:00 公開日:2023-08-11
# サイド情報を用いた経験的ベイズ推定:非パラメトリック積分的ツイーディーアプローチ

Empirical Bayes Estimation with Side Information: A Nonparametric Integrative Tweedie Approach ( http://arxiv.org/abs/2308.05883v1 )

ライセンス: Link先を確認
Jiajun Luo, Trambak Banerjee, Gourab Mukherjee and Wenguang Sun(参考訳) 副次的な情報の存在を考慮に入れながら,通常の手段の複合推定の問題を検討する。 経験的ベイズフレームワークを利用して,多変量補助データに符号化された構造的知識を組み込んだ非パラメトリック積分型トウィーディー(nit)手法を開発し,複合推定の精度を高める。 提案手法では,対数密度の勾配を直接推定するために凸最適化ツールを用い,構造制約の組込みを可能にした。 我々はNITの漸近リスクを理論的に分析し、NITがオラクル推定器に収束する速度を確立する。 補助データの次元が大きくなるにつれて、推定リスクの改善と収束率の関連劣化を正確に定量化する。 NITの数値性能は、シミュレーションデータと実データの両方の解析を通して説明され、既存の手法よりも優れていることを示す。

We investigate the problem of compound estimation of normal means while accounting for the presence of side information. Leveraging the empirical Bayes framework, we develop a nonparametric integrative Tweedie (NIT) approach that incorporates structural knowledge encoded in multivariate auxiliary data to enhance the precision of compound estimation. Our approach employs convex optimization tools to estimate the gradient of the log-density directly, enabling the incorporation of structural constraints. We conduct theoretical analyses of the asymptotic risk of NIT and establish the rate at which NIT converges to the oracle estimator. As the dimension of the auxiliary data increases, we accurately quantify the improvements in estimation risk and the associated deterioration in convergence rate. The numerical performance of NIT is illustrated through the analysis of both simulated and real data, demonstrating its superiority over existing methods.
翻訳日:2023-08-14 15:23:45 公開日:2023-08-11
# CaPhy:人間アバターの物理的特性の把握

CaPhy: Capturing Physical Properties for Animatable Human Avatars ( http://arxiv.org/abs/2308.05925v1 )

ライセンス: Link先を確認
Zhaoqi Su and Liangxiao Hu and Siyou Lin and Hongwen Zhang and Shengping Zhang and Justus Thies and Yebin Liu(参考訳) 衣料品のリアルな動的特性を持つアニマタブルヒトアバターを復元する新しい手法であるCaPhyを提案する。 具体的には,実際の観察から衣服の幾何学的,物理的性質を捉えることを目的とした。 これにより、衣服の物理的に正しい変形やしわのある人間のアバターに新しいポーズを施すことができる。 この目的のために,非教師なしトレーニングと物理に基づく損失とスキャンデータを用いた3次元教師付きトレーニングを組み合わせることで,物理的に現実的で人間のスキャンに適合する衣服の動的モデルを再構築する。 また,基礎となる物理モデルの物理パラメータを,物理モデル損失の勾配制約を導入することにより最適化する。 従来の3次元アバター再構成法とは対照的に,本手法はリアルな動的布地変形を伴う新しいポーズを一般化することができる。 いくつかの被験者を対象に実験を行い, 衣服の物性を推定し, 従来の方法と比較して定量的, 質的評価に優れることを示した。

We present CaPhy, a novel method for reconstructing animatable human avatars with realistic dynamic properties for clothing. Specifically, we aim for capturing the geometric and physical properties of the clothing from real observations. This allows us to apply novel poses to the human avatar with physically correct deformations and wrinkles of the clothing. To this end, we combine unsupervised training with physics-based losses and 3D-supervised training using scanned data to reconstruct a dynamic model of clothing that is physically realistic and conforms to the human scans. We also optimize the physical parameters of the underlying physical model from the scans by introducing gradient constraints of the physics-based losses. In contrast to previous work on 3D avatar reconstruction, our method is able to generalize to novel poses with realistic dynamic cloth deformations. Experiments on several subjects demonstrate that our method can estimate the physical properties of the garments, resulting in superior quantitative and qualitative results compared with previous methods.
翻訳日:2023-08-14 15:16:04 公開日:2023-08-11
# BATINet:画像合成・操作ネットワークのための背景対応テキスト

BATINet: Background-Aware Text to Image Synthesis and Manipulation Network ( http://arxiv.org/abs/2308.05921v1 )

ライセンス: Link先を確認
Ryugo Morita, Zhiqiang Zhang, Jinjia Zhou(参考訳) 背景誘導型Text2Image(BIT2I)は,背景画像のテキストに基づいて前景コンテンツを生成することを目的としている。 ほとんどの研究は高品質の前景コンテンツの生成に焦点を当てているが、両者の関係は無視している。 本研究では,生成したコンテンツが入力背景と一致する背景認識型テキスト2画像(BAT2I)タスクを解析した。 本研究では,背景認識による画像合成・操作ネットワーク (BATINet) を提案し,その構成成分として位置検出ネットワーク (PDN) とハーモナイズネットワーク (HN) がある。 PDNは、背景画像中のテキスト関連オブジェクトの最も確実な位置を検出する。 HNは、バックグラウンドスタイル情報を参照して生成されたコンテンツを調和させる。 最後に,マルチガンとアテンションモジュールからなる生成ネットワークを再構成し,ユーザの好みに適合させた。 さらに、BATINetをテキスト誘導画像操作に適用できる。 物体の形状を操作するという最も難しい課題を解決する。 我々は,CUBデータセットの質的,定量的な評価を通じて,提案モデルが他の最先端手法よりも優れていることを示した。

Background-Induced Text2Image (BIT2I) aims to generate foreground content according to the text on the given background image. Most studies focus on generating high-quality foreground content, although they ignore the relationship between the two contents. In this study, we analyzed a novel Background-Aware Text2Image (BAT2I) task in which the generated content matches the input background. We proposed a Background-Aware Text to Image synthesis and manipulation Network (BATINet), which contains two key components: Position Detect Network (PDN) and Harmonize Network (HN). The PDN detects the most plausible position of the text-relevant object in the background image. The HN harmonizes the generated content referring to background style information. Finally, we reconstructed the generation network, which consists of the multi-GAN and attention module to match more user preferences. Moreover, we can apply BATINet to text-guided image manipulation. It solves the most challenging task of manipulating the shape of an object. We demonstrated through qualitative and quantitative evaluations on the CUB dataset that the proposed model outperforms other state-of-the-art methods.
翻訳日:2023-08-14 15:15:46 公開日:2023-08-11
# semantics2hands: アバター間のハンドモーションセマンティクスの伝達

Semantics2Hands: Transferring Hand Motion Semantics between Avatars ( http://arxiv.org/abs/2308.05920v1 )

ライセンス: Link先を確認
Zijie Ye, Jia Jia and Junliang Xing(参考訳) 非言語コミュニケーションの主要な手段である人間の手は、様々なシナリオにおいて複雑な意味を伝達する。 手の動きに対する個人の感度が高いため、手の動きの小さな誤りでさえ、ユーザエクスペリエンスに大きな影響を与えます。 実際の応用は、しばしば手形が異なる複数のアバターを伴い、アバター全体にわたる手の動きの複雑な意味を維持することの重要性を強調している。 そこで本稿では,手の動きのセマンティクスを多様なアバター間で伝達することを目的としている。 この問題に対処するために,手の動きのセマンティクスを符号化する新しい解剖学的意味行列(ASM)を導入する。 ASMは、対応する関節の局所的なフレームに対する手のひらと他の関節の位置を定量化し、手の動きの正確な再ターゲティングを可能にする。 その後、解剖学的意味再構成ネットワーク(ASRN)を用いて、ソースASMから対象手関節回転へのマッピング関数を得る。 我々は、MixamoとInterHand2.6Mデータセットの半教師付き学習戦略を用いてASRNを訓練する。 本手法をドメイン内およびドメイン間ハンドモーション再ターゲティングタスクで評価する。 定性的かつ定量的な結果は、最先端技術に対するASRNの顕著な優位性を示している。

Human hands, the primary means of non-verbal communication, convey intricate semantics in various scenarios. Due to the high sensitivity of individuals to hand motions, even minor errors in hand motions can significantly impact the user experience. Real applications often involve multiple avatars with varying hand shapes, highlighting the importance of maintaining the intricate semantics of hand motions across the avatars. Therefore, this paper aims to transfer the hand motion semantics between diverse avatars based on their respective hand models. To address this problem, we introduce a novel anatomy-based semantic matrix (ASM) that encodes the semantics of hand motions. The ASM quantifies the positions of the palm and other joints relative to the local frame of the corresponding joint, enabling precise retargeting of hand motions. Subsequently, we obtain a mapping function from the source ASM to the target hand joint rotations by employing an anatomy-based semantics reconstruction network (ASRN). We train the ASRN using a semi-supervised learning strategy on the Mixamo and InterHand2.6M datasets. We evaluate our method in intra-domain and cross-domain hand motion retargeting tasks. The qualitative and quantitative results demonstrate the significant superiority of our ASRN over the state-of-the-arts.
翻訳日:2023-08-14 15:15:30 公開日:2023-08-11
# 厳密に解決可能な実および複素$PT$対称反射性ポテンシャルのクラス

A Class of Exactly Solvable Real and Complex $PT$ Symmetric Reflectionless Potentials ( http://arxiv.org/abs/2308.05917v1 )

ライセンス: Link先を確認
Suman Banerjee, Rajesh Kumar Yadav, Avinash Khare and Bhabani Prasad Mandal(参考訳) 我々は、$N$の有界状態を持つ、正確に解ける複素数だがPT不変なリフレクションレスポテンシャルの数について考察する。 X_m$ の有理拡張反射性ポテンシャルを慎重に検討することにより、正確に解ける複素PT不変反射性ポテンシャルの総数は 2[(2N-1)m+N]$ であると主張する。

We consider the question of the number of exactly solvable complex but PT-invariant reflectionless potentials with $N$ bound states. By carefully considering the $X_m$ rationally extended reflectionless potentials, we argue that the total number of exactly solvable complex PT-invariant reflectionless potentials are $2[(2N-1)m+N]$.
翻訳日:2023-08-14 15:15:10 公開日:2023-08-11
# エージェント・ベース・モデリングによる火星コロニーの探索

An Exploration of Mars Colonization with Agent-Based Modeling ( http://arxiv.org/abs/2308.05916v1 )

ライセンス: Link先を確認
Edgar Arguello, Sam Carter, Cristina Grieg, Michael Hammer, Chris Prather, Clark Petri, Anamaria Berea(参考訳) 人類が火星に定住するというのは、信じられないほど複雑なエンジニアリングの問題です。 火星環境の好ましくない性質は、ほとんど自給自足の環境を必要とする。 植民者はいくつかの基本的な鉱物や水を採掘するだけでなく、技術的手段、すなわち呼吸のために火星水を酸素に分解し、燃料のために水素を補給と補給に依存する。 技術と工学の課題以外にも、将来の開拓者は心理的および人間の行動の課題にも直面するだろう。 私たちの目標は、エージェントベースモデリング(abmシミュレーション)アプローチを通じて、将来の火星人植民者の行動と心理的相互作用をより深く理解することにあります。 我々は,コロニーを計画する上で考慮すべき領域を特定し,安定したコロニーを作るために必要な最小初期人口規模を提案する。 工学的および技術的な制限を考慮し、ABMに4つの基本的性格タイプを含めるために、孤立した、高ストレス環境(潜水艦、北極探検、ISS、戦争など)のハイパフォーマンスチームについての研究を行う。 異なる心理プロファイルを持つエージェント間の相互作用は個々のレベルでモデル化されるが、地球での事故や遅延といった世界的な事象はコロニー全体に供給される。 複数のシミュレーションとシナリオ(最大28地球年)から、初期個体数は22で、長期にわたって生存可能なコロニーのサイズを維持するのに必要最小限であることが分かりました。 また,一致した性格型が生き残る可能性が高くなることも見いだされた。 他の文献とは対照的に、持続可能な定住に繋がるあらゆる性格を持つ人々の最小数は、数百人ではなく十数人である。

Establishing a human settlement on Mars is an incredibly complex engineering problem. The inhospitable nature of the Martian environment requires any habitat to be largely self-sustaining. Beyond mining a few basic minerals and water, the colonizers will be dependent on Earth resupply and replenishment of necessities via technological means, i.e., splitting Martian water into oxygen for breathing and hydrogen for fuel. Beyond the technical and engineering challenges, future colonists will also face psychological and human behavior challenges. Our goal is to better understand the behavioral and psychological interactions of future Martian colonists through an Agent-Based Modeling (ABM simulation) approach. We seek to identify areas of consideration for planning a colony as well as propose a minimum initial population size required to create a stable colony. Accounting for engineering and technological limitations, we draw on research regarding high performing teams in isolated and high stress environments (ex: submarines, Arctic exploration, ISS, war) to include the 4 basic personality types within the ABM. Interactions between agents with different psychological profiles are modeled at the individual level, while global events such as accidents or delays in Earth resupply affect the colony as a whole. From our multiple simulations and scenarios (up to 28 Earth years), we found that an initial population of 22 was the minimum required to maintain a viable colony size over the long run. We also found that the agreeable personality type was the one more likely to survive. We find, contrary to other literature, that the minimum number of people with all personality types that can lead to a sustainable settlement is in the tens and not hundreds.
翻訳日:2023-08-14 15:15:00 公開日:2023-08-11
# 光力学におけるミラーミラー量子相関の創出

Creating mirror-mirror quantum correlations in optomechanics ( http://arxiv.org/abs/2308.05913v1 )

ライセンス: Link先を確認
M. Amazioug, B. Maroufi and M. Daoud(参考訳) 本研究では,光子ホッピング法により分離された2つのファブリー・ペロトキャビティの2つの可動ミラー間の量子相関の伝達について検討した。 本研究では, EPR 絡み合った励起光から可動ミラーへの量子相関の移動について検討する。 ガウスの量子ステアリングが絡み合いよりも低いことを示す。 ガウス量子ステアリングを用いて2つのメカニカルモード間のステアビリティを特徴付ける。 対数否定性は量子交絡の証人として使われ、ガウス量子不協和は交絡を含むすべての非古典的相関の測度を与える。 量子相関の移動は強い光力学的カップリングに最適であり、熱的効果により減少する。 また, ステアリング, 絡み合い, ディスコドは, フォトンホッピング結合とスクイーズパラメータと直接関係していると結論づけた。

We study the transfer of quantum correlations between two movable mirrors of two Fabry-P\'erot cavities separated via broadband squeezed light and coupled via photon hopping process. We investigate the transfer of quantum correlations from EPR entangled squeezed light to the movable mirrors. We show that Gaussian quantum steering remains lower than entanglement. We employ Gaussian quantum steering to characterize the steerability between the two mechanical modes. The logarithmic negativity is used as the witness of quantum entanglement and Gaussian quantum discord gives the measure of all non classical correlations including entanglement. We conclude that the transfer of quantum correlations is optimal for a strong optomechanical coupling and decreases with the thermal effects. We also conclude that steering, entanglement and discord are directly related to photon hopping coupling and the squeezing parameter.
翻訳日:2023-08-14 15:14:37 公開日:2023-08-11
# フレームレート非感受性マルチオブジェクトトラッキングのための協調トラッキング学習

Collaborative Tracking Learning for Frame-Rate-Insensitive Multi-Object Tracking ( http://arxiv.org/abs/2308.05911v1 )

ライセンス: Link先を確認
Yiheng Liu, Junta Wu, Yi Fu(参考訳) 低フレームレートのマルチオブジェクトトラッキング(MOT)は、エッジデバイスの制約を満たすため、計算、ストレージ、電力オーバーヘッドを低減することができる。 既存のMOT法の多くは、隣接フレーム間の位置や外観の変化により、低フレームレートビデオの性能が著しく低下する。 そこで本研究では,コラボレーティブ・トラッキング・ラーニング(ColTrack)によるフレームレート非感受性MOTの問合せに基づくエンドツーエンド手法を提案する。 同じターゲットの複数の履歴クエリが、よりリッチな時間記述でそれを共同で追跡する。 一方,2つの時間的ブロッキングデコーダ間で情報リファインメントモジュールを挿入し,時間的手がかりの融合と特徴の洗練を図る。 さらに,過去のクエリ間のインタラクションを導くために,オブジェクト一貫性の損失を追跡する手法を提案する。 広範な実験結果から,高フレームレートビデオでは,大規模データセットのdancetrackやbdd100kにおいて,coltrackが最先端のメソッドよりも高いパフォーマンスを得られ,既存のmot17のエンドツーエンドメソッドよりも優れていることが示されている。 さらに重要なことに、coltrackは低フレームレートビデオにおける最先端のメソッドよりも大きなアドバンテージがあり、高いパフォーマンスを維持しながらフレームレート要件を削減し、より高速な処理速度を得ることができる。 コードはhttps://github.com/yolomax/ColTrackでリリースされる。

Multi-object tracking (MOT) at low frame rates can reduce computational, storage and power overhead to better meet the constraints of edge devices. Many existing MOT methods suffer from significant performance degradation in low-frame-rate videos due to significant location and appearance changes between adjacent frames. To this end, we propose to explore collaborative tracking learning (ColTrack) for frame-rate-insensitive MOT in a query-based end-to-end manner. Multiple historical queries of the same target jointly track it with richer temporal descriptions. Meanwhile, we insert an information refinement module between every two temporal blocking decoders to better fuse temporal clues and refine features. Moreover, a tracking object consistency loss is proposed to guide the interaction between historical queries. Extensive experimental results demonstrate that in high-frame-rate videos, ColTrack obtains higher performance than state-of-the-art methods on large-scale datasets Dancetrack and BDD100K, and outperforms the existing end-to-end methods on MOT17. More importantly, ColTrack has a significant advantage over state-of-the-art methods in low-frame-rate videos, which allows it to obtain faster processing speeds by reducing frame-rate requirements while maintaining higher performance. Code will be released at https://github.com/yolomax/ColTrack
翻訳日:2023-08-14 15:14:21 公開日:2023-08-11
# occamアルゴリズムの等価性について

On the equivalence of Occam algorithms ( http://arxiv.org/abs/2308.05906v1 )

ライセンス: Link先を確認
Zaman Keinath-Esmail(参考訳) Blumer et al. (1987, 1989) はオッカムアルゴリズムで学習可能な任意の概念クラスがPAC学習可能であることを示した。 ボード・アンド・ピット(1990)は、例外リストの下で閉じた概念クラスに対して、PACが学習可能なクラスはオッカムアルゴリズムによって学習可能であることを示した。 しかし、Occamアルゴリズムは複雑さが$\delta$-dependentであるという仮説を出力し、これは重要な制限である。 本稿では,その部分的逆が$\delta$-independent complexitiesを持つOccamアルゴリズムにも適用されることを示す。 そこで本論文では, 様々な理論結果の後部正当化と, 部分的逆を基礎としてアルゴリズム設計手法を提案する。

Blumer et al. (1987, 1989) showed that any concept class that is learnable by Occam algorithms is PAC learnable. Board and Pitt (1990) showed a partial converse of this theorem: for concept classes that are closed under exception lists, any class that is PAC learnable is learnable by an Occam algorithm. However, their Occam algorithm outputs a hypothesis whose complexity is $\delta$-dependent, which is an important limitation. In this paper, we show that their partial converse applies to Occam algorithms with $\delta$-independent complexities as well. Thus, we provide a posteriori justification of various theoretical results and algorithm design methods which use the partial converse as a basis for their work.
翻訳日:2023-08-14 15:13:57 公開日:2023-08-11
# 分類問題に対するニューラルネットワークの不確かさ推定の質比較

Comparing the quality of neural network uncertainty estimates for classification problems ( http://arxiv.org/abs/2308.05903v1 )

ライセンス: Link先を確認
Daniel Ries, Joshua Michalenko, Tyler Ganter, Rashad Imad-Fayez Baiyasi, Jason Adams(参考訳) 従来のディープラーニング(dl)モデルは強力な分類器であるが、多くのアプローチは推定に不確実性を提供していない。 dlモデルに対する不確実性定量化(uq)法は,意思決定における有用性,特に高次決定において,文献において注目を集めている。 しかし、そのような方法の質を評価する方法に関する研究はほとんど行われていない。 信頼区間の品質を評価するために, 頻繁区間被覆と区間幅の統計的手法と, 予測信頼度を評価するためのキャリブレーション誤差について検討した。 これらの指標は、マルコフ・チェイン・モンテカルロ(MCMC)と変分推論(VI)、ブートストラップニューラルネットワーク(NN)、ディープアンサンブル(DE)、モンテカルロ(MC)のドロップアウトを用いてベイズニューラルネットワーク(BNN)の適合性を評価する。 本稿では、これらの異なるUQ for DL法をハイパースペクトル画像目標検出問題に適用し、異なる方法の結果の不整合とUQ品質指標の必要性を示す。 これらの相違を整理し、不確かさを適切に定量化するUQ法を選択するために、2クラス分類問題に対する完全なパラメータ化確率分布を持つシミュレーションデータセットを作成する。 金の標準MCMCは総じて最高であり、ブートストラップのNNは第2位であり、DEと同じ計算コストを必要とする。 この比較を通じて、与えられたデータセットに対して、異なるモデルが著しく異なる品質の不確実性を推定できることを実証する。 これは、dlアプリケーションにおけるuq品質の原理的な評価方法の必要性を示している。

Traditional deep learning (DL) models are powerful classifiers, but many approaches do not provide uncertainties for their estimates. Uncertainty quantification (UQ) methods for DL models have received increased attention in the literature due to their usefulness in decision making, particularly for high-consequence decisions. However, there has been little research done on how to evaluate the quality of such methods. We use statistical methods of frequentist interval coverage and interval width to evaluate the quality of credible intervals, and expected calibration error to evaluate classification predicted confidence. These metrics are evaluated on Bayesian neural networks (BNN) fit using Markov Chain Monte Carlo (MCMC) and variational inference (VI), bootstrapped neural networks (NN), Deep Ensembles (DE), and Monte Carlo (MC) dropout. We apply these different UQ for DL methods to a hyperspectral image target detection problem and show the inconsistency of the different methods' results and the necessity of a UQ quality metric. To reconcile these differences and choose a UQ method that appropriately quantifies the uncertainty, we create a simulated data set with fully parameterized probability distribution for a two-class classification problem. The gold standard MCMC performs the best overall, and the bootstrapped NN is a close second, requiring the same computational expense as DE. Through this comparison, we demonstrate that, for a given data set, different models can produce uncertainty estimates of markedly different quality. This in turn points to a great need for principled assessment methods of UQ quality in DL applications.
翻訳日:2023-08-14 15:13:43 公開日:2023-08-11
# シーン認識のためのsemantic-embedded similarity prototype

Semantic-embedded Similarity Prototype for Scene Recognition ( http://arxiv.org/abs/2308.05896v1 )

ライセンス: Link先を確認
Chuanxin Song, Hanbo Wu, Xin Ma(参考訳) シーン内における複雑な構成によるクラス間類似度の高さと、シーン間に存在するオブジェクトの共存により、様々な研究がシーン内におけるオブジェクトの意味知識を探索し、シーン認識を改善する。 しかし、セマンティックセグメンテーションやオブジェクト検出技術は重い計算力を必要とするため、ネットワークを著しく負担する。 この制限は、しばしばエッジデバイスと互換性のないオブジェクト支援アプローチをレンダリングする。 そこで本研究では,ネットワークパラメータを増加させることなく,シーン認識ネットワークの高精度化を支援する意味的類似性プロトタイプを提案する。 シンプルで、既存のパイプラインにプラグイン&プレイできる。 より具体的には、シーンのセマンティックな知識をクラスレベルのセマンティックな表現として表現するための統計戦略が導入された。 これらの表現はクラス間の相関を探索するために使われ、最終的に類似性のプロトタイプを構築する。 さらに,グラデーションラベル軟化とバッチレベルのコントラスト損失の観点から,ネットワークトレーニングを支援するために類似度プロトタイプを使用する2つの方法を提案する。 複数のベンチマークの総合的な評価から、我々の類似性プロトタイプは計算負担を伴わずに既存のネットワークの性能を向上させる。 コードと統計的類似性のプロトタイプが近く公開される。

Due to the high inter-class similarity caused by the complex composition within scenes and the co-existing objects across scenes, various studies have explored object semantic knowledge within scenes to improve scene recognition. However, a resulting issue arises as semantic segmentation or object detection techniques demand heavy computational power, thereby burdening the network considerably. This limitation often renders object-assisted approaches incompatible with edge devices. In contrast, this paper proposes a semantic-based similarity prototype that assists the scene recognition network to achieve higher accuracy without increasing network parameters. It is simple and can be plug-and-played into existing pipelines. More specifically, a statistical strategy is introduced to depict semantic knowledge in scenes as class-level semantic representations. These representations are utilized to explore inter-class correlations, ultimately constructing a similarity prototype. Furthermore, we propose two ways to use the similarity prototype to support network training from the perspective of gradient label softening and batch-level contrastive loss, respectively. Comprehensive evaluations on multiple benchmarks show that our similarity prototype enhances the performance of existing networks without adding any computational burden. Code and the statistical similarity prototype will be available soon.
翻訳日:2023-08-14 15:13:12 公開日:2023-08-11
# BOLAA: LLM強化自律エージェントのベンチマークとオーケストレーション

BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents ( http://arxiv.org/abs/2308.05960v1 )

ライセンス: Link先を確認
Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke, Rithesh Murthy, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese(参考訳) 大規模言語モデル(LLM)の大規模な成功は、LLM強化自律エージェント(LAA)の新たな探索を促進する。 LAAは中核のLCMでアクションを生成し、環境と相互作用するので、観測やアクションのような過去のインタラクションを条件付けすることで複雑なタスクを解決することができる。 LAAの調査はまだごく最近のものであり、限られた探査が可能である。 したがって、エージェントアーキテクチャとLLMバックボーンの両方の観点から、LAAを総合的に比較する。 さらに,複数のエージェント間の通信をコントローラが管理する1種類のアクションである \textit{i.e.} bolaa に焦点を当てるように,複数のlaasを編成する新しい戦略を提案する。 意思決定環境と多段階推論環境の両方でシミュレーションを行い、LAAの能力を包括的に正当化する。 この結果から,LAA アーキテクチャの設計や LLM の最適選択,および両者の互換性に関する定量的な提案が得られた。 当社は,LAAの実装コードを \url{https://github.com/salesforce/BOLAA} で公開しています。

The massive successes of large language models (LLMs) encourage the emerging exploration of LLM-augmented Autonomous Agents (LAAs). An LAA is able to generate actions with its core LLM and interact with environments, which facilitates the ability to resolve complex tasks by conditioning on past interactions such as observations and actions. Since the investigation of LAA is still very recent, limited explorations are available. Therefore, we provide a comprehensive comparison of LAA in terms of both agent architectures and LLM backbones. Additionally, we propose a new strategy to orchestrate multiple LAAs such that each labor LAA focuses on one type of action, \textit{i.e.} BOLAA, where a controller manages the communication among multiple agents. We conduct simulations on both decision-making and multi-step reasoning environments, which comprehensively justify the capacity of LAAs. Our performance results provide quantitative suggestions for designing LAA architectures and the optimal choice of LLMs, as well as the compatibility of both. We release our implementation code of LAAs to the public at \url{https://github.com/salesforce/BOLAA}.
翻訳日:2023-08-14 15:07:25 公開日:2023-08-11
# 学習点雲圧縮による分類

Learned Point Cloud Compression for Classification ( http://arxiv.org/abs/2308.05959v1 )

ライセンス: Link先を確認
Mateen Ulhaq, Ivan V. Baji\'c(参考訳) ディープラーニングは、3dポイントクラウドデータで分類、オブジェクト検出、セグメンテーションなどの機械学習タスクを実行するためにますます使われています。 しかし、ディープラーニングの推論は計算コストが高い。 したがって、エンドデバイスの限られた計算能力は、サーバ側処理のためにネットワーク上でポイントクラウドデータを送信するためのコーデックを必要とする。 このようなコーデックは軽量で、精度を犠牲にすることなく高い圧縮比を達成することができる。 そこで本研究では,分類の機械作業に高度に特化した,新しい点クラウドコーデックを提案する。 当社のコーデックはpointnetをベースとして,代替手法と比較して,レート精度のトレードオフが大幅に向上しています。 特に、modelnet40データセット上の非特殊コーデックよりも94%のbdビットレートの削減を実現している。 低リソースのエンドデバイスでは、同様のBDビットレートの93%と92%の削減を実現し、トップ1の精度で3%と5%の削減を実現し、それぞれ0.470と0.048のエンコーダサイドkMACs/pointしか消費しない2つの軽量なエンコーダ構成を提案する。 私たちのコーデックは、ポイントクラウドのマシン分析のための特別なコーデックの可能性を示し、将来的にはより複雑なタスクやデータセットに拡張するための基盤を提供します。

Deep learning is increasingly being used to perform machine vision tasks such as classification, object detection, and segmentation on 3D point cloud data. However, deep learning inference is computationally expensive. The limited computational capabilities of end devices thus necessitate a codec for transmitting point cloud data over the network for server-side processing. Such a codec must be lightweight and capable of achieving high compression ratios without sacrificing accuracy. Motivated by this, we present a novel point cloud codec that is highly specialized for the machine task of classification. Our codec, based on PointNet, achieves a significantly better rate-accuracy trade-off in comparison to alternative methods. In particular, it achieves a 94% reduction in BD-bitrate over non-specialized codecs on the ModelNet40 dataset. For low-resource end devices, we also propose two lightweight configurations of our encoder that achieve similar BD-bitrate reductions of 93% and 92% with 3% and 5% drops in top-1 accuracy, while consuming only 0.470 and 0.048 encoder-side kMACs/point, respectively. Our codec demonstrates the potential of specialized codecs for machine analysis of point clouds, and provides a basis for extension to more complex tasks and datasets in the future.
翻訳日:2023-08-14 15:07:09 公開日:2023-08-11
# argewを用いた同相グラフのノード埋め込み:グラフエッジ重みによるランダムウォークの強化

Node Embedding for Homophilous Graphs with ARGEW: Augmentation of Random walks by Graph Edge Weights ( http://arxiv.org/abs/2308.05957v1 )

ライセンス: Link先を確認
Jun Hee Kim, Jaeman Son, Hyunsoo Kim, Eunjo Lee(参考訳) ネットワーク内のノードを高密度ベクトルとして表現する ノード埋め込みは、与えられたネットワークを理解し、多くの下流タスクを解決するために重要である。 特に、類似ノードがより大きなエッジ重みで連結されている重み付きホモフィラスグラフの場合、重み付きノード対がより密接な埋め込みを持つノード埋め込みを求める。 node2vec や node2vec+ のようなランダムな歩行に基づくノード埋め込み手法は、歩行遷移確率のエッジ重みを含む重み付きネットワークでは有効であるが、我々の実験は、埋め込み結果がエッジ重みを適切に反映していないことを示した。 本稿では,エッジ重みを持つノードがより密接な埋め込みとなるようにコーパスを拡大する,ランダムウォークのための新しい拡張法であるargeew(グラフエッジ重みによるランダムウォークの導出)を提案する。 argewはランダムなウォークベースのノード埋め込み方式でも動作するが、これはランダムなサンプリング戦略自体とは独立しており、既に変換済みのウォーク上で機能する。 いくつかの実世界のネットワークでは、ARGEWはそれを使用しないのに対し、より大きなエッジ重みを持つノード対がより密接な埋め込みを持つという望ましいパターンはより明確である。 ノード分類におけるARGEWの性能についても検討する: node2vec with ARGEWは純粋なnode2vecより優れており、ハイパーパラメータに敏感ではない。 実際、トレーニング中にノードの特徴やラベル情報がなくても、教師付きGCNと同様の優れた結果が得られる。 最後に,argeewが一貫して機能する理由を,明確な構造的役割を持つ合成グラフを用いて説明する。

Representing nodes in a network as dense vectors node embeddings is important for understanding a given network and solving many downstream tasks. In particular, for weighted homophilous graphs where similar nodes are connected with larger edge weights, we desire node embeddings where node pairs with strong weights have closer embeddings. Although random walk based node embedding methods like node2vec and node2vec+ do work for weighted networks via including edge weights in the walk transition probabilities, our experiments show that the embedding result does not adequately reflect edge weights. In this paper, we propose ARGEW (Augmentation of Random walks by Graph Edge Weights), a novel augmentation method for random walks that expands the corpus in such a way that nodes with larger edge weights end up with closer embeddings. ARGEW can work with any random walk based node embedding method, because it is independent of the random sampling strategy itself and works on top of the already-performed walks. With several real-world networks, we demonstrate that with ARGEW, compared to not using it, the desired pattern that node pairs with larger edge weights have closer embeddings is much clearer. We also examine ARGEW's performance in node classification: node2vec with ARGEW outperforms pure node2vec and is not sensitive to hyperparameters (i.e. consistently good). In fact, it achieves similarly good results as supervised GCN, even without any node feature or label information during training. Finally, we explain why ARGEW works consistently well by exploring the coappearance distributions using a synthetic graph with clear structural roles.
翻訳日:2023-08-14 15:06:31 公開日:2023-08-11
# 不確実性を考慮したスケッチ型3次元形状検索用クロスモーダル転送ネットワーク

Uncertainty-Aware Cross-Modal Transfer Network for Sketch-Based 3D Shape Retrieval ( http://arxiv.org/abs/2308.05948v1 )

ライセンス: Link先を確認
Yiyang Cai, Jiaming Lu, Jiewen Wang, Shuang Liang(参考訳) 近年,スケッチに基づく3次元形状検索が注目されている。 従来,手描きスケッチと3次元形状のクロスモーダルマッチングに焦点が当てられていたが,スケッチデータの低品質でノイズの多いサンプルをどう扱うかという重要な問題は無視されてきた。 本稿では,この問題に対処する不確実性を考慮したクロスモーダルトランスファーネットワーク(UACTN)を提案する。 UACTNはスケッチと3D形状の表現学習を、分類に基づくスケッチの不確実性学習と3D形状の特徴伝達という2つのタスクに分離する。 まず,スケッチの特徴と不確実性を同時に学習し,クリーンでノイズの多いスケッチに異なるレベルの重要度を割り当てることで,ノイズの多いスケッチが過度に収まらないようにする。 そして、3D形状特徴を予め学習したスケッチ埋め込み空間にマッピングして特徴アライメントを行う。 2つのベンチマークの大規模な実験とアブレーション研究により,提案手法が最先端手法よりも優れていることを示す。

In recent years, sketch-based 3D shape retrieval has attracted growing attention. While many previous studies have focused on cross-modal matching between hand-drawn sketches and 3D shapes, the critical issue of how to handle low-quality and noisy samples in sketch data has been largely neglected. This paper presents an uncertainty-aware cross-modal transfer network (UACTN) that addresses this issue. UACTN decouples the representation learning of sketches and 3D shapes into two separate tasks: classification-based sketch uncertainty learning and 3D shape feature transfer. We first introduce an end-to-end classification-based approach that simultaneously learns sketch features and uncertainty, allowing uncertainty to prevent overfitting noisy sketches by assigning different levels of importance to clean and noisy sketches. Then, 3D shape features are mapped into the pre-learned sketch embedding space for feature alignment. Extensive experiments and ablation studies on two benchmarks demonstrate the superiority of our proposed method compared to state-of-the-art methods.
翻訳日:2023-08-14 15:05:22 公開日:2023-08-11
# FoodSAM: あらゆる食品セグメンテーション

FoodSAM: Any Food Segmentation ( http://arxiv.org/abs/2308.05938v1 )

ライセンス: Link先を確認
Xing Lan, Jiayi Lyu, Hanyu Jiang, Kun Dong, Zehai Niu, Yi Zhang, Jian Xue(参考訳) 本稿では,食品画像セグメンテーションのためのSegment Anything Model(SAM)のゼロショット機能について検討する。 SAM生成マスクにおけるクラス固有の情報の欠如に対処するため,FoodSAMと呼ばれる新しいフレームワークを提案する。 この革新的なアプローチは、セマンティックセグメンテーションの品質を高めるために、粗いセマンティックマスクとSAM生成マスクを統合する。 さらに,食品中の成分が独立した個人として考えられることも認識し,食品画像のインスタンスセグメンテーションを行う動機となった。 さらに、FoodSAMはゼロショット機能を拡張して、オブジェクト検出器を組み込むことで、非フードオブジェクト情報を効果的にキャプチャする。 また, プロンプト可能なセグメンテーションの成功からインスピレーションを得て, プロンプト可能なセグメンテーションへと拡張し, 様々なプロンプト変種をサポートする。 その結果、FoodSAMは、食品を多レベルの粒度で分断できる全アクセスソリューションとして出現する。 注目すべきは、この先駆的なフレームワークは、食品画像の例、パノプティクス、そして迅速なセグメンテーションを達成するための最初の作業である。 食品画像セグメンテーションの領域において、SAMの可能性は顕著で影響力のあるツールとして検証されている。 コードをhttps://github.com/jamesjg/FoodSAMでリリースします。

In this paper, we explore the zero-shot capability of the Segment Anything Model (SAM) for food image segmentation. To address the lack of class-specific information in SAM-generated masks, we propose a novel framework, called FoodSAM. This innovative approach integrates the coarse semantic mask with SAM-generated masks to enhance semantic segmentation quality. Besides, we recognize that the ingredients in food can be supposed as independent individuals, which motivated us to perform instance segmentation on food images. Furthermore, FoodSAM extends its zero-shot capability to encompass panoptic segmentation by incorporating an object detector, which renders FoodSAM to effectively capture non-food object information. Drawing inspiration from the recent success of promptable segmentation, we also extend FoodSAM to promptable segmentation, supporting various prompt variants. Consequently, FoodSAM emerges as an all-encompassing solution capable of segmenting food items at multiple levels of granularity. Remarkably, this pioneering framework stands as the first-ever work to achieve instance, panoptic, and promptable segmentation on food images. Extensive experiments demonstrate the feasibility and impressing performance of FoodSAM, validating SAM's potential as a prominent and influential tool within the domain of food image segmentation. We release our code at https://github.com/jamesjg/FoodSAM.
翻訳日:2023-08-14 15:04:50 公開日:2023-08-11
# サーバーレス機能のインテリジェント自動スケーリングのための深部繰り返し強化学習法

A Deep Recurrent-Reinforcement Learning Method for Intelligent AutoScaling of Serverless Functions ( http://arxiv.org/abs/2308.05937v1 )

ライセンス: Link先を確認
Siddharth Agarwal, Maria A. Rodriguez and Rajkumar Buyya(参考訳) FaaS(Function-as-a-Service)は、IoTエッジデータ処理や異常検出といったアプリケーションにその関連性を見出す、軽量な関数ベースのクラウド実行モデルである。 CSPは、ほぼ無限の機能弾力性を提供するが、これらのアプリケーションは、変動するワークロードと厳格なパフォーマンス制約を経験することが多い。 典型的なCSP戦略は、要求とパフォーマンスに対処するために、CPUやメモリなどの監視ベースのしきい値に基づいて、所望の関数インスタンス"オートスケーリング"を経験的に決定し、調整することである。 しかし、しきい値の設定には専門家の知識、履歴データ、あるいは環境の完全なビューが必要であるため、適応可能なソリューションが欠如しているパフォーマンスボトルネックをオートスケーリングすることで、複雑なクラウド環境の分析にRLアルゴリズムが有用であることが証明され、その結果、期待される目標を最大化する適応可能なポリシーがもたらされる。 ほとんどの現実的なクラウド環境は運用上の干渉を伴い、可視性が制限され、部分的に観測可能である。 高ダイナミックな環境で観測可能性に取り組むための一般的な解決策は、リカレントユニットをモデルのないRLアルゴリズムと統合し、決定過程をPOMDPとしてモデル化することである。 そこで本研究では,関数自動スケーリングのためのモデルフリーリカレントrlエージェントについて検討し,モデルフリーの近近方最適化 (ppo) アルゴリズムと比較する。 我々は,lstmネットワークと最先端ppoアルゴリズムの統合について検討し,実験および評価環境では,リカレントポリシが環境パラメータをキャプチャし,機能自動スケーリングに有望な結果を示すことができることを確認した。 さらに,ppoベースのオートスケーリングエージェントと市販のしきい値ベースのオートスケーリングを比較し,lstmベースのオートスケーリングエージェントがスループットを18%向上し,関数の実行を13%,関数インスタンスを8.4%向上できることを示す。

Function-as-a-Service (FaaS) introduces a lightweight, function-based cloud execution model that finds its relevance in applications like IoT-edge data processing and anomaly detection. While CSP offer a near-infinite function elasticity, these applications often experience fluctuating workloads and stricter performance constraints. A typical CSP strategy is to empirically determine and adjust desired function instances, "autoscaling", based on monitoring-based thresholds such as CPU or memory, to cope with demand and performance. However, threshold configuration either requires expert knowledge, historical data or a complete view of environment, making autoscaling a performance bottleneck lacking an adaptable solution.RL algorithms are proven to be beneficial in analysing complex cloud environments and result in an adaptable policy that maximizes the expected objectives. Most realistic cloud environments usually involve operational interference and have limited visibility, making them partially observable. A general solution to tackle observability in highly dynamic settings is to integrate Recurrent units with model-free RL algorithms and model a decision process as a POMDP. Therefore, in this paper, we investigate a model-free Recurrent RL agent for function autoscaling and compare it against the model-free Proximal Policy Optimisation (PPO) algorithm. We explore the integration of a LSTM network with the state-of-the-art PPO algorithm to find that under our experimental and evaluation settings, recurrent policies were able to capture the environment parameters and show promising results for function autoscaling. We further compare a PPO-based autoscaling agent with commercially used threshold-based function autoscaling and posit that a LSTM-based autoscaling agent is able to improve throughput by 18%, function execution by 13% and account for 8.4% more function instances.
翻訳日:2023-08-14 15:04:27 公開日:2023-08-11
# littlemu: 異種ソースによるオンライン仮想学習アシスタントの展開と指導プロンプトの連鎖

LittleMu: Deploying an Online Virtual Teaching Assistant via Heterogeneous Sources Integration and Chain of Teach Prompts ( http://arxiv.org/abs/2308.05935v1 )

ライセンス: Link先を確認
Shangqing Tu, Zheyuan Zhang, Jifan Yu, Chunyang Li, Siyu Zhang, Zijun Yao, Lei Hou, Juanzi Li(参考訳) 教師は教育の長い歴史において重要な役割を担ってきた。 しかし、現実世界のオンライン教育シナリオの複雑さとトレーニングデータの欠如により、大規模なオンライン学生の学習を支援するための人間または仮想的な教育アシスタントを提供しているMOOCプラットフォームはほとんどない。 本稿では,最小ラベル付きトレーニングデータを用いた仮想MOOC学習アシスタントLittleMuを提案し,質問応答とチャットサービスを提供する。 ヘテロジニアス検索と言語モデルによる2つのインタラクティブなモジュールで構成され、LittleMuはまず構造的、半構造的、非構造的な知識ソースを統合し、幅広い質問に対する正確な回答をサポートする。 次に,「教育の連鎖」と呼ばれる繊細な実演をデザインし,大規模事前学習モデルを用いて複雑な未解決質問を処理する。 質問応答以外は,知識接地型チップチャットなど他の教育サービスを開発する。 オフライン評価とオンラインデプロイメントの両方を通じて,システムのパフォーマンスをテストします。 2020年5月以降、私たちのLittleMuシステムは、XuetangX MOOCプラットフォーム上の500以上のコースから、80,000以上のユーザに対して30万以上のクエリを提供しています。 私たちのコード、サービス、データセットはhttps://github.com/thu-keg/vtaで利用可能です。

Teaching assistants have played essential roles in the long history of education. However, few MOOC platforms are providing human or virtual teaching assistants to support learning for massive online students due to the complexity of real-world online education scenarios and the lack of training data. In this paper, we present a virtual MOOC teaching assistant, LittleMu with minimum labeled training data, to provide question answering and chit-chat services. Consisting of two interactive modules of heterogeneous retrieval and language model prompting, LittleMu first integrates structural, semi- and unstructured knowledge sources to support accurate answers for a wide range of questions. Then, we design delicate demonstrations named "Chain of Teach" prompts to exploit the large-scale pre-trained model to handle complex uncollected questions. Except for question answering, we develop other educational services such as knowledge-grounded chit-chat. We test the system's performance via both offline evaluation and online deployment. Since May 2020, our LittleMu system has served over 80,000 users with over 300,000 queries from over 500 courses on XuetangX MOOC platform, which continuously contributes to a more convenient and fair education. Our code, services, and dataset will be available at https://github.com/THU-KEG/VTA.
翻訳日:2023-08-14 15:03:53 公開日:2023-08-11
# 実世界シナリオにおけるイベントベース動作の一般化

Generalizing Event-Based Motion Deblurring in Real-World Scenarios ( http://arxiv.org/abs/2308.05932v1 )

ライセンス: Link先を確認
Xiang Zhang, Lei Yu, Wen Yang, Jianzhuang Liu, Gui-Song Xia(参考訳) イベントベースの動作遅延は、低レイテンシイベントを活用することで有望な結果を示している。 しかし、現在のアプローチは、入力の空間分解能と特定のぼやけ度分布を仮定するため、実用的には限られている。 この研究はこれらの制限に対処し、現実世界のシナリオにおけるイベントベースのデブロアリングのパフォーマンスを一般化することを目的としている。 本稿では,フレキシブルな入力空間スケールを可能にし,動きのぼやきの時間スケールから学習できるスケールアウェアネットワークを提案する。 次に,実世界のデータ分布に適合する2段階の自己教師付き学習方式を開発した。 ぼかしの相対性を利用して, 潜像の輝度と構造を効率よく再現し, 脱毛性能を一般化し, 様々な空間的, 時間的動きのぼかしスケールを自己蒸留的に処理する。 提案手法は広範に評価され,顕著な性能を示すとともに,複数スケールのぼやけたフレームとイベントからなる実世界のデータセットを導入し,イベントベースの劣化の研究を容易にする。

Event-based motion deblurring has shown promising results by exploiting low-latency events. However, current approaches are limited in their practical usage, as they assume the same spatial resolution of inputs and specific blurriness distributions. This work addresses these limitations and aims to generalize the performance of event-based deblurring in real-world scenarios. We propose a scale-aware network that allows flexible input spatial scales and enables learning from different temporal scales of motion blur. A two-stage self-supervised learning scheme is then developed to fit real-world data distribution. By utilizing the relativity of blurriness, our approach efficiently ensures the restored brightness and structure of latent images and further generalizes deblurring performance to handle varying spatial and temporal scales of motion blur in a self-distillation manner. Our method is extensively evaluated, demonstrating remarkable performance, and we also introduce a real-world dataset consisting of multi-scale blurry frames and events to facilitate research in event-based deblurring.
翻訳日:2023-08-14 15:03:28 公開日:2023-08-11
# INR-Arch:入射ニューラル表現処理における任意次勾配計算のためのデータフローアーキテクチャとコンパイラ

INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing ( http://arxiv.org/abs/2308.05930v1 )

ライセンス: Link先を確認
Stefan Abi-Karam, Rishov Sarkar, Dejia Xu, Zhiwen Fan, Zhangyang Wang, Cong Hao(参考訳) 多くの研究者が、グラフィックス、メタラーニング(maml)、科学計算、そして最近では暗黙的神経表現(inr)など、幅広い応用において、n次勾配計算の利用を見出している。 最近の研究は、INRの勾配を使って直接表現するデータを個別の表現に戻すことなく編集できることを示している。 しかし、計算グラフとして表される関数を考えると、従来のアーキテクチャは計算能力の増大とデータ移動の複雑さの増大により、n階勾配を効率的に計算する上で困難に直面している。 これによりFPGAアクセラレーションの有望なターゲットとなる。 本研究では,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークであるINR-Archを紹介する。 この問題を2段階に分けて解決する。 まず,fifoストリームと最適化された計算カーネルライブラリを用いたデータフローアーキテクチャを設計し,高いメモリ効率と並列計算を実現する。 第2に,計算グラフを抽出・最適化し,遅延やストリーム深さなどのハードウェアパラメータを自動的に設定してスループットを最適化し,デッドロックフリーな動作を保証し,fpga実装のための高レベル合成(hls)コードを出力するコンパイラを提案する。 InR編集をベンチマークとして使用し,CPUおよびGPUベースラインと比較して1.8-4.8xと1.5-3.6xの高速化を示した。 さらに, 3.1-8.9x と 1.7-4.3x のメモリ使用量, 1.7-11.3x と 5.5-32.8x の省エネルギー製品を得る。 私たちのフレームワークはオープンソースにされ、githubで利用可能になります。

An increasing number of researchers are finding use for nth-order gradient computations for a wide variety of applications, including graphics, meta-learning (MAML), scientific computing, and most recently, implicit neural representations (INRs). Recent work shows that the gradient of an INR can be used to edit the data it represents directly without needing to convert it back to a discrete representation. However, given a function represented as a computation graph, traditional architectures face challenges in efficiently computing its nth-order gradient due to the higher demand for computing power and higher complexity in data movement. This makes it a promising target for FPGA acceleration. In this work, we introduce INR-Arch, a framework that transforms the computation graph of an nth-order gradient into a hardware-optimized dataflow architecture. We address this problem in two phases. First, we design a dataflow architecture that uses FIFO streams and an optimized computation kernel library, ensuring high memory efficiency and parallel computation. Second, we propose a compiler that extracts and optimizes computation graphs, automatically configures hardware parameters such as latency and stream depths to optimize throughput, while ensuring deadlock-free operation, and outputs High-Level Synthesis (HLS) code for FPGA implementation. We utilize INR editing as our benchmark, presenting results that demonstrate 1.8-4.8x and 1.5-3.6x speedup compared to CPU and GPU baselines respectively. Furthermore, we obtain 3.1-8.9x and 1.7-4.3x lower memory usage, and 1.7-11.3x and 5.5-32.8x lower energy-delay product. Our framework will be made open-source and available on GitHub.
翻訳日:2023-08-14 15:03:09 公開日:2023-08-11
# カー非線形誘起強スピン-マグノン結合

Kerr-Nonlinearity-Induced Strong Spin-Magnon Coupling ( http://arxiv.org/abs/2308.05927v1 )

ライセンス: Link先を確認
Feng-Zhou Ji, Jun-Hong An(参考訳) 量子マグノニクスの柱の1つは、異なるプラットフォームにおけるマグノンの媒介の役割を利用して量子技術を開発することである。 マグノンと様々な量子実体の効率的な結合は前提条件である。 本稿では,YIG球面におけるマグノンカーの非線形性によるスピン-マグノン結合の促進手法を提案する。 また,kerr強化スピン-マグノンカップリングにより,広範に使用されるシングルキッテルモード近似が無効となることがわかった。 強結合系におけるマルチモードマグノンによるスピン非干渉は深刻ではないが、個体群トラップまたは持続ラビ様振動として現れることを抑制した。 この異常な効果は、スピンの変化がマグノンと組み合わされ、その間に1つまたは2つの境界状態が形成されるためである。 スピン-マグノン結合物理学の強化により、スピン-マグノン界面を制御するためのガイドラインが提供される。

One pillar of quantum magnonics is to explore the utilization of mediation role of magnons in different platforms to develop quantum technologies. The efficient coupling between magnons and various quantum entities is a prerequisite. Here, we propose a scheme to enhance the spin-magnon coupling by the magnonic Kerr nonlinearity in a YIG sphere. We find that the Kerr enhanced spin-magnon coupling invalidates the widely used single-Kittel-mode approximation to magnons. It is revealed that the spin decoherence induced by the multi-mode magnons in the strong-coupling regime becomes not severe, but suppressed manifesting as either population trapping or persistent Rabi-like oscillation. This anomalous effect is due to that the spin changes to be so hybridized with the magnons that one or two bound states are formed between them. Enriching the spin-magnon coupling physics, the result supplies a guideline to control the spin-magnon interface.
翻訳日:2023-08-14 15:02:37 公開日:2023-08-11
# マルチエージェント最適化解の対比的説明

Contrastive Explanations of Multi-agent Optimization Solutions ( http://arxiv.org/abs/2308.05984v1 )

ライセンス: Link先を確認
Parisa Zehtabi, Alberto Pozanco, Ayala Bloch, Daniel Borrajo, Sarit Kraus(参考訳) 多くの現実世界のシナリオでは、エージェントが最適化問題に関与している。 これらのシナリオの多くは過制約であるため、最適解は常に全てのエージェントを満たすとは限らない。 エージェントの中には、なぜ$S$がプロパティ$P$?'を満たさないのかという形式の質問をするものもある。 本稿では,ドメインに依存しない手法であるMaoEを提案する。 (i) プロパティ $p$ が強制される新しいソリューション $s^\prime$ を生成すると同時に、$s$ と $s^\prime$ の違いを最小化する。 (二)二つの解の相違を強調すること。 このような説明は、エージェントが当初のソリューションが期待よりも優れている理由を理解するのに役立つ。 我々は,maoeが大規模マルチエージェント最適化問題に対してコントラスト的説明を生成できることを示す計算評価を行った。 また,4つの異なる領域で広範なユーザ調査を行い,これらの説明を提示すると,そのソリューションに対する人間の満足度が増加することを示した。

In many real-world scenarios, agents are involved in optimization problems. Since most of these scenarios are over-constrained, optimal solutions do not always satisfy all agents. Some agents might be unhappy and ask questions of the form ``Why does solution $S$ not satisfy property $P$?''. In this paper, we propose MAoE, a domain-independent approach to obtain contrastive explanations by (i) generating a new solution $S^\prime$ where the property $P$ is enforced, while also minimizing the differences between $S$ and $S^\prime$; and (ii) highlighting the differences between the two solutions. Such explanations aim to help agents understanding why the initial solution is better than what they expected. We have carried out a computational evaluation that shows that MAoE can generate contrastive explanations for large multi-agent optimization problems. We have also performed an extensive user study in four different domains that shows that, after being presented with these explanations, humans' satisfaction with the original solution increases.
翻訳日:2023-08-14 14:56:55 公開日:2023-08-11
# 周波数制限されたアイデンティティ非依存攻撃による顔暗号化

Face Encryption via Frequency-Restricted Identity-Agnostic Attacks ( http://arxiv.org/abs/2308.05983v1 )

ライセンス: Link先を確認
Xin Dong, Rui Wang, Siyuan Liang, Aishan Liu, Lihua Jing(参考訳) 何十億という人々が毎日、ソーシャルメディアでライブ画像を共有している。 しかし、悪意のあるコレクターは、深層顔認識システムを使用して、これらの画像から生体情報(例えば顔)を容易に盗む。 顔情報漏洩を減らすために、知覚不能な摂動を導入することで、敵対的な攻撃を用いて暗号化された顔写真を生成する研究が行われている。 しかし、既存の研究は、より強力なブラックボックスシナリオの実現可能性と、より自然な視覚的な外観を必要としており、プライバシー保護の可能性に挑戦している。 これらの問題に対処するために,個人情報にアクセスせずに顔画像の暗号化を行う周波数制限付きアイデンティティ非依存(fria)フレームワークを提案する。 弱いブラックボックスシナリオの実現可能性については、複数の顔認識モデルにおける平均特徴の表現が類似していることに逆らって、インターネットからクロールしたデータセットを通じて平均特徴をターゲットとして利用し、未知の顔認識システムの同一性にも依存せず、人間の視覚システムによってより視覚的に知覚される低周波摂動について述べる。 これにより,低周波顔面領域の摂動を離散コサイン変換によって制限し,視覚的自然性を保証する。 複数の顔認識モデルを用いた広範囲な実験により,本手法は,高いブラックボックス攻撃成功率を96%としつつ,より自然な暗号化顔生成において,他の最先端手法よりも優れていることが示された。 さらに,実世界のブラックボックス商用APIを用いてFRIAの有効性を検証する。 私たちのコードはhttps://github.com/XinDong10/FRIAで確認できます。

Billions of people are sharing their daily live images on social media everyday. However, malicious collectors use deep face recognition systems to easily steal their biometric information (e.g., faces) from these images. Some studies are being conducted to generate encrypted face photos using adversarial attacks by introducing imperceptible perturbations to reduce face information leakage. However, existing studies need stronger black-box scenario feasibility and more natural visual appearances, which challenge the feasibility of privacy protection. To address these problems, we propose a frequency-restricted identity-agnostic (FRIA) framework to encrypt face images from unauthorized face recognition without access to personal information. As for the weak black-box scenario feasibility, we obverse that representations of the average feature in multiple face recognition models are similar, thus we propose to utilize the average feature via the crawled dataset from the Internet as the target to guide the generation, which is also agnostic to identities of unknown face recognition systems; in nature, the low-frequency perturbations are more visually perceptible by the human vision system. Inspired by this, we restrict the perturbation in the low-frequency facial regions by discrete cosine transform to achieve the visual naturalness guarantee. Extensive experiments on several face recognition models demonstrate that our FRIA outperforms other state-of-the-art methods in generating more natural encrypted faces while attaining high black-box attack success rates of 96%. In addition, we validate the efficacy of FRIA using real-world black-box commercial API, which reveals the potential of FRIA in practice. Our codes can be found in https://github.com/XinDong10/FRIA.
翻訳日:2023-08-14 14:56:41 公開日:2023-08-11
# CyberForce: マルウェア除去のためのフェデレーション強化学習フレームワーク

CyberForce: A Federated Reinforcement Learning Framework for Malware Mitigation ( http://arxiv.org/abs/2308.05978v1 )

ライセンス: Link先を確認
Chao Feng, Alberto Huertas Celdran, Pedro Miguel Sanchez Sanchez, Jan Kreischer, Jan von der Assen, Gerome Bovet, Gregorio Martinez Perez, Burkhard Stiller(参考訳) IoT(Internet-of-Things)パラダイムの拡張は避けられないが、IoTデバイスのマルウェアインシデントに対する脆弱性が懸念されている。 近年の研究では、強化学習と移動目標防衛(MTD)機構の統合により、IoTデバイスにおけるサイバーセキュリティが向上することが示されている。 それでも、多数の新しいマルウェア攻撃と、エージェントがMTDテクニックを学習し、選択するのに要する時間によって、このアプローチは現実のIoTシナリオでは現実的ではない。 この問題に対処するために,フェデレート強化学習(FRL)を用いて,多様なゼロデイ攻撃を緩和するためのMTDテクニックを集合的かつプライベートに決定するCyberForceを提案する。 CyberForceはデバイスフィンガープリントと異常検出を統合して、FRLベースのエージェントによって選択されたMTDメカニズムを報酬または罰する。 このフレームワークは、実際のIoTプラットフォームの10のデバイスで構成されるフェデレーションで評価されている。 デバイスに影響を与える6つのマルウェアサンプルによる実験のプールは、CyberForceが最適なMTD緩和戦略を正確に学習できることを実証している。 全てのクライアントが全ての攻撃に影響を受ける場合、FRLエージェントは集中RLエージェントと比較して高精度で訓練時間を短縮する。 異なるクライアントが異なる攻撃を受けた場合、CyberForceクライアントは他のクライアントからの知識の転送と同様の攻撃行動によって利益を得る。 さらにcyberforceは、データ中毒攻撃に対する顕著な堅牢性を示している。

The expansion of the Internet-of-Things (IoT) paradigm is inevitable, but vulnerabilities of IoT devices to malware incidents have become an increasing concern. Recent research has shown that the integration of Reinforcement Learning with Moving Target Defense (MTD) mechanisms can enhance cybersecurity in IoT devices. Nevertheless, the numerous new malware attacks and the time that agents take to learn and select effective MTD techniques make this approach impractical for real-world IoT scenarios. To tackle this issue, this work presents CyberForce, a framework that employs Federated Reinforcement Learning (FRL) to collectively and privately determine suitable MTD techniques for mitigating diverse zero-day attacks. CyberForce integrates device fingerprinting and anomaly detection to reward or penalize MTD mechanisms chosen by an FRL-based agent. The framework has been evaluated in a federation consisting of ten devices of a real IoT platform. A pool of experiments with six malware samples affecting the devices has demonstrated that CyberForce can precisely learn optimum MTD mitigation strategies. When all clients are affected by all attacks, the FRL agent exhibits high accuracy and reduced training time when compared to a centralized RL agent. In cases where different clients experience distinct attacks, the CyberForce clients gain benefits through the transfer of knowledge from other clients and similar attack behavior. Additionally, CyberForce showcases notable robustness against data poisoning attacks.
翻訳日:2023-08-14 14:56:11 公開日:2023-08-11
# ゼロショットテキスト駆動物理的解釈可能な顔編集

Zero-shot Text-driven Physically Interpretable Face Editing ( http://arxiv.org/abs/2308.05976v1 )

ライセンス: Link先を確認
Yapeng Meng, Songru Yang, Xu Hu, Rui Zhao, Lincheng Li, Zhenwei Shi, Zhengxia Zou(参考訳) 本稿では,任意のテキストプロンプトに基づく顔編集のための新規かつ物理的に解釈可能な手法を提案する。 画像操作を逆拡散過程としてモデル化する拡散法やGANの潜伏空間を操作する従来のGAN反転型顔編集法と異なり、顔編集処理は顔画像にベクトルフロー場を付与し、各画像画素の空間座標と色をオフセットとして表現する。 上記のパラダイムの下で、ベクトルフロー場を2つの方法で表現する。 1)ラスタ化テンソルを伴う流れベクトルを明示的に表現し, 2)近年の暗黙的神経表現の進歩を活用して,流れベクトルを連続的,滑らかで,解像度に依存しないニューラルネットワークとして暗黙的にパラメータ化する。 フローベクトルは、編集された画像とテキストプロンプトの相関を最大化することにより、事前訓練されたContrastive Language-Image Pretraining~(CLIP)モデルのガイダンスの下で反復的に最適化される。 また,任意のテキストプロンプト入力に高速かつ適応可能な,学習ベースのワンショット顔編集フレームワークを提案する。 本手法は,リアルタイムの映像編集にも柔軟に拡張できる。 本手法は,最先端のテキスト駆動顔編集法と比較し,身体的に解釈可能な顔編集結果を生成することができる。 私たちのコードは公開されます。

This paper proposes a novel and physically interpretable method for face editing based on arbitrary text prompts. Different from previous GAN-inversion-based face editing methods that manipulate the latent space of GANs, or diffusion-based methods that model image manipulation as a reverse diffusion process, we regard the face editing process as imposing vector flow fields on face images, representing the offset of spatial coordinates and color for each image pixel. Under the above-proposed paradigm, we represent the vector flow field in two ways: 1) explicitly represent the flow vectors with rasterized tensors, and 2) implicitly parameterize the flow vectors as continuous, smooth, and resolution-agnostic neural fields, by leveraging the recent advances of implicit neural representations. The flow vectors are iteratively optimized under the guidance of the pre-trained Contrastive Language-Image Pretraining~(CLIP) model by maximizing the correlation between the edited image and the text prompt. We also propose a learning-based one-shot face editing framework, which is fast and adaptable to any text prompt input. Our method can also be flexibly extended to real-time video face editing. Compared with state-of-the-art text-driven face editing methods, our method can generate physically interpretable face editing results with high identity consistency and image quality. Our code will be made publicly available.
翻訳日:2023-08-14 14:55:48 公開日:2023-08-11
# 転送学習を用いたビタビアルゴリズムを用いたツイート感情抽出

Tweet Sentiment Extraction using Viterbi Algorithm with Transfer Learning ( http://arxiv.org/abs/2308.05973v1 )

ライセンス: Link先を確認
Zied Baklouti (UPCit\'e, ENIT)(参考訳) ツイート感情抽出は文の最も重要な部分を抽出し、感情が肯定的か否定的であるかを決定する。 本研究の目的は、感情を打つツイート文の一部を特定することである。 この目的を達成するため、著者が以前に修正したビタビアルゴリズムを改良し、事前学習したモデルパラメータを受信できるようにする。 最終結果を評価する前に,信頼度スコアとベクトルを,内部でモデルを評価する2つの指標として導入する。 次に,この非パラメトリックモデルを微調整する手法を提案する。 信頼度スコアベクトルは、予測された最も信頼度の低い状態が正確に示され、修正が承認された場合、信頼度スコアが改善された場合、あるいはチューニングが間違った方向に進んでいる場合、モデルが説明可能であることが判明した。

Tweet sentiment extraction extracts the most significant portion of the sentence, determining whether the sentiment is positive or negative. This research aims to identify the part of tweet sentences that strikes any emotion. To reach this objective, we continue improving the Viterbi algorithm previously modified by the author to make it able to receive pre-trained model parameters. We introduce the confidence score and vector as two indicators responsible for evaluating the model internally before assessing the final results. We then present a method to fine-tune this nonparametric model. We found that the model gets highly explainable as the confidence score vector reveals precisely where the least confidence predicted states are and if the modifications approved ameliorate the confidence score or if the tuning is going in the wrong direction.
翻訳日:2023-08-14 14:55:25 公開日:2023-08-11
# 焦点を絞った特定のオブジェクト nerf

Focused Specific Objects NeRF ( http://arxiv.org/abs/2308.05970v1 )

ライセンス: Link先を確認
Yuesong Li, Feng Pan, Helong Yan, Xiuli Xin, Xiaoxue Feng(参考訳) ほとんどのNeRFベースのモデルはシーン全体を学習するために設計されており、複雑なシーンはより長い学習時間とより低いレンダリング効果をもたらす可能性がある。 本稿では,シーンセマンティクスプリエントを利用して高速トレーニングの改善を行い,ネットワークが複雑な背景の影響を受けず,特定のターゲットに集中できるようにする。 トレーニング速度は7.78倍に向上し、レンダリング効果が向上し、小型から中型のターゲットを高速にレンダリングすることができる。 さらに、この改良はすべてのNeRFベースのモデルに適用できる。 また、NeRFの多面的一貫性と滑らかさを考慮し、陰極線サンプルをスパースサンプリングして弱い監視を行う。 この方法ではさらにトレーニングを加速し、レンダリング品質を維持することができる。 最後に,画素のセマンティックとカラーレンダリングを拡張し,特定のセマンティックなターゲットのユニークな表示やレンダリングのマスキングが可能なシーン編集手法を提案する。 現場における不正な推論の問題に対処するために,形態的操作とクラスタリングを組み合わせた自己教師付きループを設計した。

Most NeRF-based models are designed for learning the entire scene, and complex scenes can lead to longer learning times and poorer rendering effects. This paper utilizes scene semantic priors to make improvements in fast training, allowing the network to focus on the specific targets and not be affected by complex backgrounds. The training speed can be increased by 7.78 times with better rendering effect, and small to medium sized targets can be rendered faster. In addition, this improvement applies to all NeRF-based models. Considering the inherent multi-view consistency and smoothness of NeRF, this paper also studies weak supervision by sparsely sampling negative ray samples. With this method, training can be further accelerated and rendering quality can be maintained. Finally, this paper extends pixel semantic and color rendering formulas and proposes a new scene editing technique that can achieve unique displays of the specific semantic targets or masking them in rendering. To address the problem of unsupervised regions incorrect inferences in the scene, we also designed a self-supervised loop that combines morphological operations and clustering.
翻訳日:2023-08-14 14:55:11 公開日:2023-08-11
# 高次HSICを用いたインクリメンタル情報を用いた非パラメトリックDAGの学習

Learning nonparametric DAGs with incremental information via high-order HSIC ( http://arxiv.org/abs/2308.05969v1 )

ライセンス: Link先を確認
Yafei Wang, Jianguo Liu(参考訳) ベイズサインネットワーク(bn)学習のためのスコアベース手法は、グローバルスコア関数を最大化することを目的としている。 しかし、局所変数が直接依存と間接依存を同時に持つ場合、スコア関数のグローバル最適化は間接依存関係を持つ変数間のエッジを見逃し、そのスコアは直接依存関係を持つ変数よりも小さい。 本稿では,DAGを同定するために,親の判断したサブセットに基づく識別可能性条件を提案する。 同定可能性条件により、グローバル最適化を局所的に修正する2相アルゴリズム、すなわち最適チューニング(OT)アルゴリズムを開発する。 最適位相において、一階ヒルベルト・シュミット独立基準(hsic)に基づく最適化問題は、初期決定親部分集合として推定骨格を与える。 チューニングフェーズでは、高次HSICの理論的に証明されたインクリメンタル特性を用いて、骨格は削除、追加、DAG形式化戦略によって局所的に調整される。 異なる合成データセットと実世界のデータセットの数値実験は、OTアルゴリズムが既存の手法より優れていることを示している。 特に、グラフのサイズが${\rm\bf d=40}$のsgmoid mixモデルでは、otアルゴリズムの構造介入距離(sid)はcamで得られるグラフよりも329.7小さいため、otアルゴリズムで推定されるグラフはcamに比べてエッジが小さいことを示している。

Score-based methods for learning Bayesain networks(BN) aim to maximizing the global score functions. However, if local variables have direct and indirect dependence simultaneously, the global optimization on score functions misses edges between variables with indirect dependent relationship, of which scores are smaller than those with direct dependent relationship. In this paper, we present an identifiability condition based on a determined subset of parents to identify the underlying DAG. By the identifiability condition, we develop a two-phase algorithm namely optimal-tuning (OT) algorithm to locally amend the global optimization. In the optimal phase, an optimization problem based on first-order Hilbert-Schmidt independence criterion (HSIC) gives an estimated skeleton as the initial determined parents subset. In the tuning phase, the skeleton is locally tuned by deletion, addition and DAG-formalization strategies using the theoretically proved incremental properties of high-order HSIC. Numerical experiments for different synthetic datasets and real-world datasets show that the OT algorithm outperforms existing methods. Especially in Sigmoid Mix model with the size of the graph being ${\rm\bf d=40}$, the structure intervention distance (SID) of the OT algorithm is 329.7 smaller than the one obtained by CAM, which indicates that the graph estimated by the OT algorithm misses fewer edges compared with CAM.
翻訳日:2023-08-14 14:54:52 公開日:2023-08-11
# YOLOrtho -- 歯列挙と歯科疾患検出のための統一フレームワーク

YOLOrtho -- A Unified Framework for Teeth Enumeration and Dental Disease Detection ( http://arxiv.org/abs/2308.05967v1 )

ライセンス: Link先を確認
Shenxiao Mei, Chenglong Ma, Feihong Shen, Huikai Wu(参考訳) パノラマX線画像による歯科疾患の検出は歯科医の標準的な処置である。 通常、歯科医は病気を識別し、感染した歯を見つける必要がある。 この2段階の手順を採用した多くの機械学習モデルが開発されているが、歯とその関連疾患を同時に識別できるエンドツーエンドモデルはない。 このギャップを埋めるために,歯列と歯疾患検出のための統合的な枠組みであるYOLOrthoを開発した。 我々は、3種類のアノテーション付きデータからなるdentex challenge 2023データに基づくモデルを開発した。 第1部は四角形、第2部は四角形、第3部は四角形、第3部は四角形、第2部は病形である。 検出をさらに改善するために、Tufts Dental公開データセットを利用する。 このデータを十分に活用し,同時に歯の発見と疾患の同定を学習するために,歯に付着する属性として疾患を定式化する。 歯列挙における位置関係の性質から,モデルのコンボリューション層をCoordConvに置き換えて,モデルにより多くの位置情報を提供する。 また、モデルアーキテクチャを調整し、FPNにもう1つのアップサンプリング層を挿入し、大きなオブジェクト検出に役立てる。 最後に,リニアサム割り当てに基づいて歯の列挙を補正する歯の配置の処理後戦略を提案する。 実験の結果,我々のモデルは拡散モデルを上回ることがわかった。

Detecting dental diseases through panoramic X-rays images is a standard procedure for dentists. Normally, a dentist need to identify diseases and find the infected teeth. While numerous machine learning models adopting this two-step procedure have been developed, there has not been an end-to-end model that can identify teeth and their associated diseases at the same time. To fill the gap, we develop YOLOrtho, a unified framework for teeth enumeration and dental disease detection. We develop our model on Dentex Challenge 2023 data, which consists of three distinct types of annotated data. The first part is labeled with quadrant, and the second part is labeled with quadrant and enumeration and the third part is labeled with quadrant, enumeration and disease. To further improve detection, we make use of Tufts Dental public dataset. To fully utilize the data and learn both teeth detection and disease identification simultaneously, we formulate diseases as attributes attached to their corresponding teeth. Due to the nature of position relation in teeth enumeration, We replace convolution layer with CoordConv in our model to provide more position information for the model. We also adjust the model architecture and insert one more upsampling layer in FPN in favor of large object detection. Finally, we propose a post-process strategy for teeth layout that corrects teeth enumeration based on linear sum assignment. Results from experiments show that our model exceeds large Diffusion-based model.
翻訳日:2023-08-14 14:54:28 公開日:2023-08-11
# ファンデーションモデルに基づくシステムの分散ガバナンス - 責任あるAIにおけるブロックチェーンの役割を探る

Decentralised Governance for Foundation Model based Systems: Exploring the Role of Blockchain in Responsible AI ( http://arxiv.org/abs/2308.05962v1 )

ライセンス: Link先を確認
Yue Liu, Qinghua Lu, Liming Zhu, Hye-Young Paik(参考訳) ファンデーションモデルは、その優れた能力と幅広いタスクを実行する可能性のために、世界中で関心を集めています。 それでも、ファンデーションモデルベースのAIシステムが、ファンデーションモデルベースのAIシステムの信頼性を確保するために適切に管理されているか、人間、社会、環境を傷つける可能性のある誤用を防ぐために、人々は懸念している。 本稿では,基本モデルに基づくAIシステムのライフサイクル全体において,決定権,インセンティブ,説明責任の3つの基本的な側面に関する8つのガバナンス課題を特定する。 さらに,分散ガバナンスを促進する分散型台帳を提供することによって,課題に対処するソリューションとしてのブロックチェーンの可能性についても検討する。 基礎モデルに基づくAIシステムにおいて,ブロックチェーンをどのように活用してガバナンスを実現するかを示すアーキテクチャを提案する。

Foundation models are increasingly attracting interest worldwide for their distinguished capabilities and potential to perform a wide variety of tasks. Nevertheless, people are concerned about whether foundation model based AI systems are properly governed to ensure trustworthiness of foundation model based AI systems and to prevent misuse that could harm humans, society and the environment. In this paper, we identify eight governance challenges in the entire lifecycle of foundation model based AI systems regarding the three fundamental dimensions of governance: decision rights, incentives, and accountability. Furthermore, we explore the potential of blockchain as a solution to address the challenges by providing a distributed ledger to facilitate decentralised governance. We present an architecture that demonstrates how blockchain can be leveraged to realise governance in foundation model based AI systems.
翻訳日:2023-08-14 14:54:07 公開日:2023-08-11
# トランスフォーマーを用いたヒューマンオブジェクトインタラクション検出における構成学習

Compositional Learning in Transformer-Based Human-Object Interaction Detection ( http://arxiv.org/abs/2308.05961v1 )

ライセンス: Link先を確認
Zikun Zhuang, Ruihao Qian, Chi Xie, Shuang Liang(参考訳) 人間と物体の相互作用(HOI)の検出は、人間の活動や視覚シーンを理解する上で重要な部分である。 ラベル付きインスタンスのロングテール分布はhoi検出の主要な課題であり、少数およびゼロショット学習の研究を促進する。 HOI三重奏の組合せ性に着想を得た既存手法では、対象と行動の特徴を個別に学習し、新たなトレーニングサンプルとして再構成する構成学習の考え方を採用している。 しかし,これらの手法は特徴抽出能力に制限があるCNNベースの2段階パラダイムに従っており,性能向上のために補助情報に依存することが多い。 追加情報を導入することなく,合成hoi学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。 ヒトと対象のペア表現と相互作用表現は、よりリッチな文脈情報を含むHOIインスタンス間で再構成され、知識の一般化を促進する。 実験により, 単純だが有効な手法は, 特に稀なHOIクラスにおいて, 最先端のパフォーマンスを達成することを示す。

Human-object interaction (HOI) detection is an important part of understanding human activities and visual scenes. The long-tailed distribution of labeled instances is a primary challenge in HOI detection, promoting research in few-shot and zero-shot learning. Inspired by the combinatorial nature of HOI triplets, some existing approaches adopt the idea of compositional learning, in which object and action features are learned individually and re-composed as new training samples. However, these methods follow the CNN-based two-stage paradigm with limited feature extraction ability, and often rely on auxiliary information for better performance. Without introducing any additional information, we creatively propose a transformer-based framework for compositional HOI learning. Human-object pair representations and interaction representations are re-composed across different HOI instances, which involves richer contextual information and promotes the generalization of knowledge. Experiments show our simple but effective method achieves state-of-the-art performance, especially on rare HOI classes.
翻訳日:2023-08-14 14:53:52 公開日:2023-08-11
# テレコムのための大規模言語モデル:産業への影響を推し進める

Large Language Models for Telecom: Forthcoming Impact on the Industry ( http://arxiv.org/abs/2308.06013v1 )

ライセンス: Link先を確認
Ali Maatouk, Nicola Piovesan, Fadhel Ayed, Antonio De Domenico, Merouane Debbah(参考訳) 大規模言語モデル(LLM)は、従来の自然言語処理(NLP)の領域を超えて多くの分野に革命をもたらし、前例のない注目を集めている。 LLM技術が発展を続けるにつれ、通信業界は、その景観に対する潜在的な影響に直面している。 これらの意味を解明するために、私たちはLLMの内部動作を掘り下げ、現在の能力と限界について洞察を与えます。 また、通信業界で容易に実装できるユースケースを調査し、現在運用効率を妨げる多くのタスクを合理化し、重要なマンパワーとエンジニアリングの専門知識を要求する。 さらに,通信分野におけるLCMの活用の難しさに対処する重要な研究の方向性を明らかにする。 これらの課題に対処することは、LLMの可能性をフル活用し、テレコム領域内でその能力を最大限に活用するための重要な一歩である。

Large Language Models (LLMs) have emerged as a transformative force, revolutionizing numerous fields well beyond the conventional domain of Natural Language Processing (NLP) and garnering unprecedented attention. As LLM technology continues to progress, the telecom industry is facing the prospect of its potential impact on its landscape. To elucidate these implications, we delve into the inner workings of LLMs, providing insights into their current capabilities and limitations. We also examine the use cases that can be readily implemented in the telecom industry, streamlining numerous tasks that currently hinder operational efficiency and demand significant manpower and engineering expertise. Furthermore, we uncover essential research directions that deal with the distinctive challenges of utilizing the LLMs within the telecom domain. Addressing these challenges represents a significant stride towards fully harnessing the potential of LLMs and unlocking their capabilities to the fullest extent within the telecom domain.
翻訳日:2023-08-14 14:47:06 公開日:2023-08-11
# ViGT: 変圧器で学習可能なトークンで提案不要のビデオグラウンド

ViGT: Proposal-free Video Grounding with Learnable Token in Transformer ( http://arxiv.org/abs/2308.06009v1 )

ライセンス: Link先を確認
Kun Li, Dan Guo, Meng Wang(参考訳) ビデオグラウンドディング(VG)タスクは、リッチな言語記述に基づく未編集ビデオにおいて、クエリされたアクションやイベントを特定することを目的としている。 既存の提案なしメソッドは、ビデオとクエリの間の複雑なインタラクションに閉じ込められ、クロスモーダル特徴の融合とvgの特徴相関を強調する。 本稿では,変圧器における回帰トークン学習を行う新しい境界回帰パラダイムを提案する。 特に,マルチモーダルやクロスモーダルではなく,学習可能なレグレッショントークンを用いて時間境界を予測できる,シンプルで効果的な提案不要なフレームワークであるVideo Grounding Transformer(ViGT)を提案する。 ViGTでは、学習可能なトークンの利点を次のように示す。 1) トークンはビデオやクエリとは無関係であり、元のビデオやクエリに対するデータのバイアスを回避する。 2) トークンはビデオとクエリ機能からグローバルなコンテキストアグリゲーションを同時に実行する。 まず,ビデオと問合せの両方を共同機能空間に投影する共有機能エンコーダを用いて,各モダリティにおける識別的特徴を強調するために,クロスモーダルなコアテンション(すなわち,ビデオ間注目とクエリ間注目)を行った。 さらに,視覚言語トランスフォーマの入力として,学習可能な回帰トークン [reg] とビデオとクエリの特徴を結合した。 最後に、トークン[REG]を用いて目標モーメントと視覚的特徴を予測し、各タイムスタンプにおける前景および背景確率を制約した。 提案されたViGTは、ANet Captions、TACoS、YouCookIIの3つのパブリックデータセットでうまく機能した。 広範囲にわたるアブレーション研究と定性的分析により、ViGTの解釈可能性はさらに検証された。

The video grounding (VG) task aims to locate the queried action or event in an untrimmed video based on rich linguistic descriptions. Existing proposal-free methods are trapped in complex interaction between video and query, overemphasizing cross-modal feature fusion and feature correlation for VG. In this paper, we propose a novel boundary regression paradigm that performs regression token learning in a transformer. Particularly, we present a simple but effective proposal-free framework, namely Video Grounding Transformer (ViGT), which predicts the temporal boundary using a learnable regression token rather than multi-modal or cross-modal features. In ViGT, the benefits of a learnable token are manifested as follows. (1) The token is unrelated to the video or the query and avoids data bias toward the original video and query. (2) The token simultaneously performs global context aggregation from video and query features. First, we employed a sharing feature encoder to project both video and query into a joint feature space before performing cross-modal co-attention (i.e., video-to-query attention and query-to-video attention) to highlight discriminative features in each modality. Furthermore, we concatenated a learnable regression token [REG] with the video and query features as the input of a vision-language transformer. Finally, we utilized the token [REG] to predict the target moment and visual features to constrain the foreground and background probabilities at each timestamp. The proposed ViGT performed well on three public datasets: ANet Captions, TACoS and YouCookII. Extensive ablation studies and qualitative analysis further validated the interpretability of ViGT.
翻訳日:2023-08-14 14:46:50 公開日:2023-08-11
# AI for Scienceには別のイメージネットが必要か? 機械学習力場の事例研究

Does AI for science need another ImageNet Or totally different benchmarks? A case study of machine learning force fields ( http://arxiv.org/abs/2308.05999v1 )

ライセンス: Link先を確認
Yatao Li, Wanling Gao, Lei Wang, Lixin Sun, Zun Wang, Jianfeng Zhan(参考訳) AI for Science(AI4S)は、機械学習手法を用いて科学計算タスクの精度とスピードを高めることを目的とした、新たな研究分野である。 従来のAIベンチマーク手法は、トレーニング、テスト、将来の現実世界のクエリが独立して同一に分散されていると仮定する一方で、AI4Sワークロードはアウト・オブ・ディストリビューションの問題インスタンスを予測しているため、AI4Sが引き起こすユニークな課題に適応するのに苦労する。 本稿では,機械学習力場(MLFF)を事例として,科学のためのAIを効果的にベンチマークするための新しいアプローチの必要性を検討する。 mlffは分子動力学(md)シミュレーションを低計算コストで高精度で高速化する手法である。 科学的に意味のあるベンチマークにおける様々な機会の欠如を特定し、特に標本効率、時間領域感度、データセット間の一般化機能の観点からMLFFモデルを評価するためのソリューションを提案する。 実際の科学アプリケーションと同様の問題のインスタンス化を設定することで、ベンチマークによるより有意義なパフォーマンスメトリクスが実現できます。 このメトリクススイートは、従来のAIベンチマーク手法とは対照的に、現実世界の科学応用におけるモデルのパフォーマンスを評価する能力が向上したことを示している。 この作業は、AI4SベンチマークスイートであるSAIBenchプロジェクトのコンポーネントである。 プロジェクトのホームページはhttps://www.computercouncil.org/saibench。

AI for science (AI4S) is an emerging research field that aims to enhance the accuracy and speed of scientific computing tasks using machine learning methods. Traditional AI benchmarking methods struggle to adapt to the unique challenges posed by AI4S because they assume data in training, testing, and future real-world queries are independent and identically distributed, while AI4S workloads anticipate out-of-distribution problem instances. This paper investigates the need for a novel approach to effectively benchmark AI for science, using the machine learning force field (MLFF) as a case study. MLFF is a method to accelerate molecular dynamics (MD) simulation with low computational cost and high accuracy. We identify various missed opportunities in scientifically meaningful benchmarking and propose solutions to evaluate MLFF models, specifically in the aspects of sample efficiency, time domain sensitivity, and cross-dataset generalization capabilities. By setting up the problem instantiation similar to the actual scientific applications, more meaningful performance metrics from the benchmark can be achieved. This suite of metrics has demonstrated a better ability to assess a model's performance in real-world scientific applications, in contrast to traditional AI benchmarking methodologies. This work is a component of the SAIBench project, an AI4S benchmarking suite. The project homepage is https://www.computercouncil.org/SAIBench.
翻訳日:2023-08-14 14:46:21 公開日:2023-08-11
# マルチタスクレコメンデーションのためのDeep Task-specific Boottom Representation Network

Deep Task-specific Bottom Representation Network for Multi-Task Recommendation ( http://arxiv.org/abs/2308.05996v1 )

ライセンス: Link先を確認
Qi Liu, Zhilong Zhou, Gangwei Jiang, Tiezheng Ge, Defu Lian(参考訳) ニューラルベースマルチタスク学習(mtl)は大幅に改善され、レコメンデーションシステム(rs)にうまく適用されている。 近年のRSの深層MTL手法(例えばMMoE, PLE)は、各タスクの一般化表現を暗黙的に学習するソフトゲーティングベースのパラメータ共有ネットワークの設計に焦点を当てている。 しかし、MTL法はタスク共有ボトム表現に負の伝達効果が生じるため、競合するタスクを扱う際に性能劣化に悩まされる可能性がある。 これにより、MTLメソッドがタスク固有の特性をキャプチャする能力が低下し、最終的にその効率性が損なわれ、全てのタスクをうまく一般化する能力が妨げられる。 本稿では,RS における MTL のボトム表現学習に着目し,負の伝達問題を緩和するためのDeep Task-specific Bottom Representation Network (DTRN) を提案する。 DTRNは、ボトム表現モデリング段階で各タスクに独自の表現学習ネットワークを持たせることで、タスク固有のボトム表現を明示的に取得する。 具体的には、パラメータ効率の高いハイパーネットワークを通して、各タスクの複数の動作シーケンスからユーザの興味を抽出する。 さらに、各タスクの専用表現を得るため、dtrnは各タスクにsenetライクなネットワークを使用することで、各特徴の表現を洗練する。 提案した2つのモジュールは、タスクの相互干渉を軽減するためにタスク固有のボトム表現を得る目的を達成することができる。 さらに、提案したDTRNは既存のMTLメソッドと組み合わせて柔軟である。 1つのパブリックデータセットと1つの産業データセットの実験は、提案されたDTRNの有効性を示している。 さらに,産業レコメンデーションシステムにDTRNを配置し,複数のタスクにおいて顕著な改善を実現した。

Neural-based multi-task learning (MTL) has gained significant improvement, and it has been successfully applied to recommendation system (RS). Recent deep MTL methods for RS (e.g. MMoE, PLE) focus on designing soft gating-based parameter-sharing networks that implicitly learn a generalized representation for each task. However, MTL methods may suffer from performance degeneration when dealing with conflicting tasks, as negative transfer effects can occur on the task-shared bottom representation. This can result in a reduced capacity for MTL methods to capture task-specific characteristics, ultimately impeding their effectiveness and hindering the ability to generalize well on all tasks. In this paper, we focus on the bottom representation learning of MTL in RS and propose the Deep Task-specific Bottom Representation Network (DTRN) to alleviate the negative transfer problem. DTRN obtains task-specific bottom representation explicitly by making each task has its own representation learning network in the bottom representation modeling stage. Specifically, it extracts the user's interests from multiple types of behavior sequences for each task through the parameter-efficient hypernetwork. To further obtain the dedicated representation for each task, DTRN refines the representation of each feature by employing a SENet-like network for each task. The two proposed modules can achieve the purpose of getting task-specific bottom representation to relieve tasks' mutual interference. Moreover, the proposed DTRN is flexible to combine with existing MTL methods. Experiments on one public dataset and one industrial dataset demonstrate the effectiveness of the proposed DTRN. Furthermore, we deploy DTRN in an industrial recommender system and gain remarkable improvements in multiple tasks.
翻訳日:2023-08-14 14:45:57 公開日:2023-08-11
# 音声は一つだ:wavlm事前学習モデルを用いた音声駆動ジェスチャー合成

Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model ( http://arxiv.org/abs/2308.05995v1 )

ライセンス: Link先を確認
Fan Zhang, Naye Ji, Fuxing Gao, Siyuan Zhao, Zhaohan Wang, Shunman Li(参考訳) デジタル人間のための共同ジェスチャーの生成は、仮想人間の創造の分野における新しい分野である。 従来の研究では、音声と意味情報を入力として使用し、その人物のIDと感情を識別する分類法を採用し、共同音声ジェスチャ生成を推進してきた。 しかし、この取り組みは依然として大きな課題に直面している。 これらの課題は、共同音声ジェスチャー、音声音響、意味論の複雑な相互作用を超えており、人格、感情、その他の不明瞭だが重要な要素に関連する複雑さも含む。 本稿では,WavLM事前学習モデルを用いた音声条件拡散モデルと非自己回帰変換器生成モデルである「diffmotion-v2」を紹介する。 生音声のみを使用して、個別でスタイリングされたフルボディの音声ジェスチャーを作成でき、複雑なマルチモーダル処理や手動のアノテートを必要としない。 まず,音声の音響的特徴や意味的特徴だけでなく,関連するジェスチャーに関連する性格的特徴や感情,さらに微妙な情報を伝達することを考えると,大規模事前学習モデルであるWavLMの応用を開拓し,低レベルかつ高レベルな音声情報を抽出する。 第2に,変換器をベースとした適応層ノルムアーキテクチャを導入し,音声情報と随伴ジェスチャーの関係を学習する。 The Trinity, ZEGGS, BEATデータセットを用いて広範囲な主観評価実験を行い、WavLMとモデルが様々なスタイルで自然な音声合成を行う能力を確認する。

The generation of co-speech gestures for digital humans is an emerging area in the field of virtual human creation. Prior research has made progress by using acoustic and semantic information as input and adopting classify method to identify the person's ID and emotion for driving co-speech gesture generation. However, this endeavour still faces significant challenges. These challenges go beyond the intricate interplay between co-speech gestures, speech acoustic, and semantics; they also encompass the complexities associated with personality, emotion, and other obscure but important factors. This paper introduces "diffmotion-v2," a speech-conditional diffusion-based and non-autoregressive transformer-based generative model with WavLM pre-trained model. It can produce individual and stylized full-body co-speech gestures only using raw speech audio, eliminating the need for complex multimodal processing and manually annotated. Firstly, considering that speech audio not only contains acoustic and semantic features but also conveys personality traits, emotions, and more subtle information related to accompanying gestures, we pioneer the adaptation of WavLM, a large-scale pre-trained model, to extract low-level and high-level audio information. Secondly, we introduce an adaptive layer norm architecture in the transformer-based layer to learn the relationship between speech information and accompanying gestures. Extensive subjective evaluation experiments are conducted on the Trinity, ZEGGS, and BEAT datasets to confirm the WavLM and the model's ability to synthesize natural co-speech gestures with various styles.
翻訳日:2023-08-14 14:45:29 公開日:2023-08-11
# 地対2.5次元地図マッチングによる画像に基づく局所化

Image-based Geolocalization by Ground-to-2.5D Map Matching ( http://arxiv.org/abs/2308.05993v1 )

ライセンス: Link先を確認
Mengjie Zhou, Liu Liu, Yiran Zhong(参考訳) 地図上での地上視クエリー画像の探索を目的とした画像に基づく位置情報化問題について検討する。 従来の手法では、2dマップと地上からの問合せ画像をマッチングするために、クロスビューのローカライズ技術を使うことが多い。 しかし,これらの手法の性能は,外観の相違が著しいため,しばしば不満足である。 本稿では,木,建物,その他のオブジェクトなどの構造物の高さが,クロスビューマッチングのガイドとなる追加情報を提供することができる2.5次元空間に,クロスビューマッチングを拡張した。 マルチモデルデータから代表埋め込みを学習するための新しいアプローチを提案する。 具体的には,まず2次元地図と地平面パノラマ画像とを極変換することで,パノラマ画像と地図とのギャップを小さくする。 次に,グローバル融合を利用して2次元と2.5次元の地図からマルチモーダルな特徴を融合させ,位置埋め込みの特異性を高める。 本手法を検証し,研究を容易にするために,最初の大規模地対2.5dマップジオローカライズデータセットを構築した。 学習した埋め込みを2つの一般的なローカライズアプローチ、すなわち単一画像ベースのローカライズと経路ベースのローカライズでテストする。 提案手法は,従来の2次元地図を用いた手法よりも精度が高く,収束速度も速いことを示す。

We study the image-based geolocalization problem that aims to locate ground-view query images on cartographic maps. Previous methods often utilize cross-view localization techniques to match ground-view query images with 2D maps. However, the performance of these methods is frequently unsatisfactory due to the significant cross-view appearance differences. In this paper, we extend cross-view matching to 2.5D spaces, where the heights of the structures - such as trees, buildings, and other objects - can provide additional information to guide the cross-view matching. We present a new approach to learning representative embeddings from multi-model data. Specifically, we first align 2D maps to ground-view panoramic images with polar transform to reduce the gap between panoramic images and maps. Then we leverage global fusion to fuse the multi-modal features from 2D and 2.5D maps to increase the distinctiveness of location embeddings. We construct the first large-scale ground-to-2.5D map geolocalization dataset to validate our method and facilitate the research. We test our learned embeddings on two popular localization approaches, i.e., single-image based localization, and route based localization. Extensive experiments demonstrate that our proposed method achieves significantly higher localization accuracy and faster convergence than previous 2D map-based approaches.
翻訳日:2023-08-14 14:45:00 公開日:2023-08-11
# 弱教師付き物体検出のためのサイクリックブートストラップラベリング

Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection ( http://arxiv.org/abs/2308.05991v1 )

ライセンス: Link先を確認
Yufei Yin, Jiajun Deng, Wengang Zhou, Li Li, Houqiang Li(参考訳) 弱教師付きオブジェクト検出の最近の進歩は、複数のインスタンス検出ネットワーク(MIDN)と通常のオンラインリファインメントの組み合わせによって特徴付けられる。 しかし、画像レベルのアノテーションだけで、MIDNは必然的に偽ラベルを生成する際に予期せぬ領域の提案に高いスコアを割り当てる。 これらの不正確な高精度領域の提案は、その後の改良モジュールのトレーニングを誤解させ、検出性能を阻害する。 本研究では,MIDNにおける擬似ラベルの質を改善する方法について検討する。 形式的には、信頼性の高い教師ネットワークからのランク情報でMDDNを最適化する、新しい弱教師対象検出パイプラインであるCBL(Cyclic-Bootstrap Labeling)を考案する。 具体的には,様々な改良モジュールを活用するために,重み付けされた指数移動平均戦略を導入することで,この教師ネットワークを得る。 重み付き教師ネットワークの出力を利用してランク情報付きmidnを蒸留する新しいクラス特異的ランキング蒸留アルゴリズムを提案する。 結果として、MIDNは隣同士の正確な提案により高いスコアを割り当てるように誘導され、その後の擬似ラベリングの恩恵を受ける。 PASCAL VOC 2007 \& 2012およびCOCOデータセットに関する大規模な実験は、我々のCBLフレームワークの優れた性能を示している。 コードはhttps://github.com/Yinyf0804/WSOD-CBL/.comで入手できる。

Recent progress in weakly supervised object detection is featured by a combination of multiple instance detection networks (MIDN) and ordinal online refinement. However, with only image-level annotation, MIDN inevitably assigns high scores to some unexpected region proposals when generating pseudo labels. These inaccurate high-scoring region proposals will mislead the training of subsequent refinement modules and thus hamper the detection performance. In this work, we explore how to ameliorate the quality of pseudo-labeling in MIDN. Formally, we devise Cyclic-Bootstrap Labeling (CBL), a novel weakly supervised object detection pipeline, which optimizes MIDN with rank information from a reliable teacher network. Specifically, we obtain this teacher network by introducing a weighted exponential moving average strategy to take advantage of various refinement modules. A novel class-specific ranking distillation algorithm is proposed to leverage the output of weighted ensembled teacher network for distilling MIDN with rank information. As a result, MIDN is guided to assign higher scores to accurate proposals among their neighboring ones, thus benefiting the subsequent pseudo labeling. Extensive experiments on the prevalent PASCAL VOC 2007 \& 2012 and COCO datasets demonstrate the superior performance of our CBL framework. Code will be available at https://github.com/Yinyf0804/WSOD-CBL/.
翻訳日:2023-08-14 14:44:36 公開日:2023-08-11
# MS3D++:3Dオブジェクト検出におけるマルチソース非教師付きドメイン適応の専門家の集まり

MS3D++: Ensemble of Experts for Multi-Source Unsupervised Domain Adaption in 3D Object Detection ( http://arxiv.org/abs/2308.05988v1 )

ライセンス: Link先を確認
Darren Tsai, Julie Stephany Berrio, Mao Shan, Eduardo Nebot and Stewart Worrall(参考訳) 未知の領域に3d検出器を配置すると、元々のトレーニングデータセットからlidar、地理的領域、気象条件の変動により、検出率の70-90%が大幅に低下することが示されている。 この領域ギャップは、密集した観測対象の発見の欠如、不一致の信頼スコア、高信頼の偽陽性の増加、検出器の信頼性の低下につながる。 そこで我々は,マルチソース非教師なしドメイン適応のための3dオブジェクト検出のための自己学習フレームワークms3d++を紹介する。 MS3D++は、高品質な擬似ラベルを生成することによって、ドメイン適応への直接的なアプローチを提供し、3D検出器の密度に関係なく、様々な種類のライダータイプへの適応を可能にする。 提案手法は,異なるソース領域からの複数フレーム事前学習検出器のアンサンブルの予測を効果的に融合し,ドメインの一般化を改善する。 その後,ボックスの局所化とオブジェクト分類における時間的一貫性を確保するために,予測を時間的に洗練する。 さらに、クロスドメインコンテキストにおける様々な3D検出器部品の性能と慣用性について詳細な研究を行い、クロスドメイン検出器アンサンブルの改善に有用な知見を提供する。 Waymo、nuScenes、Lyftの実験結果によると、MS3D++の擬似ラベルでトレーニングされた検出器は、低密度ライダーと高密度ライダーの両方に対するBird's Eye View (BEV)評価において、人間の注釈付きラベルによるトレーニングに匹敵する、最先端のパフォーマンスを実現している。

Deploying 3D detectors in unfamiliar domains has been demonstrated to result in a drastic drop of up to 70-90% in detection rate due to variations in lidar, geographical region, or weather conditions from their original training dataset. This domain gap leads to missing detections for densely observed objects, misaligned confidence scores, and increased high-confidence false positives, rendering the detector highly unreliable. To address this, we introduce MS3D++, a self-training framework for multi-source unsupervised domain adaptation in 3D object detection. MS3D++ provides a straightforward approach to domain adaptation by generating high-quality pseudo-labels, enabling the adaptation of 3D detectors to a diverse range of lidar types, regardless of their density. Our approach effectively fuses predictions of an ensemble of multi-frame pre-trained detectors from different source domains to improve domain generalization. We subsequently refine the predictions temporally to ensure temporal consistency in box localization and object classification. Furthermore, we present an in-depth study into the performance and idiosyncrasies of various 3D detector components in a cross-domain context, providing valuable insights for improved cross-domain detector ensembling. Experimental results on Waymo, nuScenes and Lyft demonstrate that detectors trained with MS3D++ pseudo-labels achieve state-of-the-art performance, comparable to training with human-annotated labels in Bird's Eye View (BEV) evaluation for both low and high density lidar.
翻訳日:2023-08-14 14:44:13 公開日:2023-08-11
# クラス内特徴量評価による高速かつ正確な伝達可能性の測定

Fast and Accurate Transferability Measurement by Evaluating Intra-class Feature Variance ( http://arxiv.org/abs/2308.05986v1 )

ライセンス: Link先を確認
Huiwen Xu, U Kang(参考訳) 事前学習されたモデルのセットを考えると、下流タスクでもっとも有用な事前学習モデルの迅速かつ正確に見つけるには、どうすればよいのか? 転送可能性の測定は、ソースタスクからターゲットタスクに学習したトレーニング済みモデルがどのように転送可能かを定量化する。 与えられたタスクの事前学習されたモデルを素早くランク付けするために使用され、転校学習の重要なステップとなる。 既存の手法では、転送学習前の対象データのソースモデルの識別能力として転送可能性を測定するが、微調整性能を正確に推定することはできない。 それらのいくつかは、分類器を持つ最善の教師付き事前学習モデルの選択における転送可能性測定の適用を制限する。 分類器を持たない最善の自己教師付き事前学習モデルの選択や、対象タスクの最適転送層の選択など、さまざまな状況に適用可能な転送可能性を測定する一般的な方法を持つことが重要である。 本研究では,TMI(TRANSFERABILITY Measurement with INTRA-CLASS FEATURE VARIANCE)を提案する。 我々は,クラス内特徴分散を計測することにより,対象タスクにおける事前学習モデルの一般化としてトランスファー可能性を検討する。 クラス内分散は、モデルの新たなタスクへの適応性を評価し、モデルがどのように転送可能かを測定する。 モデルの識別性を評価する以前の研究と比較して、クラス内分散は最適な特徴抽出器や分類器を必要としないため、より正確である。 実世界のデータセットに関する大規模な実験によると、TMIはトップ5のベストモデルを選択することでライバルよりも優れており、17件中13件で一貫して相関性が向上している。

Given a set of pre-trained models, how can we quickly and accurately find the most useful pre-trained model for a downstream task? Transferability measurement is to quantify how transferable is a pre-trained model learned on a source task to a target task. It is used for quickly ranking pre-trained models for a given task and thus becomes a crucial step for transfer learning. Existing methods measure transferability as the discrimination ability of a source model for a target data before transfer learning, which cannot accurately estimate the fine-tuning performance. Some of them restrict the application of transferability measurement in selecting the best supervised pre-trained models that have classifiers. It is important to have a general method for measuring transferability that can be applied in a variety of situations, such as selecting the best self-supervised pre-trained models that do not have classifiers, and selecting the best transferring layer for a target task. In this work, we propose TMI (TRANSFERABILITY MEASUREMENT WITH INTRA-CLASS FEATURE VARIANCE), a fast and accurate algorithm to measure transferability. We view transferability as the generalization of a pre-trained model on a target task by measuring intra-class feature variance. Intra-class variance evaluates the adaptability of the model to a new task, which measures how transferable the model is. Compared to previous studies that estimate how discriminative the models are, intra-class variance is more accurate than those as it does not require an optimal feature extractor and classifier. Extensive experiments on real-world datasets show that TMI outperforms competitors for selecting the top-5 best models, and exhibits consistently better correlation in 13 out of 17 cases.
翻訳日:2023-08-14 14:43:40 公開日:2023-08-11
# TrajPAC: 歩行者軌道予測モデルのロバスト性検証に向けて

TrajPAC: Towards Robustness Verification of Pedestrian Trajectory Prediction Models ( http://arxiv.org/abs/2308.05985v1 )

ライセンス: Link先を確認
Liang Zhang, Nathaniel Xu, Pengfei Yang, Gaojie Jin, Cheng-Chao Huang, Lijun Zhang(参考訳) ロバストな歩行者軌道予測は安全な自動運転車の開発に不可欠である。 従来の研究は、軌道予測の文脈で敵の堅牢性を研究してきたが、いくつかの重大な問題は未解決のままである。 この作業では、これらの重要な問題に取り組みます。 第一に、軌道予測におけるロバスト性の定義は曖昧である。 したがって,2種類のロバスト性,すなわちラベルロバスト性と純粋ロバスト性に関する形式的定義を提供する。 第二に、従来の研究では乱れ間隔内の全ての点についてロバストネスを考慮できなかったため、ロバストネスの検証におそらくほぼ正しい(PAC)フレームワークを利用する。 さらに、このフレームワークは潜在的な反例を識別するだけでなく、元のメソッドの解釈可能な分析も提供する。 提案手法はTrajPACというプロトタイプツールを用いて適用する。 TrajPACでは、ETH/UCYデータセットの5つのシーンとStanford Drone Datasetのシーンのトラジェクトリに基づいて、最先端のトラジェクトリ予測モデル(Trajectron++、MemoNet、AgentFormer、MID)の堅牢性を評価する。 また,本手法を用いてロバスト性性能に影響を与える要因について実験的に検討した。

Robust pedestrian trajectory forecasting is crucial to developing safe autonomous vehicles. Although previous works have studied adversarial robustness in the context of trajectory forecasting, some significant issues remain unaddressed. In this work, we try to tackle these crucial problems. Firstly, the previous definitions of robustness in trajectory prediction are ambiguous. We thus provide formal definitions for two kinds of robustness, namely label robustness and pure robustness. Secondly, as previous works fail to consider robustness about all points in a disturbance interval, we utilise a probably approximately correct (PAC) framework for robustness verification. Additionally, this framework can not only identify potential counterexamples, but also provides interpretable analyses of the original methods. Our approach is applied using a prototype tool named TrajPAC. With TrajPAC, we evaluate the robustness of four state-of-the-art trajectory prediction models -- Trajectron++, MemoNet, AgentFormer, and MID -- on trajectories from five scenes of the ETH/UCY dataset and scenes of the Stanford Drone Dataset. Using our framework, we also experimentally study various factors that could influence robustness performance.
翻訳日:2023-08-14 14:43:14 公開日:2023-08-11
# クリックスルーレート予測のためのDeep Context Interest Network

Deep Context Interest Network for Click-Through Rate Prediction ( http://arxiv.org/abs/2308.06037v1 )

ライセンス: Link先を確認
Xuyang Hou, Zhe Wang, Qi Liu, Tan Qu, Jia Cheng, Jun Lei(参考訳) クリックスルー率(ctr)予測(アイテムをクリックするユーザの確率を推定する)は、オンライン広告のような産業アプリケーションにおいて不可欠である。 多くの研究は、CTR予測性能を改善するためにユーザー行動モデリングに焦点を当てている。 しかし,これらの手法の多くは,クリック時の表示項目であるコンテキスト情報を無視しながら,ユーザのクリック項目からの肯定的な関心をモデル化するだけであり,性能は低下する。 本稿では、ユーザ行動モデリングにおけるコンテキスト情報の重要性を強調し、クリックと表示コンテキストを統合的にモデル化し、ユーザのコンテキスト認識の興味を学習するDeep Context Interest Network(DCIN)という新しいモデルを提案する。 DCINは3つの主要なモジュールから構成される。 1)注目機構を備えた表示項目の集約を行う位置認識コンテキスト集約モジュール(PCAM) 2) フィードバックコンテキスト融合モジュール(FCFM)は,非線形特徴の相互作用を通じて,クリックと表示コンテキストの表現を融合する。 3) 対象項目に関連する興味を活性化する関心マッチングモジュール(imm)。 さらに,大規模産業システムにDCINモデルを実装するための手持ちソリューションも提供します。 オフライン評価とオンライン評価の両面での大きな改善は,提案手法の優位性を示している。 特に、DCINは主要なトラフィックを提供するオンライン広告システムにデプロイされており、1.5%のCTRと1.5%のRPMリフトをもたらす。

Click-Through Rate (CTR) prediction, estimating the probability of a user clicking on an item, is essential in industrial applications, such as online advertising. Many works focus on user behavior modeling to improve CTR prediction performance. However, most of those methods only model users' positive interests from users' click items while ignoring the context information, which is the display items around the clicks, resulting in inferior performance. In this paper, we highlight the importance of context information on user behavior modeling and propose a novel model named Deep Context Interest Network (DCIN), which integrally models the click and its display context to learn users' context-aware interests. DCIN consists of three key modules: 1) Position-aware Context Aggregation Module (PCAM), which performs aggregation of display items with an attention mechanism; 2) Feedback-Context Fusion Module (FCFM), which fuses the representation of clicks and display contexts through non-linear feature interaction; 3) Interest Matching Module (IMM), which activates interests related with the target item. Moreover, we provide our hands-on solution to implement our DCIN model on large-scale industrial systems. The significant improvements in both offline and online evaluations demonstrate the superiority of our proposed DCIN method. Notably, DCIN has been deployed on our online advertising system serving the main traffic, which brings 1.5% CTR and 1.5% RPM lift.
翻訳日:2023-08-14 14:37:26 公開日:2023-08-11
# 予測言語処理におけるマルチモーダル大言語モデルにおける人間の視覚言語統合の証明

Evidence of Human-Like Visual-Linguistic Integration in Multimodal Large Language Models During Predictive Language Processing ( http://arxiv.org/abs/2308.06035v1 )

ライセンス: Link先を確認
Viktor Kewenig, Christopher Edwards, Quitterie Lacome DEstalenx, Akilles Rechardt, Jeremy I Skipper and Gabriella Vigliocco(参考訳) 大きな言語モデル(LLM)の高度な言語処理能力は、人間のような認知過程を再現する能力についての議論を刺激している。 LLMにおける言語処理と人間との差別化要因の1つは、言語入力が複数の知覚的モダリティに基礎を置いていることである。 マルチモーダルグラウンドリングは、視覚的コンテキストを言語情報と統合することで、次の単語の空間に制約を課し、認知負荷を減らし、知覚と理解を改善する。 近年のマルチモーダルLLM (mLLMs) は, 視覚的および言語的埋め込み空間と, 次単語予測のための変圧器型アテンション機構を組み合わせたものである。 マルチモーダル入力に基づく予測言語処理はmllmと人間にどの程度整合しているか? この質問に答えるために、200人の被験者が短い音声映像クリップを見て、次の動詞や名詞の予測可能性を推定した。 同じクリップはmLLM CLIPによって処理され、画像とテキストの特徴ベクトルの比較に基づいて予測可能性スコアが得られた。 視線追跡は参加者の視覚特徴を推定するために用いられ、クリップの視覚的注意重みが記録された。 予測可能性の人的推定はCLIPのスコアと大きく一致しているが,パラメータサイズに匹敵するLLMには当てはまらない。 さらに、CLIPの視覚的注意重みが乱れ、同じ入力が無注意でマルチモーダルモデルに供給されたとき、アライメントは消失した。 注意パターンを解析したところ、CLIPの視覚的注意重みと人間の視線追跡データの間に大きな空間的重なりが認められた。 結果から,マルチモーダル情報の統合プロセスは,mLLMとヒトにおける予測言語処理を支援することが示唆された。

The advanced language processing abilities of large language models (LLMs) have stimulated debate over their capacity to replicate human-like cognitive processes. One differentiating factor between language processing in LLMs and humans is that language input is often grounded in more than one perceptual modality, whereas most LLMs process solely text-based information. Multimodal grounding allows humans to integrate - e.g. visual context with linguistic information and thereby place constraints on the space of upcoming words, reducing cognitive load and improving perception and comprehension. Recent multimodal LLMs (mLLMs) combine visual and linguistic embedding spaces with a transformer type attention mechanism for next-word prediction. To what extent does predictive language processing based on multimodal input align in mLLMs and humans? To answer this question, 200 human participants watched short audio-visual clips and estimated the predictability of an upcoming verb or noun. The same clips were processed by the mLLM CLIP, with predictability scores based on a comparison of image and text feature vectors. Eye-tracking was used to estimate what visual features participants attended to, and CLIP's visual attention weights were recorded. We find that human estimates of predictability align significantly with CLIP scores, but not for a unimodal LLM of comparable parameter size. Further, alignment vanished when CLIP's visual attention weights were perturbed, and when the same input was fed to a multimodal model without attention. Analysing attention patterns, we find a significant spatial overlap between CLIP's visual attention weights and human eye-tracking data. Results suggest that comparable processes of integrating multimodal information, guided by attention to relevant visual features, supports predictive language processing in mLLMs and humans.
翻訳日:2023-08-14 14:37:03 公開日:2023-08-11
# 暗号通貨証券の大型言語モデル:chatgptは弁護士に取って代わることができるか?

Large Language Models in Cryptocurrency Securities Cases: Can ChatGPT Replace Lawyers? ( http://arxiv.org/abs/2308.06032v1 )

ライセンス: Link先を確認
Arianna Trozze, Toby Davies, and Bennett Kleinberg(参考訳) 大規模言語モデル(llm)は、法的システムへのアクセスを強化することができる。 しかし、法的業務遂行におけるその効果に関する実証的研究は乏しい。 我々は、LLMの法的推論と起草能力について研究し、AIが法的プロセスをサポートすることのできる多くの文脈の1つとして、暗号通貨を含む証券ケースを調査した。 検討する a) LLMは、事実のパターンに違反する可能性のある法律を正確に判定することができ、 b)llmに対して弁護士が書いた苦情に基づいて陪審員の意思決定に違いがあるか否か。 我々は実生活の事例からGPT-3.5まで事実パターンをフィードし、シナリオから正しい潜在的な違反を判断し、急激な違反を排除できる能力を評価する。 第二に、陪審員はllmと弁護士が書いた苦情を評価した。 GPT-3.5の法的推論スキルは弱かったが、将来のモデルの改善を期待している。 GPT-3.5は法的な起草に優れており、陪審員の判断は彼らの判断に基づく文書の著者と統計的に有意な関係は無かった。 LLMは法的理由づけを十分に行うことができないため、この段階では弁護士を置き換えることはできない。 しかし、彼らの起草スキル(おそらくは弁護士よりは劣っている)は、法的なサービスコストを下げることで、より多くの個人に正義をもたらすことができる。 我々の研究は、証券法や暗号通貨関連の不正行為と同様に、訴訟におけるllmsの法的起草と推論能力を体系的に研究した最初の研究である。

Large Language Models (LLMs) could enhance access to the legal system. However, empirical research on their effectiveness in conducting legal tasks is scant. We study securities cases involving cryptocurrencies as one of numerous contexts where AI could support the legal process, studying LLMs' legal reasoning and drafting capabilities. We examine whether a) an LLM can accurately determine which laws are potentially being violated from a fact pattern, and b) whether there is a difference in juror decision-making based on complaints written by a lawyer compared to an LLM. We feed fact patterns from real-life cases to GPT-3.5 and evaluate its ability to determine correct potential violations from the scenario and exclude spurious violations. Second, we had mock jurors assess complaints written by the LLM and lawyers. GPT-3.5's legal reasoning skills proved weak, though we expect improvement in future models, particularly given the violations it suggested tended to be correct (it merely missed additional, correct violations). GPT-3.5 performed better at legal drafting, and jurors' decisions were not statistically significantly associated with the author of the document upon which they based their decisions. Because LLMs cannot satisfactorily conduct legal reasoning tasks, they would be unable to replace lawyers at this stage. However, their drafting skills (though, perhaps, still inferior to lawyers), could provide access to justice for more individuals by reducing the cost of legal services. Our research is the first to systematically study LLMs' legal drafting and reasoning capabilities in litigation, as well as in securities law and cryptocurrency-related misconduct.
翻訳日:2023-08-14 14:36:31 公開日:2023-08-11
# lindblad以外の量子ビットダイナミクス:非マルコフ性と回転波近似

Qubit Dynamics beyond Lindblad: Non-Markovianity versus Rotating Wave Approximation ( http://arxiv.org/abs/2308.06029v1 )

ライセンス: Link先を確認
Kiyoto Nakamura, Joachim Ankerhold(参考訳) 量子ビットデバイスの実験性能の向上に伴い、オープンシステムのダイナミクスを記述するために、高精度な理論予測が必要となる。 ここでは, 還元密度行列, 従来のlindblad方程式 (le), 普遍的lindblad方程式 (ule), 階層的運動方程式 (heom) に対して3つの運動方程式を用いた。 HEOMは数値的に正確なベンチマークデータを提供するが、LEはULEに課されていない回転波近似(RWA)と組み合わせてボルンマルコフ近似に基づいている。 これにより、ボルン・マルコフ近似とRWAの区別を分析することができる。 その結果,オーミックとサブオーミックのスペクトル密度を持つ貯留層の存在下での2段階系の緩和と非一貫性の予測が検討された。 ラムゼー実験に基づく最近提案されたプロトコルの支援により、ボルンマルコフ近似とrwaの役割が明らかにされる。

With increasing experimental performance of qubit devices, highly accurate theoretical predictions are needed to describe the open system dynamics. Here, we make use of three equations of motion for the reduced density matrix, the conventional Lindblad equation (LE), the Universal Lindblad Equation (ULE), and the Hierarchical Equations of Motion (HEOM). While the HEOM provides numerically exact benchmark data, the LE is based on the Born-Markov approximation in combination with the rotating wave approximation (RWA) which is not imposed in the ULE. This allows us to analyze the distinction between the Born-Markov approximation and the RWA, which may be sometimes confused. As a demonstration, predictions for relaxation and decoherence of a two-level system in presence of reservoirs with Ohmic and sub-Ohmic spectral densities are explored. With the aid of a recently proposed protocol based on Ramsey experiments, the role of the Born-Markov approximation and the RWA is revealed.
翻訳日:2023-08-14 14:36:04 公開日:2023-08-11
# テキストから画像への空間制御のためのマスキング・アテンション拡散指導

Masked-Attention Diffusion Guidance for Spatially Controlling Text-to-Image Generation ( http://arxiv.org/abs/2308.06027v1 )

ライセンス: Link先を確認
Yuki Endo(参考訳) テキストから画像への合成は,最近の拡散モデルの発展に伴い,高品質な結果が得られた。 しかし、テキスト入力だけでは空間的曖昧性が高く、ユーザー制御性は限られている。 既存の手法では、視覚誘導(スケッチや意味マスクなど)の追加による空間制御が可能だが、注釈付き画像による追加の訓練が必要となる。 本稿では,拡散モデルのさらなる訓練を行わずにテキスト対画像生成を空間的に制御する手法を提案する。 本手法は,クロスアテンションマップが単語と画素の位置関係を反映しているという知見に基づく。 我々の目的は、与えられたセマンティックマスクやテキストプロンプトに従ってアテンションマップを制御することである。 この目的のために、まず、意味領域から計算された定数マップと交差注意マップを直接置き換える簡単なアプローチを探求する。 さらに,第1のアプローチよりも意味的マスクに忠実な画像を生成できるマスキング・アテンションガイダンスを提案する。 拡散モデルに供給された雑音画像を操作することにより,各単語と画素に対する注意を,意味領域に応じて間接的に制御するマスキング・アテンション・ガイダンス。 実験により,本手法は質的および定量的にベースラインよりも高精度な空間制御が可能となった。

Text-to-image synthesis has achieved high-quality results with recent advances in diffusion models. However, text input alone has high spatial ambiguity and limited user controllability. Most existing methods allow spatial control through additional visual guidance (e.g, sketches and semantic masks) but require additional training with annotated images. In this paper, we propose a method for spatially controlling text-to-image generation without further training of diffusion models. Our method is based on the insight that the cross-attention maps reflect the positional relationship between words and pixels. Our aim is to control the attention maps according to given semantic masks and text prompts. To this end, we first explore a simple approach of directly swapping the cross-attention maps with constant maps computed from the semantic regions. Moreover, we propose masked-attention guidance, which can generate images more faithful to semantic masks than the first approach. Masked-attention guidance indirectly controls attention to each word and pixel according to the semantic regions by manipulating noise images fed to diffusion models. Experiments show that our method enables more accurate spatial control than baselines qualitatively and quantitatively.
翻訳日:2023-08-14 14:35:49 公開日:2023-08-11
# 観測可能な駆動源のないキャラクタ動作制御

Controlling Character Motions without Observable Driving Source ( http://arxiv.org/abs/2308.06025v1 )

ライセンス: Link先を確認
Weiyuan Li, Bin Dai, Ziyi Zhou, Qi Yao and Baoyuan Wang(参考訳) ドライブソースなしで、多種多様で、ライフライクで、無制限なロングヘッド/ボディシーケンスを生成するには? この未調査の研究課題は、まったく自明なものではありませんし、その背後には独特の技術的課題があります。 駆動源からのセマンティック制約がなければ、無限に長いシーケンスを生成するのに標準自己回帰モデルを使うのは容易である。 1) 累積誤差によるアウト・オブ・ディストリビューション(OOD)問題 2)自然界や生活界のような運動系列を生成できない多様性 3) 好ましくない周期パターンが出現した。 上記の課題に対処するため、VQ-VAEの利点と、慎重に設計された報酬関数を用いて強化学習で訓練された新しいトークンレベル制御ポリシーをマージする体系的な枠組みを提案する。 高レベルの先行モデルは、上から簡単に注入でき、無制限に長く多様なシーケンスを生成することができる。 現時点では駆動源に注目していないが、明示的な駆動源を持つ制御合成のためのフレームワークを一般化することができる。 包括的評価を通じて,提案フレームワークは上記の課題をすべて解決し,他の強固なベースラインを大幅に上回ることができると結論づけた。

How to generate diverse, life-like, and unlimited long head/body sequences without any driving source? We argue that this under-investigated research problem is non-trivial at all, and has unique technical challenges behind it. Without semantic constraints from the driving sources, using the standard autoregressive model to generate infinitely long sequences would easily result in 1) out-of-distribution (OOD) issue due to the accumulated error, 2) insufficient diversity to produce natural and life-like motion sequences and 3) undesired periodic patterns along the time. To tackle the above challenges, we propose a systematic framework that marries the benefits of VQ-VAE and a novel token-level control policy trained with reinforcement learning using carefully designed reward functions. A high-level prior model can be easily injected on top to generate unlimited long and diverse sequences. Although we focus on no driving sources now, our framework can be generalized for controlled synthesis with explicit driving sources. Through comprehensive evaluations, we conclude that our proposed framework can address all the above-mentioned challenges and outperform other strong baselines very significantly.
翻訳日:2023-08-14 14:35:31 公開日:2023-08-11
# 空間情報誘導型適応文脈認識ネットワークによる効率的なrgb-d意味セグメンテーション

Spatial-information Guided Adaptive Context-aware Network for Efficient RGB-D Semantic Segmentation ( http://arxiv.org/abs/2308.06024v1 )

ライセンス: Link先を確認
Yang Zhang, Chenyun Xiong, Junjie Liu, Xuhui Ye, Guodong Sun(参考訳) 効率的なRGB-Dセマンティックセグメンテーションは,環境情報の分析・認識において重要な役割を担っている移動ロボットにおいて注目されている。 これまでの研究では、深度情報はオブジェクトとシーンの対応する幾何学的関係を提供するが、実際の深度データはノイズとして存在する。 セグメンテーションの精度と計算に好ましくない影響を避けるためには,相互相関と補完的手がかりを利用する効率的なフレームワークを設計する必要がある。 本稿では,計算パラメータを低減し,アルゴリズムのロバスト性を保証する効率的な軽量エンコーダ・デコーダネットワークを提案する。 チャネルおよび空間融合アテンションモジュールを用いて,マルチレベルRGB-D特徴を効果的に捉える。 グローバルガイド付き局所親和性コンテキストモジュールが提案され、十分な高レベルコンテキスト情報が得られる。 デコーダは、短距離と長距離の情報といくつかの冗長な計算を組み合わせた軽量な残留ユニットを使用する。 また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。 ソースコードはhttps://github.com/MVME-HBUT/SGACNetにある。

Efficient RGB-D semantic segmentation has received considerable attention in mobile robots, which plays a vital role in analyzing and recognizing environmental information. According to previous studies, depth information can provide corresponding geometric relationships for objects and scenes, but actual depth data usually exist as noise. To avoid unfavorable effects on segmentation accuracy and computation, it is necessary to design an efficient framework to leverage cross-modal correlations and complementary cues. In this paper, we propose an efficient lightweight encoder-decoder network that reduces the computational parameters and guarantees the robustness of the algorithm. Working with channel and spatial fusion attention modules, our network effectively captures multi-level RGB-D features. A globally guided local affinity context module is proposed to obtain sufficient high-level context information. The decoder utilizes a lightweight residual unit that combines short- and long-distance information with a few redundant computations. Experimental results on NYUv2, SUN RGB-D, and Cityscapes datasets show that our method achieves a better trade-off among segmentation accuracy, inference time, and parameters than the state-of-the-art methods. The source code will be at https://github.com/MVME-HBUT/SGACNet
翻訳日:2023-08-14 14:35:14 公開日:2023-08-11
# スケール保存自動概念抽出(SPACE)

Scale-Preserving Automatic Concept Extraction (SPACE) ( http://arxiv.org/abs/2308.06022v1 )

ライセンス: Link先を確認
Andr\'es Felipe Posada-Moreno, Lukas Kreisk\"other, Tassilo Glander, Sebastian Trimpe(参考訳) 畳み込みニューラルネットワーク(CNN)は、産業品質管理や業界 4.0 におけるその他の重要な応用において共通の選択肢となっている。 これらのCNNが人間のユーザや開発者にとって予期せぬ方法で振る舞うと、経済的損失や人命へのリスクの増加といった深刻な結果が発生する。 概念抽出手法は、トレーニングされたニューラルネットワークモデルのグローバル説明を生成することによって、cnnの信頼性と透明性を高めるために応用することができる。 品質管理における画像データセットの決定的な特徴は、しばしば機能の規模に依存する。 しかし、既存の概念抽出法はスケールを正しく表現していないため、ここで示すようにこれらのモデルの解釈に問題がある。 そこで本研究では,産業応用に焦点をあてたCNNのための最先端の代替概念抽出手法として,SPACE(Scale-Preserving Automatic Concept extract)アルゴリズムを導入する。 SPACEは、概念抽出プロセス全体のスケール変化を回避し、上記の問題を解決するように設計されている。 SPACEは、入力画像の2乗スライスに基づくアプローチを提案し、それは選択され、その後、概念にクラスタ化される前に取り込まれる。 提案手法は,人間の理解可能な概念の形でモデルの決定過程を説明する。 産業品質管理の観点から,SPACEを3つの画像分類データセット上で評価する。 実験の結果,空間が他の手法に勝ることを示すとともに,cnnの決定機構に関する実効的な洞察を与える。 最後に、SPACEの実装のためのコードを提供します。

Convolutional Neural Networks (CNN) have become a common choice for industrial quality control, as well as other critical applications in the Industry 4.0. When these CNNs behave in ways unexpected to human users or developers, severe consequences can arise, such as economic losses or an increased risk to human life. Concept extraction techniques can be applied to increase the reliability and transparency of CNNs through generating global explanations for trained neural network models. The decisive features of image datasets in quality control often depend on the feature's scale; for example, the size of a hole or an edge. However, existing concept extraction methods do not correctly represent scale, which leads to problems interpreting these models as we show herein. To address this issue, we introduce the Scale-Preserving Automatic Concept Extraction (SPACE) algorithm, as a state-of-the-art alternative concept extraction technique for CNNs, focused on industrial applications. SPACE is specifically designed to overcome the aforementioned problems by avoiding scale changes throughout the concept extraction process. SPACE proposes an approach based on square slices of input images, which are selected and then tiled before being clustered into concepts. Our method provides explanations of the models' decision-making process in the form of human-understandable concepts. We evaluate SPACE on three image classification datasets in the context of industrial quality control. Through experimental results, we illustrate how SPACE outperforms other methods and provides actionable insights on the decision mechanisms of CNNs. Finally, code for the implementation of SPACE is provided.
翻訳日:2023-08-14 14:34:53 公開日:2023-08-11
# 単一GPUトレーニングのためのトランスフォーマーベース機械翻訳モデルの最適化:ハイパーパラメータアブレーション研究

Optimizing transformer-based machine translation model for single GPU training: a hyperparameter ablation study ( http://arxiv.org/abs/2308.06017v1 )

ライセンス: Link先を確認
Luv Verma, Ketaki N. Kolhatkar(参考訳) 機械翻訳タスクでは、モデル複雑性と性能の関係はしばしば線形であると仮定され、複数のGPUのような計算リソースに対するパラメータの数とそれに伴う要求が増加する。 そこで本研究では,nvidia a100 gpuを用いた逐次機械翻訳パイプラインにおけるアブレーションによるハイパーパラメータの影響を体系的に検討する。 期待に反して,本実験では最多パラメータとの組合せが必ずしも最も効果的であるとは限らない。 この予期せぬ洞察はパラメータサイズを慎重に削減し、翻訳品質を損なうことなく単一のGPU上で洗練されたモデルのトレーニングを可能にする"スイートスポット"を明らかにした。 以上の結果から,ハイパーパラメータ選択,モデルサイズ,計算資源ニーズの関係が示唆された。 本研究から得られた知見は,機械翻訳をよりアクセシブルで費用対効果の高いものにし,単なるスケーリングよりも正確なハイパーパラメータチューニングの重要性を強調している。

In machine translation tasks, the relationship between model complexity and performance is often presumed to be linear, driving an increase in the number of parameters and consequent demands for computational resources like multiple GPUs. To explore this assumption, this study systematically investigates the effects of hyperparameters through ablation on a sequence-to-sequence machine translation pipeline, utilizing a single NVIDIA A100 GPU. Contrary to expectations, our experiments reveal that combinations with the most parameters were not necessarily the most effective. This unexpected insight prompted a careful reduction in parameter sizes, uncovering "sweet spots" that enable training sophisticated models on a single GPU without compromising translation quality. The findings demonstrate an intricate relationship between hyperparameter selection, model size, and computational resource needs. The insights from this study contribute to the ongoing efforts to make machine translation more accessible and cost-effective, emphasizing the importance of precise hyperparameter tuning over mere scaling.
翻訳日:2023-08-14 14:34:30 公開日:2023-08-11
# 勾配アグリゲーションによる普遍的逆摂動の一般化

Enhancing Generalization of Universal Adversarial Perturbation through Gradient Aggregation ( http://arxiv.org/abs/2308.06015v1 )

ライセンス: Link先を確認
Xuannan Liu, Yaoyao Zhong, Yuhang Zhang, Lixiong Qin, Weihong Deng(参考訳) ディープニューラルネットワークは、ほとんどのサンプルに対してターゲットモデルを騙すことができるインスタンス非依存の摂動である普遍的摂動(UAP)に対して脆弱である。 インスタンス固有の逆例と比較して、UAPは様々なサンプルやモデルにまたがって一般化する必要があるため、より難しい。 本稿では,UAP生成手法の重大ジレンマを一般化の観点から検討し,小バッチ確率勾配最適化を用いた勾配解消問題と大バッチ最適化を用いた局所最適問題について述べる。 これらの問題を解決するために,SGA (Stochastic Gradient Aggregation) と呼ばれる簡易かつ効果的な手法を提案する。 具体的には、SGAは、内部事前探索の複数イテレーションを実行するために、小さなバッチトレーニングを採用している。 そして、すべての内勾配を1ステップの勾配推定として集約し、勾配安定性を高め、量子化誤差を低減する。 標準のImageNetデータセットに対する大規模な実験により,本手法はUAPの一般化能力を大幅に向上し,他の最先端手法よりも優れることが示された。 コードはhttps://github.com/liuxuannan/stochastic-gradient-aggregationで入手できる。

Deep neural networks are vulnerable to universal adversarial perturbation (UAP), an instance-agnostic perturbation capable of fooling the target model for most samples. Compared to instance-specific adversarial examples, UAP is more challenging as it needs to generalize across various samples and models. In this paper, we examine the serious dilemma of UAP generation methods from a generalization perspective -- the gradient vanishing problem using small-batch stochastic gradient optimization and the local optima problem using large-batch optimization. To address these problems, we propose a simple and effective method called Stochastic Gradient Aggregation (SGA), which alleviates the gradient vanishing and escapes from poor local optima at the same time. Specifically, SGA employs the small-batch training to perform multiple iterations of inner pre-search. Then, all the inner gradients are aggregated as a one-step gradient estimation to enhance the gradient stability and reduce quantization errors. Extensive experiments on the standard ImageNet dataset demonstrate that our method significantly enhances the generalization ability of UAP and outperforms other state-of-the-art methods. The code is available at https://github.com/liuxuannan/Stochastic-Gradient-Aggregation.
翻訳日:2023-08-14 14:34:11 公開日:2023-08-11
# マルチエンコーダに基づく文書レベルニューラルマシン翻訳におけるコンテキストエンコーディングの事例研究

A Case Study on Context Encoding in Multi-Encoder based Document-Level Neural Machine Translation ( http://arxiv.org/abs/2308.06063v1 )

ライセンス: Link先を確認
Ramakrishna Appicharla, Baban Gain, Santanu Pal and Asif Ekbal(参考訳) 近年の研究では、マルチエンコーダモデルは文脈選択に非依存であることが示されており、コンテキストエンコーダはBLEUスコアの観点からモデルを改善するのに役立つノイズを生成する。 本稿では, 3つの異なる文脈設定viz, 前2文, ランダム2文, 両方を混合したマルチエンコーダモデルを訓練することにより, 文脈認識型代名詞翻訳テストにより, この概念をさらに検討する。 具体的には, コントラプロテストセットのモデルを評価し, 異なる文脈が代名詞の翻訳精度にどのように影響するかを検討した。 その結果、コンテキストがランダムであっても、モデルがContraProテストセット上でうまく機能できることが判明した。 また、ソース表現を分析し、コンテキストエンコーダがノイズを生成するかどうかを調べる。 分析の結果,文脈エンコーダは談話レベルの情報を学ぶのに十分な情報を提供することがわかった。 さらに,選択した文脈(この場合,前の2つの文)とランダムな文脈との混合は,一般に他の設定よりも優れていることを観察する。

Recent studies have shown that the multi-encoder models are agnostic to the choice of context, and the context encoder generates noise which helps improve the models in terms of BLEU score. In this paper, we further explore this idea by evaluating with context-aware pronoun translation test set by training multi-encoder models trained on three different context settings viz, previous two sentences, random two sentences, and a mix of both as context. Specifically, we evaluate the models on the ContraPro test set to study how different contexts affect pronoun translation accuracy. The results show that the model can perform well on the ContraPro test set even when the context is random. We also analyze the source representations to study whether the context encoder generates noise. Our analysis shows that the context encoder provides sufficient information to learn discourse-level information. Additionally, we observe that mixing the selected context (the previous two sentences in this case) and the random context is generally better than the other settings.
翻訳日:2023-08-14 14:26:07 公開日:2023-08-11
# 連系学習による量子トンネルの触媒作用

Catalysis of quantum tunneling by ancillary system learning ( http://arxiv.org/abs/2308.06060v1 )

ライセンス: Link先を確認
Renzo Testa, Alex Rodriguez, Alberto d'Onofrio, Andrea Trombettoni, Fabio Benatti, Fabio Anselmi(参考訳) 量子トンネルが幅広い用途で果たす重要な役割を考えると、重要な目的は、基礎となる物理システムのリソースを固定しつつ、ある量子状態/レベルから別の量子状態へのトンネルの確率を最大化することである。 本研究は,トンネルシステムと同種の補助システムとを結合することにより,この課題に対する効果的な解が達成できることを実証する。 機械学習技術を利用することで、アシラリー系と結合系のパラメータを最適化することができ、トンネルの確率を最大化することができる。 二モード系と任意のカップリングを持つ二モード環と、いくつかの相互作用する粒子の存在を含むパラダイム的シナリオの例を示す。 重要なことは、トンネル化確率の増大は、システムとアンシラの両方のノイズとデコヒーレンスによって最小限に影響を受けるように見える。

Given the key role that quantum tunneling plays in a wide range of applications, a crucial objective is to maximize the probability of tunneling from one quantum state/level to another, while keeping the resources of the underlying physical system fixed. In this work, we demonstrate that an effective solution to this challenge can be achieved by coupling the tunneling system with an ancillary system of the same kind. By utilizing machine learning techniques, the parameters of both the ancillary system and the coupling can be optimized, leading to the maximization of the tunneling probability. We provide illustrative examples for the paradigmatic scenario involving a two-mode system and a two-mode ancilla with arbitrary couplings and in the presence of several interacting particles. Importantly, the enhancement of the tunneling probability appears to be minimally affected by noise and decoherence in both the system and the ancilla.
翻訳日:2023-08-14 14:25:47 公開日:2023-08-11
# Polyak StepizeとLine-searchによる適応SGD:ロバスト収束と可変化

Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence and Variance Reduction ( http://arxiv.org/abs/2308.06058v1 )

ライセンス: Link先を確認
Xiaowen Jiang and Sebastian U. Stich(参考訳) 近年提案された確率的ポリアックステップズ (sps) と確率的直線探索 (sls) は, 過パラメータモデルのトレーニングにおいて顕著な効果を示した。 しかし、非補間設定では、どちらのアルゴリズムも解の近傍への収束を保証し、最初の推測よりも悪い出力をもたらす可能性がある。 適応的なステップサイズを人工的に減少させる手法が提案されている(Orvieto et al. [2022])が、このアプローチは凸および過パラメータ化モデルの収束速度を遅くする。 本稿では,まず,非補間条件下での収束を保証するSPSとSLSの2つの新しい変種,AdaSPSとAdaSLSを提案する。 AdaSLSは問題依存パラメータの知識を必要とせず、AdaSPSは入力として最適関数値の下位境界のみを必要とする。 次に、adasps と adasls を新しい分散還元法で満たし、非補間領域の分散還元なしで adasps と adasls のレートを低下させるような凸関数に対する $\mathcal{o}(\epsilon)$-suboptimality を達成するために、$\smash{\widetilde{\mathcal{o}}}(n+1/\epsilon)$gradient evaluations を必要とするアルゴリズムを得る。 さらに,本結果はAdaSVRGの速度と一致するが,実装や解析が容易な内外ループ構造を除去する。 最後に、合成および実データセットに関する数値実験により、我々の理論を検証し、アルゴリズムの有効性と堅牢性を示す。

The recently proposed stochastic Polyak stepsize (SPS) and stochastic line-search (SLS) for SGD have shown remarkable effectiveness when training over-parameterized models. However, in non-interpolation settings, both algorithms only guarantee convergence to a neighborhood of a solution which may result in a worse output than the initial guess. While artificially decreasing the adaptive stepsize has been proposed to address this issue (Orvieto et al. [2022]), this approach results in slower convergence rates for convex and over-parameterized models. In this work, we make two contributions: Firstly, we propose two new variants of SPS and SLS, called AdaSPS and AdaSLS, which guarantee convergence in non-interpolation settings and maintain sub-linear and linear convergence rates for convex and strongly convex functions when training over-parameterized models. AdaSLS requires no knowledge of problem-dependent parameters, and AdaSPS requires only a lower bound of the optimal function value as input. Secondly, we equip AdaSPS and AdaSLS with a novel variance reduction technique and obtain algorithms that require $\smash{\widetilde{\mathcal{O}}}(n+1/\epsilon)$ gradient evaluations to achieve an $\mathcal{O}(\epsilon)$-suboptimality for convex functions, which improves upon the slower $\mathcal{O}(1/\epsilon^2)$ rates of AdaSPS and AdaSLS without variance reduction in the non-interpolation regimes. Moreover, our result matches the fast rates of AdaSVRG but removes the inner-outer-loop structure, which is easier to implement and analyze. Finally, numerical experiments on synthetic and real datasets validate our theory and demonstrate the effectiveness and robustness of our algorithms.
翻訳日:2023-08-14 14:25:32 公開日:2023-08-11
# 消音拡散モデルにおける頭部回転

Head Rotation in Denoising Diffusion Models ( http://arxiv.org/abs/2308.06057v1 )

ライセンス: Link先を確認
Andrea Asperti, Gabriele Colasuonno, Antonio Guerra(参考訳) Denoising Diffusion Models (DDM) は、深層生成モデリングの領域における最先端技術として登場し、ジェネレーティブ・ディフュージョン・ネットワークの優位性に挑戦している。 しかし、潜在空間のセマンティクスを効果的に探求し、生成したサンプルの重要な属性を操作・編集するための魅力的な軌跡を特定することは、主に潜在空間の高次元の性質のために困難である。 本研究では,最も複雑な編集作業の一つである顔の回転に着目した。 近年の拡散暗黙モデル (ddim) の埋め込み手法を応用し, 多くの場合, 回転角$\pm 30^o$ を包含し, 個々人の特性を保ちながら, 注目に値する操作を実現する。 本手法は, 線形回帰により, 異なるヨー回転を持つデータサンプルの潜在表現の雲を近似する軌道の計算を行う。 特定のトラジェクトリは、ソース画像と重要な属性を共有するデータのサブセットに解析を限定することで得られる。 私たちの研究の副産物はCelebAのラベル付けであり、照明方向(左、中央、右)に基づいて画像を3つの主要なグループに分類する。

Denoising Diffusion Models (DDM) are emerging as the cutting-edge technology in the realm of deep generative modeling, challenging the dominance of Generative Adversarial Networks. However, effectively exploring the latent space's semantics and identifying compelling trajectories for manipulating and editing important attributes of the generated samples remains challenging, primarily due to the high-dimensional nature of the latent space. In this study, we specifically concentrate on face rotation, which is known to be one of the most intricate editing operations. By leveraging a recent embedding technique for Denoising Diffusion Implicit Models (DDIM), we achieve, in many cases, noteworthy manipulations encompassing a wide rotation angle of $\pm 30^o$, preserving the distinct characteristics of the individual. Our methodology exploits the computation of trajectories approximating clouds of latent representations of dataset samples with different yaw rotations through linear regression. Specific trajectories are obtained by restricting the analysis to subsets of data sharing significant attributes with the source image. One of these attributes is the light provenance: a byproduct of our research is a labeling of CelebA, categorizing images into three major groups based on the illumination direction: left, center, and right.
翻訳日:2023-08-14 14:24:52 公開日:2023-08-11
# 動物におけるコンピュータ支援細胞診:正確な疾患分類のためのCNNによる画像品質評価

Computer-Aided Cytology Diagnosis in Animals: CNN-Based Image Quality Assessment for Accurate Disease Classification ( http://arxiv.org/abs/2308.06055v1 )

ライセンス: Link先を確認
Jan Krupi\'nski, Maciej Wielgosz, Szymon Mazurek, Krystian Strza{\l}ka, Pawe{\l} Russek, Jakub Caputa, Daria {\L}ukasik, Jakub Grzeszczyk, Micha{\l} Karwatowski, Rafa{\l} Fraczek, Ernest Jamro, Marcin Pietro\'n, Sebastian Koryciak, Agnieszka D\k{a}browska-Boruch, Kazimierz Wiatr(参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)を用いた画像品質評価(iqa)に着目し,動物用細胞診診断システムを提案する。 システムのビルディングブロックはIQAをシームレスに統合するように調整されており、疾患分類の信頼性を保証する。 我々はCNNが様々な画像のバリエーションやシナリオを処理し、低品質な入力データの検出に与える影響を分析する。 さらに、有効な細胞サンプルをアーティファクトと区別するネットワークの能力を評価する。 本研究では,resnet18ネットワークアーキテクチャを用いて,入力サイズとクロッピング戦略がモデル性能に及ぼす影響について検討する。 この研究は、コンピュータ支援による動物細胞診診断におけるCNNベースのIQAの重要性に光を当て、疾患分類の精度を高める。

This paper presents a computer-aided cytology diagnosis system designed for animals, focusing on image quality assessment (IQA) using Convolutional Neural Networks (CNNs). The system's building blocks are tailored to seamlessly integrate IQA, ensuring reliable performance in disease classification. We extensively investigate the CNN's ability to handle various image variations and scenarios, analyzing the impact on detecting low-quality input data. Additionally, the network's capacity to differentiate valid cellular samples from those with artifacts is evaluated. Our study employs a ResNet18 network architecture and explores the effects of input sizes and cropping strategies on model performance. The research sheds light on the significance of CNN-based IQA in computer-aided cytology diagnosis for animals, enhancing the accuracy of disease classification.
翻訳日:2023-08-14 14:24:30 公開日:2023-08-11
# 自動運転におけるハードウェアアクセラレーター

Hardware Accelerators in Autonomous Driving ( http://arxiv.org/abs/2308.06054v1 )

ライセンス: Link先を確認
Ken Power, Shailendra Deva, Ting Wang, Julius Li, Ciar\'an Eising(参考訳) 自動運転車のコンピューティングプラットフォームは、多くのセンサーから大量のデータを記録し、機械学習モデルを通じてデータを処理し、車両の安全な運転を保証する決定を下す。 速く、正確で、信頼できる意思決定が重要です。 従来のコンピュータプロセッサは、高度な自律運転タスクの認識とマシンビジョン要求に必要なパワーと柔軟性を欠いている。 ハードウェアアクセラレータは、自動運転車がより高いレベルの自律性のために性能要件を満たすのを助ける特別な目的のコプロセッサである。 本稿では,MLアクセラレータの概要と,自律走行車におけるマシンビジョンの利用例を紹介する。 我々は、研究者や実践者に勧告を提供し、この新興分野における現在および将来の研究の軌跡を明らかにする。

Computing platforms in autonomous vehicles record large amounts of data from many sensors, process the data through machine learning models, and make decisions to ensure the vehicle's safe operation. Fast, accurate, and reliable decision-making is critical. Traditional computer processors lack the power and flexibility needed for the perception and machine vision demands of advanced autonomous driving tasks. Hardware accelerators are special-purpose coprocessors that help autonomous vehicles meet performance requirements for higher levels of autonomy. This paper provides an overview of ML accelerators with examples of their use for machine vision in autonomous vehicles. We offer recommendations for researchers and practitioners and highlight a trajectory for ongoing and future research in this emerging field.
翻訳日:2023-08-14 14:24:16 公開日:2023-08-11
# Miroによるメモリ階層によるデバイス上連続学習の費用対効果

Cost-effective On-device Continual Learning over Memory Hierarchy with Miro ( http://arxiv.org/abs/2308.06053v1 )

ライセンス: Link先を確認
Xinyue Ma, Suyeon Jeong, Minjia Zhang, Di Wang, Jonghyun Choi, Myeongjae Jeon(参考訳) 連続学習(CL)は、タスクの連続ストリームからNNモデルを漸進的に訓練する。 以前に学んだ知識を思い出すために、以前の研究は古いサンプルをメモリ階層上に保存し、新しいタスクが到着したら再生する。 データプライバシを保存するためにCLを採用するエッジデバイスは、通常、エネルギーに敏感であり、エネルギー効率、すなわちコスト効率を損なうことなく、高いモデル精度を必要とする。 我々の研究は、階層型メモリリプレイベースのCLの設計空間を初めて探求し、エッジデバイスでコスト効率を達成するための洞察を得た。 我々は,資源状態に基づいてCLシステムを動的に構成し,コスト効率を最大化することにより,CLフレームワークに対する洞察を注意深く統合するシステムランタイムであるMiroを紹介する。 この目標を達成するために、Miroは、精度とエネルギーのトレードオフを明確にしたパラメータのオンラインプロファイリングを行い、オーバーヘッドの少ない最適な値に適応する。 大規模な評価の結果、Miroは私たちが構築するベースラインシステムを大幅に上回り、高いコスト効率を実現している。

Continual learning (CL) trains NN models incrementally from a continuous stream of tasks. To remember previously learned knowledge, prior studies store old samples over a memory hierarchy and replay them when new tasks arrive. Edge devices that adopt CL to preserve data privacy are typically energy-sensitive and thus require high model accuracy while not compromising energy efficiency, i.e., cost-effectiveness. Our work is the first to explore the design space of hierarchical memory replay-based CL to gain insights into achieving cost-effectiveness on edge devices. We present Miro, a novel system runtime that carefully integrates our insights into the CL framework by enabling it to dynamically configure the CL system based on resource states for the best cost-effectiveness. To reach this goal, Miro also performs online profiling on parameters with clear accuracy-energy trade-offs and adapts to optimal values with low overhead. Extensive evaluations show that Miro significantly outperforms baseline systems we build for comparison, consistently achieving higher cost-effectiveness.
翻訳日:2023-08-14 14:24:05 公開日:2023-08-11
# フェデレーション学習におけるインスタンス適応推論に向けて

Towards Instance-adaptive Inference for Federated Learning ( http://arxiv.org/abs/2308.06051v1 )

ライセンス: Link先を確認
Chun-Mei Feng, Kai Yu, Nian Liu, Xinxing Xu, Salman Khan, Wangmeng Zuo(参考訳) Federated Learning(FL)は、複数のクライアントがローカルトレーニングを集約することで、強力なグローバルモデルを学ぶことができる分散学習パラダイムである。 しかし、グローバルモデルの性能はクライアント間の非単位分布によって妨げられ、クライアント間の不均一性を緩和するために広範囲な努力が必要である。 クライアント間データの不均一性を超えて、クライアント内不均一性は複雑な実世界データでも観察でき、fl性能を著しく低下させることに注意する。 本稿では、flフレームワークでインスタンス適応推論を有効にすることにより、クライアント内データの不均一性を処理する新しいflアルゴリズム、すなわちfeedinsを提案する。 巨大なインスタンス適応モデルの代わりに、パラメータ効率のよい微調整方法、すなわち、事前訓練されたモデルでディープ機能(ssf)をスケール・アンド・シフトします。 具体的には、まず各クライアントに対してSSFプールをトレーニングし、サーバ側でこれらのSSFプールを集約し、通信コストを低く抑える。 インスタンス適応推論を可能にするために、与えられたインスタンスに対して、最も適合したSSFサブセットを動的に発見し、それらを集約して、インスタンスに指定された適応SSFを生成する。 大規模な実験により、我々のFedInsは最先端のFLアルゴリズム(例えば、Tiny-ImageNetの通信コストが15倍未満の最高性能の手法に対して6.64倍の改善を達成している。 私たちのコードとモデルは公開されます。

Federated learning (FL) is a distributed learning paradigm that enables multiple clients to learn a powerful global model by aggregating local training. However, the performance of the global model is often hampered by non-i.i.d. distribution among the clients, requiring extensive efforts to mitigate inter-client data heterogeneity. Going beyond inter-client data heterogeneity, we note that intra-client heterogeneity can also be observed on complex real-world data and seriously deteriorate FL performance. In this paper, we present a novel FL algorithm, i.e., FedIns, to handle intra-client data heterogeneity by enabling instance-adaptive inference in the FL framework. Instead of huge instance-adaptive models, we resort to a parameter-efficient fine-tuning method, i.e., scale and shift deep features (SSF), upon a pre-trained model. Specifically, we first train an SSF pool for each client, and aggregate these SSF pools on the server side, thus still maintaining a low communication cost. To enable instance-adaptive inference, for a given instance, we dynamically find the best-matched SSF subsets from the pool and aggregate them to generate an adaptive SSF specified for the instance, thereby reducing the intra-client as well as the inter-client heterogeneity. Extensive experiments show that our FedIns outperforms state-of-the-art FL algorithms, e.g., a 6.64\% improvement against the top-performing method with less than 15\% communication cost on Tiny-ImageNet. Our code and models will be publicly released.
翻訳日:2023-08-14 14:23:46 公開日:2023-08-11
# 個人化大規模言語モデルによる人間専門家の指導

Learning to Guide Human Experts via Personalized Large Language Models ( http://arxiv.org/abs/2308.06039v1 )

ライセンス: Link先を確認
Debodeep Banerjee, Stefano Teso, Andrea Passerini(参考訳) 推論を学ぶ際、予測者はリスクの高い決定を識別し、それを人間の専門家に否定する。 このセットアップの大きな問題のひとつは、偏見を抑えるため、専門家がマシンの判断を過度に検討する可能性があることだ。 同時に、マシンが遅延オプションを選択するたびに、専門家は決定を完全に無力化しなければならない。 対策として、既成の意思決定を提案するのではなく、機械が意思決定を導くのに有用なガイダンスを提供し、人間は完全に意思決定の責任を負うという代替フレームワークである学習指導(LTG)を提案する。 また、(少量の)人間の監督を活用して、汎用的な大規模言語モデルをテキストガイダンスを生成するモジュールに変換するLTG実装であるSLOGを導入し、医療診断タスクにおける予備的かつ有望な結果を示す。

In learning to defer, a predictor identifies risky decisions and defers them to a human expert. One key issue with this setup is that the expert may end up over-relying on the machine's decisions, due to anchoring bias. At the same time, whenever the machine chooses the deferral option the expert has to take decisions entirely unassisted. As a remedy, we propose learning to guide (LTG), an alternative framework in which -- rather than suggesting ready-made decisions -- the machine provides guidance useful to guide decision-making, and the human is entirely responsible for coming up with a decision. We also introduce SLOG, an LTG implementation that leverages (a small amount of) human supervision to convert a generic large language model into a module capable of generating textual guidance, and present preliminary but promising results on a medical diagnosis task.
翻訳日:2023-08-14 14:23:17 公開日:2023-08-11
# 効率的な実時間プロンプトチューニングのための拡散によるデータ拡張

Diverse Data Augmentation with Diffusions for Effective Test-time Prompt Tuning ( http://arxiv.org/abs/2308.06038v1 )

ライセンス: Link先を確認
Chun-Mei Feng, Kai Yu, Yong Liu, Salman Khan, Wangmeng Zuo(参考訳) 迅速なチューニングから恩恵を受け、近年ではCLIPなどの事前訓練された視覚言語モデルの多目的下流タスクにおける有望なパフォーマンスを目撃している。 本稿では,テストタイム・プロンプト・チューニング(TPT)として知られる未確認の新しい領域から,各テストサンプルに対して,適応的なプロンプトをオンザフライで学習する特定の設定に焦点を当てる。 既存のTPT手法はデータ拡張と信頼性の選択に依存している。 しかし、例えば、ランダムな再サイズ作物のような従来のデータ拡張技術は、データの多様性の欠如に悩まされており、エントロピーベースの信頼選択だけでは予測忠実性を保証するには不十分である。 これらの問題に対処するために,事前学習した拡散モデルを用いて多種多様な情報データを生成する新しいTPT手法DiffTPTを提案する。 具体的には,従来法と事前学習した安定拡散法の両方による拡張データを組み込んで,それぞれのメリットを生かし,未知の新しいテストデータに適応するモデルの能力を向上させる。 さらに,生成データの予測精度を確保するために,コサイン類似度に基づくフィルタリング手法を導入し,単一の試験試料に類似度の高いデータを選択する。 分布シフトと未知のカテゴリを持つテストデータセットに関する実験により、difftptは最先端tpt法と比較して平均5.13\%のゼロショット精度を向上できることが示されている。 私たちのコードとモデルは公開されます。

Benefiting from prompt tuning, recent years have witnessed the promising performance of pre-trained vision-language models, e.g., CLIP, on versatile downstream tasks. In this paper, we focus on a particular setting of learning adaptive prompts on the fly for each test sample from an unseen new domain, which is known as test-time prompt tuning (TPT). Existing TPT methods typically rely on data augmentation and confidence selection. However, conventional data augmentation techniques, e.g., random resized crops, suffers from the lack of data diversity, while entropy-based confidence selection alone is not sufficient to guarantee prediction fidelity. To address these issues, we propose a novel TPT method, named DiffTPT, which leverages pre-trained diffusion models to generate diverse and informative new data. Specifically, we incorporate augmented data by both conventional method and pre-trained stable diffusion to exploit their respective merits, improving the models ability to adapt to unknown new test data. Moreover, to ensure the prediction fidelity of generated data, we introduce a cosine similarity-based filtration technique to select the generated data with higher similarity to the single test sample. Our experiments on test datasets with distribution shifts and unseen categories demonstrate that DiffTPT improves the zero-shot accuracy by an average of 5.13\% compared to the state-of-the-art TPT method. Our code and models will be publicly released.
翻訳日:2023-08-14 14:23:02 公開日:2023-08-11
# 専門家の重み付け平均化:視覚トランスフォーマーのための新しい一般的なトレーニングスキーム

Experts Weights Averaging: A New General Training Scheme for Vision Transformers ( http://arxiv.org/abs/2308.06093v1 )

ライセンス: Link先を確認
Yongqi Huang, Peng Ye, Xiaoshui Huang, Sheng Li, Tao Chen, Wanli Ouyang(参考訳) 構造的再パラメータ化は畳み込みニューラルネットワーク(CNN)の一般的なトレーニング手法であり、推論コストを増大させることなく性能改善を実現する。 視覚変換器(ViT)は様々な視覚的タスクにおいてCNNを徐々に上回っているため、ViTに特化したトレーニングスキームが存在するかどうかという疑問もある。 近年, 変圧器の容量を一定コストで効率的にスケールアップできるmoe(mixed-of-experts)が注目されている。 MoEはマルチブランチ構造と見なせるので、構造的再パラメータ化に似たViTトレーニングスキームの実装にMoEを利用できるだろうか? 本稿では,vitsのための新しい総合訓練戦略を用いて,これらの疑問に肯定的に答える。 具体的には、ViTのトレーニングフェーズと推論フェーズを分離する。 トレーニング中、ViTのフィードフォワードネットワーク(FFN)を、ランダムな均一なパーティションによって専門家にトークンを割り当てる、特別に設計されたより効率的なMoEに置き換え、各イテレーションの最後にこれらのMoE上でExperts Weights Averaging(EWA)を実行する。 トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。 さらに,その動作の理由と方法を説明するための理論的分析も提供する。 様々な2次元および3次元視覚タスク、ViTアーキテクチャ、データセットの総合的な実験により、提案したトレーニングスキームの有効性と一般化性を検証する。 また,ViTの微調整時の性能向上のためのトレーニング手法も適用できる。 最後に、EWA手法は、様々な2次元の視覚的小データセットと3次元の視覚的タスクにおいて、ネイティブなMoEの有効性を大幅に向上させることができる。

Structural re-parameterization is a general training scheme for Convolutional Neural Networks (CNNs), which achieves performance improvement without increasing inference cost. As Vision Transformers (ViTs) are gradually surpassing CNNs in various visual tasks, one may question: if a training scheme specifically for ViTs exists that can also achieve performance improvement without increasing inference cost? Recently, Mixture-of-Experts (MoE) has attracted increasing attention, as it can efficiently scale up the capacity of Transformers at a fixed cost through sparsely activated experts. Considering that MoE can also be viewed as a multi-branch structure, can we utilize MoE to implement a ViT training scheme similar to structural re-parameterization? In this paper, we affirmatively answer these questions, with a new general training strategy for ViTs. Specifically, we decouple the training and inference phases of ViTs. During training, we replace some Feed-Forward Networks (FFNs) of the ViT with specially designed, more efficient MoEs that assign tokens to experts by random uniform partition, and perform Experts Weights Averaging (EWA) on these MoEs at the end of each iteration. After training, we convert each MoE into an FFN by averaging the experts, transforming the model back into original ViT for inference. We further provide a theoretical analysis to show why and how it works. Comprehensive experiments across various 2D and 3D visual tasks, ViT architectures, and datasets validate the effectiveness and generalizability of the proposed training scheme. Besides, our training scheme can also be applied to improve performance when fine-tuning ViTs. Lastly, but equally important, the proposed EWA technique can significantly improve the effectiveness of naive MoE in various 2D visual small datasets and 3D visual tasks.
翻訳日:2023-08-14 14:18:29 公開日:2023-08-11
# 協調フィルタリングにおける損失関数の理解を深める

Toward a Better Understanding of Loss Functions for Collaborative Filtering ( http://arxiv.org/abs/2308.06091v1 )

ライセンス: Link先を確認
Seongmin Park, Mincheol Yoon, Jae-woong Lee, Hogun Park, Jongwuk Lee(参考訳) 協調フィルタリング(CF)は現代の推薦システムにおいて重要な手法である。 CFモデルの学習プロセスは通常、インタラクションエンコーダ、損失関数、ネガティブサンプリングの3つのコンポーネントで構成される。 多くの既存の研究で洗練された相互作用エンコーダを設計するために様々なcfモデルが提案されているが、最近の研究は損失関数の再構成が著しい性能向上を達成できることを示している。 本稿では,既存の損失関数の関係を考察する。 我々の数学的解析によると、以前の損失関数はアライメントと均一性関数として解釈できる。 (i)アライメントがユーザとアイテムの表現と一致すること、 (ii)均一性は、ユーザとアイテムの分布を分散させる。 この分析に触発されて、Margin-aware Alignment and Weighted Uniformity (MAWU)と呼ばれるデータセットのユニークなパターンを考慮したアライメントと均一性の設計を改善する新しい損失関数を提案する。 mawuの鍵となる新しさは2つあります。 (i)マージン認識アライメント(ma)は、ユーザ/項目固有の人気バイアスを軽減し、 (II)重み付き均一性(WU)は、ユーザとアイテムの均一性の重要性を調整し、データセット固有の特性を反映する。 広範な実験の結果、mawuを搭載したmfとlightgcnは、3つのパブリックデータセットで様々な損失関数を持つ最先端cfモデルに匹敵するか優れていることが示された。

Collaborative filtering (CF) is a pivotal technique in modern recommender systems. The learning process of CF models typically consists of three components: interaction encoder, loss function, and negative sampling. Although many existing studies have proposed various CF models to design sophisticated interaction encoders, recent work shows that simply reformulating the loss functions can achieve significant performance gains. This paper delves into analyzing the relationship among existing loss functions. Our mathematical analysis reveals that the previous loss functions can be interpreted as alignment and uniformity functions: (i) the alignment matches user and item representations, and (ii) the uniformity disperses user and item distributions. Inspired by this analysis, we propose a novel loss function that improves the design of alignment and uniformity considering the unique patterns of datasets called Margin-aware Alignment and Weighted Uniformity (MAWU). The key novelty of MAWU is two-fold: (i) margin-aware alignment (MA) mitigates user/item-specific popularity biases, and (ii) weighted uniformity (WU) adjusts the significance between user and item uniformities to reflect the inherent characteristics of datasets. Extensive experimental results show that MF and LightGCN equipped with MAWU are comparable or superior to state-of-the-art CF models with various loss functions on three public datasets.
翻訳日:2023-08-14 14:17:56 公開日:2023-08-11
# アルゴリズム合成におけるXAIのオートエスノグラフィー探索

An Autoethnographic Exploration of XAI in Algorithmic Composition ( http://arxiv.org/abs/2308.06089v1 )

ライセンス: Link先を確認
Ashley Noel-Hirst and Nick Bryan-Kinns(参考訳) 機械学習モデルは、民族音楽から古典音楽まで様々なジャンルの複雑な音楽を生成することができる。 しかし、現在の生成音楽AIモデルは一般的に意味のある方法で理解し制御することが困難である。 音楽のための説明可能なAI(XAI)生成モデルの作成方法について研究が始まっているが、音楽制作の実践において、生成可能なXAIモデルは研究されていない。 本稿では,アイルランドの民謡に習熟した解釈可能な潜伏次元を持つ測度VAE生成音楽XAIモデルを用いた自己エスノグラフィー研究を紹介する。 音楽作成ワークフローの探索的性質は、生成モデル自体の特徴ではなく、トレーニングデータセットの音楽的特徴を基礎にしていることを示している。 反復ワークフローにおけるXAIモデルの適用は、当初設計されていたよりリッチで複雑なワークフローの一部を形成するためのXAIモデルの可能性を強調します。

Machine Learning models are capable of generating complex music across a range of genres from folk to classical music. However, current generative music AI models are typically difficult to understand and control in meaningful ways. Whilst research has started to explore how explainable AI (XAI) generative models might be created for music, no generative XAI models have been studied in music making practice. This paper introduces an autoethnographic study of the use of the MeasureVAE generative music XAI model with interpretable latent dimensions trained on Irish folk music. Findings suggest that the exploratory nature of the music-making workflow foregrounds musical features of the training dataset rather than features of the generative model itself. The appropriation of an XAI model within an iterative workflow highlights the potential of XAI models to form part of a richer and more complex workflow than they were initially designed for.
翻訳日:2023-08-14 14:17:32 公開日:2023-08-11
# 人工知能と大規模言語モデルを用いた実験における学生の誤りの評価--レーティングとの比較研究

Assessing Student Errors in Experimentation Using Artificial Intelligence and Large Language Models: A Comparative Study with Human Raters ( http://arxiv.org/abs/2308.06088v1 )

ライセンス: Link先を確認
Arne Bewersdorff, Kathrin Se{\ss}ler, Armin Baur, Enkelejda Kasneci, Claudia Nerdel(参考訳) 複雑な、不完全、あるいは矛盾する、学生の実験プロトコルのような全体的な異種データの論理的誤りを特定することは困難である。 現在の評価手法の限界を認識し,学生の誤りを自動的に識別し,教師の評価を合理化するためのLarge Language Models (LLMs) の可能性を検討する。 私たちの目標は、生産的でパーソナライズされたフィードバックの基盤を提供することです。 65の学生プロトコルのデータセットを用いて,GPT-3.5とGPT-4をベースとした人工知能(AI)システムを開発した。 以上の結果から,aiシステムとヒューマン・パーサー間の誤り検出の精度は様々であった。 例えば、AIシステムは、学生が依存変数ではなく、期待される観察(acc. = 0.90)のみに焦点を当てている場合、学生が進行中の調査(acc. = 1)の試行を変更している場合(acc. = 0.82)、学生が有効な試験試験を確実に行っているかどうかを正確に識別することができる。 学生が有効な制御試験(acc. = .60)を行うかどうかなど、他の、通常より複雑なエラーの特定は、大きな課題となる。 本研究は、学習環境におけるAIの有用性だけでなく、実験のような調査に基づく学習における誤り検出におけるLLMの能力の理解にも寄与する。

Identifying logical errors in complex, incomplete or even contradictory and overall heterogeneous data like students' experimentation protocols is challenging. Recognizing the limitations of current evaluation methods, we investigate the potential of Large Language Models (LLMs) for automatically identifying student errors and streamlining teacher assessments. Our aim is to provide a foundation for productive, personalized feedback. Using a dataset of 65 student protocols, an Artificial Intelligence (AI) system based on the GPT-3.5 and GPT-4 series was developed and tested against human raters. Our results indicate varying levels of accuracy in error detection between the AI system and human raters. The AI system can accurately identify many fundamental student errors, for instance, the AI system identifies when a student is focusing the hypothesis not on the dependent variable but solely on an expected observation (acc. = 0.90), when a student modifies the trials in an ongoing investigation (acc. = 1), and whether a student is conducting valid test trials (acc. = 0.82) reliably. The identification of other, usually more complex errors, like whether a student conducts a valid control trial (acc. = .60), poses a greater challenge. This research explores not only the utility of AI in educational settings, but also contributes to the understanding of the capabilities of LLMs in error detection in inquiry-based learning like experimentation.
翻訳日:2023-08-14 14:17:19 公開日:2023-08-11
# 離散集合上の関数から量子チャネルを生成する

Generating quantum channels from functions on discrete sets ( http://arxiv.org/abs/2308.06084v1 )

ライセンス: Link先を確認
A. C. Quillen, Rayleigh Parker, Nathan Skerrett(参考訳) 高忠実度で量子状態を高速に初期化する量子コンピュータの最近の能力を用いて、離散集合上で動作する関数を用いて量子チャネルの単純なクラスを作成する。 関数の中に存在する固定点と周期軌道は、関連する量子チャネル内で固定点と周期軌道を生成する。 周期的二重化のような現象は、ロジスティックマップの切り離されたバージョンから構築された6 qubit dephasingチャネルで見ることができる。 解離部分集合を用いて、部分空間内のコヒーレンスを保持する離散関数生成チャネルを構築することができる。 シンドローム検出は初期化量子レジスタを使用するため、誤り訂正手順はこのクラスに属することができる。 関数生成チャネルの可能な応用は、ハイブリッド古典/量子アルゴリズムである。 これらのチャネルが量子コンピュータ上の非可逆関数の反復を含む古典的な計算にどのように役立つのかをユークリッドアルゴリズムを用いて説明し、2つの整数の最大公約数を求める。

Using the recent ability of quantum computers to initialize quantum states rapidly with high fidelity, we use a function operating on a discrete set to create a simple class of quantum channels. Fixed points and periodic orbits, that are present in the function, generate fixed points and periodic orbits in the associated quantum channel. Phenomenology such as periodic doubling is visible in a 6 qubit dephasing channel constructed from a truncated version of the logistic map. Using disjoint subsets, discrete function-generated channels can be constructed that preserve coherence within subspaces. Error correction procedures can be in this class as syndrome detection uses an initialized quantum register. A possible application for function-generated channels is in hybrid classical/quantum algorithms. We illustrate how these channels can aid in carrying out classical computations involving iteration of non-invertible functions on a quantum computer with the Euclidean algorithm for finding the greatest common divisor of two integers.
翻訳日:2023-08-14 14:16:49 公開日:2023-08-11
# 量子モンテカルロ積分のためのモジュールエンジン

A Modular Engine for Quantum Monte Carlo Integration ( http://arxiv.org/abs/2308.06081v1 )

ライセンス: Link先を確認
Ismail Yunus Akhalwaya, Adam Connolly, Roland Guichard, Steven Herbert, Cahit Kargi, Alexandre Krajenbrink, Michael Lubasch, Conor Mc Keever, Julien Sorci, Michael Spranger, Ifan Williams(参考訳) 我々はquantinuumが開発した量子モンテカルロ積分(qmci)エンジンを提案する。 金融などの科学や工学の様々な分野で発生する多次元積分を評価するための量子計算ツールである。 本稿では,様々な分散負荷法,qmci計算の統計ロバスト性を向上させる新しい量子振幅推定法,推定可能な統計量ライブラリなど,qmciエンジンのアーキテクチャの詳細について述べる。 QMCIエンジンはモジュラリティを念頭に設計されており、特に金融アプリケーションに適した新しい量子アルゴリズムの継続的な開発を可能にする。 さらに、エンジンはリソースモードを備え、生成した量子回路の正確なリソース定量化を提供する。 この論文には、様々な金融機器の評価に焦点をあて、エンジンの性能を示す広範なベンチマークも含まれている。

We present the Quantum Monte Carlo Integration (QMCI) engine developed by Quantinuum. It is a quantum computational tool for evaluating multi-dimensional integrals that arise in various fields of science and engineering such as finance. This white paper presents a detailed description of the architecture of the QMCI engine, including a variety of distribution-loading methods, a novel quantum amplitude estimation method that improves the statistical robustness of QMCI calculations, and a library of statistical quantities that can be estimated. The QMCI engine is designed with modularity in mind, allowing for the continuous development of new quantum algorithms tailored in particular to financial applications. Additionally, the engine features a resource mode, which provides a precise resource quantification for the quantum circuits generated. The paper also includes extensive benchmarks that showcase the engine's performance, with a focus on the evaluation of various financial instruments.
翻訳日:2023-08-14 14:16:28 公開日:2023-08-11
# フライスワットかキャノンか? メタモデリングによるコスト効果言語モデル選択

Fly-Swat or Cannon? Cost-Effective Language Model Choice via Meta-Modeling ( http://arxiv.org/abs/2308.06077v1 )

ライセンス: Link先を確認
Marija \v{S}akota, Maxime Peyrard, Robert West(参考訳) ジェネレーティブ言語モデル(LM)は、データサイエンス全体にわたって一様である。 様々なタスクに対して、入力はLMの自然言語プロンプトとして表現することができ、その出力から解を抽出することができる。 lmのパフォーマンスはモデルサイズによって一貫して向上していますが、さらに大きなモデルに問い合わせる金銭的なコストも伴っています。 しかし、重要なことは全ての入力が等しく難しいわけではない: 満足な解を得るためにより大きなLMを必要とするものもいるが、他のより小さなLMでは十分である。 この事実に基づいて、コスト効果言語モデル選択(CELMOC)のためのフレームワークを設計する。 入力のセットと候補LMのセットが与えられた後、CELMOCは、各入力を、メタモデルと呼ばれる入力でうまく動作すると予測されたLMに任意に割り当て、低コストで全体的なパフォーマンスを達成することを目的としている。 コストパフォーマンストレードオフは、ユーザが柔軟に調整することができる。 オプションには、所定のコスト予算内に留まり、期待されるパフォーマンス(または処理された入力数)を最大化することや、すべての入力を処理しながら総コストを最小化することが含まれる。 5つの自然言語タスクをカバーする14のデータセット上でcelmocを評価し,サイズとコストの異なる4つの候補lmsを用いて評価した。 CELMOCでは,最大利用可能なLMの性能と63%のコスト削減を実現した。 公開ライブラリーのおかげで、研究者も実践者も、パフォーマンスを犠牲にすることなく大量のお金を節約できる。

Generative language models (LMs) have become omnipresent across data science. For a wide variety of tasks, inputs can be phrased as natural language prompts for an LM, from whose output the solution can then be extracted. LM performance has consistently been increasing with model size - but so has the monetary cost of querying the ever larger models. Importantly, however, not all inputs are equally hard: some require larger LMs for obtaining a satisfactory solution, whereas for others smaller LMs suffice. Based on this fact, we design a framework for Cost-Effective Language Model Choice (CELMOC). Given a set of inputs and a set of candidate LMs, CELMOC judiciously assigns each input to an LM predicted to do well on the input according to a so-called meta-model, aiming to achieve high overall performance at low cost. The cost-performance trade-off can be flexibly tuned by the user. Options include, among others, maximizing total expected performance (or the number of processed inputs) while staying within a given cost budget, or minimizing total cost while processing all inputs. We evaluate CELMOC on 14 datasets covering five natural language tasks, using four candidate LMs of vastly different size and cost. With CELMOC, we match the performance of the largest available LM while achieving a cost reduction of 63%. Via our publicly available library, researchers as well as practitioners can thus save large amounts of money without sacrificing performance.
翻訳日:2023-08-14 14:16:04 公開日:2023-08-11
# 多様な顔アニメーター:任意の3d顔アバターをrgbd空間で駆動する

Versatile Face Animator: Driving Arbitrary 3D Facial Avatar in RGBD Space ( http://arxiv.org/abs/2308.06076v1 )

ライセンス: Link先を確認
Haoyu Wang, Haozhe Wu, Junliang Xing, Jia Jia(参考訳) リアルな3d顔アニメーションを作ることは、映画製作やゲーム業界、特にメタバースの需要が急増する中、様々な応用に不可欠である。 しかし、ブレンドシェイプベースのアプローチや顔のリギング技術のような一般的な手法は、時間消費、労働集約性、標準化された構成の欠如であり、顔アニメーションの制作が困難で費用がかかる。 本稿では,顔の動きのキャプチャと動きのリターゲティングをエンドツーエンドに組み合わせ,ブレンドシャッペやリグの必要性を解消する,新たな自己監督型顔アニメーターであるVersatile Face Animatorを提案する。 提案手法の主な特徴は以下の2つである。 1)階層的モーション辞書による生のrgbd動画から顔の動きを学習するrgbdアニメーションモジュールと,3d顔メッシュから粗い3d画像を生成するアニメートrgbd画像を提案し,そのトポロジー,テクスチャ,ブレンド形状,リグによらず任意の3dキャラクタで顔アニメーションを実現する。 2)RGBDアニメーションを利用するメッシュリターゲットモジュールを導入し,高密度光流場から推定され,測地距離に基づく重みが組み合わされた顔メッシュをコントローラ変換で操作することで,3次元顔アニメーションを作成する。 包括的実験により,提案手法が印象的な3次元顔アニメーション生成に有効であることを実証し,メタバースにおける顔アニメーションのコスト効率と効率のよい生成に有望なソリューションとしての可能性を強調した。

Creating realistic 3D facial animation is crucial for various applications in the movie production and gaming industry, especially with the burgeoning demand in the metaverse. However, prevalent methods such as blendshape-based approaches and facial rigging techniques are time-consuming, labor-intensive, and lack standardized configurations, making facial animation production challenging and costly. In this paper, we propose a novel self-supervised framework, Versatile Face Animator, which combines facial motion capture with motion retargeting in an end-to-end manner, eliminating the need for blendshapes or rigs. Our method has the following two main characteristics: 1) we propose an RGBD animation module to learn facial motion from raw RGBD videos by hierarchical motion dictionaries and animate RGBD images rendered from 3D facial mesh coarse-to-fine, enabling facial animation on arbitrary 3D characters regardless of their topology, textures, blendshapes, and rigs; and 2) we introduce a mesh retarget module to utilize RGBD animation to create 3D facial animation by manipulating facial mesh with controller transformations, which are estimated from dense optical flow fields and blended together with geodesic-distance-based weights. Comprehensive experiments demonstrate the effectiveness of our proposed framework in generating impressive 3D facial animation results, highlighting its potential as a promising solution for the cost-effective and efficient production of facial animation in the metaverse.
翻訳日:2023-08-14 14:15:15 公開日:2023-08-11
# 単眼深度推定のための分布外検出

Out-of-Distribution Detection for Monocular Depth Estimation ( http://arxiv.org/abs/2308.06072v1 )

ライセンス: Link先を確認
Julia Hornauer and Adrian Holzbock and Vasileios Belagiannis(参考訳) 単眼深度推定では、不確かさ推定手法は主に画像雑音によるデータ不確かさを対象とする。 先行研究とは対照的に, 知識不足による不確実性に対処し, トレーニング分布に代表されないデータ, いわゆるout-of-distribution (ood) データの検出に関係している。 異常検出を動機とし,再構成誤差に基づくエンコーダ・デコーダ深さ推定モデルからood画像の検出を提案する。 固定深度エンコーダを用いて抽出した特徴を考慮し,分布内データのみを用いて画像再構成のための画像デコーダを訓練する。 その結果,OOD画像は高い再構成誤差となり,分布内サンプルと分布外サンプルを区別する。 我々は、標準のNYU Depth V2とKITTIベンチマークを分散データとして構築した。 ポストホック法は,異なるモデルに対して驚くほど良好に動作し,訓練されたエンコーダ・デコーダ深さ推定モデルを変更することなく,既存の不確実性推定手法を上回っている。

In monocular depth estimation, uncertainty estimation approaches mainly target the data uncertainty introduced by image noise. In contrast to prior work, we address the uncertainty due to lack of knowledge, which is relevant for the detection of data not represented by the training distribution, the so-called out-of-distribution (OOD) data. Motivated by anomaly detection, we propose to detect OOD images from an encoder-decoder depth estimation model based on the reconstruction error. Given the features extracted with the fixed depth encoder, we train an image decoder for image reconstruction using only in-distribution data. Consequently, OOD images result in a high reconstruction error, which we use to distinguish between in- and out-of-distribution samples. We built our experiments on the standard NYU Depth V2 and KITTI benchmarks as in-distribution data. Our post hoc method performs astonishingly well on different models and outperforms existing uncertainty estimation approaches without modifying the trained encoder-decoder depth estimation model.
翻訳日:2023-08-14 14:14:23 公開日:2023-08-11
# サンプル仕様によるスマートエネルギーシステムの学習ベース制御の保護

Safeguarding Learning-based Control for Smart Energy Systems with Sampling Specifications ( http://arxiv.org/abs/2308.06069v1 )

ライセンス: Link先を確認
Chih-Hong Cheng, Venkatesh Prasad Venkataramanan, Pragya Kirti Gupta, Yun-Fei Hsu, Simon Burton(参考訳) エネルギーシステムの制御における強化学習を用いた課題について検討し,性能要件とは別に,停電回避などの安全性要件も検討した。 線形時相論理 (ltl) への離散化により, リアルタイム時相論理におけるこれらの安全性要件が強化され, ltlの満足度が元の安全性要件の満足度を意味する。 この離散化により、安全強化学習のためのシールドの合成や形式的検証などの高度な工学的手法が可能となり、統計モデル検査では、LTLモデル検査によって得られた確率的保証は、元のリアルタイム安全要件の満足度を低くする。

We study challenges using reinforcement learning in controlling energy systems, where apart from performance requirements, one has additional safety requirements such as avoiding blackouts. We detail how these safety requirements in real-time temporal logic can be strengthened via discretization into linear temporal logic (LTL), such that the satisfaction of the LTL formulae implies the satisfaction of the original safety requirements. The discretization enables advanced engineering methods such as synthesizing shields for safe reinforcement learning as well as formal verification, where for statistical model checking, the probabilistic guarantee acquired by LTL model checking forms a lower bound for the satisfaction of the original real-time safety requirements.
翻訳日:2023-08-14 14:14:03 公開日:2023-08-11
# Lip2Vec:潜時から潜時までの音声表現マッピングによる高能率かつロバストな視覚音声認識

Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping ( http://arxiv.org/abs/2308.06112v1 )

ライセンス: Link先を確認
Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Haithem Boussaid, Ebtessam Almazrouei, Merouane Debbah(参考訳) 視覚音声認識(VSR)は、人間の専門家でさえ、ビデオシーケンスの深い推論を必要とするため、一般的な知覚タスクとは異なる。 vsrの最近の進歩にもかかわらず、現在のアプローチはラベル付きデータに依存して、ターゲット音声を予測するモデルを十分に訓練または微調整している。 これにより、トレーニングセットをはるかに越えて一般化する能力が損なわれ、アウト・オブ・ディストリビューションの難しいシナリオ下でのパフォーマンス劣化につながる。 補助的損失や複雑なトレーニング手順やアーキテクチャを含む従来の作業とは違い,従来のモデル学習に基づくシンプルなアプローチであるLip2Vecを提案する。 頑健な視覚音声エンコーダが与えられた場合、このネットワークは、有効なテキスト復号に十分な不変量である音声ペアから、リップシーケンスの符号化された潜時表現を対応する潜時表現にマッピングする。 生成された音声表現は、オフザシェルフ音声音声認識(ASR)モデルを用いてテキストに復号される。 提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。 SoTAのアプローチとは異なり、私たちのモデルはVoxCelebテストセット上で適切なパフォーマンスを維持します。 我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解方法の道を開くと信じている。

Visual Speech Recognition (VSR) differs from the common perception tasks as it requires deeper reasoning over the video sequence, even by human experts. Despite the recent advances in VSR, current approaches rely on labeled data to fully train or finetune their models predicting the target speech. This hinders their ability to generalize well beyond the training set and leads to performance degeneration under out-of-distribution challenging scenarios. Unlike previous works that involve auxiliary losses or complex training procedures and architectures, we propose a simple approach, named Lip2Vec that is based on learning a prior model. Given a robust visual speech encoder, this network maps the encoded latent representations of the lip sequence to their corresponding latents from the audio pair, which are sufficiently invariant for effective text decoding. The generated audio representation is then decoded to text using an off-the-shelf Audio Speech Recognition (ASR) model. The proposed model compares favorably with fully-supervised learning methods on the LRS3 dataset achieving 26 WER. Unlike SoTA approaches, our model keeps a reasonable performance on the VoxCeleb test set. We believe that reprogramming the VSR as an ASR task narrows the performance gap between the two and paves the way for more flexible formulations of lip reading.
翻訳日:2023-08-14 14:06:02 公開日:2023-08-11
# 大型言語モデルによる財務監査のためのゼロショットテキストマッチングの改善

Improving Zero-Shot Text Matching for Financial Auditing with Large Language Models ( http://arxiv.org/abs/2308.06111v1 )

ライセンス: Link先を確認
Lars Hillebrand, Armin Berger, Tobias Deu{\ss}er, Tim Dilmaghani, Mohamed Khaled, Bernd Kliem, R\"udiger Loitz, Maren Pielka, David Leonhard, Christian Bauckhage, Rafet Sifa(参考訳) 財務文書の監査は非常に面倒で時間を要するプロセスです。 今日では、厳格な会計基準の法的要件ごとにレポートから関連するテキストを推奨するために、AIベースのソリューションを使用することで、すでに単純化されている。 しかし、これらの手法は定期的に微調整される必要があり、産業環境に欠ける豊富な注釈付きデータを必要とする。 そこでZeroShotALIは,最先端の大規模言語モデル(LLM)と,ドメイン固有に最適化されたトランスフォーマーベースのテキストマッチングソリューションを併用した,新しいレコメンデーションシステムである。 2段階のアプローチでは、まず、独自のBERTモデルを用いて、法的な要件ごとに最適な文書セクションを抽出し、次に、LLMを用いてこれらの選択をフィルタリングすることで、既存のアプローチよりも大幅に性能が向上することがわかった。

Auditing financial documents is a very tedious and time-consuming process. As of today, it can already be simplified by employing AI-based solutions to recommend relevant text passages from a report for each legal requirement of rigorous accounting standards. However, these methods need to be fine-tuned regularly, and they require abundant annotated data, which is often lacking in industrial environments. Hence, we present ZeroShotALI, a novel recommender system that leverages a state-of-the-art large language model (LLM) in conjunction with a domain-specifically optimized transformer-based text-matching solution. We find that a two-step approach of first retrieving a number of best matching document sections per legal requirement with a custom BERT-based model and second filtering these selections using an LLM yields significant performance improvements over existing approaches.
翻訳日:2023-08-14 14:05:38 公開日:2023-08-11
# 遅延グランガー因果性を有するホークスプロセス

Hawkes Processes with Delayed Granger Causality ( http://arxiv.org/abs/2308.06106v1 )

ライセンス: Link先を確認
Chao Yang, Hengyuan Miao, Shuang Li(参考訳) 多変量ホークスプロセスに基づく遅延グランガー因果効果を明示的にモデル化することを目指している。 このアイデアは、因果イベントが通常、効果を発揮するのに時間がかかるという事実にインスパイアされている。 この時間の研究自体が興味をそそる。 提案モデルから,まず,軽度条件下での遅延パラメータの同定可能性を示す。 さらに,時間ラグの後方分布を推定し,この分布が様々なシナリオでどのように変化するかを理解するための,複雑な条件下でのモデル推定法について検討する。 時間遅れを潜在変数として扱い,変分オートエンコーダ(vae)アルゴリズムを定式化し,時間遅れの後方分布を近似する。 hawkesプロセスのタイムラグを明示的にモデル化することで、モデルに柔軟性を加えます。 推定されたタイムラグの後方分布は科学的意味を持ち、根本原因分析を支える元の因果時間を追跡するのに役立つ。 我々は,実データおよび合成データを用いたモデルイベント予測と時間遅延推定の精度を実証的に評価し,有望な結果を得た。

We aim to explicitly model the delayed Granger causal effects based on multivariate Hawkes processes. The idea is inspired by the fact that a causal event usually takes some time to exert an effect. Studying this time lag itself is of interest. Given the proposed model, we first prove the identifiability of the delay parameter under mild conditions. We further investigate a model estimation method under a complex setting, where we want to infer the posterior distribution of the time lags and understand how this distribution varies across different scenarios. We treat the time lags as latent variables and formulate a Variational Auto-Encoder (VAE) algorithm to approximate the posterior distribution of the time lags. By explicitly modeling the time lags in Hawkes processes, we add flexibility to the model. The inferred time-lag posterior distributions are of scientific meaning and help trace the original causal time that supports the root cause analysis. We empirically evaluate our model's event prediction and time-lag inference accuracy on synthetic and real data, achieving promising results.
翻訳日:2023-08-14 14:05:25 公開日:2023-08-11
# 変換器アーキテクチャのための構成可能な関数保存拡張

Composable Function-preserving Expansions for Transformer Architectures ( http://arxiv.org/abs/2308.06103v1 )

ライセンス: Link先を確認
Andrea Gesmundo and Kaitlin Maile(参考訳) 最先端ニューラルネットワークのトレーニングには、計算と時間の観点から高いコストを必要とする。 モデルスケールは最先端を達成し、改善するための重要な要素であると認識されている。 ニューラルネットワークのスケールを増大させるには、小さなモデルから簡単に知識を移すことができないアーキテクチャのパラメータの変更を暗示するため、モデルの全パラメータをランダムに初期化することで、スクラッチから再起動する必要がある。 本研究では,機能を維持しつつトランスフォーマーベースのニューラルネットワークを段階的に増やすための6つの構成可能な変換を提案し,必要に応じてモデルの容量を拡大する。 各変換に対する最小初期化制約の下での厳密な関数保存の証明を提供する。 提案手法は,トレーニング全体を通じてアーキテクチャを段階的に拡張することにより,大規模で強力なモデルの効率的なトレーニングパイプラインを可能にする。

Training state-of-the-art neural networks requires a high cost in terms of compute and time. Model scale is recognized to be a critical factor to achieve and improve the state-of-the-art. Increasing the scale of a neural network normally requires restarting from scratch by randomly initializing all the parameters of the model, as this implies a change of architecture's parameters that does not allow for a straightforward transfer of knowledge from smaller size models. In this work, we propose six composable transformations to incrementally increase the size of transformer-based neural networks while preserving functionality, allowing to expand the capacity of the model as needed. We provide proof of exact function preservation under minimal initialization constraints for each transformation. The proposed methods may enable efficient training pipelines for larger and more powerful models by progressively expanding the architecture throughout training.
翻訳日:2023-08-14 14:05:10 公開日:2023-08-11
# 出現流を伴う高品位仮想試行のための拡散モデルのパワーのモデリング

Taming the Power of Diffusion Models for High-Quality Virtual Try-On with Appearance Flow ( http://arxiv.org/abs/2308.06101v1 )

ライセンス: Link先を確認
Junhong Gou, Siyu Sun, Jianfu Zhang, Jianlou Si, Chen Qian, Liqing Zhang(参考訳) 仮想試着は、人間と衣服の両方の詳細を保存しながら、ある画像から別の画像へ衣服を転送することを目的とした、重要な画像合成タスクである。 多くの既存手法ではGAN(Generative Adversarial Networks)に頼っているが、特に高解像度では欠陥が発生することがある。 近年,様々なアプリケーションで高品質な画像を生成するための代替手段として拡散モデルが登場している。 しかし、単に衣料を拡散モデルに塗布を誘導する条件として用いるだけでは、衣料の詳細を維持するには不十分である。 この課題を克服するため,拡散モデルの生成を効果的に導くためにワープモジュールを活用する,模範ベースの塗装手法を提案する。 ウォーピングモジュールは、衣服の初期処理を実行し、服の局所的な詳細を保存するのに役立ちます。 次に,ゆがんだ衣服と着物非依存の人物像を組み合わせ,拡散モデルの入力としてノイズを加える。 さらに、歪んだ服は各装飾工程の局所的な条件として使われ、結果の出力が可能な限り詳細に保持される。 我々のアプローチであるDCI-VTON(Diffusion-based Conditional Inpainting for Virtual Try-ON)は、拡散モデルのパワーを効果的に利用し、ワープモジュールを組み込むことで、高品質でリアルな仮想試行結果が得られる。 VITON-HD実験の結果,本手法の有効性と優位性を示した。

Virtual try-on is a critical image synthesis task that aims to transfer clothes from one image to another while preserving the details of both humans and clothes. While many existing methods rely on Generative Adversarial Networks (GANs) to achieve this, flaws can still occur, particularly at high resolutions. Recently, the diffusion model has emerged as a promising alternative for generating high-quality images in various applications. However, simply using clothes as a condition for guiding the diffusion model to inpaint is insufficient to maintain the details of the clothes. To overcome this challenge, we propose an exemplar-based inpainting approach that leverages a warping module to guide the diffusion model's generation effectively. The warping module performs initial processing on the clothes, which helps to preserve the local details of the clothes. We then combine the warped clothes with clothes-agnostic person image and add noise as the input of diffusion model. Additionally, the warped clothes is used as local conditions for each denoising process to ensure that the resulting output retains as much detail as possible. Our approach, namely Diffusion-based Conditional Inpainting for Virtual Try-ON (DCI-VTON), effectively utilizes the power of the diffusion model, and the incorporation of the warping module helps to produce high-quality and realistic virtual try-on results. Experimental results on VITON-HD demonstrate the effectiveness and superiority of our method.
翻訳日:2023-08-14 14:04:56 公開日:2023-08-11
# 拡散に基づく視覚的相反的説明--体系的定量的評価に向けて

Diffusion-based Visual Counterfactual Explanations -- Towards Systematic Quantitative Evaluation ( http://arxiv.org/abs/2308.06100v1 )

ライセンス: Link先を確認
Philipp Vaeth and Alexander M. Fruehwald and Benjamin Paassen and Magda Gregorova(参考訳) 視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。 しかしながら,評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディに結びつくため,これらのVCE手法の性能を比較することは困難である。 本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。 我々はこの枠組みを用いて,最新の拡散に基づく自然画像分類vces生成モデル(imagenet)における重要な設計選択の影響を探索する。 我々はアブレーションのような実験を行い、様々な複雑さ、精度、堅牢性の分類器群に対して数千のVCEを生成する。 以上の結果から,VCE法の今後の進歩と改善の方向性が示唆された。 我々の方法論と、そのような限られたハードウェア構成(完全なコードベースを含む)の研究の計算課題に取り組むためのアプローチを共有することで、反事実的説明の評価において一貫性と透明性を育む分野の研究者に貴重なガイダンスを提供する。

Latest methods for visual counterfactual explanations (VCE) harness the power of deep generative models to synthesize new examples of high-dimensional images of impressive quality. However, it is currently difficult to compare the performance of these VCE methods as the evaluation procedures largely vary and often boil down to visual inspection of individual examples and small scale user studies. In this work, we propose a framework for systematic, quantitative evaluation of the VCE methods and a minimal set of metrics to be used. We use this framework to explore the effects of certain crucial design choices in the latest diffusion-based generative models for VCEs of natural image classification (ImageNet). We conduct a battery of ablation-like experiments, generating thousands of VCEs for a suite of classifiers of various complexity, accuracy and robustness. Our findings suggest multiple directions for future advancements and improvements of VCE methods. By sharing our methodology and our approach to tackle the computational challenges of such a study on a limited hardware setup (including the complete code base), we offer a valuable guidance for researchers in the field fostering consistency and transparency in the assessment of counterfactual explanations.
翻訳日:2023-08-14 14:04:29 公開日:2023-08-11
# ストリートビュー映像系列を用いた交通分析のための時間空間図の自動構築

Automated Construction of Time-Space Diagrams for Traffic Analysis Using Street-View Video Sequence ( http://arxiv.org/abs/2308.06098v1 )

ライセンス: Link先を確認
Tanay Rastogi and M{\aa}rten Bj\"orkman(参考訳) 時間空間図は、交通パターンを分析し、交通インフラと交通管理戦略を最適化するための重要なツールである。 これらの図の伝統的なデータ収集方法は、時間的および空間的範囲の制限がある。 カメラ技術の最近の進歩は、これらの制限を克服し、広範な都市データを提供した。 本研究では,移動車両に搭載されたカメラで撮影したストリートビュー映像を活用し,時間空間図を構築するための革新的な手法を提案する。 距離計算に最先端のYOLOv5,StrongSORT,フォトグラム計測技術を用いて,映像データから車両軌跡を推定し,時間空間図を生成する。 提案手法の有効性を評価するために,kitti computer vision benchmark suiteのデータセットを用いた。 評価結果は,ビデオデータからトラジェクトリを生成することができることを示すが,検出器,トラッカー,距離計算部品の性能を向上させることで誤差を軽減できることを示した。 その結果、移動車両に搭載されたカメラで撮影されたストリートビュー映像と最先端のコンピュータビジョン技術の組み合わせは、総合的な時間空間図を構築する大きな可能性を秘めている。 これらの図は交通パターンに関する貴重な洞察を与え、交通インフラや交通管理戦略の設計に貢献する。

Time-space diagrams are essential tools for analyzing traffic patterns and optimizing transportation infrastructure and traffic management strategies. Traditional data collection methods for these diagrams have limitations in terms of temporal and spatial coverage. Recent advancements in camera technology have overcome these limitations and provided extensive urban data. In this study, we propose an innovative approach to constructing time-space diagrams by utilizing street-view video sequences captured by cameras mounted on moving vehicles. Using the state-of-the-art YOLOv5, StrongSORT, and photogrammetry techniques for distance calculation, we can infer vehicle trajectories from the video data and generate time-space diagrams. To evaluate the effectiveness of our proposed method, we utilized datasets from the KITTI computer vision benchmark suite. The evaluation results demonstrate that our approach can generate trajectories from video data, although there are some errors that can be mitigated by improving the performance of the detector, tracker, and distance calculation components. In conclusion, the utilization of street-view video sequences captured by cameras mounted on moving vehicles, combined with state-of-the-art computer vision techniques, has immense potential for constructing comprehensive time-space diagrams. These diagrams offer valuable insights into traffic patterns and contribute to the design of transportation infrastructure and traffic management strategies.
翻訳日:2023-08-14 14:04:10 公開日:2023-08-11
# RIGID: GANインバージョンとリアルフェイスビデオの編集を繰り返す

RIGID: Recurrent GAN Inversion and Editing of Real Face Videos ( http://arxiv.org/abs/2308.06097v1 )

ライセンス: Link先を確認
Yangyang Xu, Shengfeng He, Kwan-Yee K. Wong, Ping Luo(参考訳) GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。 しかし、ビデオフレームを個別に反転させる既存の手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。 本稿では,実映像の時間的コヒーレントなganインバージョンと顔編集を明示的かつ同時に実施するための統一的リカレントフレームワーク, \textbf{r}ecurrent v\textbf{i}deo \textbf{g}an \textbf{i}nversionおよびe\textbf{d}iting(rigid)を提案する。 提案手法は,現在フレームと前フレームの時間関係を3つの側面からモデル化する。 忠実な実映像再構成を実現するため,まず時間補償潜時符号を学習し,逆の忠実度と一貫性を最大化する。 第2に,潜時空間から分離できる高周波領域に非一貫性雑音が存在することを観測する。 第3に,属性操作後に不整合を取り除くために,任意のフレームが隣接するフレームの直接合成でなければならないようなフレーム構成制約を提案する。 統一されたフレームワークは、入力フレーム間の固有の一貫性をエンドツーエンドで学習するので、特定の属性に依存せず、再トレーニングすることなく同じビデオの任意の編集に適用することができる。 大規模な実験により、RIGIDはインバージョンタスクと編集タスクの両方において、定性的かつ定量的に最先端の手法より優れていることが示された。 成果物は \url{https://cnnlstm.github.io/RIGID} で確認できる。

GAN inversion is indispensable for applying the powerful editability of GAN to real images. However, existing methods invert video frames individually often leading to undesired inconsistent results over time. In this paper, we propose a unified recurrent framework, named \textbf{R}ecurrent v\textbf{I}deo \textbf{G}AN \textbf{I}nversion and e\textbf{D}iting (RIGID), to explicitly and simultaneously enforce temporally coherent GAN inversion and facial editing of real videos. Our approach models the temporal relations between current and previous frames from three aspects. To enable a faithful real video reconstruction, we first maximize the inversion fidelity and consistency by learning a temporal compensated latent code. Second, we observe incoherent noises lie in the high-frequency domain that can be disentangled from the latent space. Third, to remove the inconsistency after attribute manipulation, we propose an \textit{in-between frame composition constraint} such that the arbitrary frame must be a direct composite of its neighboring frames. Our unified framework learns the inherent coherence between input frames in an end-to-end manner, and therefore it is agnostic to a specific attribute and can be applied to arbitrary editing of the same video without re-training. Extensive experiments demonstrate that RIGID outperforms state-of-the-art methods qualitatively and quantitatively in both inversion and editing tasks. The deliverables can be found in \url{https://cnnlstm.github.io/RIGID}
翻訳日:2023-08-14 14:03:50 公開日:2023-08-11
# ニューラルな会話モデルとテーマの再定義:失敗と修正に関する調査

Neural Conversation Models and How to Rein Them in: A Survey of Failures and Fixes ( http://arxiv.org/abs/2308.06095v1 )

ライセンス: Link先を確認
Fabian Galetzka, Anne Beyer, David Schlangen(参考訳) 最近の条件付き言語モデルは、しばしば流動的な方法であらゆる種類のテキストソースを継続することができる。 この事実は、強力な言語モデルに基づくオープンドメイン会話システムの研究を奨励し、書かれた対話に適切な貢献をすることでインターロケータを模倣することを目指している。 しかし、言語的な観点では、会話への貢献の複雑さが高い。 本調査では、この特定の研究領域の観点からGrice氏の協力的会話の最大度を解釈し、コントリビューションの適切な側面として文献を体系化する。 これらの品質を確保するため、最近のアプローチでは、データ、トレーニングレジーム、デコードなど、さまざまな介入点において基礎となる言語モデルを緩和しようとしている。 これらのカテゴリと介入点から,今後の研究に期待できる試みと新たな方法を提案する。

Recent conditional language models are able to continue any kind of text source in an often seemingly fluent way. This fact encouraged research in the area of open-domain conversational systems that are based on powerful language models and aim to imitate an interlocutor by generating appropriate contributions to a written dialogue. From a linguistic perspective, however, the complexity of contributing to a conversation is high. In this survey, we interpret Grice's maxims of cooperative conversation from the perspective of this specific research area and systematize the literature under the aspect of what makes a contribution appropriate: A neural conversation model has to be fluent, informative, consistent, coherent, and follow social norms. In order to ensure these qualities, recent approaches try to tame the underlying language models at various intervention points, such as data, training regime or decoding. Sorted by these categories and intervention points, we discuss promising attempts and suggest novel ways for future research.
翻訳日:2023-08-14 14:03:20 公開日:2023-08-11
# 時間的点過程に対する強化論理規則学習

Reinforcement Logic Rule Learning for Temporal Point Processes ( http://arxiv.org/abs/2308.06094v1 )

ライセンス: Link先を確認
Chao Yang, Lu Wang, Kun Gao, Shuang Li(参考訳) 本稿では,時間的事象の発生を説明するために,説明的時相論理規則セットを段階的に拡張できる枠組みを提案する。 時間点プロセスモデリングおよび学習フレームワークを活用することで、観測イベントシーケンスの可能性が最適になるまで、ルールの内容と重みは徐々に最適化される。 提案するアルゴリズムは、現在のルールセットの重みが更新されるマスター問題と、新しいルールが探索され、最も可能性を高めるために含まれるサブプロブレムとを交互に扱う。 定式化されたマスター問題は凸であり、連続最適化を用いて解くのは比較的容易であるが、部分問題には巨大な組合せ規則述語と関係空間の探索が必要である。 この課題に取り組むために,新たなルールコンテンツの生成を一連のアクションとして学習するためのニューラル検索ポリシーを提案する。 政策パラメータは強化学習フレームワークを用いてエンドツーエンドで訓練され、報酬信号はサブプロブレムの目的を評価することで効率的にクエリすることができる。 トレーニングされたポリシーは、コントロール可能な方法で新しいルールを生成するために使用することができる。 我々は,合成データと実際の医療データの両方について評価を行い,有望な結果を得た。

We propose a framework that can incrementally expand the explanatory temporal logic rule set to explain the occurrence of temporal events. Leveraging the temporal point process modeling and learning framework, the rule content and weights will be gradually optimized until the likelihood of the observational event sequences is optimal. The proposed algorithm alternates between a master problem, where the current rule set weights are updated, and a subproblem, where a new rule is searched and included to best increase the likelihood. The formulated master problem is convex and relatively easy to solve using continuous optimization, whereas the subproblem requires searching the huge combinatorial rule predicate and relationship space. To tackle this challenge, we propose a neural search policy to learn to generate the new rule content as a sequence of actions. The policy parameters will be trained end-to-end using the reinforcement learning framework, where the reward signals can be efficiently queried by evaluating the subproblem objective. The trained policy can be used to generate new rules in a controllable way. We evaluate our methods on both synthetic and real healthcare datasets, obtaining promising results.
翻訳日:2023-08-14 14:03:04 公開日:2023-08-11
# 非可積分XXZハイゼンベルク模型における安定な動的ヘリックス状態

Stable dynamic helix state in the nonintegrable XXZ Heisenberg model ( http://arxiv.org/abs/2308.06146v1 )

ライセンス: Link先を確認
Gang Zhang and Zhi Song(参考訳) xxzハイゼンベルク模型におけるスピンヘリックス状態の安定性に及ぼす外部場の影響について検討した。 有限系上の厳密な対角化は、x と y 方向のランダムな逆場が可積分性から非可積分性への遷移を導くことを示す。 これにより、不安定なxxzハイゼンベルクモデルの固有状態である静的ヘリックス状態が急速に崩壊する。 しかし、一様z場の存在下では、静的ヘリックス状態は量子スカー状態として比較的長い寿命を持つ動的ヘリックス状態となる。

We investigate the influence of the external fields on the stability of spin helix states in a XXZ Heisenberg model. Exact diagonalization on finite system shows that random transverse fields in x and y directions drive the transition from integrability to nonintegrability. It results in the fast decay of a static helix state, which is the eigenstate of an unperturbed XXZ Heisenberg model. However, in the presence of uniform z field, the static helix state becomes a dynamic helix state with a relatively long life as a quantum scar state.
翻訳日:2023-08-14 13:56:49 公開日:2023-08-11
# bag of words と transformer based model を用いたコード中のコメントの関連性の同定

Identification of the Relevance of Comments in Codes Using Bag of Words and Transformer Based Models ( http://arxiv.org/abs/2308.06144v1 )

ライセンス: Link先を確認
Sruthi S, Tanmay Basu(参考訳) 情報検索フォーラム(fire)は今年、異なるコードセグメントのコメントを分類するための共有タスクを開始した。 これはバイナリテキスト分類タスクで、特定のコードセグメントに与えられたコメントが関連があるかどうかを識別する目的である。 インド科学教育研究会(IISERB)のBioNLP-IISERBグループは、この作業に参加し、5つの異なるモデルに対して5回のランを提出した。 本稿では,モデルの概要とトレーニングコーパスにおけるその他の重要な知見について述べる。 これらの手法には、異なる特徴工学スキームとテキスト分類技術が含まれる。 与えられた学習コーパスから重要な特徴を識別するために,古典的な単語袋とトランスフォーマーベースモデルの性能を検討した。 我々は、単語の袋を用いて、異なる分類器、ランダムフォレスト、サポートベクターマシン、ロジスティック回帰を探索した。 さらに、bert、robert、albertといった事前訓練されたトランスフォーマーベースのモデルも、与えられたトレーニングコーパスで微調整された。 トレーニングコーパス上での異なるモデルの性能を報告し、与えられたテストコーパス上でのベスト5モデルを実装した。 実験の結果, 単語の袋モデルはトランスフォーマーモデルよりも優れていたが, トレーニングとテストコーパスでは, 動作性能は良好ではないことがわかった。 本稿は、さらなる改善のためのモデルとスコープの制限についても論じる。

The Forum for Information Retrieval (FIRE) started a shared task this year for classification of comments of different code segments. This is binary text classification task where the objective is to identify whether comments given for certain code segments are relevant or not. The BioNLP-IISERB group at the Indian Institute of Science Education and Research Bhopal (IISERB) participated in this task and submitted five runs for five different models. The paper presents the overview of the models and other significant findings on the training corpus. The methods involve different feature engineering schemes and text classification techniques. The performance of the classical bag of words model and transformer-based models were explored to identify significant features from the given training corpus. We have explored different classifiers viz., random forest, support vector machine and logistic regression using the bag of words model. Furthermore, the pre-trained transformer based models like BERT, RoBERT and ALBERT were also used by fine-tuning them on the given training corpus. The performance of different such models over the training corpus were reported and the best five models were implemented on the given test corpus. The empirical results show that the bag of words model outperforms the transformer based models, however, the performance of our runs are not reasonably well in both training and test corpus. This paper also addresses the limitations of the models and scope for further improvement.
翻訳日:2023-08-14 13:56:39 公開日:2023-08-11
# CompTLL-UNet:JPEG係数からの深層特徴学習を用いた手書き文書における圧縮ドメインテキストラインの局所化

CompTLL-UNet: Compressed Domain Text-Line Localization in Challenging Handwritten Documents using Deep Feature Learning from JPEG Coefficients ( http://arxiv.org/abs/2308.06142v1 )

ライセンス: Link先を確認
Bulla Rajesh and Sk Mahafuz Zaman and Mohammed Javed and P. Nagabhushan(参考訳) 手書き文書におけるテキストラインの自動ローカライズは、まだオープンで困難な研究課題である。 複雑な手書き文書画像がそれぞれの圧縮表現で直接セグメンテーションされる場合、行間の間隔のずれ、振動やタッチテキストのずれ、スキューの存在など、様々な書き方の問題がより困難になる。 これは,従来の圧縮文書の処理方法が圧縮処理によるものであるためであるが,本論文では,JPEG圧縮領域におけるテキストの局所化を実現するために,JPEG圧縮係数から直接の深い特徴学習を利用する方法を提案する。 Compressed Text-Line Localization Network (CompTLL-UNet) と呼ばれる改良されたU-Netアーキテクチャは、それを実現するために設計された。 このモデルは、icdar2017(cbad)やicdar2019(cbad)などのベンチマークデータセットのjpeg圧縮バージョンでトレーニングとテストが行われ、jpeg圧縮ドメインにおけるストレージと計算コストの削減による最先端のパフォーマンスを報告している。

Automatic localization of text-lines in handwritten documents is still an open and challenging research problem. Various writing issues such as uneven spacing between the lines, oscillating and touching text, and the presence of skew become much more challenging when the case of complex handwritten document images are considered for segmentation directly in their respective compressed representation. This is because, the conventional way of processing compressed documents is through decompression, but here in this paper, we propose an idea that employs deep feature learning directly from the JPEG compressed coefficients without full decompression to accomplish text-line localization in the JPEG compressed domain. A modified U-Net architecture known as Compressed Text-Line Localization Network (CompTLL-UNet) is designed to accomplish it. The model is trained and tested with JPEG compressed version of benchmark datasets including ICDAR2017 (cBAD) and ICDAR2019 (cBAD), reporting the state-of-the-art performance with reduced storage and computational costs in the JPEG compressed domain.
翻訳日:2023-08-14 13:56:15 公開日:2023-08-11
# 人工ニューラルネットワークの圧力ろ過性能評価への応用 -亜鉛浸出フィルタの水分モデル-

Application of Artificial Neural Networks for Investigation of Pressure Filtration Performance, a Zinc Leaching Filter Cake Moisture Modeling ( http://arxiv.org/abs/2308.06138v1 )

ライセンス: Link先を確認
Masoume Kazemi, Davood Moradkhani, Alireza A. Alipour(参考訳) 機械学習(ML)は物質科学応用のための強力なツールである。 ニューラルネットワーク(Artificial Neural Network, ANN)は、予測精度の高い機械学習技術である。 本研究の目的は,亜鉛製造の圧力濾過過程のケーキ水分を予測するためのannモデルの開発である。 温度 (35, 65 セシウス), 固体濃度 (0.2, 0.38 g/L), pH (2, 3.5, 5), 気中時間 (2, 10, 15 分), ケーキ厚さ (14, 20, 26, 34 mm) , 圧力, 濾過時間 (34mm) の7つのパラメータに影響された。 ポリプロピレン (S1) とポリエステル (S2) の2種類の布を用いて288種類の試験を行った。 annモデルは、決定係数(r2)、平均二乗誤差(mse)、および両データセットの平均絶対誤差(mae)メトリクスを用いて評価された。 その結果, R2値は0.88, 0.83, MSEは6.243x10-07, 1.086x10-06, MAEは0.00056, 0.00088はS1, S2であった。 以上の結果から,ANNモデルでは亜鉛浸出プロセスにおける圧力濾過のケーキ水分を高精度に予測することができた。

Machine Learning (ML) is a powerful tool for material science applications. Artificial Neural Network (ANN) is a machine learning technique that can provide high prediction accuracy. This study aimed to develop an ANN model to predict the cake moisture of the pressure filtration process of zinc production. The cake moisture was influenced by seven parameters: temperature (35 and 65 Celsius), solid concentration (0.2 and 0.38 g/L), pH (2, 3.5, and 5), air-blow time (2, 10, and 15 min), cake thickness (14, 20, 26, and 34 mm), pressure, and filtration time. The study conducted 288 tests using two types of fabrics: polypropylene (S1) and polyester (S2). The ANN model was evaluated by the Coefficient of determination (R2), the Mean Square Error (MSE), and the Mean Absolute Error (MAE) metrics for both datasets. The results showed R2 values of 0.88 and 0.83, MSE values of 6.243x10-07 and 1.086x10-06, and MAE values of 0.00056 and 0.00088 for S1 and S2, respectively. These results indicated that the ANN model could predict the cake moisture of pressure filtration in the zinc leaching process with high accuracy.
翻訳日:2023-08-14 13:55:56 公開日:2023-08-11
# 共同予測と計画のためのゲーム理論フレームワーク

A Game-Theoretic Framework for Joint Forecasting and Planning ( http://arxiv.org/abs/2308.06137v1 )

ライセンス: Link先を確認
Kushal Kedia, Prithwish Dan, Sanjiban Choudhury(参考訳) 人間の存在下で安全なロボットの動きを計画するには、将来の人間の動きの信頼できる予測が必要である。 しかし、従来の相互作用から最も可能性の高い動きを予測するだけでは安全性は保証されない。 このような予測は、可能なイベントの長い尾をモデル化することができない。 一方,最悪の動作を計画することは,過度に保守的な行動や「冷凍ロボット」につながる。 代わりに、人間が守っている反事実を予測する予測を学ぶことを目指している。 本稿では,実証者に対するプランナーのパフォーマンスを相殺しながら,共同計画と予測のための新たなゲーム理論フレームワークを提案し,エンド・ツー・エンド方式でモデルを訓練するための実践的アルゴリズムを提案する。 提案アルゴリズムは,歩行者行動の現実的なデータセットと群集ナビゲーションシミュレーターにおいて,より安全な計画をもたらすことを示す。 コードをhttps://github.com/portal-cornell/Game-Theoretic-Forecasting-Planningでリリースしています。

Planning safe robot motions in the presence of humans requires reliable forecasts of future human motion. However, simply predicting the most likely motion from prior interactions does not guarantee safety. Such forecasts fail to model the long tail of possible events, which are rarely observed in limited datasets. On the other hand, planning for worst-case motions leads to overtly conservative behavior and a ``frozen robot''. Instead, we aim to learn forecasts that predict counterfactuals that humans guard against. We propose a novel game-theoretic framework for joint planning and forecasting with the payoff being the performance of the planner against the demonstrator, and present practical algorithms to train models in an end-to-end fashion. We demonstrate that our proposed algorithm results in safer plans in a crowd navigation simulator and real-world datasets of pedestrian motion. We release our code at https://github.com/portal-cornell/Game-Theoretic-Forecasting-Planning.
翻訳日:2023-08-14 13:55:25 公開日:2023-08-11
# 物理インフォームドニューラルネットワークを用いたソフトセンサのPDE発見と赤池の情報基準

PDE Discovery for Soft Sensors Using Coupled Physics-Informed Neural Network with Akaike's Information Criterion ( http://arxiv.org/abs/2308.06132v1 )

ライセンス: Link先を確認
Aina Wang, Pan Qin, Xi-Ming Sun(参考訳) ソフトセンサーは、容易に測定できる変数と数学的モデルを用いてキー変数を監視するために広く使われている。 偏微分方程式 (pdes) は時空間依存性を有する産業プロセスにおけるソフトセンサのモデル候補である。 しかし、理想化されたPDEと実践的な状況の間にはしばしばギャップが存在する。 微分作用素やソース項を含むPDEの適切な構造を発見することは、ギャップを補うことができる。 そこで,Akaike's criterion Information (CPINN-AIC) を用いた物理インフォームニューラルネットワークを提案し,PDEによるソフトセンサの探索を行った。 第一に、CPINNはPDEを満たすソリューションとソース用語を得るために採用されている。 そこで本研究では,CPINNを訓練するためのデータ物理・ハイブリッド損失関数を提案する。 その結果、AICは微分作用素の適切な組み合わせを発見するために用いられる。 最後に、人工的および実用的なデータセットを使用して、ソフトセンサーに対するCPINN-AICの有効性と有効性を検証する。 提案したCPINN-AICは、ソフトセンサーのための適切なPDE構造とニューラルネットワークベースのソリューションを発見するためのデータ駆動方式である。

Soft sensors have been extensively used to monitor key variables using easy-to-measure variables and mathematical models. Partial differential equations (PDEs) are model candidates for soft sensors in industrial processes with spatiotemporal dependence. However, gaps often exist between idealized PDEs and practical situations. Discovering proper structures of PDEs, including the differential operators and source terms, can remedy the gaps. To this end, a coupled physics-informed neural network with Akaike's criterion information (CPINN-AIC) is proposed for PDE discovery of soft sensors. First, CPINN is adopted for obtaining solutions and source terms satisfying PDEs. Then, we propose a data-physics-hybrid loss function for training CPINN, in which undetermined combinations of differential operators are involved. Consequently, AIC is used to discover the proper combination of differential operators. Finally, the artificial and practical datasets are used to verify the feasibility and effectiveness of CPINN-AIC for soft sensors. The proposed CPINN-AIC is a data-driven method to discover proper PDE structures and neural network-based solutions for soft sensors.
翻訳日:2023-08-14 13:55:11 公開日:2023-08-11
# 都市間交通予測のための不確実性定量化

Uncertainty Quantification for Image-based Traffic Prediction across Cities ( http://arxiv.org/abs/2308.06129v1 )

ライセンス: Link先を確認
Alexander Timans, Nina Wiedemann, Nishant Kumar, Ye Hong, Martin Raubal(参考訳) 交通予測のためのディープラーニングモデルの強い予測性能にもかかわらず、現実のインテリジェント交通システムへの広範な展開は、解釈可能性の欠如によって抑制されてきた。 不確実性定量化(UQ)手法は確率的推論を誘導し、意思決定を改善し、モデル展開の可能性を高めるアプローチを提供する。 交通予測における既存のuq手法の有用性と得られた不確かさと都市全体の交通動態の関係を総合的に把握するために,複数の都市と期間にわたる大規模画像ベース交通データセットへの適用について検討した。 時間的および時空間的伝達の両タスクにおいて,2つのてんかんUQ法と2つのアレタリックUQ法を比較し,有意な不確実性推定が得られた。 さらに,都市交通動態の変化に対する教師なし外乱検出に不確実性推定を用いる方法を示す。 我々のアプローチは、モスクワ市を代表するケーススタディにおいて、交通行動に対する時間的および空間的影響の両方を捉えることができることが判明した。 本研究は,交通予測タスクにおける不確実性意識を高めるためのさらなるステップを示し,都市交通力学の理解を深めるためのUQ手法の価値貢献を強調することを目的とする。

Despite the strong predictive performance of deep learning models for traffic prediction, their widespread deployment in real-world intelligent transportation systems has been restrained by a lack of interpretability. Uncertainty quantification (UQ) methods provide an approach to induce probabilistic reasoning, improve decision-making and enhance model deployment potential. To gain a comprehensive picture of the usefulness of existing UQ methods for traffic prediction and the relation between obtained uncertainties and city-wide traffic dynamics, we investigate their application to a large-scale image-based traffic dataset spanning multiple cities and time periods. We compare two epistemic and two aleatoric UQ methods on both temporal and spatio-temporal transfer tasks, and find that meaningful uncertainty estimates can be recovered. We further demonstrate how uncertainty estimates can be employed for unsupervised outlier detection on changes in city traffic dynamics. We find that our approach can capture both temporal and spatial effects on traffic behaviour in a representative case study for the city of Moscow. Our work presents a further step towards boosting uncertainty awareness in traffic prediction tasks, and aims to highlight the value contribution of UQ methods to a better understanding of city traffic dynamics.
翻訳日:2023-08-14 13:54:53 公開日:2023-08-11
# オフラインデータからの可変目的の学習制御方針

Learning Control Policies for Variable Objectives from Offline Data ( http://arxiv.org/abs/2308.06127v1 )

ライセンス: Link先を確認
Marc Weber, Phillip Swazinna, Daniel Hein, Steffen Udluft, and Volkmar Sterzing(参考訳) オフライン強化学習は、動的システムの高度な制御戦略、特に環境との直接的相互作用が利用できない場合に有効なアプローチを提供する。 本稿では,可変目的政策(vop)と呼ばれる,モデルに基づく政策探索法の概念拡張を提案する。 このアプローチでは、ポリシーは様々な目的に対して効率的に一般化するよう訓練され、報酬関数をパラメータ化する。 ポリシーの入力として渡された目的を変更することで、ユーザーは、追加の観察バッチの収集や再訓練を必要とせず、実行時の動作調整や最適化目標の再バランスの自由を得る。

Offline reinforcement learning provides a viable approach to obtain advanced control strategies for dynamical systems, in particular when direct interaction with the environment is not available. In this paper, we introduce a conceptual extension for model-based policy search methods, called variable objective policy (VOP). With this approach, policies are trained to generalize efficiently over a variety of objectives, which parameterize the reward function. We demonstrate that by altering the objectives passed as input to the policy, users gain the freedom to adjust its behavior or re-balance optimization targets at runtime, without need for collecting additional observation batches or re-training.
翻訳日:2023-08-14 13:54:32 公開日:2023-08-11
# アライメントのない共同音声テキスト表現の改善

Improving Joint Speech-Text Representations Without Alignment ( http://arxiv.org/abs/2308.06125v1 )

ライセンス: Link先を確認
Cal Peyser, Zhong Meng, Ke Hu, Rohit Prabhavalkar, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, Kyunghyun Cho(参考訳) 昨年、テキストと画像ドメインを共同で表現するクロスモーダル表現空間の概念を前提としたテキストプロンプト画像生成が驚くべき進歩を遂げた。 ASRでは、このアイデアは、未経験の音声とテキストの両方で訓練することにより、非常に大きなパラメータモデルの容量にスケールできる、共同音声テキストエンコーダとして応用されている。 これらの手法は有望性を示すが、アップサンプリングヒューリスティックスまたは明示的なアライメントモデルによって、音声とテキストに固有のシーケンス長のミスマッチを特別に扱う必要がある。 本研究では,連続長を無視することで,共同音声テキストエンコーダが自然にモダリティ間の一貫した表現を達成できることを実証し,一貫性の喪失は長さの差を許し,最適なアライメントを仮定できると主張している。 このような損失は、大域単言語システムと多言語システムの両方において、下流WERを改善することを示す。

The last year has seen astonishing progress in text-prompted image generation premised on the idea of a cross-modal representation space in which the text and image domains are represented jointly. In ASR, this idea has found application as joint speech-text encoders that can scale to the capacities of very large parameter models by being trained on both unpaired speech and text. While these methods show promise, they have required special treatment of the sequence-length mismatch inherent in speech and text, either by up-sampling heuristics or an explicit alignment model. In this work, we offer evidence that joint speech-text encoders naturally achieve consistent representations across modalities by disregarding sequence length, and argue that consistency losses could forgive length differences and simply assume the best alignment. We show that such a loss improves downstream WER in both a large-parameter monolingual and multilingual system.
翻訳日:2023-08-14 13:54:21 公開日:2023-08-11
# 開二ビット系に対するコヒーレント・非コヒーレント制御のクロトフ型最適化

Krotov Type Optimization of Coherent and Incoherent Controls for Open Two-Qubit Systems ( http://arxiv.org/abs/2308.06119v1 )

ライセンス: Link先を確認
Oleg Morzhin, Alexander Pechen(参考訳) この研究は、コヒーレントかつ非コヒーレント制御によって駆動される2量子ビットのオープン量子システムを考える。 Incoherent Controlは、システムを制御するリソースとして使用される環境の時間依存スペクトル密度を介して、時間依存のデコヒーレンス率を誘導する。 システムは、時間依存係数を持つゴリーニ・コサコフスキー・スダルシャン・リンドブラッド・マスター方程式に従って進化する。 コヒーレントコントロールとの2種類の相互作用については、3種類の目的が考慮されている。 1) 最終密度行列と目標密度行列のヒルベルト・シュミット重なりを最大化する。 2) これらの行列間のヒルベルト・シュミット距離を最小化する。 3) 重複を所定の値に操る。 第1の問題として,区分的な連続制約付き制御に対する正規化の有無に関わらず,直接的に密度行列を用いてクロトフ型手法を開発し,ポントリャーギン最大原理を満たす(正確にも精度も)ゼロ制御を生成し,そのオーバーラップ値の上限値に近い値を生成する場合を見いだす。 問題のために 2) および 3) では, 二重アニール法が目標を0に近づき, 非ゼロ制御を発生させる場合を見出した。

This work considers two-qubit open quantum systems driven by coherent and incoherent controls. Incoherent control induces time-dependent decoherence rates via time-dependent spectral density of the environment which is used as a resource for controlling the system. The system evolves according to the Gorini-Kossakowski-Sudarshan-Lindblad master equation with time-dependent coefficients. For two types of interaction with coherent control, three types of objectives are considered: 1) maximizing the Hilbert-Schmidt overlap between the final and target density matrices; 2) minimizing the Hilbert-Schmidt distance between these matrices; 3) steering the overlap to a given value. For the first problem, we develop the Krotov type methods directly in terms of density matrices with or without regularization for piecewise continuous constrained controls and find the cases where the methods produce (either exactly or with some precision) zero controls which satisfy the Pontryagin maximum principle and produce the overlap's values close to their upper estimates. For the problems 2) and 3), we find cases when the dual annealing method steers the objectives close to zero and produces a non-zero control.
翻訳日:2023-08-14 13:54:03 公開日:2023-08-11
# 破壊型PTレジームの熱力学サイクル-カルノーサイクルを破る-

Thermodynamic cycles in the broken PT-regime -- beating the Carnot cycle ( http://arxiv.org/abs/2308.06176v1 )

ライセンス: Link先を確認
Andreas Fring and Marta Reboiro(参考訳) 同じ条件下でのカルノーサイクルよりも効率が高い新しいタイプの量子熱力学サイクルを提案する。 我々のモデルでは、このサイクルは非エルミート量子論の自発的に壊れたパリティ時間反転(PT)対称性状態の低温状態にのみ存在し、PT対称状態には現れない。 非エルミート的な方法で結合された単一ボソンのモデルに基づくアンサンブルに対するこの効果について,時間依存境界のない異なるタイプのボソンの入浴に議論する。

We propose a new type of quantum thermodynamic cycle whose efficiency is greater than the one of the classical Carnot cycle for the same conditions. In our model this type of cycle only exists in the low temperature regime in the spontaneously broken parity-time-reversal (PT) symmetry regime of a non-Hermitian quantum theory and does not manifest in the PT-symmetric regime. We discuss this effect for an ensemble based on a model of a single boson coupled in a non Hermitian way to a bath of different types of bosons with and without a time-dependent boundary.
翻訳日:2023-08-14 13:46:22 公開日:2023-08-11
# ホテルレビューによるゲスト国籍構成の評価

Assessing Guest Nationality Composition from Hotel Reviews ( http://arxiv.org/abs/2308.06175v1 )

ライセンス: Link先を確認
Fabian Gr\"oger, Marc Pouly, Flavia Tinner, Leif Brandes(参考訳) 多くのホテルは、客の個人的好みやニーズを最大限に予測するために、特定の市場への客獲得を目標としている。 同様に、このような戦略的位置決めは効率的なマーケティング予算配分の前提条件である。 公式統計では各国からの来訪者数を報告しているが、個々の事業者の来訪者構成に関する詳細な情報はない。 しかし、競合企業、サプライヤー、研究者、一般大衆からのデータへの関心が高まっている。 本研究では,非構造化テキストレビューから客の国籍への参照を抽出し,各企業の客構成のダイナミクスを動的に評価・監視するために,機械学習を活用できることを実証する。 特に、事前訓練された埋め込みと積み重ねられたLSTMレイヤの比較的単純なアーキテクチャは、より複雑な最先端言語モデルよりもパフォーマンスと実行時のトレードオフが優れていることを示す。

Many hotels target guest acquisition efforts to specific markets in order to best anticipate individual preferences and needs of their guests. Likewise, such strategic positioning is a prerequisite for efficient marketing budget allocation. Official statistics report on the number of visitors from different countries, but no fine-grained information on the guest composition of individual businesses exists. There is, however, growing interest in such data from competitors, suppliers, researchers and the general public. We demonstrate how machine learning can be leveraged to extract references to guest nationalities from unstructured text reviews in order to dynamically assess and monitor the dynamics of guest composition of individual businesses. In particular, we show that a rather simple architecture of pre-trained embeddings and stacked LSTM layers provides a better performance-runtime tradeoff than more complex state-of-the-art language models.
翻訳日:2023-08-14 13:46:08 公開日:2023-08-11
# カメラ型スマートシステムにおける物理的敵意攻撃の現状, 分類, 応用, 研究課題, 今後の展望

Physical Adversarial Attacks For Camera-based Smart Systems: Current Trends, Categorization, Applications, Research Challenges, and Future Outlook ( http://arxiv.org/abs/2308.06173v1 )

ライセンス: Link先を確認
Amira Guesmi, Muhammad Abdullah Hanif, Bassem Ouni, and Muhammed Shafique(参考訳) 本稿では,身体的敵意攻撃に焦点をあてた最近の傾向を包括的に調査する。 我々は,身体的敵意攻撃の概念を深く理解し,その特徴を分析し,特徴を識別することを目的としている。 さらに,物理世界における攻撃の実行に関する具体的な要件と課題についても検討する。 本論文は,分類,検出,顔認識,セマンティックセグメンテーション,深度推定など,様々な用途において,対象タスクに応じて分類された様々な物理的敵攻撃手法について述べる。 我々は,これらの攻撃手法の性能を,その有効性,ステルス性,堅牢性の観点から評価する。 実世界の歪みを抑えつつ,検出のリスクを軽減しつつ,DNNの操作を確実にする手法について検討する。 最後に,現在の課題を議論し,物理的敵攻撃の分野における今後の研究の方向性を概説する。 本稿では,強化された防御機構の必要性,新たな攻撃戦略の探求,異なるアプリケーションドメインにおける攻撃評価,物理的敵攻撃に対する標準ベンチマークと評価基準の確立について注目する。 この包括的調査を通じて,我々は研究者,実践者,政策立案者に対して,コンピュータビジョンにおける物理的敵意攻撃を総合的に理解し,堅牢でセキュアなdnnベースのシステムの開発を促進するための貴重な資源を提供することを目標としている。

In this paper, we present a comprehensive survey of the current trends focusing specifically on physical adversarial attacks. We aim to provide a thorough understanding of the concept of physical adversarial attacks, analyzing their key characteristics and distinguishing features. Furthermore, we explore the specific requirements and challenges associated with executing attacks in the physical world. Our article delves into various physical adversarial attack methods, categorized according to their target tasks in different applications, including classification, detection, face recognition, semantic segmentation and depth estimation. We assess the performance of these attack methods in terms of their effectiveness, stealthiness, and robustness. We examine how each technique strives to ensure the successful manipulation of DNNs while mitigating the risk of detection and withstanding real-world distortions. Lastly, we discuss the current challenges and outline potential future research directions in the field of physical adversarial attacks. We highlight the need for enhanced defense mechanisms, the exploration of novel attack strategies, the evaluation of attacks in different application domains, and the establishment of standardized benchmarks and evaluation criteria for physical adversarial attacks. Through this comprehensive survey, we aim to provide a valuable resource for researchers, practitioners, and policymakers to gain a holistic understanding of physical adversarial attacks in computer vision and facilitate the development of robust and secure DNN-based systems.
翻訳日:2023-08-14 13:45:57 公開日:2023-08-11
# タスク条件付きBERTによるジョイントインテント検出とスロット充填

Task Conditioned BERT for Joint Intent Detection and Slot-filling ( http://arxiv.org/abs/2308.06165v1 )

ライセンス: Link先を確認
Diogo Tavares and Pedro Azevedo and David Semedo and Ricardo Sousa and Jo\~ao Magalh\~aes(参考訳) 対話システムはユーザの意図の予測不可能さに対処し,ユーザの好みを理解するために,対話状態とスロットの不均一性を追跡する必要がある。 本稿では,これらの課題を統一モデルとして解決することで,異なるタスク間でパラメータ支援データの転送が可能になるという仮説を考察する。 提案した原理モデルはTransformerエンコーダに基づいており、複数のタスクで訓練され、ターゲットの推論にモデルを条件付けるリッチな入力によって活用される。 トランスフォーマーエンコーダを同一コーパス上の複数のターゲット推論、すなわちインテントと複数のスロットタイプで条件付けすることで、シングルタスクモデルよりも豊かな言語インタラクションを学ぶことができる。 実際、実験の結果、対話推論タスクの増加によるモデル条件付けは改善され、MultiWOZデータセットでは、インテント条件付きで結合インテントとスロット検出が3.2\%、スロット条件付きで10.8\%、インテント条件付きで14.4\%向上することが示されている。 さらに,Farfetchコスチューラーとの実際の会話において,提案した条件付きBERTは対話を通して高い共同ゴールおよび意図検出性能を実現することができる。

Dialogue systems need to deal with the unpredictability of user intents to track dialogue state and the heterogeneity of slots to understand user preferences. In this paper we investigate the hypothesis that solving these challenges as one unified model will allow the transfer of parameter support data across the different tasks. The proposed principled model is based on a Transformer encoder, trained on multiple tasks, and leveraged by a rich input that conditions the model on the target inferences. Conditioning the Transformer encoder on multiple target inferences over the same corpus, i.e., intent and multiple slot types, allows learning richer language interactions than a single-task model would be able to. In fact, experimental results demonstrate that conditioning the model on an increasing number of dialogue inference tasks leads to improved results: on the MultiWOZ dataset, the joint intent and slot detection can be improved by 3.2\% by conditioning on intent, 10.8\% by conditioning on slot and 14.4\% by conditioning on both intent and slots. Moreover, on real conversations with Farfetch costumers, the proposed conditioned BERT can achieve high joint-goal and intent detection performance throughout a dialogue.
翻訳日:2023-08-14 13:45:34 公開日:2023-08-11
# 弱監視対象位置化における局所化の再考

Rethinking the Localization in Weakly Supervised Object Localization ( http://arxiv.org/abs/2308.06161v1 )

ライセンス: Link先を確認
Rui Xu, Yong Luo, Han Hu, Bo Du, Jialie Shen, Yonggang Wen(参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)は、コンピュータビジョンにおいて最も人気があり難しいタスクの一つである。 このタスクは、イメージレベルの監督のみを与えられたイメージ内のオブジェクトをローカライズする。 近年、WSOLを2つの部分(クラスに依存しないオブジェクトローカライゼーションとオブジェクト分類)に分割することが、このタスクの最先端パイプラインとなっている。 しかし、このパイプラインの下の既存のソリューションは通常、以下の欠点に悩まされる。 1) ローカライズのためのSCR(Single-class regression)が採用されているため,各画像に対してひとつのオブジェクトのみをローカライズできるため,フレキシブルではない。 2) 生成した擬似有界箱はうるさいが, 騒音の負の影響は十分に対処されていない。 これらの欠点を解消するために,我々はまず,SCRを複数物体の局所化のためのバイナリクラス検出器(BCD)に置き換えることを提案する。 そして、ラベルのないデータを用いて重み付きエントロピー損失(WE)を設計し、ノイズ境界ボックスの負の影響を低減する。 CUB-200-2011とImageNet-1Kデータセットの大規模な実験により,本手法の有効性が示された。

Weakly supervised object localization (WSOL) is one of the most popular and challenging tasks in computer vision. This task is to localize the objects in the images given only the image-level supervision. Recently, dividing WSOL into two parts (class-agnostic object localization and object classification) has become the state-of-the-art pipeline for this task. However, existing solutions under this pipeline usually suffer from the following drawbacks: 1) they are not flexible since they can only localize one object for each image due to the adopted single-class regression (SCR) for localization; 2) the generated pseudo bounding boxes may be noisy, but the negative impact of such noise is not well addressed. To remedy these drawbacks, we first propose to replace SCR with a binary-class detector (BCD) for localizing multiple objects, where the detector is trained by discriminating the foreground and background. Then we design a weighted entropy (WE) loss using the unlabeled data to reduce the negative impact of noisy bounding boxes. Extensive experiments on the popular CUB-200-2011 and ImageNet-1K datasets demonstrate the effectiveness of our method.
翻訳日:2023-08-14 13:45:11 公開日:2023-08-11
# DatasetDM:拡散モデルを用いた知覚アノテーション付きデータの合成

DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models ( http://arxiv.org/abs/2308.06160v1 )

ライセンス: Link先を確認
Weijia Wu, Yuzhong Zhao, Hao Chen, Yuchao Gu, Rui Zhao, Yefei He, Hong Zhou, Mike Zheng Shou, Chunhua Shen(参考訳) 現在のディープネットワークは非常にデータ量が多く、大規模なデータセットでのトレーニングの恩恵を受ける。 対照的に、合成データはdall-eや拡散モデルのような生成モデルを使って最小限の労力とコストで無限に生成できる。 本稿では,多様な合成画像とそれに対応する高品質な認識アノテーション(セグメンテーションマスク,深さなど)を生成できる汎用データセット生成モデルであるDatasetDMを提案する。 本手法は,事前学習した拡散モデルに基づいてテキスト誘導画像合成を知覚データ生成に拡張する。 拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。 デコーダのトレーニングには、手動でラベル付けされたイメージが1%未満(約100イメージ)必要であり、無限に大きな注釈付きデータセットを生成することができる。 そして、これらの合成データは下流タスクの様々な知覚モデルのトレーニングに使用できる。 提案手法の威力を示すために, セマンティックセグメンテーション, インスタンスセグメンテーション, 深さ推定など, 幅広い下流タスクに対して, リッチなピクセル単位のラベル付きデータセットを生成する。 特筆すべきは 1) セマンティックセグメンテーション及びインスタンスセグメンテーションに関する最先端の結果 2) 実データのみを使用するよりも, 領域一般化においてかなり頑健であり, 最先端の結果がゼロショットセグメンテーション設定となる。 3)効率的なアプリケーションと新しいタスク構成のための柔軟性(画像編集など)。 プロジェクトのWebサイトとコードは、https://weijiawu.github.io/DatasetDM_page/とhttps://github.com/showlab/DatasetDMで見ることができる。

Current deep networks are very data-hungry and benefit from training on largescale datasets, which are often time-consuming to collect and annotate. By contrast, synthetic data can be generated infinitely using generative models such as DALL-E and diffusion models, with minimal effort and cost. In this paper, we present DatasetDM, a generic dataset generation model that can produce diverse synthetic images and the corresponding high-quality perception annotations (e.g., segmentation masks, and depth). Our method builds upon the pre-trained diffusion model and extends text-guided image synthesis to perception data generation. We show that the rich latent code of the diffusion model can be effectively decoded as accurate perception annotations using a decoder module. Training the decoder only needs less than 1% (around 100 images) manually labeled images, enabling the generation of an infinitely large annotated dataset. Then these synthetic data can be used for training various perception models for downstream tasks. To showcase the power of the proposed approach, we generate datasets with rich dense pixel-wise labels for a wide range of downstream tasks, including semantic segmentation, instance segmentation, and depth estimation. Notably, it achieves 1) state-of-the-art results on semantic segmentation and instance segmentation; 2) significantly more robust on domain generalization than using the real data alone; and state-of-the-art results in zero-shot segmentation setting; and 3) flexibility for efficient application and novel task composition (e.g., image editing). The project website and code can be found at https://weijiawu.github.io/DatasetDM_page/ and https://github.com/showlab/DatasetDM, respectively
翻訳日:2023-08-14 13:44:53 公開日:2023-08-11
# 道路交通量予測のための位相時空間学習

Phased Deep Spatio-temporal Learning for Highway Traffic Volume Prediction ( http://arxiv.org/abs/2308.06155v1 )

ライセンス: Link先を確認
Weilong Ding, Tianpu Zhang, Zhe Wang(参考訳) 都市間高速交通は、市民の都市生活にとって重要なものであり、時空間特性を持つ異種感覚データを生成する。 交通分野における日常的な分析として, 交通量推定は, 長期的観点からの相関時間的特徴の探索の欠如や, 常に予測性能を劣化させるデータ不均衡に対処する効果的な手段など, 高速道路料金局の課題に直面している。 本稿では,3段階の交通量を予測するために,時空間深層学習法を提案する。 特徴前処理フェーズでは、データは潜在長テール分布に応じて精巧に正規化される。 時空間学習では、時間、空間、気象、カレンダーを異種データから考慮した完全畳み込みネットワーク(FCN)と長期記憶(LSTM)を組み合わせたハイブリッドモデルを用いる。 決定段階では、ネットワーク全体の有料駅での翌日の交通量は効果的に達成されるだろう。 中国高規格道路における実世界データを用いて,提案手法の精度は,MPAEとR-squreでそれぞれ5.269,0.997に達した。

Inter-city highway transportation is significant for citizens' modern urban life and generates heterogeneous sensory data with spatio-temporal characteristics. As a routine analysis in transportation domain, daily traffic volume estimation faces challenges for highway toll stations including lacking of exploration of correlative spatio-temporal features from a long-term perspective and effective means to deal with data imbalance which always deteriorates the predictive performance. In this paper, a deep spatio-temporal learning method is proposed to predict daily traffic volume in three phases. In feature pre-processing phase, data is normalized elaborately according to latent long-tail distribution. In spatio-temporal learning phase, a hybrid model is employed combining fully convolution network (FCN) and long short-term memory (LSTM), which considers time, space, meteorology, and calendar from heterogeneous data. In decision phase, traffic volumes on a coming day at network-wide toll stations would be achieved effectively, which is especially calibrated for vital few highway stations. Using real-world data from one Chinese provincial highway, extensive experiments show our method has distinct improvement for predictive accuracy than various traditional models, reaching 5.269 and 0.997 in MPAE and R-squre metrics, respectively.
翻訳日:2023-08-14 13:44:25 公開日:2023-08-11
# 最大エントロピー分布に対するガウス過程回帰

Gaussian Process Regression for Maximum Entropy Distribution ( http://arxiv.org/abs/2308.06149v1 )

ライセンス: Link先を確認
Mohsen Sadr, Manuel Torrilhon, M. Hossein Gorji(参考訳) 最大エントロピー分布はモーメント閉包問題に適した魅力的な確率密度の族を提供する。 しかし、これらの分布をパラメトリズするラグランジュ乗算器を見つけることは、実用的なクロージャ設定の計算ボトルネックであることが判明した。 ガウス過程の最近の成功に触発されて、与えられたモーメントの集合の写像としてラグランジュ乗算を近似するガウス事前の適合性を検討する。 様々なカーネル関数を調べると、ハイパーパラメータはlog-likelihoodを最大化することで最適化される。 Bhatnagar-Gross-Krookによる非平衡分布の緩和やボルツマン方程式の緩和など、考案されたデータ駆動最大エントロピー閉包の性能について検討した。

Maximum-Entropy Distributions offer an attractive family of probability densities suitable for moment closure problems. Yet finding the Lagrange multipliers which parametrize these distributions, turns out to be a computational bottleneck for practical closure settings. Motivated by recent success of Gaussian processes, we investigate the suitability of Gaussian priors to approximate the Lagrange multipliers as a map of a given set of moments. Examining various kernel functions, the hyperparameters are optimized by maximizing the log-likelihood. The performance of the devised data-driven Maximum-Entropy closure is studied for couple of test cases including relaxation of non-equilibrium distributions governed by Bhatnagar-Gross-Krook and Boltzmann kinetic equations.
翻訳日:2023-08-14 13:44:02 公開日:2023-08-11
# プライバシーに挑戦する: トリガー・アクション・プラットフォームに関するユーザの嗜好と懸念

Tapping into Privacy: A Study of User Preferences and Concerns on Trigger-Action Platforms ( http://arxiv.org/abs/2308.06148v1 )

ライセンス: Link先を確認
Piero Romare, Victor Morel, Farzaneh Karegar, Simone Fischer-H\"ubner(参考訳) モノのインターネット(IoT)デバイスの人気は急速に高まり、インターネットに接続されたデバイスを継続的に監視する人が増えている。 この研究は、IoT(Internet of Things)のコンテキストにおいて、Trigger-Actionプラットフォーム(TAP)に関連するエンドユーザのプライバシー上の懸念と期待について調査する。 TAPでは、特定のイベントや条件に基づいてアクションをトリガーするルールを作成することで、スマート環境をカスタマイズすることができる。 個人データは異なるエンティティ間で流れるため、プライバシー上の懸念がある可能性がある。 本研究では、IoT TAPの使用に対するユーザの関心や好みに影響を与えるプライバシー要因を特定することを目的とした。 本研究の目的は,15名を対象にフォーカスグループを3つ実施し,プライバシ要因に関する9つのテーマをテーマ分析を用いて抽出した。 参加者は特に、自動化よりもコントロールと透明性を好み、自動化によって引き起こされる予期せぬデータ推論、リスク、予期せぬ結果に関心を持っています。 特定されたプライバシー要因は、研究者がiotタップの利用可能なプライバシーコントロールを設計するための基盤として、さまざまなタイプのユーザのプライバシ嗜好を表すiotタップのプライバシ許可設定の事前定義と選択可能なプロファイルを導出するのに役立つ。

The Internet of Things (IoT) devices are rapidly increasing in popularity, with more individuals using Internet-connected devices that continuously monitor their activities. This work explores privacy concerns and expectations of end-users related to Trigger-Action platforms (TAPs) in the context of the Internet of Things (IoT). TAPs allow users to customize their smart environments by creating rules that trigger actions based on specific events or conditions. As personal data flows between different entities, there is a potential for privacy concerns. In this study, we aimed to identify the privacy factors that impact users' concerns and preferences for using IoT TAPs. To address this research objective, we conducted three focus groups with 15 participants and we extracted nine themes related to privacy factors using thematic analysis. Our participants particularly prefer to have control and transparency over the automation and are concerned about unexpected data inferences, risks and unforeseen consequences for themselves and for bystanders that are caused by the automation. The identified privacy factors can help researchers derive predefined and selectable profiles of privacy permission settings for IoT TAPs that represent the privacy preferences of different types of users as a basis for designing usable privacy controls for IoT TAPs.
翻訳日:2023-08-14 13:43:48 公開日:2023-08-11
# 大規模AUVを用いた視覚海底マッピング

Efficient Large-scale AUV-based Visual Seafloor Mapping ( http://arxiv.org/abs/2308.06147v1 )

ライセンス: Link先を確認
Mengkun She and Yifan Song and David Nakath and Kevin K\"oser(参考訳) 海洋データサイエンスの応用が増えている中で、ロボットプラットフォームによる深海の広大な未開の地形を調査し調査することへの関心が高まっている。 過去数十年で多くの陸地視覚マッピングアルゴリズムが達成した印象的な成果にもかかわらず、これらの手法を陸地から深海に転送することは厳しい環境条件のために依然として課題である。 通常、深海探査には高解像度カメラと人工照明システムを備えた自律型水中車両(AUV)が使用される。 しかし、この方法で得られた画像は、光の屈折に加えて、減衰や散乱による不均一な照明や品質劣化に苦しむことが多い。 これらをすべて組み合わせることで、地上のSLAMアプローチが水中で失敗したり、Structure-from-Motionアプローチが難しい画像のドリフトや省略をし、ギャップやジャンプ、弱い登録領域が生まれる。 本研究では,海底画像と視覚マッピングの最近の進歩を取り入れ,海底のヘクタールの自動ロボット3次元再構築を容易にするシステムを提案する。 提案手法は, 難易度の高い弱登録領域を検出し, 画像の省略を回避し, 限られたダイブ時間をより有効に利用するために, 効率的な手法である。 提案システムは, 実環境下でのロバスト性および実用性を実証し, いくつかの調査巡航において広範囲に検証され, 評価されている。

Driven by the increasing number of marine data science applications, there is a growing interest in surveying and exploring the vast, uncharted terrain of the deep sea with robotic platforms. Despite impressive results achieved by many on-land visual mapping algorithms in the past decades, transferring these methods from land to the deep sea remains a challenge due to harsh environmental conditions. Typically, deep-sea exploration involves the use of autonomous underwater vehicles (AUVs) equipped with high-resolution cameras and artificial illumination systems. However, images obtained in this manner often suffer from heterogeneous illumination and quality degradation due to attenuation and scattering, on top of refraction of light rays. All of this together often lets on-land SLAM approaches fail underwater or makes Structure-from-Motion approaches drift or omit difficult images, resulting in gaps, jumps or weakly registered areas. In this work, we present a system that incorporates recent developments in underwater imaging and visual mapping to facilitate automated robotic 3D reconstruction of hectares of seafloor. Our approach is efficient in that it detects and reconsiders difficult, weakly registered areas, to avoid omitting images and to make better use of limited dive time; on the other hand it is computationally efficient; leveraging a hybrid approach combining benefits from SLAM and Structure-from-Motion that runs much faster than incremental reconstructions while achieving at least on-par performance. The proposed system has been extensively tested and evaluated during several research cruises, demonstrating its robustness and practicality in real-world conditions.
翻訳日:2023-08-14 13:43:28 公開日:2023-08-11
# 専門家のように考える:マルチモーダルな考えのハイパーグラフ(ホット)推論による基礎的モダルの強化

Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning to boost Foundation Modals ( http://arxiv.org/abs/2308.06207v1 )

ライセンス: Link先を確認
Fanglong Yao, Changyuan Tian, Jintao Liu, Zequn Zhang, Qing Liu, Li Jin, Shuchao Li, Xiaoyu Li, Xian Sun(参考訳) 推論能力は基礎モデルの最も重要な能力の1つであり、複雑な推論タスクに対処する能力を示す。 CoT(Chain-of-Thought)技術は,基礎モデルの推論能力を向上する有効な手法の1つであると考えられ,注目されている。 しかし、CoTの推論過程は線形でステップバイステップであり、一般問題ややや複雑な問題を解くのに適している。 それとは対照的に、専門家の思考パターンは、cotで適切に処理できない2つの顕著な特徴、すなわち高階マルチホップ推論とマルチモーダル比較判断を持つ。 したがって,本論文の中核となる動機は,専門家のように考えることができる推論パラダイムを構築するためにCoTを超越することである。 ハイパーグラフのハイパーエッジは様々な頂点を接続することができ、自然に高次関係のモデリングに適している。 本論文は,高次マルチホップ推論とマルチモーダル比較判定のエキスパートレベル能力を有する基礎モデルを実現する,マルチモーダル・ハイパーグラフ・オブ・ソート(HoT)推論パラダイムを革新的に提案する。 具体的には、三重項を用いて高次関係をモデル化する第一考えとしてテクスト的ハイパーグラフを構築し、マルチホップ歩行経路を介してハイパーエッジ・オブ・思考を生成してマルチホップ推論を実現する。 さらに,マルチモーダル比較検証のためのクロスモーダルコアテンショングラフ学習を通じて,テキストハイパーグラフと対話するための視覚的ハイパーグラフを考案する。 ScienceQAベンチマークの実験では、提案されたHoTベースのT5は、CoTベースのGPT3.5とチャットGPTよりも優れており、モデルサイズが小さいCoTベースのGPT4と同等である。

Reasoning ability is one of the most crucial capabilities of a foundation model, signifying its capacity to address complex reasoning tasks. Chain-of-Thought (CoT) technique is widely regarded as one of the effective methods for enhancing the reasoning ability of foundation models and has garnered significant attention. However, the reasoning process of CoT is linear, step-by-step, similar to personal logical reasoning, suitable for solving general and slightly complicated problems. On the contrary, the thinking pattern of an expert owns two prominent characteristics that cannot be handled appropriately in CoT, i.e., high-order multi-hop reasoning and multimodal comparative judgement. Therefore, the core motivation of this paper is transcending CoT to construct a reasoning paradigm that can think like an expert. The hyperedge of a hypergraph could connect various vertices, making it naturally suitable for modelling high-order relationships. Inspired by this, this paper innovatively proposes a multimodal Hypergraph-of-Thought (HoT) reasoning paradigm, which enables the foundation models to possess the expert-level ability of high-order multi-hop reasoning and multimodal comparative judgement. Specifically, a textual hypergraph-of-thought is constructed utilizing triple as the primary thought to model higher-order relationships, and a hyperedge-of-thought is generated through multi-hop walking paths to achieve multi-hop inference. Furthermore, we devise a visual hypergraph-of-thought to interact with the textual hypergraph-of-thought via Cross-modal Co-Attention Graph Learning for multimodal comparative verification. Experimentations on the ScienceQA benchmark demonstrate the proposed HoT-based T5 outperforms CoT-based GPT3.5 and chatGPT, which is on par with CoT-based GPT4 with a lower model size.
翻訳日:2023-08-14 13:37:37 公開日:2023-08-11
# 交通管理システムの安全性:包括的調査

Safety in Traffic Management Systems: A Comprehensive Survey ( http://arxiv.org/abs/2308.06204v1 )

ライセンス: Link先を確認
Wenlu Du, Ankan Dash, Jing Li, Hua Wei and Guiling Wang(参考訳) 交通管理システムは道路の安全かつ効率的な交通を確保する上で重要な役割を担っている。 しかし,交通管理システムにおける高度な技術の利用は,新たな安全課題をもたらしている。 したがって,事故防止や道路利用者への影響を最小限に抑えるため,これらのシステムの安全性を確保することが重要である。 本稿では,交通管理システムにおける安全に関する文献の包括的レビューを行う。 具体的には,交通管理システムにおいて発生する異なる安全性問題,これらのシステムにおける安全研究の現状,システムの安全性を確保するために提案された技術と手法について論じる。 また,既存の研究の限界を特定し,今後の研究方向性を提案する。

Traffic management systems play a vital role in ensuring safe and efficient transportation on roads. However, the use of advanced technologies in traffic management systems has introduced new safety challenges. Therefore, it is important to ensure the safety of these systems to prevent accidents and minimize their impact on road users. In this survey, we provide a comprehensive review of the literature on safety in traffic management systems. Specifically, we discuss the different safety issues that arise in traffic management systems, the current state of research on safety in these systems, and the techniques and methods proposed to ensure the safety of these systems. We also identify the limitations of the existing research and suggest future research directions.
翻訳日:2023-08-14 13:37:02 公開日:2023-08-11
# ロボットブロック構築作業の予測・行動選択・説明のための因果確率的枠組みを目指して

Towards a Causal Probabilistic Framework for Prediction, Action-Selection & Explanations for Robot Block-Stacking Tasks ( http://arxiv.org/abs/2308.06203v1 )

ライセンス: Link先を確認
Ricardo Cannizzaro, Jonathan Routley, and Lars Kunze(参考訳) 現実世界の不確実性は、システム設計者がロボットが遭遇する可能性のあるすべてのシナリオを予想し、明示的に設計することは不可能であることを意味する。 このように設計されたロボットは脆弱で、高度に制御された環境の外で失敗する。 因果モデル(英: Causal model)は、ロボットと環境との相互作用を管理する因果関係の形式的知識を符号化するための原則的枠組みを提供する。 因果推論と組み合わせることで、これらのモデルは自律エージェントがその環境を理解し、推論し、説明することができる。 本研究では,倉庫のロジスティクスや家庭内人力支援ロボットなど,多くのアプリケーションで要求される基本的な認識と操作能力から,ロボットのブロック積み上げ作業の課題に焦点をあてる。 本研究では,物理シミュレーション機能を構造因果モデルに組み込むことで,ロボットがブロックスタッキングタスクの現況を認識・評価し,配置候補から次の最善動作を推論し,ポストホックな反事実的説明を生成する,新たな因果確率的枠組みを提案する。 シミュレーションおよび実世界のロボットブロックスタッキングタスクにおいて,実証的な次善行動選択結果を提供し,計画実験の概要を示す。

Uncertainties in the real world mean that is impossible for system designers to anticipate and explicitly design for all scenarios that a robot might encounter. Thus, robots designed like this are fragile and fail outside of highly-controlled environments. Causal models provide a principled framework to encode formal knowledge of the causal relationships that govern the robot's interaction with its environment, in addition to probabilistic representations of noise and uncertainty typically encountered by real-world robots. Combined with causal inference, these models permit an autonomous agent to understand, reason about, and explain its environment. In this work, we focus on the problem of a robot block-stacking task due to the fundamental perception and manipulation capabilities it demonstrates, required by many applications including warehouse logistics and domestic human support robotics. We propose a novel causal probabilistic framework to embed a physics simulation capability into a structural causal model to permit robots to perceive and assess the current state of a block-stacking task, reason about the next-best action from placement candidates, and generate post-hoc counterfactual explanations. We provide exemplar next-best action selection results and outline planned experimentation in simulated and real-world robot block-stacking tasks.
翻訳日:2023-08-14 13:36:54 公開日:2023-08-11
# 人間と物体の相互作用検出における視覚的述語コンテキストの探索

Exploring Predicate Visual Context in Detecting of Human-Object Interactions ( http://arxiv.org/abs/2308.06202v1 )

ライセンス: Link先を確認
Frederic Z. Zhang, Yuhui Yuan, Dylan Campbell, Zhuoyao Zhong, Stephen Gould(参考訳) 近年,人間-物体相互作用(HOI)研究における主要なアプローチとしてDETRフレームワークが登場している。 特に、2段変圧器を用いたHOI検出器は、最も高性能で訓練効率の良いアプローチである。 しかし、これらは細かな文脈情報を持たないオブジェクトの特徴をhoi分類し、ポーズや方向情報を避けて、オブジェクトのアイデンティティや箱の四肢に関する視覚的な手がかりを好むことが多い。 これは自然に複雑または曖昧な相互作用の認識を妨げる。 本研究では,これらの問題を可視化と慎重に設計した実験を通して研究する。 そこで本研究では,画像特徴をクロスアテンションにより再導入する最善の方法を検討する。 改良されたクエリ設計、キーと値の広範な探索、空間的ガイダンスとしてのボックスペアの位置埋め込みにより、HICO-DETおよびV-COCOベンチマークにおける最先端の手法よりも高い性能を保ちながら、トレーニングコストの低減を図ることができる。

Recently, the DETR framework has emerged as the dominant approach for human--object interaction (HOI) research. In particular, two-stage transformer-based HOI detectors are amongst the most performant and training-efficient approaches. However, these often condition HOI classification on object features that lack fine-grained contextual information, eschewing pose and orientation information in favour of visual cues about object identity and box extremities. This naturally hinders the recognition of complex or ambiguous interactions. In this work, we study these issues through visualisations and carefully designed experiments. Accordingly, we investigate how best to re-introduce image features via cross-attention. With an improved query design, extensive exploration of keys and values, and box pair positional embeddings as spatial guidance, our model with enhanced predicate visual context (PViC) outperforms state-of-the-art methods on the HICO-DET and V-COCO benchmarks, while maintaining low training cost.
翻訳日:2023-08-14 13:36:31 公開日:2023-08-11
# 自由確率による設計

Designs via Free Probability ( http://arxiv.org/abs/2308.06200v1 )

ライセンス: Link先を確認
Michele Fava, Jorge Kurchan, and Silvia Pappalardi(参考訳) ユニタリデザインは、均一なハールアンサンブルの統計を近似するため、擬似ランダム性を調査するための重要なツールとなっている。 量子情報における中心的な役割にもかかわらず、量子カオス進化、特に固有状態熱化仮説(ETH)との関係はいまだに議論されている。 この研究は自由確率論を通じて後者と$k$-設計の間に橋渡しを与える。 まず、より一般的な$k$-freenessの概念を導入することにより、設計の代替プローブとして使用できることを示す。 自由確率理論にはいくつかのツールがあり、例えば混合モーメントの計算や量子チャネルの計算に有用である。 第2の結果は 量子力学とのつながりです 量子エルゴード性(ETH)は、文献で既に議論されているように、制限された物理観測可能なクラスに適用される。 この精神において、ジェネリックハミルトニアンのユニタリ進化は常に十分長い時間の自由性をもたらすが、考慮される作用素がethクラス内で制限されているときのみである。 この結果から,ユニタリ設計,量子カオス,固有状態熱化仮説の直接的関連が得られ,後期量子力学の普遍性に新たな光を当てることができた。

Unitary Designs have become a vital tool for investigating pseudorandomness since they approximate the statistics of the uniform Haar ensemble. Despite their central role in quantum information, their relation to quantum chaotic evolution and in particular to the Eigenstate Thermalization Hypothesis (ETH) are still largely debated issues. This work provides a bridge between the latter and $k$-designs through Free Probability theory. First, by introducing the more general notion of $k$-freeness, we show that it can be used as an alternative probe of designs. In turn, free probability theory comes with several tools, useful for instance for the calculation of mixed moments or for quantum channels. Our second result is the connection to quantum dynamics. Quantum ergodicity, and correspondingly ETH, apply to a restricted class of physical observables, as already discussed in the literature. In this spirit, we show that unitary evolution with generic Hamiltonians always leads to freeness at sufficiently long times, but only when the operators considered are restricted within the ETH class. Our results provide a direct link between unitary designs, quantum chaos and the Eigenstate Thermalization Hypothesis, and shed new light on the universality of late-time quantum dynamics.
翻訳日:2023-08-14 13:36:12 公開日:2023-08-11
# 患者報告結果尺度におけるフリーテキストコメントの弱い教師付きテキスト分類

Weakly Supervised Text Classification on Free Text Comments in Patient-Reported Outcome Measures ( http://arxiv.org/abs/2308.06199v1 )

ライセンス: Link先を確認
Anna-Grace Linton (1), Vania Dimitrova (2), Amy Downing (3), Richard Wagland (4), Adam Glaser (3) ((1) UKRI CDT in AI for Medical Diagnosis and Care, University of Leeds, UK, (2) School of Computing, University of Leeds, UK, (3) School of Medicine, University of Leeds, UK, (4) School of Health Sciences, University of Southampton, UK)(参考訳) 患者報告結果測定(PROM)データにおける自由テキストコメント(FTC)は通常、労働集約的で時間を要するコンテンツ分析のような手動の手法を用いて分析される。 機械学習分析手法は、ほとんど教師なしであり、分析後の解釈を必要とする。 弱教師付きテキスト分類(WSTC)は、ラベル付きデータに制限があるドメイン固有のテキストデータを分類するのに有用な分析方法である。 本稿では,大腸癌患者の健康関連QOL(Health-related Quality of Life, HRQoL)の指標として, FTCに5つのWSTC手法を適用した。 WSTCメソッドはFTCで言及されているすべてのテーマをラベル付けする。 結果から,promsデータの性能は,主にモデルの精度とテーマ間のばらつきから中程度に低下した。 分類性能の評価は,ラベル付きデータが限定された場合,PROMs FTCをラベル付けするためのキーワードベースのWSTCの可能性と限界を示した。

Free text comments (FTC) in patient-reported outcome measures (PROMs) data are typically analysed using manual methods, such as content analysis, which is labour-intensive and time-consuming. Machine learning analysis methods are largely unsupervised, necessitating post-analysis interpretation. Weakly supervised text classification (WSTC) can be a valuable method of analysis to classify domain-specific text data in which there is limited labelled data. In this paper, we apply five WSTC techniques to FTC in PROMs data to identify health-related quality of life (HRQoL) themes reported by colorectal cancer patients. The WSTC methods label all the themes mentioned in the FTC. The results showed moderate performance on the PROMs data, mainly due to the precision of the models, and variation between themes. Evaluation of the classification performance illustrated the potential and limitations of keyword based WSTC to label PROMs FTC when labelled data is limited.
翻訳日:2023-08-14 13:35:52 公開日:2023-08-11
# DIG In:地理多様性指標を用いた画像生成の差異評価

DIG In: Evaluating Disparities in Image Generations with Indicators for Geographic Diversity ( http://arxiv.org/abs/2308.06198v1 )

ライセンス: Link先を確認
Melissa Hall, Candace Ross, Adina Williams, Nicolas Carion, Michal Drozdzal, Adriana Romero Soriano(参考訳) 最近のテキストから画像への生成システムによって達成された前例のないフォトリアリスティックな結果と、プラグイン・アンド・プレイによるコンテンツ作成ソリューションとしての利用の増加は、彼らの潜在的なバイアスを理解するのに不可欠である。 本研究では,世界からオブジェクトを生成するように促されたテキスト・ツー・イメージ生成システムの現実性,多様性,迅速な生成一貫性を評価するための3つの指標を提案する。 我々の指標は、地理的格差の自動的かつ効率的なベンチマークを可能にすることで、これらのシステムの広範な影響の質的分析を補完する。 提案した指標を用いて,現在最先端のビジュアルコンテンツ生成システムにおける潜在的な地理的バイアスを分析し,(1) モデルがアフリカや西アジアに向けて欧州よりも現実性や世代多様性が低いこと,(2) 地理的情報によって生成した画像の一貫性と多様性の促進にコストがかかること,(3) モデルが他のオブジェクトよりも領域レベルの格差が大きいこと,などを見出した。 おそらく最も興味深いのは、画像生成品質の進歩は、現実世界の地理的表現のコストがかかることを示唆している。 包括的評価は、視覚コンテンツ制作のポジティブな体験を確保するための重要なステップである。

The unprecedented photorealistic results achieved by recent text-to-image generative systems and their increasing use as plug-and-play content creation solutions make it crucial to understand their potential biases. In this work, we introduce three indicators to evaluate the realism, diversity and prompt-generation consistency of text-to-image generative systems when prompted to generate objects from across the world. Our indicators complement qualitative analysis of the broader impact of such systems by enabling automatic and efficient benchmarking of geographic disparities, an important step towards building responsible visual content creation systems. We use our proposed indicators to analyze potential geographic biases in state-of-the-art visual content creation systems and find that: (1) models have less realism and diversity of generations when prompting for Africa and West Asia than Europe, (2) prompting with geographic information comes at a cost to prompt-consistency and diversity of generated images, and (3) models exhibit more region-level disparities for some objects than others. Perhaps most interestingly, our indicators suggest that progress in image generation quality has come at the cost of real-world geographic representation. Our comprehensive evaluation constitutes a crucial step towards ensuring a positive experience of visual content creation for everyone.
翻訳日:2023-08-14 13:35:35 公開日:2023-08-11
# 基本特徴の深い知識蒸留を用いた複雑な顔表情認識

Complex Facial Expression Recognition Using Deep Knowledge Distillation of Basic Features ( http://arxiv.org/abs/2308.06197v1 )

ライセンス: Link先を確認
Angus Maiden (1), Bahareh Nakisa (1) ((1) Deakin University)(参考訳) 複雑な感情認識(complex emotion recognition)は、人間の認識のレベル以上にある他のタスクと同じ優れたパフォーマンスをこれまで明らかにしてきた認知タスクである。 表情による感情認識は、人間の顔によって表現される感情の複雑さのために特に困難である。 機械が人間と同じレベルのパフォーマンスにアプローチするには、知識を合成し、人間と同じようにリアルタイムで新しい概念を理解する必要があるかもしれない。 人間は、記憶から重要な情報を蒸留し、残りを捨てることで、わずかな例だけで新しい概念を学ぶことができる。 同様に、連続学習法は既知のクラスの知識を保ちながら新しいクラスを学習し、少数の学習例を用いて新しいクラスを学習できる。 そこで本研究では,人間の認識と学習に触発された新しい連続学習法を提案する。 本手法は, gradcamの可視化を用いて, 知識蒸留と新しい予測的ソートメモリリプレイを用いて, 基礎的表情と複合的表情の関係を示す。 本手法は,新しいクラスにおいて,74.28%の精度で複雑な表情認識のための連続学習における現状を実現する。 また、複雑な表情認識に連続学習を用いることで、非連続学習法よりもはるかに優れた性能が得られることを実証し、最先端の非連続学習法を13.95%改善した。 我々の知識を最大限に活用するために、我々の研究は、複雑な表情認識に数発の学習を適用し、各表現クラスに1つのトレーニングサンプルを用いて100%の精度で最先端の技術を達成した最初のものでもある。

Complex emotion recognition is a cognitive task that has so far eluded the same excellent performance of other tasks that are at or above the level of human cognition. Emotion recognition through facial expressions is particularly difficult due to the complexity of emotions expressed by the human face. For a machine to approach the same level of performance in this domain as a human, it may need to synthesise knowledge and understand new concepts in real-time as humans do. Humans are able to learn new concepts using only few examples, by distilling the important information from memories and discarding the rest. Similarly, continual learning methods learn new classes whilst retaining the knowledge of known classes, whilst few-shot learning methods are able to learn new classes using very few training examples. We propose a novel continual learning method inspired by human cognition and learning that can accurately recognise new compound expression classes using few training samples, by building on and retaining its knowledge of basic expression classes. Using GradCAM visualisations, we demonstrate the relationship between basic and compound facial expressions, which our method leverages through knowledge distillation and a novel Predictive Sorting Memory Replay. Our method achieves the current state-of-the-art in continual learning for complex facial expression recognition with 74.28% Overall Accuracy on new classes. We also demonstrate that using continual learning for complex facial expression recognition achieves far better performance than non-continual learning methods, improving on state-of-the-art non-continual learning methods by 13.95%. To the best of our knowledge, our work is also the first to apply few-shot learning to complex facial expression recognition, achieving the state-of-the-art with 100% accuracy using a single training sample for each expression class.
翻訳日:2023-08-14 13:35:10 公開日:2023-08-11
# 人間の監視のためのソフトウェアドーピング解析

Software Doping Analysis for Human Oversight ( http://arxiv.org/abs/2308.06186v1 )

ライセンス: Link先を確認
Sebastian Biewer, Kevin Baum, Sarah Sterz, Holger Hermanns, Sven Hetmank, Markus Langer, Anne Lauber-R\"onsberg and Franz Lehr(参考訳) この記事では、ソフトウェアが生み出す社会的なリスクを軽減するためのフレームワークを紹介します。 具体的には、ソフトウェアドーピングの側面と、リスクの高い意思決定システムにおける不公平さと差別を包含する。 ソフトウェアドーピング(software doping)という用語は、ユーザの関心に逆らう機能を含むソフトウェアを指す。 ソフトウェアドーピングの顕著な例は、ディーゼル排ガススキャンダルが表面化した際に世界中の何百万もの車から見つかった、改ざんされた排出浄化システムである。 この記事では、ソフトウェアドーピング分析の正式な基礎と確立された確率的ファルシフィケーション技術を組み合わせて、ソフトウェアが望まない効果を識別するためのブラックボックス分析技術に到達します。 本手法は, ディーゼル車の排ガス浄化システムだけでなく, 人間を不公平あるいは差別的に評価する高リスクシステムにも応用する。 当社のアプローチが,より情報に富み,より責任のある意思決定を行う上で,いかに人間を支援できるかを実証する。 これは、欧州連合(EU)の今後のAI法が施行する中心的な要件である、効果的な人間の監視を促進するためである。 我々は,このようなシステムによって引き起こされる潜在的な問題について,科学的,哲学的,心理的に理解された視点で技術的貢献を補完する。

This article introduces a framework that is meant to assist in mitigating societal risks that software can pose. Concretely, this encompasses facets of software doping as well as unfairness and discrimination in high-risk decision-making systems. The term software doping refers to software that contains surreptitiously added functionality that is against the interest of the user. A prominent example of software doping are the tampered emission cleaning systems that were found in millions of cars around the world when the diesel emissions scandal surfaced. The first part of this article combines the formal foundations of software doping analysis with established probabilistic falsification techniques to arrive at a black-box analysis technique for identifying undesired effects of software. We apply this technique to emission cleaning systems in diesel cars but also to high-risk systems that evaluate humans in a possibly unfair or discriminating way. We demonstrate how our approach can assist humans-in-the-loop to make better informed and more responsible decisions. This is to promote effective human oversight, which will be a central requirement enforced by the European Union's upcoming AI Act. We complement our technical contribution with a juridically, philosophically, and psychologically informed perspective on the potential problems caused by such systems.
翻訳日:2023-08-14 13:34:42 公開日:2023-08-11
# 光ニューラルネットワークの耐雑音設計

Noise-Resilient Designs for Optical Neural Networks ( http://arxiv.org/abs/2308.06182v1 )

ライセンス: Link先を確認
Gianluca Kosmella, Ripalta Stabile, Jaron Sanders(参考訳) 全てのアナログ信号処理は基本的にノイズの対象となるが、これは光学ニューラルネットワーク(ONN)の現代的な実装にも当てはまる。 そこで,onnにおける雑音を軽減するために,ニューラルネットワーク (nn) の実装を想定した2つの設計を提案する。 どちらの設計も、結果のNNが所望のNNに近い出力を与える能力を持っている。 後者を確立するために,デザインを数学的に解析する。 具体的には、設計が正しいこと、すなわちリプシッツ連続活性化機能を持つフィードフォワードNNに対して、オリジナルに近い出力を任意に生成するONNを構築することができる、最初の設計のための確率的フレームワークについて検討する。 したがって、最初の設計で構築されたONNは、NNの普遍近似特性も継承する。 2つ目の設計では、線形活性化関数を持つNNに解析を制限し、正確な公式を用いてONNの出力分布を特徴付ける。 最後に,LeNet ONNを用いた数値実験について報告する。 ONNの深さの関数としての雑音の影響を具体的に検討する。 その結果,ONNの精度が向上することが期待できるが,実際は第1設計や第2設計の方法に少数のコンポーネントを追加するだけでよいことがわかった。

All analog signal processing is fundamentally subject to noise, and this is also the case in modern implementations of Optical Neural Networks (ONNs). Therefore, to mitigate noise in ONNs, we propose two designs that are constructed from a given, possibly trained, Neural Network (NN) that one wishes to implement. Both designs have the capability that the resulting ONNs gives outputs close to the desired NN. To establish the latter, we analyze the designs mathematically. Specifically, we investigate a probabilistic framework for the first design that establishes that the design is correct, i.e., for any feed-forward NN with Lipschitz continuous activation functions, an ONN can be constructed that produces output arbitrarily close to the original. ONNs constructed with the first design thus also inherit the universal approximation property of NNs. For the second design, we restrict the analysis to NNs with linear activation functions and characterize the ONNs' output distribution using exact formulas. Finally, we report on numerical experiments with LeNet ONNs that give insight into the number of components required in these designs for certain accuracy gains. We specifically study the effect of noise as a function of the depth of an ONN. The results indicate that in practice, adding just a few components in the manner of the first or the second design can already be expected to increase the accuracy of ONNs considerably.
翻訳日:2023-08-14 13:34:22 公開日:2023-08-11
# 公開データを用いた私的流通学習 : サンプル圧縮の視点から

Private Distribution Learning with Public Data: The View from Sample Compression ( http://arxiv.org/abs/2308.06239v1 )

ライセンス: Link先を確認
Shai Ben-David, Alex Bie, Cl\'ement L. Canonne, Gautam Kamath, Vikrant Singhal(参考訳) 公共データへのアクセスによる個人分布学習の課題について検討する。 パブリック・プライベート・ラーニング(public-private learning)と呼ぶこの設定では、学習者は、非公開のサンプルに対してのみプライバシの制約(ここでは純粋な差分プライバシー)に固執しながら、クラス$\mathcal q$に属する未知のディストリビューション$p$から、パブリックとプライベートのサンプルを与えられる。 クラス $\mathcal q$ のパブリック・プライベート学習性は、$\mathcal q$ のサンプル圧縮スキームの存在と、我々がリスト学習と呼ぶ中間概念と関連していることを示す。 この接続を利用すると、(1)$\mathbb R^d$, (2)ガウスの以前の結果を約回復し、(2)ガウスの任意の$k$-mixturesに対するサンプル複雑性上限を$\mathbb R^d$, result for agnostic and distribution-shift resistant learners, and also closure properties for public-private learnability under takes and product of distributions。 最後に、リスト学習への接続を通して、$\mathbb R^d$のガウスにとって、少なくとも$d$公開サンプルは、既知の$d+1$公開サンプルの上限に近い、プライベートな学習性に必要であることを示す。

We study the problem of private distribution learning with access to public data. In this setup, which we refer to as public-private learning, the learner is given public and private samples drawn from an unknown distribution $p$ belonging to a class $\mathcal Q$, with the goal of outputting an estimate of $p$ while adhering to privacy constraints (here, pure differential privacy) only with respect to the private samples. We show that the public-private learnability of a class $\mathcal Q$ is connected to the existence of a sample compression scheme for $\mathcal Q$, as well as to an intermediate notion we refer to as list learning. Leveraging this connection: (1) approximately recovers previous results on Gaussians over $\mathbb R^d$; and (2) leads to new ones, including sample complexity upper bounds for arbitrary $k$-mixtures of Gaussians over $\mathbb R^d$, results for agnostic and distribution-shift resistant learners, as well as closure properties for public-private learnability under taking mixtures and products of distributions. Finally, via the connection to list learning, we show that for Gaussians in $\mathbb R^d$, at least $d$ public samples are necessary for private learnability, which is close to the known upper bound of $d+1$ public samples.
翻訳日:2023-08-14 13:27:07 公開日:2023-08-11
# 三体相互作用の再構成--原子-二量体連続体におけるエフィモフ状態の生存観察

The reshape of three-body interactions: Observation of the survival of an Efimov state in the atom-dimer continuum ( http://arxiv.org/abs/2308.06237v1 )

ライセンス: Link先を確認
Yaakov Yudkin, Roy Elbaz, Jos\'e P. D'Incao, Paul S. Julienne, Lev Khaykovich(参考訳) エフィモフ状態はエキゾチックで直観的な3体量子状態であり、2原子フェシュバッハ共鳴の近傍に現れる。 これらの状態は、その大きな空間範囲と無限の幾何級数に続く非常に弱い結合エネルギーとして顕著な特徴を示し、相互作用が2つの原子を結合するほど強くない場合でも存在する。 エフィモフ状態は普遍的であり、異なるタイプの3体連続体に解離する閾値に近づくと、2体共鳴の相互作用強度の臨界値に観測可能な効果をもたらす。 特に、相互作用の強度が低下すると、efimov状態は原子二量体閾値に結合し、最終的には非結合原子二量体対に解離する。 ここでは、細い2体Feshbach共鳴近傍の$^7$Li原子におけるコヒーレントな数体分光法を用いて、この臨界点を探索する。 普遍性によって設定された期待に反して、$^7$li efimov trimer は閾値を超えるとすぐに解離せず、原子二量体に埋め込まれた準安定状態として存続する。 狭いフェシュバッハ共鳴を特徴とする系における3体相互作用を想起させる原子-二量体チャネルにおける反発相互作用の出現に関連する新しい現象と、この挙動を同定する。 その結果,^7$liのエフィモフ状態の性質に新たな光が当てられ,これまでの実験と同様に様々なパズリング現象を理解するための新しい経路が得られた。

Efimov states are exotic and counterintuitive three-body quantum states that emerge in the vicinity of two-atom Feshbach resonances. These states exhibit remarkable characteristics as their large spatial extent and extremely weak binding energies following an infinite geometric series, and exist even when interactions are not strong enough to bind two atoms. Efimov states are universal and produce observable effects at critical values of the interaction strength across the two-body resonance when approaching their threshold for dissociation into the different types of three-body continua. In particular, as the strength of the interaction is decreased, an Efimov state merges into the atom-dimer threshold and eventually dissociates into an unbound atom-dimer pair. Here we explore this critical point using refined coherent few-body spectroscopy in $^7$Li atoms near a narrow two-body Feshbach resonance. Contrary to the expectation set by universality, we find that the $^7$Li Efimov trimer does not immediately dissociate when passing the threshold, and survives as a metastable state embedded in the atom-dimer continuum. We identify this behavior with a novel phenomena related to the emergence of a repulsive interaction in the atom-dimer channel which reshapes the three-body interactions in systems characterized by narrow Feshbach resonances. Our results shed new light on the nature of $^7$Li Efimov states and provide a new path to understand various puzzling phenomena observed here, as well as in other previous experimental studies.
翻訳日:2023-08-14 13:26:36 公開日:2023-08-11
# KETM:知識強化テキストマッチング手法

KETM:A Knowledge-Enhanced Text Matching method ( http://arxiv.org/abs/2308.06235v1 )

ライセンス: Link先を確認
Kexin Jiang, Yahui Zhao, Guozhe Jin, Zhenguo Zhang and Rongyi Cui(参考訳) テキストマッチングは2つのテキストをマッチングし、それらの関係を判断するタスクであり、読解や質問応答システムといった自然言語処理タスクに広く応用されている。 メインストリームのアプローチは、テキスト表現の計算や、テキストマッチングタスクに有効である注意機構によるテキストとの対話である。 しかし、これらのモデルの性能は、常識的知識に基づく推論を必要とするテキストには不十分である。 そこで,本稿では,外部知識源からの文脈表現と実世界の常識知識を豊かにし,モデル理解と推論を強化するための,知識拡張テキストマッチングモデル(ketm)と呼ばれる新しいテキストマッチングモデルを提案する。 まず、Wiktionaryを使って、テキストワード定義を外部知識として検索する。 次に,テキストマッチングモジュールにテキストと知識を供給し,特徴ベクトルを抽出する。 テキストマッチングモジュールは、エンコーダ層、コアテンション層、アグリゲーション層を統合することにより、相互作用モジュールとして使用される。 具体的には、対話処理を複数回繰り返して奥行きの対話情報を取得し、多角プーリングによりテキストと知識の特徴ベクトルを抽出する。 次に、ゲーティング機構を用いてテキストと知識を融合させ、知識によるノイズを防止するニューラルネットワークにより、テキストと知識融合の比率を学習する。 その後, 4つのデータセットについて実験的検証を行い, 実験結果から, 提案手法は4つのデータセットすべてで良好に動作し, 提案手法の有効性を検証する外部知識を付加することなく, 基礎モデルと比較して性能が向上することを示した。 コードはhttps://github.com/1094701018/ketmで入手できる。

Text matching is the task of matching two texts and determining the relationship between them, which has extensive applications in natural language processing tasks such as reading comprehension, and Question-Answering systems. The mainstream approach is to compute text representations or to interact with the text through attention mechanism, which is effective in text matching tasks. However, the performance of these models is insufficient for texts that require commonsense knowledge-based reasoning. To this end, in this paper, We introduce a new model for text matching called the Knowledge Enhanced Text Matching model (KETM), to enrich contextual representations with real-world common-sense knowledge from external knowledge sources to enhance our model understanding and reasoning. First, we use Wiktionary to retrieve the text word definitions as our external knowledge. Secondly, we feed text and knowledge to the text matching module to extract their feature vectors. The text matching module is used as an interaction module by integrating the encoder layer, the co-attention layer, and the aggregation layer. Specifically, the interaction process is iterated several times to obtain in-depth interaction information and extract the feature vectors of text and knowledge by multi-angle pooling. Then, we fuse text and knowledge using a gating mechanism to learn the ratio of text and knowledge fusion by a neural network that prevents noise generated by knowledge. After that, experimental validation on four datasets are carried out, and the experimental results show that our proposed model performs well on all four datasets, and the performance of our method is improved compared to the base model without adding external knowledge, which validates the effectiveness of our proposed method. The code is available at https://github.com/1094701018/KETM
翻訳日:2023-08-14 13:26:05 公開日:2023-08-11
# ブルズアイ共振器における単一エミッタからの偏光・非偏光放射

Polarized and Un-Polarized Emission from a Single Emitter in a Bullseye Resonator ( http://arxiv.org/abs/2308.06231v1 )

ライセンス: Link先を確認
Giora Peniakov, Quirin Buchinger, Mohamed Helal, Simon Betzold, Yorick Reum, Michele B. Rota, Giuseppe Ronco, Mattia Beccaceci, Tobias M. Krieger, Saimon F. Covre Da Silva, Armando Rastelli, Rinaldo Trotta, Andreas Pfenning, Sven Hoefling, Tobias Huber-Loyola(参考訳) 偏極 |S|=0.99$\pm$0.01 と非偏極 |S|=0.03$\pm$0.01 を1つの円筒対称デバイス設計に埋め込まれた単一エミッタから放射する。 偏極は、円筒対称性を破るキャビティ中心に対する単一エミッタの位置オフセットと、共振器構造の周波数縮退固有モードに対する位置依存結合に由来することを示す。 実験結果は数値シミュレーションと偏光分解遠方界放出パターンの実験的マッピングを用いて解釈された。 2つの直交固有モードが完全に空間的に重なり合っていないナノフォトニック構造に一般化することができる。

We present polarized |S|=0.99$\pm$0.01, and unpolarized |S|=0.03$\pm$0.01 emission from a single emitter embedded in a single, cylindrically symmetric device design. We show that the polarization stems from a position offset of the single emitter with respect to the cavity center, which breaks the cylindrical symmetry, and a position-dependent coupling to the frequency degenerate eigenmodes of the resonator structure. The experimental results are interpreted by using numerical simulations and by experimental mapping of the polarization-resolved far-field emission patterns. Our findings can be generalized to any nanophotonic structure where two orthogonal eigenmodes are not fully spatially overlapping.
翻訳日:2023-08-14 13:25:36 公開日:2023-08-11
# MaxFloodCast: ピーク浸出深さの予測と特徴のデコードのための機械学習モデル

MaxFloodCast: Ensemble Machine Learning Model for Predicting Peak Inundation Depth And Decoding Influencing Features ( http://arxiv.org/abs/2308.06228v1 )

ライセンス: Link先を確認
Cheng-Chun Lee, Lipai Huang, Federico Antolini, Matthew Garcia, Andrew Juanb, Samuel D. Brody, Ali Mostafavi(参考訳) 洪水時の意思決定者、緊急管理者、インフラ運営者にとって、タイムリーで正確で信頼できる情報が不可欠である。 本研究は,ハリス郡で物理に基づく流体力学シミュレーションを訓練した機械学習モデルMaxFloodCastを用いて,効率的かつ解釈可能な浸水深度予測を行う。 平均R-2乗の0.949とルート平均角誤差の0.61フィートを目に見えないデータで達成し、ピーク洪水の深さを予測することができる。 ハリケーン・ハーヴェイとストーム・イメルダに対して検証されたMaxFloodCastは、リアルタイムの洪水管理と緊急作戦を支援する可能性を示している。 このモデルの解釈性は、決定者にとって、洪水対策戦略を伝える重要な情報を提供し、重要な施設を持つ地域を優先し、他の流域の降雨が洪水の露光に与える影響を調べるのに役立つ。 MaxFloodCastモデルでは,高精度かつ解釈可能な浸水深度予測が可能であり,計算時間を大幅に削減し,緊急対応や洪水リスク管理をより効果的に行うことができる。

Timely, accurate, and reliable information is essential for decision-makers, emergency managers, and infrastructure operators during flood events. This study demonstrates a proposed machine learning model, MaxFloodCast, trained on physics-based hydrodynamic simulations in Harris County, offers efficient and interpretable flood inundation depth predictions. Achieving an average R-squared of 0.949 and a Root Mean Square Error of 0.61 ft on unseen data, it proves reliable in forecasting peak flood inundation depths. Validated against Hurricane Harvey and Storm Imelda, MaxFloodCast shows the potential in supporting near-time floodplain management and emergency operations. The model's interpretability aids decision-makers in offering critical information to inform flood mitigation strategies, to prioritize areas with critical facilities and to examine how rainfall in other watersheds influences flood exposure in one area. The MaxFloodCast model enables accurate and interpretable inundation depth predictions while significantly reducing computational time, thereby supporting emergency response efforts and flood risk management more effectively.
翻訳日:2023-08-14 13:25:16 公開日:2023-08-11
# 2次アルゴリズムを用いた高効率深部オートエンコーダの自動サイズとトレーニング

Automated Sizing and Training of Efficient Deep Autoencoders using Second Order Algorithms ( http://arxiv.org/abs/2308.06221v1 )

ライセンス: Link先を確認
Kanishka Tyagi, Chinmay Rane, Michael Manry(参考訳) 一般化線形分類器を設計するための多段階学習法を提案する。 まず、回帰によって初期多クラス線形分類器が見つかる。 そして、不要な入力をプルーニングすることで検証誤差を最小化する。 同時に、望まれる出力はHo-Kashyapルールに似た方法で改善される。 次に、出力判別剤を一般化線形分類器におけるシグモダル出力単位のネット関数にスケールする。 次に,多層パーセプトロンのためのバッチ学習アルゴリズム群を開発し,その隠れ層サイズと学習エポック数の最適化を行う。 次に、育種と成長するアプローチを組み合わせる。 その後、入力ユニットは、mlpへの入力として供給されるsgmoidal output unitのネット関数としてスケールされる。 そこで我々は,深層アーキテクチャの全体的な性能を改善するために,各深層学習ブロックの改善を提案している。 ディープオートエンコーダの学習アルゴリズムに関する原理と定式化について議論する。 本稿では,訓練問題,ネットワークが線形であることの理論的,数学的,実験的正当化,各層に隠された単位数の最適化,深層学習モデルの深度決定など,深層オートエンコーダネットワークの諸問題について検討する。 現在の研究の直接的な意味は、デスクトップレベルの計算リソースを使用して高速ディープラーニングモデルを構築する能力である。 これは、私たちの意見では、小さくて強力なアルゴリズムを構築するというデザイン哲学を促進するものです。 それぞれのステップでパフォーマンス向上が示されます。 広く利用可能なデータセットを使用して、ファイナルネットワークの10フォールドテストエラーは、文献で報告されている他の線形、一般化線形分類器、多層パーセプトロン、深層学習者よりも少ないことが示されている。

We propose a multi-step training method for designing generalized linear classifiers. First, an initial multi-class linear classifier is found through regression. Then validation error is minimized by pruning of unnecessary inputs. Simultaneously, desired outputs are improved via a method similar to the Ho-Kashyap rule. Next, the output discriminants are scaled to be net functions of sigmoidal output units in a generalized linear classifier. We then develop a family of batch training algorithm for the multi layer perceptron that optimizes its hidden layer size and number of training epochs. Next, we combine pruning with a growing approach. Later, the input units are scaled to be the net function of the sigmoidal output units that are then feed into as input to the MLP. We then propose resulting improvements in each of the deep learning blocks thereby improving the overall performance of the deep architecture. We discuss the principles and formulation regarding learning algorithms for deep autoencoders. We investigate several problems in deep autoencoders networks including training issues, the theoretical, mathematical and experimental justification that the networks are linear, optimizing the number of hidden units in each layer and determining the depth of the deep learning model. A direct implication of the current work is the ability to construct fast deep learning models using desktop level computational resources. This, in our opinion, promotes our design philosophy of building small but powerful algorithms. Performance gains are demonstrated at each step. Using widely available datasets, the final network's ten fold testing error is shown to be less than that of several other linear, generalized linear classifiers, multi layer perceptron and deep learners reported in the literature.
翻訳日:2023-08-14 13:24:38 公開日:2023-08-11
# 非線形置換グランガー因果性

Nonlinear Permuted Granger Causality ( http://arxiv.org/abs/2308.06220v1 )

ライセンス: Link先を確認
Noah D. Gade and Jordan Rodu(参考訳) グランジャー因果推論は、経済学から神経科学まで幅広い分野において、議論を呼ぶが広く使われる方法である。 オリジナルの定義は、特定のモデルに対する関数依存条件を確立することによって、時系列における因果性の概念に対処する。 グランガー因果関係の非線形データへの適応は依然として困難であり、多くの手法がサンプル内テストを適用し、サンプル外予測可能性を含まないため、モデルオーバーフィッティングの懸念が生じる。 サンプル外比較を可能にするために、共変量集合の置換を用いて関数接続の尺度を明示的に定義する。 人工ニューラルネットワークは任意の非線形関係を近似するためにデータのデデューサとして機能し、デデューサ化プロセスとモデル残差に関する一定の条件下で各置換のばらつきを一貫して推定する。 置換法の性能をシミュレーションによりペナル化目的, ナイーブ置換法, 脱離法と比較し, 麻酔下ラット聴覚野における音響刺激のニューロン応答に対する応用について検討した。 我々は、データセット内の因果メカニズムの事前知識が限られている場合、グランガー因果フレームワークをターゲットとする使用は、さらなる研究を必要とする変数セット間の潜在的な予測関係を明らかにするのに役立つと論じている。

Granger causal inference is a contentious but widespread method used in fields ranging from economics to neuroscience. The original definition addresses the notion of causality in time series by establishing functional dependence conditional on a specified model. Adaptation of Granger causality to nonlinear data remains challenging, and many methods apply in-sample tests that do not incorporate out-of-sample predictability leading to concerns of model overfitting. To allow for out-of-sample comparison, we explicitly define a measure of functional connectivity using permutations of the covariate set. Artificial neural networks serve as featurizers of the data to approximate any arbitrary, nonlinear relationship, and under certain conditions on the featurization process and the model residuals, we prove consistent estimation of the variance for each permutation. Performance of the permutation method is compared to penalized objective, naive replacement, and omission techniques via simulation, and we investigate its application to neuronal responses of acoustic stimuli in the auditory cortex of anesthetized rats. We contend that targeted use of the Granger causal framework, when prior knowledge of the causal mechanisms in a dataset are limited, can help to reveal potential predictive relationships between sets of variables that warrant further study.
翻訳日:2023-08-14 13:23:58 公開日:2023-08-11
# 歴史的分布保存による連続顔偽造検出

Continual Face Forgery Detection via Historical Distribution Preserving ( http://arxiv.org/abs/2308.06217v1 )

ライセンス: Link先を確認
Ke Sun, Shen Chen, Taiping Yao, Xiaoshuai Sun, Shouhong Ding, Rongrong Ji(参考訳) 顔偽造技術は急速に進歩し、深刻なセキュリティ脅威を引き起こしている。 既存の顔偽造検出手法は、一般化可能な特徴を学習しようとするが、実用的応用には至っていない。 さらに、過去のトレーニングデータでこれらのメソッドを微調整することは、時間とストレージの観点からリソース集約的である。 本稿では,新たな偽造攻撃から効果的に学習することを目的とした,新規かつ困難な課題である連続顔偽造検出(CFFD)に焦点を当てる。 具体的には,歴史的顔の分布を保存・保存する歴史分布保存(HDP)フレームワークを提案する。 これを実現するために, 歴史的偽造分布をシミュレートするためにuniversal adversarial perturbation (uap) を用い, 異なるモデル間における実顔の分布変化を維持するための知識蒸留を行った。 また,3つの評価プロトコルを用いたCFFDの新しいベンチマークを構築した。 ベンチマーク実験の結果,提案手法は最先端の競合よりも優れていることがわかった。

Face forgery techniques have advanced rapidly and pose serious security threats. Existing face forgery detection methods try to learn generalizable features, but they still fall short of practical application. Additionally, finetuning these methods on historical training data is resource-intensive in terms of time and storage. In this paper, we focus on a novel and challenging problem: Continual Face Forgery Detection (CFFD), which aims to efficiently learn from new forgery attacks without forgetting previous ones. Specifically, we propose a Historical Distribution Preserving (HDP) framework that reserves and preserves the distributions of historical faces. To achieve this, we use universal adversarial perturbation (UAP) to simulate historical forgery distribution, and knowledge distillation to maintain the distribution variation of real faces across different models. We also construct a new benchmark for CFFD with three evaluation protocols. Our extensive experiments on the benchmarks show that our method outperforms the state-of-the-art competitors.
翻訳日:2023-08-14 13:23:36 公開日:2023-08-11
# コンセプタによる変化点検出

Change Point Detection With Conceptors ( http://arxiv.org/abs/2308.06213v1 )

ライセンス: Link先を確認
Noah D. Gade and Jordan Rodu(参考訳) オフラインの変更点検出は、データ生成プロセスが変化する時系列内の点を特定する。 この問題は単変量、すなわちデータに対してよく研究されているが、次元の増大と時間的依存によって困難になる。 最大1つの変更点問題に対して, 時系列における特定のトレーニングウィンドウの特性ダイナミクスを学ぶために, コンセプタ行列を用いることを提案する。 関連するランダムリカレントニューラルネットワークは、データのフェータライザとして機能し、変化点を、フェータライズと代表的コンセプタ行列にまたがる空間との間の距離の不定量化から識別する。 このモデル非依存法は、さらなる研究を保証できる潜在的な興味のある場所を示唆することができる。 軽微な仮定では,本手法は真の変化点を一貫した推定値を提供し,統計量の定量推定は元のデータの移動ブロックブートストラップによって生成されることを証明した。 本手法は,複数のプロセスのシミュレーションで検証され,クラスタリングメトリクス,グラフィカルメソッド,観察されたType 1エラー制御による性能評価を行う。 本手法は,ラジアル迷路探索に先立ち,非REM睡眠を経験するラットの公開神経データに適用した。

Offline change point detection seeks to identify points in a time series where the data generating process changes. This problem is well studied for univariate i.i.d. data, but becomes challenging with increasing dimension and temporal dependence. For the at most one change point problem, we propose the use of a conceptor matrix to learn the characteristic dynamics of a specified training window in a time series. The associated random recurrent neural network acts as a featurizer of the data, and change points are identified from a univariate quantification of the distance between the featurization and the space spanned by a representative conceptor matrix. This model agnostic method can suggest potential locations of interest that warrant further study. We prove that, under mild assumptions, the method provides a consistent estimate of the true change point, and quantile estimates for statistics are produced via a moving block bootstrap of the original data. The method is tested on simulations from several classes of processes, and we evaluate performance with clustering metrics, graphical methods, and observed Type 1 error control. We apply our method to publicly available neural data from rats experiencing bouts of non-REM sleep prior to exploration of a radial maze.
翻訳日:2023-08-14 13:23:21 公開日:2023-08-11
# 大型言語モデルによる会話推薦システム

A Large Language Model Enhanced Conversational Recommender System ( http://arxiv.org/abs/2308.06212v1 )

ライセンス: Link先を確認
Yue Feng, Shuchang Liu, Zhenghai Xue, Qingpeng Cai, Lantao Hu, Peng Jiang, Kun Gai, Fei Sun(参考訳) 会話推薦システム(CRS)は,対話インタフェースを通じて高品質なアイテムをユーザに推薦することを目的としている。 通常は、ユーザの好み、レコメンデーション、説明、項目情報検索など、複数のサブタスクを含む。 効果的なCRSを開発するには、いくつかの課題がある。 1) サブタスクの適切に管理する方法 2) 異なるサブタスクを効果的に解決する方法,及び 3) ユーザと対話する応答を正しく生成する方法。 近年、Large Language Models (LLMs) は、より強力なCRSを開発する新たな機会として、推論と生成の先例のない能力を示した。 本研究では,LLMCRSと呼ばれるLCMをベースとした新たなCRSを提案し,これらの課題に対処する。 サブタスク管理においては,LDMの推論能力を活用して,サブタスクを効果的に管理する。 サブタスク解決では,異なるサブタスクのエキスパートモデルとLLMを協調して,性能向上を実現している。 応答生成には,LLMを言語インタフェースとして利用し,ユーザとの対話性を向上する。 具体的には、LLMCRSはワークフローをサブタスク検出、モデルマッチング、サブタスク実行、レスポンス生成の4つのステージに分割する。 LLMCRSはスキーマベースの命令、デモベースの命令、動的サブタスクとモデルマッチング、LLMにワークフローで望ましい結果を生成するよう指示する要約ベースの生成も設計している。 最後に,LLMを対話型レコメンデーションに適応させるために,CRSのパフォーマンスフィードバックから強化学習を施した微調整LLMを提案する。 RLPFを用いたLLMCRSは既存の手法よりも優れていた。

Conversational recommender systems (CRSs) aim to recommend high-quality items to users through a dialogue interface. It usually contains multiple sub-tasks, such as user preference elicitation, recommendation, explanation, and item information search. To develop effective CRSs, there are some challenges: 1) how to properly manage sub-tasks; 2) how to effectively solve different sub-tasks; and 3) how to correctly generate responses that interact with users. Recently, Large Language Models (LLMs) have exhibited an unprecedented ability to reason and generate, presenting a new opportunity to develop more powerful CRSs. In this work, we propose a new LLM-based CRS, referred to as LLMCRS, to address the above challenges. For sub-task management, we leverage the reasoning ability of LLM to effectively manage sub-task. For sub-task solving, we collaborate LLM with expert models of different sub-tasks to achieve the enhanced performance. For response generation, we utilize the generation ability of LLM as a language interface to better interact with users. Specifically, LLMCRS divides the workflow into four stages: sub-task detection, model matching, sub-task execution, and response generation. LLMCRS also designs schema-based instruction, demonstration-based instruction, dynamic sub-task and model matching, and summary-based generation to instruct LLM to generate desired results in the workflow. Finally, to adapt LLM to conversational recommendations, we also propose to fine-tune LLM with reinforcement learning from CRSs performance feedback, referred to as RLPF. Experimental results on benchmark datasets show that LLMCRS with RLPF outperforms the existing methods.
翻訳日:2023-08-14 13:23:00 公開日:2023-08-11
# 基礎モデルは効率的なマルチモーダルマルチタスクモデルセレクタである

Foundation Model is Efficient Multimodal Multitask Model Selector ( http://arxiv.org/abs/2308.06262v1 )

ライセンス: Link先を確認
Fanqing Meng, Wenqi Shao, Zhanglin Peng, Chonghe Jiang, Kaipeng Zhang, Yu Qiao, Ping Luo(参考訳) 本稿では,事前学習されたニューラルネットワークの集合が与えられた場合,画像認識,参照,キャプション,視覚的質問応答,テキスト質問応答などの微調整をすることなく,各マルチモーダルタスクでの性能を予測する。 強引なアプローチは、すべてのターゲットデータセット上のすべてのモデルを微調整し、高い計算コストをもたらす。 近年のアプローチでは、モデルの転送可能性を測定するために軽量なメトリクスを使用したが、それらは単一のタスクの以前の知識に大きく依存することが多く、マルチモーダルなマルチタスクシナリオでは適用できない。 この問題に対処するために,大規模基盤モデルを用いた効率的なマルチタスクモデルセレクタ (EMMS) を提案し,様々な下流タスクの分類,テキスト,バウンディングボックスなどの多様なラベル形式を統一的なノイズラベル埋め込みに変換する。 EMMSは、単純な重み付き線形回帰によってモデルの伝達可能性を推定することができ、収束保証付き交代最小化アルゴリズムで効率的に解ける。 24のデータセットを持つ5つの下流タスクに対する大規模な実験は、EMMSが高速で効果的で、事前訓練されたモデルの転送可能性を評価するのに十分な汎用性を示している。 例えば、ラベル埋め込みによって強化された最先端のLogMEと比較すると、EMMSは9.0\%、26.3\%、20.1\%、54.8\%、12.2\%、画像認識、参照、キャプション、視覚的質問応答、テキスト質問応答において、それぞれ5.13x、6.29x、3.59x、6.19x、5.66xのスピードアップを実現している。 コードはhttps://github.com/OpenGVLab/Multitask-Model-Selectorで入手できる。

This paper investigates an under-explored but important problem: given a collection of pre-trained neural networks, predicting their performance on each multi-modal task without fine-tuning them, such as image recognition, referring, captioning, visual question answering, and text question answering. A brute-force approach is to finetune all models on all target datasets, bringing high computational costs. Although recent-advanced approaches employed lightweight metrics to measure models' transferability,they often depend heavily on the prior knowledge of a single task, making them inapplicable in a multi-modal multi-task scenario. To tackle this issue, we propose an efficient multi-task model selector (EMMS), which employs large-scale foundation models to transform diverse label formats such as categories, texts, and bounding boxes of different downstream tasks into a unified noisy label embedding. EMMS can estimate a model's transferability through a simple weighted linear regression, which can be efficiently solved by an alternating minimization algorithm with a convergence guarantee. Extensive experiments on 5 downstream tasks with 24 datasets show that EMMS is fast, effective, and generic enough to assess the transferability of pre-trained models, making it the first model selection method in the multi-task scenario. For instance, compared with the state-of-the-art method LogME enhanced by our label embeddings, EMMS achieves 9.0\%, 26.3\%, 20.1\%, 54.8\%, 12.2\% performance gain on image recognition, referring, captioning, visual question answering, and text question answering, while bringing 5.13x, 6.29x, 3.59x, 6.19x, and 5.66x speedup in wall-clock time, respectively. The code is available at https://github.com/OpenGVLab/Multitask-Model-Selector.
翻訳日:2023-08-14 13:17:01 公開日:2023-08-11
# 大規模言語モデルによるコード生成によるネットワーク管理の強化

Enhancing Network Management Using Code Generated by Large Language Models ( http://arxiv.org/abs/2308.06261v1 )

ライセンス: Link先を確認
Sathiya Kumaran Mani, Yajie Zhou, Kevin Hsieh, Santiago Segarra, Ranveer Chandra, and Srikanth Kandula(参考訳) ネットワークトポロジと通信グラフの分析は、現代のネットワーク管理において重要な役割を果たす。 しかし、結束的なアプローチがないことは、困難な学習曲線、エラーの増大、非効率につながる。 本稿では,大規模言語モデル(LLM)を用いて自然言語クエリからタスク固有コードを生成することにより,自然言語ベースのネットワーク管理エクスペリエンスを促進する新しいアプローチを提案する。 この方法は、ネットワークオペレーターが生成されたコードを検査し、LLMとネットワークデータを共有する必要をなくし、一般的なプログラム合成技術と組み合わせてアプリケーション固有の要求に集中することにより、説明可能性、スケーラビリティ、プライバシの課題に取り組む。 ベンチマークアプリケーションを用いたプロトタイプシステムの設計と評価を行い, プログラム合成手法を用いて, 精度, コスト効率, さらなる拡張の可能性を示した。

Analyzing network topologies and communication graphs plays a crucial role in contemporary network management. However, the absence of a cohesive approach leads to a challenging learning curve, heightened errors, and inefficiencies. In this paper, we introduce a novel approach to facilitate a natural-language-based network management experience, utilizing large language models (LLMs) to generate task-specific code from natural language queries. This method tackles the challenges of explainability, scalability, and privacy by allowing network operators to inspect the generated code, eliminating the need to share network data with LLMs, and concentrating on application-specific requests combined with general program synthesis techniques. We design and evaluate a prototype system using benchmark applications, showcasing high accuracy, cost-effectiveness, and the potential for further enhancements using complementary program synthesis techniques.
翻訳日:2023-08-14 13:16:11 公開日:2023-08-11
# ChatGPTに基づく投資ポートフォリオ選択

ChatGPT-based Investment Portfolio Selection ( http://arxiv.org/abs/2308.06260v1 )

ライセンス: Link先を確認
Oleksandr Romanko, Akhilesh Narayan, Roy H. Kwon(参考訳) 本稿では,投資ポートフォリオ選択におけるchatgptなどの生成型aiモデルの潜在的利用について検討する。 Generative Pre-Trained Transformer (GPT) モデルからの投資アドバイスを信頼することは、モデル "幻覚" による課題であり、出力の慎重な検証と検証が必要である。 したがって、我々は別のアプローチを取る。 私たちはChatGPTを使って、投資に魅力的なS&P500市場指数から株式の宇宙を得ています。 その後、我々は、このAI生成トレーディング宇宙を利用した様々なポートフォリオ最適化戦略を比較し、定量ポートフォリオ最適化モデルと比較し、人気のある投資ファンドと比較した。 以上の結果から,ChatGPTは株式選択に有効であるが,ポートフォリオ内の株式に最適な重み付けを割り当てるには適さない可能性が示唆された。 しかし、ChatGPTによる在庫選択と既存のポートフォリオ最適化モデルを組み合わせると、より優れた結果が得られる。 ai生成株選択の強みと高度な定量的最適化手法を組み合わせることで、より堅牢で好ましい投資成果の可能性を見出し、将来より効果的で信頼できる投資意思決定のためのハイブリッドアプローチを提案する。

In this paper, we explore potential uses of generative AI models, such as ChatGPT, for investment portfolio selection. Trusting investment advice from Generative Pre-Trained Transformer (GPT) models is a challenge due to model "hallucinations", necessitating careful verification and validation of the output. Therefore, we take an alternative approach. We use ChatGPT to obtain a universe of stocks from S&P500 market index that are potentially attractive for investing. Subsequently, we compared various portfolio optimization strategies that utilized this AI-generated trading universe, evaluating those against quantitative portfolio optimization models as well as comparing to some of the popular investment funds. Our findings indicate that ChatGPT is effective in stock selection but may not perform as well in assigning optimal weights to stocks within the portfolio. But when stocks selection by ChatGPT is combined with established portfolio optimization models, we achieve even better results. By blending strengths of AI-generated stock selection with advanced quantitative optimization techniques, we observed the potential for more robust and favorable investment outcomes, suggesting a hybrid approach for more effective and reliable investment decision-making in the future.
翻訳日:2023-08-14 13:15:56 公開日:2023-08-11
# インストラクション・バックトランスレーションによる自己アライメント

Self-Alignment with Instruction Backtranslation ( http://arxiv.org/abs/2308.06259v1 )

ライセンス: Link先を確認
Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston, Mike Lewis(参考訳) 本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な言語モデルを構築するためのスケーラブルな手法を提案する。 我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。 シードモデルは、Webドキュメント(自己拡張)の命令プロンプトを生成し、これらの候補の中から高品質なサンプルを選択することで、トレーニング例を構築するために使用される。 このデータは、より強力なモデルを微調整するために使用される。 LLaMaを2回繰り返して微調整することで、Alpacaのリーダーボード上の他のLLaMaモデルよりも優れており、高い有効自己整合性を示すことができる。

We present a scalable method to build a high quality instruction following language model by automatically labelling human-written text with corresponding instructions. Our approach, named instruction backtranslation, starts with a language model finetuned on a small amount of seed data, and a given web corpus. The seed model is used to construct training examples by generating instruction prompts for web documents (self-augmentation), and then selecting high quality examples from among these candidates (self-curation). This data is then used to finetune a stronger model. Finetuning LLaMa on two iterations of our approach yields a model that outperforms all other LLaMa-based models on the Alpaca leaderboard not relying on distillation data, demonstrating highly effective self-alignment.
翻訳日:2023-08-14 13:15:37 公開日:2023-08-11
# 重力波波形推定のためのholevo cram\'er-raoバウンド

Holevo Cram\'er-Rao Bound for waveform estimation of gravitational waves ( http://arxiv.org/abs/2308.06253v1 )

ライセンス: Link先を確認
James W. Gardner, Tuvia Gefen, Simon A. Haine, Joseph J. Hope, and Yanbei Chen(参考訳) 中性子星と中性子星の融合後の残骸からキロヘルツ重力波を検出することで、極端物質の理解を深めることができた。 この検出を可能にするため、重力波干渉計を変形させてキロヘルツ感度を高めることができる。 しかし、デチューテッド干渉計や他のキャビティベースの量子センサーの精度限界はよく理解されていない。 標準変分読み出し方式の感度は、波形推定量子Cram\'er-Rao境界に達しない。 我々は、信号のコサインと正弦相の「5」推定の不整合性を特定することにより、基本精度限界、波形推定のホレボ・クラム・ラオバウンドを確立する。 位相間の等重み付けについては、標準スキームが本当に最適であることを示す。 しかし, 不等度重みに対しては, 感度を著しく向上させる新しい測定手法を実験的に実現することを提案する。 このスキームはキロヘルツ重力波天文学を助長し、空洞型量子計測に広く応用することができる。

Detecting kilohertz gravitational waves from the post-merger remnants of binary neutron-star mergers could enhance our understanding of extreme matter. To enable this detection, a gravitational-wave interferometer can be detuned to increase its kilohertz sensitivity. The precision limits of detuned interferometers and other cavity--based quantum sensors, however, are not well understood. The sensitivity of the standard variational readout scheme does not reach the waveform-estimation Quantum Cram\'er-Rao Bound. We establish the fundamental precision limit, the waveform-estimation Holevo Cram\'er-Rao Bound, by identifying the incompatibility of the na\"ive estimates of the signal's cosine and sine phases. For an equal weighting between the phases, we prove that the standard scheme is indeed optimal. For unequal weights, however, we propose an experimental realisation of a new measurement scheme to significantly improve the sensitivity. This scheme could facilitate kilohertz gravitational-wave astronomy and has broader applications to detuned cavity--based quantum metrology.
翻訳日:2023-08-14 13:15:22 公開日:2023-08-11
# サブ波長範囲分解能の基本限界

Fundamental Limits on Subwavelength Range Resolution ( http://arxiv.org/abs/2308.06252v1 )

ライセンス: Link先を確認
Andrew N. Jordan and John C. Howell(参考訳) 我々は、レーダー測位問題「超レーダー」のサブ波長分解能に関する基礎的境界を確立する。 情報理論的メトリクスは、直接電場測定と光子計数測定の両方の場合の分解能限界を調べるために適用される。 基本的な限界を確立するために、メトロロジーの観点から2点目標のレンジ分解の最も単純な場合から始める。 これらの情報に基づくメトリクスは、2つの目標の最小識別距離と、2つのサブ波長解決された目標の分離の精度の両方に基礎的境界を確立する。 最小分離距離については、直接場法と光子計数法の両方が、目標分離が0となるにつれて、識別性は2次的に消失し、電磁場プロファイルの第2微分の分散に比例することを示す。 それでも、堅牢なサブ波長推定が可能である。 識別を最適化するために、いくつかの異なるバンド制限関数クラスが導入されている。 最適性能でレンジ精度を向上させるための最大推定法について検討する。 マルチパラメータ推定の一般理論を解析し、2点反射体の分離と相対強度の両方を推定する簡単な例を示す。

We establish fundamental bounds on subwavelength resolution for the radar ranging problem, ``super radar''. Information theoretical metrics are applied to probe the resolution limits for the case of both direct electric field measurement and photon-counting measurements. To establish fundamental limits, we begin with the simplest case of range resolution of two point targets from a metrology perspective. These information-based metrics establish fundamental bounds on both the minimal discrimination distance of two targets as well as the precision on the separation of two subwavelength resolved targets. For the minimal separation distance, both the direct field method and photon counting method show that the discriminability vanishes quadratically as the target separation goes to zero, and is proportional to the variance of the second derivative of the electromagnetic field profile. Nevertheless, robust subwavelength estimation is possible. Several different band-limited function classes are introduced to optimize discrimination. We discuss the application of maximum likelihood estimation to improve the range precision with optimal performance. The general theory of multi-parameter estimation is analyzed, and a simple example of estimating both the separation and relative strength of the two point reflectors is presented.
翻訳日:2023-08-14 13:15:04 公開日:2023-08-11
# FunnyBirds: 説明可能なAIメソッドのパートベース分析のための合成ビジョンデータセット

FunnyBirds: A Synthetic Vision Dataset for a Part-Based Analysis of Explainable AI Methods ( http://arxiv.org/abs/2308.06248v1 )

ライセンス: Link先を確認
Robin Hesse, Simone Schaub-Meyer, Stefan Roth(参考訳) 説明可能な人工知能(XAI)の分野は、複雑なディープニューラルネットワークの内部動作を明らかにすることを目的としている。 安全上重要な領域では不可欠であるが、XAIは本質的に地道的な説明を欠いているため、自動評価は未解決の問題となっている。 我々は、FunnyBirdsという新しい合成視覚データセットを提案し、自動評価プロトコルを伴ってこの問題に対処する。 私たちのデータセットは、意味的に意味のあるイメージ介入、例えば、個々のオブジェクト部分の削除を可能にします。 まず、ピクセルレベルで評価する既存の方法よりも人間の理解に近い部分レベルの説明を分析することができる。 第二に、入力のモデル出力と取り除いた部分を比較することで、説明に反映すべき地道部分の重要性を推定できる。 第三に、個々の説明を重要な部分の共通空間にマッピングすることで、単一の共通フレームワークで様々な異なる説明タイプを解析できる。 提案ツールを用いて,24種類のニューラルモデルとXAI手法の組み合わせの結果を報告し,評価手法の強みと弱さを,完全に自動的かつ系統的に示す。

The field of explainable artificial intelligence (XAI) aims to uncover the inner workings of complex deep neural models. While being crucial for safety-critical domains, XAI inherently lacks ground-truth explanations, making its automatic evaluation an unsolved problem. We address this challenge by proposing a novel synthetic vision dataset, named FunnyBirds, and accompanying automatic evaluation protocols. Our dataset allows performing semantically meaningful image interventions, e.g., removing individual object parts, which has three important implications. First, it enables analyzing explanations on a part level, which is closer to human comprehension than existing methods that evaluate on a pixel level. Second, by comparing the model output for inputs with removed parts, we can estimate ground-truth part importances that should be reflected in the explanations. Third, by mapping individual explanations into a common space of part importances, we can analyze a variety of different explanation types in a single common framework. Using our tools, we report results for 24 different combinations of neural models and XAI methods, demonstrating the strengths and weaknesses of the assessed methods in a fully automatic and systematic manner.
翻訳日:2023-08-14 13:14:46 公開日:2023-08-11
# 最小ヒルベルト=シュミット距離と任意の2 \times 2$および2 \times 3$状態への最も近い分離状態

Minimum Hilbert-Schmidt distance and the Closest Separable state to arbitrary $2 \times 2$ and $2 \times 3$ states ( http://arxiv.org/abs/2308.06245v1 )

ライセンス: Link先を確認
Palash Pandya and Marcin Wie\'sniak(参考訳) 本稿では,2\times 2$ および 2\times 3$ のヒルベルト空間における与えられた状態への最も近い分離状態を求める3段階のアルゴリズム,あるいは高次元のヒルベルト空間において,選択された二分割に対して「最も近い正部分転置(ppt)状態」を得るための3段階のアルゴリズムを提案する。 この過程において、最小ヒルベルト-シュミット距離への厳密な下界は、最小ヒルベルト-シュミット距離と負性の関係とともに生じる。 これはまた、分離可能な量子状態の集合からその距離が絡み合う測度としての有効性を議論することにつながる。 分離可能な状態の集合に対する距離測度の最小として定義される絡み合い測度は、ある種の広く受け入れられた規則に従う必要がある。 最も重要なのは、LOCC写像の下での距離の縮約性(CP非拡張性)である。 ヒルベルト・シュミット距離は、この性質を持っていないが、それを用いて構築された測度が LOCC 演算の下では増加しないかどうかはまだ明らかな問題である。 このような証明の難しさについては概説するが、数値的な証拠も提示し、問題の解決に一歩近づいた。

In this article we provide a three step algorithm to obtain the Closest Separable State to the given state in Hilbert space dimensions $2\times 2$ and $2\times 3$, or in the higher dimensional Hilbert spaces, 'Closest Positive Partial Transpose (PPT) state' for the chosen bipartition. In the process, a tight lower bound to the minimum Hilbert-Schmidt distance is brought forth together with the relation between the minimum Hilbert-Schmidt distance and Negativity. This also leads us to discuss the validity of the said distance from the set of separable quantum states as an entanglement measure. Any Entanglement measure defined as the minimum of a distance measure to the set of separable states needs to follow certain widely accepted rules. Most significantly, contractiveness of the distance (also, CP non-expansive property) under LOCC maps. While the Hilbert-Schmidt distance does not have this property, it is still an open question if the measure constructed using it is non-increasing under LOCC operations. While we outline some of the difficulties in such a proof, we also provide numerical evidence that brings one step closer to closing the question.
翻訳日:2023-08-14 13:14:23 公開日:2023-08-11
# 六方晶窒化ホウ素におけるフォノン量子状態の生成と単一光子放出子間の量子相関

Generation of phonon quantum states and quantum correlations among single photon emitters in hexagonal boron nitride ( http://arxiv.org/abs/2308.06244v1 )

ライセンス: Link先を確認
Hugo Molinares, Fernanda Pinilla, Enrique Mu\~noz, Francisco Mu\~noz, Vitalie Eremeev(参考訳) 六方晶窒化ホウ素は、ある粒界に1次元の位相的に保護されたフォノンを持つ。 ここでは,これらのフォノンを情報伝達に用いることができることを示す。 特に \textit{ (i) カラーセンタ(単一光子エミッタ)は、一次元チャネル内の1、2、およびクビットフォノン状態、および \textit{を誘導するために使用できる。 (ii) 2つの離れた色中心は、導波路として働く欠陥の列に沿って伝達されるトポロジカルフォノンによって結合することができ、強い量子相関を示す。

Hexagonal boron nitride hosts one dimensional topologically-protected phonons at certain grain boundaries. Here we show that it is possible to use these phonons for the transmission of information. Particularly, \textit{(i)} a color center (a single photon emitter) can be used to induce single-, two- and qubit-phonon states in the one dimensional channel, and \textit{(ii)} two distant color centers can be coupled by the topological phonons transmitted along a line of defects that acts as a waveguide, thus exhibiting strong quantum correlations.
翻訳日:2023-08-14 13:14:01 公開日:2023-08-11
# 超伝導窒化アルミニウム薄膜

Superconducting nitridized-aluminum thin films ( http://arxiv.org/abs/2308.06240v1 )

ライセンス: Link先を確認
Alba Torras-Coloma, Leyre Mart\'inez de Olcoz, Eva C\'espedes, Elia Bertoldo, David L\'opez-N\'u\~nez, Sagar Paul, Wolfgang Wernsdorfer, Gemma Rius, Pol Forn-D\'iaz(参考訳) 窒化アルミニウム薄膜における超伝導の直接観察について報告する。 アルゴンで希釈された窒素の制御混合物中でアルミニウムの蒸着をスパッタリングして製造する。 応用窒素の濃度は超伝導薄膜の特性を直接決定する。 3.38$\pm$0.01 k までの臨界温度を示す試料と1 t を超える面内磁場に対する弾性を観測し、良好な再現性を示した。 我々の知る限りでは、この研究はアルミニウム系窒化薄膜における波長可変超伝導の最初の不明瞭な実証である。 その結果, 窒化アルミニウムは超伝導量子回路の量子技術への応用に期待できる材料となった。

We report the direct observation of superconductivity in nitridized-aluminum thin films. The films are produced by sputtering deposition of aluminum in a controlled mixture of nitrogen diluted in argon. The concentration of applied nitrogen directly determines the properties of the superconducting thin films. We observe samples displaying critical temperatures up to 3.38$\pm$0.01 K and resilience to in-plane magnetic fields well above 1 T, with good reproducibility of the results. To our knowledge, this work represents the first unambiguous demonstration of tunable superconductivity in aluminum-based nitridized thin films. Our results put forward nitridized aluminum as a promising material to be employed in superconducting quantum circuits for quantum technology applications.
翻訳日:2023-08-14 13:13:48 公開日:2023-08-11
# 運動インクリメントを用いた運動予測のための時空間分岐

Spatio-Temporal Branching for Motion Prediction using Motion Increments ( http://arxiv.org/abs/2308.01097v3 )

ライセンス: Link先を確認
Jiexin Wang, Yujie Zhou, Wenwen Qiang, Ying Ba, Bing Su, Ji-Rong Wen(参考訳) HMP(Human Motion Prediction)は多種多様な応用のために人気の高い研究トピックとして登場したが、将来的なポーズの確率的・周期的性質のため、依然として難しい課題である。 従来の手法は手作りの特徴と機械学習技術に依存しており、人間の動きの複雑なダイナミクスをモデル化するのに苦労することが多い。 近年の深層学習に基づく手法は、時空間的な動きの表現を学習することで成功しているが、これらのモデルはしばしば動きデータの信頼性を見落としている。 さらに、スケルトンノードの時間的および空間的依存性は異なる。 時間的関係は時間とともに動き情報を捉え、空間的関係は身体構造と異なるノード間の関係を記述する。 本稿では,時間領域と空間領域の特徴の学習を分離し,より多くの動き情報を抽出し,知識蒸留による相補的クロスドメイン知識学習を実現するhmpのためのインクリメンタル情報を用いた,新たな時空間分岐ネットワークを提案する。 本手法は, 雑音干渉を効果的に低減し, 時間的特徴と空間的特徴を別々に抽出することにより, 動きを特徴付ける表現的情報を提供する。 我々は,標準的なHMPベンチマークと最先端手法を予測精度で評価する。

Human motion prediction (HMP) has emerged as a popular research topic due to its diverse applications, but it remains a challenging task due to the stochastic and aperiodic nature of future poses. Traditional methods rely on hand-crafted features and machine learning techniques, which often struggle to model the complex dynamics of human motion. Recent deep learning-based methods have achieved success by learning spatio-temporal representations of motion, but these models often overlook the reliability of motion data. Additionally, the temporal and spatial dependencies of skeleton nodes are distinct. The temporal relationship captures motion information over time, while the spatial relationship describes body structure and the relationships between different nodes. In this paper, we propose a novel spatio-temporal branching network using incremental information for HMP, which decouples the learning of temporal-domain and spatial-domain features, extracts more motion information, and achieves complementary cross-domain knowledge learning through knowledge distillation. Our approach effectively reduces noise interference and provides more expressive information for characterizing motion by separately extracting temporal and spatial features. We evaluate our approach on standard HMP benchmarks and outperform state-of-the-art methods in terms of prediction accuracy.
翻訳日:2023-08-14 10:20:05 公開日:2023-08-11
# 教育における人間とaiのハイブリッドエッセイのための境界の自動検出

Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid Essay in Education ( http://arxiv.org/abs/2307.12267v3 )

ライセンス: Link先を確認
Zijie Zeng, Lele Sha, Yuheng Li, Kaixun Yang, Dragan Ga\v{s}evi\'c, Guanliang Chen(参考訳) 最近の大規模言語モデル(llm)、例えばchatgptは、特定の指示が提供されたときに、人間的かつ流動的な応答を生成することができる。 技術進歩によってもたらされる利便性を認める一方で、教育者は、学生がLSMを活用して執筆の課題を完了し、それらを元の作業として引き渡すのではないかと懸念している。 このような懸念から、多くのAIコンテンツ検出研究が実施されているが、これらの先行研究の多くは、テキストが完全に人間書きであるか、完全にAI生成であると仮定して、AIコンテンツ検出を分類問題としてモデル化した。 本研究では,人間と生成的LLM(ハイブリッドテキスト)が共同で検出対象のテキストを書けるような,希少かつ現実的な環境下でのAIコンテンツ検出について検討した。 まず,対象とするハイブリッドテキスト(境界検出)から人書きコンテンツとAI生成コンテンツ間の遷移点を特定することを目的とした。 そこで我々は,(1)エンコーダ訓練中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案し,(2)隣り合う2つのプロトタイプ間の距離を計算し,その境界が互いに最も近い2つのプロトタイプの間に存在すると仮定した。 Through extensive experiments, we observed the following main findings: (1) the proposed approach consistently outperformed the baseline methods across different experiment settings; (2) the encoder training process can significantly boost the performance of the proposed approach; (3) when detecting boundaries for single-boundary hybrid essays, the proposed approach could be enhanced by adopting a relatively large prototype size, leading to a 22% improvement in the In-Domain evaluation and an 18% improvement in the Out-of-Domain evaluation.

The recent large language models (LLMs), e.g., ChatGPT, have been able to generate human-like and fluent responses when provided with specific instructions. While admitting the convenience brought by technological advancement, educators also have concerns that students might leverage LLMs to complete their writing assignments and pass them off as their original work. Although many AI content detection studies have been conducted as a result of such concerns, most of these prior studies modeled AI content detection as a classification problem, assuming that a text is either entirely human-written or entirely AI-generated. In this study, we investigated AI content detection in a rarely explored yet realistic setting where the text to be detected is collaboratively written by human and generative LLMs (i.e., hybrid text). We first formalized the detection task as identifying the transition points between human-written content and AI-generated content from a given hybrid text (boundary detection). Then we proposed a two-step approach where we (1) separated AI-generated content from human-written content during the encoder training process; and (2) calculated the distances between every two adjacent prototypes and assumed that the boundaries exist between the two adjacent prototypes that have the furthest distance from each other. Through extensive experiments, we observed the following main findings: (1) the proposed approach consistently outperformed the baseline methods across different experiment settings; (2) the encoder training process can significantly boost the performance of the proposed approach; (3) when detecting boundaries for single-boundary hybrid essays, the proposed approach could be enhanced by adopting a relatively large prototype size, leading to a 22% improvement in the In-Domain evaluation and an 18% improvement in the Out-of-Domain evaluation.
翻訳日:2023-08-14 10:19:44 公開日:2023-08-11
# 複屈折準曲面を用いた偏光多重画像合成

Polarization Multi-Image Synthesis with Birefringent Metasurfaces ( http://arxiv.org/abs/2307.08106v3 )

ライセンス: Link先を確認
Dean Hazineh, Soon Wei Daniel Lim, Qi Guo, Federico Capasso, Todd Zickler(参考訳) 精密に設計されたナノ構造からなる光学メタ曲面は、光を操り、入射場の性質に基づいて異なる機能を実装する能力において大きな注目を集めている。 計算画像処理システムは、デジタルポストプロセッシングと組み合わせることで、特定のタスクに役立つ一連のコード化された測定値を生成するためにこの能力を利用し始めた。 これらの研究に触発されて、偏光子モザイク光センサを備えた複屈折型準曲面を用いて、光学的に符号化された4つの計測結果を単一の露光で捉える新しいシステムを導入する。 本研究では,デジタル空間フィルタリング操作を,空間フィルタサイズに依存しない4つの偏光チャネルにまたがるより単純な画素単位の和に置き換える,非コヒーレントな光電子フィルタリングのタスクに適用する。 空間フィルタを1つしか実現できない非一貫性光電子フィルタに関するこれまでの研究とは対照的に,単一キャプチャから連続的なフィルタファミリを実現し,ポストキャプチャ後のディジタル和重みを調整することで,家族からフィルタを選択できる。 ユーザが特定した空間フィルタのセットを実現するメタサーフェスを見つけるために,光効率と信号対雑音比の高い新しい正則化器を用いた勾配降下方式を導入する。 シミュレーションや試作プロトタイプの例をいくつか紹介する。その中には、深度や波長に一定の変動がある空間フィルターもある。 プロジェクトページはhttps://deanhazineh.github.io/publications/multi_image_ synthesis/mis_home.htmlを参照。

Optical metasurfaces composed of precisely engineered nanostructures have gained significant attention for their ability to manipulate light and implement distinct functionalities based on the properties of the incident field. Computational imaging systems have started harnessing this capability to produce sets of coded measurements that benefit certain tasks when paired with digital post-processing. Inspired by these works, we introduce a new system that uses a birefringent metasurface with a polarizer-mosaicked photosensor to capture four optically-coded measurements in a single exposure. We apply this system to the task of incoherent opto-electronic filtering, where digital spatial-filtering operations are replaced by simpler, per-pixel sums across the four polarization channels, independent of the spatial filter size. In contrast to previous work on incoherent opto-electronic filtering that can realize only one spatial filter, our approach can realize a continuous family of filters from a single capture, with filters being selected from the family by adjusting the post-capture digital summation weights. To find a metasurface that can realize a set of user-specified spatial filters, we introduce a form of gradient descent with a novel regularizer that encourages light efficiency and a high signal-to-noise ratio. We demonstrate several examples in simulation and with fabricated prototypes, including some with spatial filters that have prescribed variations with respect to depth and wavelength. Visit the Project Page at https://deanhazineh.github.io/publications/Multi_Image_Synthesis/MIS_Home.html
翻訳日:2023-08-14 10:19:18 公開日:2023-08-11
# 4ビット系に対する幾何学的真の多部絡み合い

Geometric genuine multipartite entanglement for four-qubit systems ( http://arxiv.org/abs/2212.11690v3 )

ライセンス: Link先を確認
Ansh Mishra, Soumik Mahanti, Abhinash Kumar Roy, and Prasanta K. Panigrahi(参考訳) Xie と Eberly は、真のマルチパーティ・エンタングルメント (GME) 測度 `concurrence fill' (\textit{Phys.) を導入した。 Rev. Lett. は、サードパーティシステムに対して 040403} (2021) である。 三角形の領域として定義され、辺の長さは各二分割の正方形収束を表す。 しかし、近年、共起充填はLOCCの下では単調ではなく、従って絡み合いの忠実な尺度ではないことが示されている。 忠実な絡み合いの尺度ではないが、二成分二元数列のエレガントな幾何学的解釈を包含している。 GME測度を4つ以上の設定に一般化する試みがいくつかある。 しかし、それらの中には忠実でないものもあり、単にエレガントな幾何学的解釈を欠いているものもある。 xieらによる最近の提案では、4つの系に対してgmeの量を与える共起四面体(英語版)(concurrence tetrahedron)を構築している。 ここでは、多部的絡み合いのすべての側面を捉えるために、より複雑な構造を必要とせず、四者的絡み合いは \textit{2D geometry only} を用いて示すことができる。 アーラキ・リーブの不等式とともに線型エントロピーの亜加法は、幾何学的 GME の四元系への直接拡張を構築するために用いられる。 我々の測度は3つの四辺形の組み合わせとして幾何学的に解釈でき、その辺は1対3の対角線、対角線は2対2の対角線である。

Xie and Eberly introduced a genuine multipartite entanglement (GME) measure `concurrence fill'(\textit{Phys. Rev. Lett., \textbf{127}, 040403} (2021)) for three-party systems. It is defined as the area of a triangle whose side lengths represent squared concurrence in each bi-partition. However, it has been recently shown that concurrence fill is not monotonic under LOCC, hence not a faithful measure of entanglement. Though it is not a faithful entanglement measure, it encapsulates an elegant geometric interpretation of bipartite squared concurrences. There have been a few attempts to generalize GME measure to four-party settings and beyond. However, some of them are not faithful, and others simply lack an elegant geometric interpretation. The recent proposal from Xie et al. constructs a concurrence tetrahedron, whose volume gives the amount of GME for four-party systems; with generalization to more than four parties being the hypervolume of the simplex structure in that dimension. Here, we show by construction that to capture all aspects of multipartite entanglement, one does not need a more complex structure, and the four-party entanglement can be demonstrated using \textit{2D geometry only}. The subadditivity together with the Araki-Lieb inequality of linear entropy is used to construct a direct extension of the geometric GME to four-party systems resulting in quadrilateral geometry. Our measure can be geometrically interpreted as a combination of three quadrilaterals whose sides result from the concurrence in one-to-three bi-partition, and diagonal as concurrence in two-to-two bipartition.
翻訳日:2023-08-14 10:18:50 公開日:2023-08-11
# ディエンス予測のマルチタスク学習のためのゲーティング付き変形可能なミキサー変換器

Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction ( http://arxiv.org/abs/2308.05721v2 )

ライセンス: Link先を確認
Yangyang Xu, Yibo Yang, Bernard Ghanemm, Lefei Zhang(参考訳) CNNとTransformerには独自の利点があり、どちらもマルチタスク学習(MTL)における高密度な予測に広く利用されている。 MTLに関する現在の研究の多くは、CNNやTransformerにのみ依存している。 本研究では,変形可能なcnnと問合せに基づくトランスフォーマーのメリットを共有ゲーティングと組み合わせることで,マルチタスク学習と密集型予測を組み合わせた新しいmtlモデルを提案する。 この組み合わせは、強力で柔軟なタスク固有の学習と、コストの低減、複雑さの低減、および従来のmtlメソッドよりも小さいパラメータの利点により、シンプルで効率的なソリューションを提供する。 変形可能なミキサートランス (deformable mixer Transformer with gating, DeMTG) は,MTL用統合ネットワークにコンボリューションとアテンション機構を組み込んだ,シンプルで効果的なエンコーダ・デコーダアーキテクチャである。 各ブロックの利点を巧みに利用し、ローカルおよびグローバルの観点から全てのタスクに対して変形可能で包括的な機能を提供する。 まず、変形可能なミキサーエンコーダは、異なるチャネル間の通信を可能にするためのチャネル認識混合演算子と、より情報のある空間位置を効率的にサンプリングするために、変形可能な畳み込みを施した空間認識変形演算子と、の2種類の演算子を含む。 第2に、タスク対応ゲーティングトランスフォーマーデコーダを用いてタスク固有の予測を行い、タスクインタラクション特徴のキャプチャに自己注意と統合されたタスクインタラクションブロックを適用し、ゲーティングアテンションと統合されたタスククエリブロックを利用してタスク固有の特徴の選定を行う。 さらに,提案するdemtgはgflops使用量が少なく,現行のトランスフォーマベースおよびcnnベースの競合モデルと比較して,3つの密集した予測データセット上での多種多様な指標において有意に性能が向上することを示した。 私たちのコードとモデルはhttps://github.com/yangyangxu0/demtgで利用可能です。

CNNs and Transformers have their own advantages and both have been widely used for dense prediction in multi-task learning (MTL). Most of the current studies on MTL solely rely on CNN or Transformer. In this work, we present a novel MTL model by combining both merits of deformable CNN and query-based Transformer with shared gating for multi-task learning of dense prediction. This combination may offer a simple and efficient solution owing to its powerful and flexible task-specific learning and advantages of lower cost, less complexity and smaller parameters than the traditional MTL methods. We introduce deformable mixer Transformer with gating (DeMTG), a simple and effective encoder-decoder architecture up-to-date that incorporates the convolution and attention mechanism in a unified network for MTL. It is exquisitely designed to use advantages of each block, and provide deformable and comprehensive features for all tasks from local and global perspective. First, the deformable mixer encoder contains two types of operators: the channel-aware mixing operator leveraged to allow communication among different channels, and the spatial-aware deformable operator with deformable convolution applied to efficiently sample more informative spatial locations. Second, the task-aware gating transformer decoder is used to perform the task-specific predictions, in which task interaction block integrated with self-attention is applied to capture task interaction features, and the task query block integrated with gating attention is leveraged to select corresponding task-specific features. Further, the experiment results demonstrate that the proposed DeMTG uses fewer GFLOPs and significantly outperforms current Transformer-based and CNN-based competitive models on a variety of metrics on three dense prediction datasets. Our code and models are available at https://github.com/yangyangxu0/DeMTG.
翻訳日:2023-08-14 10:16:44 公開日:2023-08-11
# DBAとしてのLLM

LLM As DBA ( http://arxiv.org/abs/2308.05481v2 )

ライセンス: Link先を確認
Xuanhe Zhou, Guoliang Li, Zhiyuan Liu(参考訳) データベース管理者(DBA)は、データの可用性、パフォーマンス、信頼性を保証するためにデータベースシステムの管理、保守、最適化において重要な役割を果たす。 しかし、DBAが大量のデータベースインスタンス(例えばクラウドデータベース上の数百万のインスタンス)を管理するのは困難で面倒である。 近年、大規模言語モデル(llm)は貴重な文書を理解し、合理的な回答を生み出す大きな可能性を示している。 そこで,本研究では,テキストソースからデータベースのメンテナンス経験を継続的に獲得し,目的とするデータベースに対して合理的かつ十分な時間内診断および最適化アドバイスを提供する,llmベースのデータベース管理者であるd-botを提案する。 本稿では、データベース保守のための革命的LLM中心のフレームワークについて述べる。 (i)文書及びツールからのデータベース保守知識検出 (ii)根本原因分析のための思考推論の木、及び (iii)複数のllm間の協調診断 D-Botが根本原因を効果的かつ効果的に診断できるという予備実験結果がgithub.com/TsinghuaDatabaseGroup/DB-GPTで公開されている。

Database administrators (DBAs) play a crucial role in managing, maintaining and optimizing a database system to ensure data availability, performance, and reliability. However, it is hard and tedious for DBAs to manage a large number of database instances (e.g., millions of instances on the cloud databases). Recently large language models (LLMs) have shown great potential to understand valuable documents and accordingly generate reasonable answers. Thus, we propose D-Bot, a LLM-based database administrator that can continuously acquire database maintenance experience from textual sources, and provide reasonable, well-founded, in-time diagnosis and optimization advice for target databases. This paper presents a revolutionary LLM-centric framework for database maintenance, including (i) database maintenance knowledge detection from documents and tools, (ii) tree of thought reasoning for root cause analysis, and (iii) collaborative diagnosis among multiple LLMs. Our preliminary experimental results that D-Bot can efficiently and effectively diagnose the root causes and our code is available at github.com/TsinghuaDatabaseGroup/DB-GPT.
翻訳日:2023-08-14 10:16:08 公開日:2023-08-11
# 知覚テキスト分類のための機械学習とトランスフォーマーによるアプローチ:比較分析

Exploring Machine Learning and Transformer-based Approaches for Deceptive Text Classification: A Comparative Analysis ( http://arxiv.org/abs/2308.05476v2 )

ライセンス: Link先を確認
Anusuya Krishnan(参考訳) 疑似テキスト分類は、疑似o不正コンテンツを特定することを目的とした自然言語処理において重要な課題である。 本研究では,機械学習とトランスフォーマーに基づくテキスト分類手法の比較分析を行った。 本稿では, 従来の機械学習アルゴリズムと, BERT, XLNET, DistilBERT, RoBERTaなどの最先端トランスフォーマモデルの有効性を検討した。 認識テキストと非認識テキストからなるラベル付きデータセットは、トレーニングおよび評価目的に使用される。 広範な実験を通じて,異なるアプローチの精度,精度,リコール,f1スコアなど,パフォーマンス指標を比較した。 本研究は, テキスト分類における機械学習とトランスフォーマーに基づく手法の長所と短所に光を当て, 研究者や実践者が知覚コンテンツを扱う際の情報的判断を可能にする。

Deceptive text classification is a critical task in natural language processing that aims to identify deceptive o fraudulent content. This study presents a comparative analysis of machine learning and transformer-based approaches for deceptive text classification. We investigate the effectiveness of traditional machine learning algorithms and state-of-the-art transformer models, such as BERT, XLNET, DistilBERT, and RoBERTa, in detecting deceptive text. A labeled dataset consisting of deceptive and non-deceptive texts is used for training and evaluation purposes. Through extensive experimentation, we compare the performance metrics, including accuracy, precision, recall, and F1 score, of the different approaches. The results of this study shed light on the strengths and limitations of machine learning and transformer-based methods for deceptive text classification, enabling researchers and practitioners to make informed decisions when dealing with deceptive content.
翻訳日:2023-08-14 10:15:49 公開日:2023-08-11
# フォールトトレラント量子エラー緩和

Fault Tolerant Quantum Error Mitigation ( http://arxiv.org/abs/2308.05403v2 )

ライセンス: Link先を確認
Alvin Gonzales and Anjala M Babu and Ji Liu and Zain Saleem and Mark Byrd(参考訳) 通常、フォールトトレラントな演算とコード結合は、リソースのオーバーヘッドのために量子エラー訂正のために予約される。 本稿では,フォールトトレラント動作が対称性に基づく誤差軽減手法の性能に大きな影響を与えることを示す。 また、フォールトトレラント量子コンピューティングの結果と同様に、フォールトトレラント量子エラー軽減(FTQEM)におけるコード結合は、エラーを任意のレベルまで指数関数的に抑制できることを示した。 また、繰り返し符号を用いたFTQEMの解析誤差閾値も提供する。 FTQEMのポストセレクションレートも、いくつかの結果を修正することで向上することができる。 FTQEMの利点は数値シミュレーションとハードウェアデモで実証される。

Typically, fault-tolerant operations and code concatenation are reserved for quantum error correction due to their resource overhead. Here, we show that fault tolerant operations have a large impact on the performance of symmetry based error mitigation techniques. We also demonstrate that similar to results in fault tolerant quantum computing, code concatenation in fault-tolerant quantum error mitigation (FTQEM) can exponentially suppress the errors to arbitrary levels. We also provide analytical error thresholds for FTQEM with the repetition code. The post-selection rate in FTQEM can also be increased by correcting some of the outcomes. The benefits of FTQEM are demonstrated with numerical simulations and hardware demonstrations.
翻訳日:2023-08-14 10:15:21 公開日:2023-08-11
# グラフクラスタリングのためのホモフィリエンハンス構造学習

Homophily-enhanced Structure Learning for Graph Clustering ( http://arxiv.org/abs/2308.05309v2 )

ライセンス: Link先を確認
Ming Gu, Gaoming Yang, Sheng Zhou, Ning Ma, Jiawei Chen, Qiaoyu Tan, Meihan Liu, Jiajun Bu(参考訳) グラフクラスタリングはグラフ解析の基本課題であり、グラフニューラルネットワーク(GNN)の最近の進歩は印象的な結果を示している。 既存のGNNベースのグラフクラスタリング手法の成功にもかかわらず、それらはしばしばグラフ構造の品質を見落としている。 グラフ構造学習は、欠落したリンクを追加し、スプリアス接続を取り除くことで、入力グラフの精細化を可能にする。 しかしながら、グラフ構造学習におけるこれまでの取り組みは、主に教師付き設定を中心に行われており、接地ラベルがないため、特定のクラスタリングタスクに直接適用することはできない。 このギャップを埋めるために,グラフクラスタリング (HoLe) のための新しい手法である \textbf{ho}mophily-enhanced structure \textbf{le}arning を提案する。 我々のモチベーションは、グラフ構造内のホモフィリーの度合いを微妙に向上させることで、GNNとクラスタリングの結果を著しく改善することに由来する。 この目的を実現するために,階層相関推定とクラスタ認識スパース化という2つのクラスタリング指向構造学習モジュールを開発した。 前者モジュールは、潜在空間とクラスタリング空間からのガイダンスを利用して、より正確なペアワイズノード関係の推定を可能にし、後者は類似度行列とクラスタリング割り当てに基づいてスパーシファイド構造を生成する。 さらに,ホモフィリエンハンス構造学習とgnnベースのクラスタリングを交互に行う共同最適化手法を考案し,相互効果の促進を図る。 さまざまなタイプとスケールの7つのベンチマークデータセットに関する広範な実験が、さまざまなクラスタリングメトリクスを通じて、最先端のベースラインに対するホールの優位性を示している。

Graph clustering is a fundamental task in graph analysis, and recent advances in utilizing graph neural networks (GNNs) have shown impressive results. Despite the success of existing GNN-based graph clustering methods, they often overlook the quality of graph structure, which is inherent in real-world graphs due to their sparse and multifarious nature, leading to subpar performance. Graph structure learning allows refining the input graph by adding missing links and removing spurious connections. However, previous endeavors in graph structure learning have predominantly centered around supervised settings, and cannot be directly applied to our specific clustering tasks due to the absence of ground-truth labels. To bridge the gap, we propose a novel method called \textbf{ho}mophily-enhanced structure \textbf{le}arning for graph clustering (HoLe). Our motivation stems from the observation that subtly enhancing the degree of homophily within the graph structure can significantly improve GNNs and clustering outcomes. To realize this objective, we develop two clustering-oriented structure learning modules, i.e., hierarchical correlation estimation and cluster-aware sparsification. The former module enables a more accurate estimation of pairwise node relationships by leveraging guidance from latent and clustering spaces, while the latter one generates a sparsified structure based on the similarity matrix and clustering assignments. Additionally, we devise a joint optimization approach alternating between training the homophily-enhanced structure learning and GNN-based clustering, thereby enforcing their reciprocal effects. Extensive experiments on seven benchmark datasets of various types and scales, across a range of clustering metrics, demonstrate the superiority of HoLe against state-of-the-art baselines.
翻訳日:2023-08-14 10:15:10 公開日:2023-08-11
# VAST: ゼロショットの表情でアバターを振動させる

VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer ( http://arxiv.org/abs/2308.04830v2 )

ライセンス: Link先を確認
Liyang Chen, Zhiyong Wu, Runnan Li, Weihong Bao, Jun Ling, Xu Tan, Sheng Zhao(参考訳) 現在の音声顔生成法は主に音声-リップ同期に焦点を当てている。 しかし、顔の話し方に関する不十分な調査は、無命で単調なアバターに繋がる。 以前のほとんどの作品は、任意のビデオプロンプトから表現力のあるスタイルを模倣せず、生成されたビデオの信頼性を保証する。 本稿では,中性フォトリアリスティックアバターを生かすための教師なし変分スタイル伝達モデル(vast)を提案する。 提案モデルは,与えられた映像プロンプトから表情表現を抽出するスタイルエンコーダ,正確な音声関連動作をモデル化するハイブリッド表情デコーダ,スタイル空間を高度に表現的かつ有意義に拡張する変動スタイルエンコーダの3つの重要な構成要素から構成される。 顔のスタイル学習に関する本質的なデザインにより、任意のビデオプロンプトから表現力のある顔のスタイルを柔軟に捉え、それをゼロショットでパーソナライズした画像レンダラーに転送することができる。 実験により,提案手法はより鮮明な発話アバターの信頼性と表現性の向上に寄与することが示された。

Current talking face generation methods mainly focus on speech-lip synchronization. However, insufficient investigation on the facial talking style leads to a lifeless and monotonous avatar. Most previous works fail to imitate expressive styles from arbitrary video prompts and ensure the authenticity of the generated video. This paper proposes an unsupervised variational style transfer model (VAST) to vivify the neutral photo-realistic avatars. Our model consists of three key components: a style encoder that extracts facial style representations from the given video prompts; a hybrid facial expression decoder to model accurate speech-related movements; a variational style enhancer that enhances the style space to be highly expressive and meaningful. With our essential designs on facial style learning, our model is able to flexibly capture the expressive facial style from arbitrary video prompts and transfer it onto a personalized image renderer in a zero-shot manner. Experimental results demonstrate the proposed approach contributes to a more vivid talking avatar with higher authenticity and richer expressiveness.
翻訳日:2023-08-14 10:14:36 公開日:2023-08-11
# 大規模中国語モデルの生成能力の評価

Evaluating the Generation Capabilities of Large Chinese Language Models ( http://arxiv.org/abs/2308.04823v2 )

ライセンス: Link先を確認
Hui Zeng, Jingyuan Xue, Meng Hao, Chen Sun, Bin Ning, Na Zhang(参考訳) 本稿では,幅広い学術分野にわたる大規模中国語モデルの生成能力を総合的に評価したCG-Evalについて述べる。 モデルの性能は, 理工学, 人文科学, 数学計算, 医療実践資格試験, 司法試験, 公認会計士試験の6分野において, 様々な種類の質問に対して, 正確かつ関連性の高い回答を得られる能力に基づいて評価された。 本稿では,複数の指標の重み付け和から導出した合成指標であるGscoreについて,参照に対してモデル生成の品質を測定する。 テストデータとテスト結果はhttp://cgeval.besteasy.com/で確認できる。

This paper presents CG-Eval, the first comprehensive evaluation of the generation capabilities of large Chinese language models across a wide range of academic disciplines. The models' performance was assessed based on their ability to generate accurate and relevant responses to different types of questions in six disciplines, namely, Science and Engineering, Humanities and Social Sciences, Mathematical Calculations, Medical Practitioner Qualification Examination, Judicial Examination, and Certified Public Accountant Examination. This paper also presents Gscore, a composite index derived from the weighted sum of multiple metrics to measure the quality of model's generation against a reference. The test data and test results can be found at http://cgeval.besteasy.com/.
翻訳日:2023-08-14 10:14:17 公開日:2023-08-11
# イベント匿名化による識別のない人物再識別

Person Re-Identification without Identification via Event Anonymization ( http://arxiv.org/abs/2308.04402v3 )

ライセンス: Link先を確認
Shafiq Ahmad, Pietro Morerio, Alessio Del Bue(参考訳) 公共空間における視覚的監視の大規模利用は、個人のプライバシーを犠牲にしつつ、リソース消費(エネルギー、帯域幅、計算)を増加させる。 ニューロモルフィック視覚センサ(イベントカメラ)は, 現場の被験者の詳細なRGB視覚情報を捉えないため, プライバシー問題に対する有効な解決策として近年検討されている。 しかし、最近のディープラーニングアーキテクチャは、イベントカメラからのイメージを高い忠実度で再構築することができ、イベントベースのビジョンアプリケーションに対するプライバシーに対する潜在的な脅威を再導入している。 本稿では,このような画像再構成攻撃から人間の身元を守るために,イベントストリームを匿名化することを目的とする。 そこで本研究では,プライバシを保護し,人物ReIdのような下流タスクを実行するという2つの目的に対して,エンドツーエンドネットワークアーキテクチャを共同で最適化する手法を提案する。 我々のネットワークは、イベントをスクランブルすることを学び、プライバシー攻撃者から回収された画像の劣化を強制する。 この作業では、私たちのアプローチのパフォーマンスを評価するために収集された最初のイベントベースの人物ReIdデータセットもコミュニティに提供します。 本手法を広範囲な実験により検証し,SoftBioデータセットと提案したEvent-ReIdデータセットからシミュレーションした合成イベントデータについて報告する。

Wide-scale use of visual surveillance in public spaces puts individual privacy at stake while increasing resource consumption (energy, bandwidth, and computation). Neuromorphic vision sensors (event-cameras) have been recently considered a valid solution to the privacy issue because they do not capture detailed RGB visual information of the subjects in the scene. However, recent deep learning architectures have been able to reconstruct images from event cameras with high fidelity, reintroducing a potential threat to privacy for event-based vision applications. In this paper, we aim to anonymize event-streams to protect the identity of human subjects against such image reconstruction attacks. To achieve this, we propose an end-to-end network architecture jointly optimized for the twofold objective of preserving privacy and performing a downstream task such as person ReId. Our network learns to scramble events, enforcing the degradation of images recovered from the privacy attacker. In this work, we also bring to the community the first ever event-based person ReId dataset gathered to evaluate the performance of our approach. We validate our approach with extensive experiments and report results on the synthetic event data simulated from the publicly available SoftBio dataset and our proposed Event-ReId dataset.
翻訳日:2023-08-14 10:14:06 公開日:2023-08-11
# SLEM:超学習方程式モデリングを用いた経路モデリングと因果推論のための機械学習

SLEM: Machine Learning for Path Modeling and Causal Inference with Super Learner Equation Modeling ( http://arxiv.org/abs/2308.04365v4 )

ライセンス: Link先を確認
Matthew J. Vowels(参考訳) 因果推論は科学の重要な目標であり、観測データを用いて仮説的介入の予測に関する有意義な結論に達することができる。 経路モデル、構造方程式モデル(SEM)、より一般的には、DAG(Directed Acyclic Graphs)は、現象の根底にある因果構造に関する仮定を明確に特定する手段を提供する。 関数形式とパラメトリック形式についてほとんど仮定しないDAGとは異なり、SEMは線型性を仮定する。 これにより機能的不特定が生じ、研究者が信頼性の高い効果サイズ推定を行うのを防ぐことができる。 これとは対照的に,機械学習のスーパーラーナーアンサンブルを統合するパスモデリング技術であるSuper Learner Equation Modelingを提案する。 我々は,SEMと比較した場合の線形モデルに対する因果効果の一貫性と不偏性の評価,および非線形関係を扱う場合のSEMに対する優位性を実証的に示す。 オープンソースのコードとサンプルを使ったチュートリアルノートブックを提供し,メソッドの使いやすさを強調する。

Causal inference is a crucial goal of science, enabling researchers to arrive at meaningful conclusions regarding the predictions of hypothetical interventions using observational data. Path models, Structural Equation Models (SEMs), and, more generally, Directed Acyclic Graphs (DAGs), provide a means to unambiguously specify assumptions regarding the causal structure underlying a phenomenon. Unlike DAGs, which make very few assumptions about the functional and parametric form, SEM assumes linearity. This can result in functional misspecification which prevents researchers from undertaking reliable effect size estimation. In contrast, we propose Super Learner Equation Modeling, a path modeling technique integrating machine learning Super Learner ensembles. We empirically demonstrate its ability to provide consistent and unbiased estimates of causal effects, its competitive performance for linear models when compared with SEM, and highlight its superiority over SEM when dealing with non-linear relationships. We provide open-source code, and a tutorial notebook with example usage, accentuating the easy-to-use nature of the method.
翻訳日:2023-08-14 10:13:44 公開日:2023-08-11
# mirage:ミラーゲートを用いた量子回路分解と経路協調設計

MIRAGE: Quantum Circuit Decomposition and Routing Collaborative Design using Mirror Gates ( http://arxiv.org/abs/2308.03874v3 )

ライセンス: Link先を確認
Evan McKinney, Michael Hatridge, Alex K. Jones(参考訳) 効率的な大規模量子コンピュータの構築は、キュービット接続性とノイズの多いハードウェア操作のため、大きな課題である。 量子ゲートが物理的に連結された量子ビット上にあることを保証すると同時に、$\texttt{SWAP}$ゲートを最小化し、同時にネイティブな$\textit{basis gates}$への効率的な分解を見つけることが重要である。 この多面最適化の目標は、典型的には回路深度を最小化し、可能な限りの実行精度を達成することである。 本研究では,$\textit{mirror gates}$を用いた分解を改善しながら$\texttt{swap}$ gatesを最小化する協調設計およびトランスパイル手法である$\textit{mirror gates}$を提案する。 ミラーゲートは同じ物理相互作用を利用するが、出力が反転すると、異なるまたは$\textit{mirrored}$量子演算を実現する。 最近、$\sqrt{\textt{iSWAP}}$が$\texttt{CNOT}$よりも優れた分解の利点を持つ強力な基底ゲートとして注目されていることから、$\textt{iSWAP}$ ゲートファミリを実装するシステムがどのようにミラーゲートの恩恵を受けるかを示す。 さらに$\textit{MIRAGE}$は、$\texttt{SWAP}$sを最小化するのではなく、ミラーゲートを使用してルーティングの圧力を減らし、真の回路深さを減らす。 我々はミラーゲートを用いた$\sqrt{\texttt{iswap}}$と$\sqrt[4]{\texttt{iswap}}$の分解の利点について検討する。 また,MIRAGE内における異なる攻撃レベルのミラー置換を受け入れる新たな欲求的アプローチについても述べる。 最後に、平方格子トポロジを使用する$\texttt{iSWAP}$システムの場合、$\textit{MIRAGE}$は平均59.9f%$\texttt{SWAP}$ゲートを排除して回路深さを29.6%削減する。

Building efficient large-scale quantum computers is a significant challenge due to limited qubit connectivities and noisy hardware operations. Transpilation is critical to ensure that quantum gates are on physically linked qubits, while minimizing $\texttt{SWAP}$ gates and simultaneously finding efficient decomposition into native $\textit{basis gates}$. The goal of this multifaceted optimization step is typically to minimize circuit depth and to achieve the best possible execution fidelity. In this work, we propose $\textit{MIRAGE}$, a collaborative design and transpilation approach to minimize $\texttt{SWAP}$ gates while improving decomposition using $\textit{mirror gates}$. Mirror gates utilize the same underlying physical interactions, but when their outputs are reversed, they realize a different or $\textit{mirrored}$ quantum operation. Given the recent attention to $\sqrt{\texttt{iSWAP}}$ as a powerful basis gate with decomposition advantages over $\texttt{CNOT}$, we show how systems that implement the $\texttt{iSWAP}$ family of gates can benefit from mirror gates. Further, $\textit{MIRAGE}$ uses mirror gates to reduce routing pressure and reduce true circuit depth instead of just minimizing $\texttt{SWAP}$s. We explore the benefits of decomposition for $\sqrt{\texttt{iSWAP}}$ and $\sqrt[4]{\texttt{iSWAP}}$ using mirror gates, including both expanding Haar coverage and conducting a detailed fault rate analysis trading off circuit depth against approximate gate decomposition. We also describe a novel greedy approach accepting mirror substitution at different aggression levels within MIRAGE. Finally, for $\texttt{iSWAP}$ systems that use square-lattice topologies, $\textit{MIRAGE}$ provides an average of 29.6% reduction in circuit depth by eliminating an average of 59.9f% $\texttt{SWAP}$ gates, which ultimately improves the practical applicability of our algorithm.
翻訳日:2023-08-14 10:13:26 公開日:2023-08-11