このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240521となっている論文です。

PDF登録状況(公開日: 20240521)

TitleAuthorsAbstract論文公表日・翻訳日
# IA』に登場。

Quelle {é}thique pour quelle IA ? ( http://arxiv.org/abs/2407.17585v1 )

ライセンス: Link先を確認
David Doat, (参考訳) 本研究は、AIの倫理にかかわる様々な倫理的アプローチの分析を行い、その関心と限界を定めている。 まず,倫理の現代的ニーズと意味について紹介する。 彼はそれを他のノルマティビティのレジスタと区別し、形式化に不適切さを根ざしている。 彼はその後、メタ倫理、規範的倫理、応用倫理の区別に注意を払って、道徳哲学によってカバーされる倫理理論の風景の地図を提示した。 この概要をまとめた上で、著者は倫理と人工知能の関係について疑問を呈する。 この分析は特に、西洋の民主主義におけるデジタル倫理とAIのやり方に自らを強制してきた主要な倫理的潮流に焦点を当てている。 著者は、これらの倫理の実践が、今日の正確なパターンで結晶化されているように見えるので、AIにおける倫理の必要性に対して十分な十分な満足のいく反応になるかどうかを問う。 この研究は、文脈倫理の実践的な実践に基づくAIの人間の倫理が、人間にとって生じる倫理的問題の形式化や自動的な処理に必要であり、不必要である理由を考察して結論付けている。

This study proposes an analysis of the different types of ethical approaches involved in the ethics of AI, and situates their interests and limits. First, the author introduces to the contemporary need for and meaning of ethics. He distinguishes it from other registers of normativities and underlines its inadequacy to formalization. He then presents a cartography of the landscape of ethical theories covered by moral philosophy, taking care to distinguish meta-ethics, normative ethics and applied ethics. In drawing up this overview, the author questions the relationship between ethics and artificial intelligence. The analysis focuses in particular on the main ethical currents that have imposed themselves in the ways of doing digital ethics and AI in our Western democracies. The author asks whether these practices of ethics, as they seem to crystallize today in a precise pattern, constitute a sufficient and sufficiently satisfactory response to our needs for ethics in AI. The study concludes with a reflection on the reasons why a human ethics of AI based on a pragmatic practice of contextual ethics remains necessary and irreducible to any formalization or automated treatment of the ethical questions that arise for humans.
翻訳日:2024-08-05 01:45:45 公開日:2024-05-21
# FlowerとNVIDIA FLAREによるスーパーチャージフェデレーション学習

Supercharging Federated Learning with Flower and NVIDIA FLARE ( http://arxiv.org/abs/2407.00031v1 )

ライセンス: Link先を確認
Holger R. Roth, Daniel J. Beutel, Yan Cheng, Javier Fernandez Marques, Heng Pan, Chester Chen, Zhihong Zhang, Yuhong Wen, Sean Yang, Isaac, Yang, Yuan-Ting Hsieh, Ziyue Xu, Daguang Xu, Nicholas D. Lane, Andrew Feng, (参考訳) FlowerやNVIDIA FLAREなど、いくつかのオープンソースシステムが近年開発され、連邦学習(FL)のさまざまな側面に焦点を当てている。 FlowerはFL、分析、評価に対する凝集的なアプローチの実装に重点を置いている。 長年にわたって、FlowerはFLアプリケーション開発に適した広範な戦略とアルゴリズムを整備し、研究と産業において活発なFLコミュニティを育成してきた。 逆に、FLAREは、実運用環境でFLアプリケーション用に明示的に設計されたエンタープライズ対応でレジリエントなランタイム環境の作成を優先している。 本稿では,両フレームワークの初期の統合について述べるとともに,FLエコシステム全体をスーパーチャージャーするためにどのように連携できるかを示す。 FlowerとFLAREのシームレスな統合により、Flowerフレームワークで開発されたアプリケーションは、FLAREランタイム環境内で、いかなる修正も必要とせずに、懸命に操作することができる。 この初期統合はプロセスを合理化し、複雑さを排除し、2つのプラットフォーム間のスムーズな相互運用性を確保することで、FLアプリケーションの全体的な効率性とアクセシビリティを向上させる。

Several open-source systems, such as Flower and NVIDIA FLARE, have been developed in recent years while focusing on different aspects of federated learning (FL). Flower is dedicated to implementing a cohesive approach to FL, analytics, and evaluation. Over time, Flower has cultivated extensive strategies and algorithms tailored for FL application development, fostering a vibrant FL community in research and industry. Conversely, FLARE has prioritized the creation of an enterprise-ready, resilient runtime environment explicitly designed for FL applications in production environments. In this paper, we describe our initial integration of both frameworks and show how they can work together to supercharge the FL ecosystem as a whole. Through the seamless integration of Flower and FLARE, applications crafted within the Flower framework can effortlessly operate within the FLARE runtime environment without necessitating any modifications. This initial integration streamlines the process, eliminating complexities and ensuring smooth interoperability between the two platforms, thus enhancing the overall efficiency and accessibility of FL applications.
翻訳日:2024-07-22 22:38:24 公開日:2024-05-21
# 製造業におけるAI - 市場分析と機会

AI in Manufacturing: Market Analysis and Opportunities ( http://arxiv.org/abs/2407.05426v1 )

ライセンス: Link先を確認
Mohamed Abdelaal, (参考訳) 本稿では、製造業における人工知能(AI)の変革的影響について考察し、産業プラクティスの革新と運用効率の向上の可能性を明らかにする。 製造におけるAIのさまざまな応用を探求し、特にヒューマンマシンインタフェース(HMI)とAI駆動のミリングマシンに注目し、これらの技術が生産プロセスにおけるより直感的な操作と精度にどのように貢献するかを示した。 厳密な市場分析を通じて、ドイツの製造業者間でAIの採用率に関する洞察に富んだデータを提示し、これらの数字をグローバルなトレンドと比較し、生産、メンテナンス、カスタマーサービスなどにおけるAIの特定の用途を探究する。 さらに,ジェネレーティブAIの新たな分野と,製造プロセスにおける大規模言語モデルの可能性について検討する。 この調査結果は、2020年の6%から2023年の13.3%まで、ドイツの企業の間でAIの採用が著しく増加し、2030年までに相当な経済的影響が予想されることを示している。 この調査は、データ品質や統合ハードルといった企業が直面する課題にも対処し、AI実装における機会と障害のバランスのとれたビューを提供する。

In this paper, we explore the transformative impact of Artificial Intelligence (AI) in the manufacturing sector, highlighting its potential to revolutionize industry practices and enhance operational efficiency. We delve into various applications of AI in manufacturing, with a particular emphasis on human-machine interfaces (HMI) and AI-powered milling machines, showcasing how these technologies contribute to more intuitive operations and precision in production processes. Through rigorous market analysis, the paper presents insightful data on AI adoption rates among German manufacturers, comparing these figures with global trends and exploring the specific uses of AI in production, maintenance, customer service, and more. In addition, the paper examines the emerging field of Generative AI and the potential applications of large language models in manufacturing processes. The findings indicate a significant increase in AI adoption from 6% in 2020 to 13.3% in 2023 among German companies, with a projection of substantial economic impact by 2030. The study also addresses the challenges faced by companies, such as data quality and integration hurdles, providing a balanced view of the opportunities and obstacles in AI implementation.
翻訳日:2024-07-22 14:19:18 公開日:2024-05-21
# 医療用カリキュラム中のミノリタイズ集団に対するバイオアーゼの人工知能による低減効果

Reducing Biases towards Minoritized Populations in Medical Curricular Content via Artificial Intelligence for Fairer Health Outcomes ( http://arxiv.org/abs/2407.12680v1 )

ライセンス: Link先を確認
Chiman Salavati, Shannon Song, Willmar Sosa Diaz, Scott A. Hale, Roberto E. Montenegro, Fabricio Murai, Shiri Dori-Hacohen, (参考訳) バイアス情報(近年ではバイシン情報と呼ばれる)は医学のカリキュラムで教えられ続けている。 本稿では、BRICCについて紹介する。BRICCは、機械学習を用いて、テキストを潜在的なバイアスで体系的に識別し、フラグ付けすることを目的としており、その後、エキスパート・イン・ザ・ループ方式でレビューすることで、労働集約的なプロセスを大幅に加速させる。 金標準のBRICCデータセットは数年かけて開発され、12Kページ以上の教材が含まれている。 医療専門家は、性別、性別、年齢、地理、民族、人種を重視する包括的なコーディングガイドラインに従って、これらの文書に偏見を慎重に注釈した。 このラベル付きデータセットを使用して、医療バイアス分類器をトレーニング、検証、テストしました。 我々は,2進型別分類器,一般バイアス分類器,独立に学習されたバイアス型別分類器を組み合わせたアンサンブル,一般バイアスと型別バイアスの両方を予測するマルチタスク学習(MTL)の3つの手法を検証した。 MTLはF1スコアでレースバイアスの検出を多少改善したが、各タスクで特に訓練されたバイナリ分類器よりは優れていなかった。 一般的なバイアス検出では、バイナリ分類器はAUCの0.923に達し、ベースラインよりも27.8%改善されている。 この研究は、新しいデータセットを探索し、異なるトレーニングモデル戦略を評価することで、医療カリキュラムを損なう基礎を築いた。 したがって、よりニュアンスで効果的なバイシン情報緩和のための新しい経路を提供する。

Biased information (recently termed bisinformation) continues to be taught in medical curricula, often long after having been debunked. In this paper, we introduce BRICC, a firstin-class initiative that seeks to mitigate medical bisinformation using machine learning to systematically identify and flag text with potential biases, for subsequent review in an expert-in-the-loop fashion, thus greatly accelerating an otherwise labor-intensive process. A gold-standard BRICC dataset was developed throughout several years, and contains over 12K pages of instructional materials. Medical experts meticulously annotated these documents for bias according to comprehensive coding guidelines, emphasizing gender, sex, age, geography, ethnicity, and race. Using this labeled dataset, we trained, validated, and tested medical bias classifiers. We test three classifier approaches: a binary type-specific classifier, a general bias classifier; an ensemble combining bias type-specific classifiers independently-trained; and a multitask learning (MTL) model tasked with predicting both general and type-specific biases. While MTL led to some improvement on race bias detection in terms of F1-score, it did not outperform binary classifiers trained specifically on each task. On general bias detection, the binary classifier achieves up to 0.923 of AUC, a 27.8% improvement over the baseline. This work lays the foundations for debiasing medical curricula by exploring a novel dataset and evaluating different training model strategies. Hence, it offers new pathways for more nuanced and effective mitigation of bisinformation.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-21
# 教育のためのジェネレーティブAIの責任ある開発に向けて:評価駆動アプローチ

Towards Responsible Development of Generative AI for Education: An Evaluation-Driven Approach ( http://arxiv.org/abs/2407.12687v1 )

ライセンス: Link先を確認
Irina Jurenka, Markus Kunesch, Kevin R. McKee, Daniel Gillick, Shaojian Zhu, Sara Wiltberger, Shubham Milind Phal, Katherine Hermann, Daniel Kasenberg, Avishkar Bhoopchand, Ankit Anand, Miruna Pîslar, Stephanie Chan, Lisa Wang, Jennifer She, Parsa Mahmoudieh, Aliya Rysbek, Wei-Jen Ko, Andrea Huber, Brett Wiltshire, Gal Elidan, Roni Rabin, Jasmin Rubinovitz, Amit Pitaru, Mac McAllister, Julia Wilkowski, David Choi, Roee Engelberg, Lidan Hackmon, Adva Levin, Rachel Griffin, Michael Sears, Filip Bar, Mia Mesar, Mana Jabbour, Arslan Chaudhry, James Cohan, Sridhar Thiagarajan, Nir Levine, Ben Brown, Dilan Gorur, Svetlana Grant, Rachel Hashimoshoni, Laura Weidinger, Jieru Hu, Dawn Chen, Kuba Dolecki, Canfer Akbulut, Maxwell Bileschi, Laura Culp, Wen-Xin Dong, Nahema Marchal, Kelsie Van Deman, Hema Bajaj Misra, Michael Duah, Moran Ambar, Avi Caciularu, Sandra Lefdal, Chris Summerfield, James An, Pierre-Alexandre Kamienny, Abhinit Mohdi, Theofilos Strinopoulous, Annie Hale, Wayne Anderson, Luis C. Cobo, Niv Efron, Muktha Ananda, Shakir Mohamed, Maureen Heymans, Zoubin Ghahramani, Yossi Matias, Ben Gomes, Lila Ibrahim, (参考訳) 世界が直面する大きな課題は、品質教育への平等で普遍的なアクセスを提供することである。 生成型AI(gen AI)の最近の進歩は、学習者全員に個人家庭教師を提供し、教師全員に指導助手を提供する新しい技術の可能性に興奮をもたらしている。 しかし、この夢の完全な範囲はまだ実現されていない。 これは主に、ジェネラルAIのプロンプトに対する教育的直観の言葉化の難しさと、優れた教育を定義する上での課題によって強化された優れた評価プラクティスの欠如が原因である、と我々は主張する。 本稿では,学習者や教育者と共同で,学習科学から,定量的,質的,自動的,人為的な評価を対象とする7つの教育ベンチマークの実践的なセットに,高レベルの原則を翻訳する作業について紹介する。 評価の結果,LearningLM-Tutor は,教育者や学習者が多くの教育的側面について,即時調整した Gemini よりも一貫して好まれていることがわかった。 この研究は、総合的な教育評価フレームワークの開発に向けた第一歩として機能し、AIとEdTechコミュニティ内で、教育におけるジェネラルAIのポジティブな影響を最大化するための急速な進歩を可能にすることを願っている。

A major challenge facing the world is the provision of equitable and universal access to quality education. Recent advances in generative AI (gen AI) have created excitement about the potential of new technologies to offer a personal tutor for every learner and a teaching assistant for every teacher. The full extent of this dream, however, has not yet materialised. We argue that this is primarily due to the difficulties with verbalising pedagogical intuitions into gen AI prompts and the lack of good evaluation practices, reinforced by the challenges in defining excellent pedagogy. Here we present our work collaborating with learners and educators to translate high level principles from learning science into a pragmatic set of seven diverse educational benchmarks, spanning quantitative, qualitative, automatic and human evaluations; and to develop a new set of fine-tuning datasets to improve the pedagogical capabilities of Gemini, introducing LearnLM-Tutor. Our evaluations show that LearnLM-Tutor is consistently preferred over a prompt tuned Gemini by educators and learners on a number of pedagogical dimensions. We hope that this work can serve as a first step towards developing a comprehensive educational evaluation framework, and that this can enable rapid progress within the AI and EdTech communities towards maximising the positive impact of gen AI in education.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-21
# 工学教育におけるChatGPT-4oの依存性の緩和

How to Mitigate the Dependencies of ChatGPT-4o in Engineering Education ( http://arxiv.org/abs/2407.12693v1 )

ライセンス: Link先を確認
Maoyang Xiang, T. Hui Teo, (参考訳) 大規模マルチモーダルモデル(LMM)の急速な進化は、特にコンピュータ工学において、現代の教育と学習に大きな影響を与えている。 LMMは学習を促進するための幅広い機会を提供する一方で、従来の教育手法を損なうリスクや、自動化されたソリューションへの過度な依存を促進するリスクもある。 これに対応するために,我々はChatGPT-4oで表されるLMMへの依存を減らすためのカリキュラム内での戦略を開発した。 これには、ハンズオンの問題解決を促進するコーストピックの設計も含まれる。 提案した戦略は実際のコース実装を通じて実証された。 予備的な結果は、従来の学習原則の保存と技術の利点のバランスを保ち、学生のエンゲージメントと理解を効果的に向上することを示しています。

The rapid evolution of large multimodal models (LMMs) has significantly impacted modern teaching and learning, especially in computer engineering. While LMMs offer extensive opportunities for enhancing learning, they also risk undermining traditional teaching methods and fostering excessive reliance on automated solutions. To counter this, we have developed strategies within curriculum to reduce the dependencies on LMMs that represented by ChatGPT-4o. These include designing course topics that encourage hands-on problem-solving. The proposed strategies were demonstrated through an actual course implementation. Preliminary results show that the methods effectively enhance student engagement and understanding, balancing the benefits of technology with the preservation of traditional learning principles.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-21
# GenAIの今後 : 政策と技術

Securing the Future of GenAI: Policy and Technology ( http://arxiv.org/abs/2407.12999v1 )

ライセンス: Link先を確認
Mihai Christodorescu, Ryan Craven, Soheil Feizi, Neil Gong, Mia Hoffmann, Somesh Jha, Zhengyuan Jiang, Mehrdad Saberi Kamarposhti, John Mitchell, Jessica Newman, Emelia Probasco, Yanjun Qi, Khawaja Shams, Matthew Turek, (参考訳) ジェネレーティブAI(GenAI)の台頭は、セクター全体の変革の可能性をもたらすが、そのデュアルユースな性質はリスクを増幅する。 政府はGenAIを規制し、イノベーションと安全性のバランスをとるという課題に、世界中で不満を抱いている。 中国、米国、欧州連合(EU)はそれぞれ、アルゴリズム勧告の管理、執行命令、AI法などのイニシアチブで最前線にいる。 しかし、GenAI能力の急速な進化は、しばしば包括的な安全対策の開発を上回り、規制ニーズと技術進歩のギャップを生じさせる。 Google、ウィスコンシン大学、マディソン大学(UW-Madison)、スタンフォード大学が共同で行ったワークショップは、GenAIのポリシーとテクノロジーのギャップを埋めることを目的としていた。 GenAIの分野の多様な利害関係者(政府や政府、学術、産業など)は、技術的実現可能性と規制指針の両方を実現する必要があるため、いかなる安全対策もより複雑にしている。 本稿では,技術進歩を妨げることなく,どのように規制を設計できるか,といった問題に対処するワークショップの議論を要約する。 規制基準を満たすために、テクノロジーはどのように進化するか? 法律と技術の間の相互作用は、非常に大きなトピックであり、この論文は、このトピックを包括的に扱うものではない、と主張する。 本論文は,ワークショップに基づく調査結果の収集を目的としており,この話題に関する議論をガイドできることを願っている。

The rise of Generative AI (GenAI) brings about transformative potential across sectors, but its dual-use nature also amplifies risks. Governments globally are grappling with the challenge of regulating GenAI, balancing innovation against safety. China, the United States (US), and the European Union (EU) are at the forefront with initiatives like the Management of Algorithmic Recommendations, the Executive Order, and the AI Act, respectively. However, the rapid evolution of GenAI capabilities often outpaces the development of comprehensive safety measures, creating a gap between regulatory needs and technical advancements. A workshop co-organized by Google, University of Wisconsin, Madison (UW-Madison), and Stanford University aimed to bridge this gap between GenAI policy and technology. The diverse stakeholders of the GenAI space -- from the public and governments to academia and industry -- make any safety measures under consideration more complex, as both technical feasibility and regulatory guidance must be realized. This paper summarizes the discussions during the workshop which addressed questions, such as: How regulation can be designed without hindering technological progress? How technology can evolve to meet regulatory standards? The interplay between legislation and technology is a very vast topic, and we don't claim that this paper is a comprehensive treatment on this topic. This paper is meant to capture findings based on the workshop, and hopefully, can guide discussion on this topic.
翻訳日:2024-07-22 08:18:00 公開日:2024-05-21
# グラフニューラルネットワークのための量子位置符号化

Quantum Positional Encodings for Graph Neural Networks ( http://arxiv.org/abs/2406.06547v1 )

ライセンス: Link先を確認
Slimane Thabet, Mehdi Djellabi, Igor Sokolov, Sachin Kasture, Louis-Paul Henry, Loïc Henriet, (参考訳) 本研究では,量子コンピュータで得られたグラフニューラルネットワークに適した位置符号化の新たなファミリを提案する。 これらのエンコーディングは、量子コンピュータ内の量子ビット間の相互作用にグラフの位相をマッピングすることによって生じる量子系に固有の長距離相関を利用する。 私たちのインスピレーションは、量子処理ユニットの最近の進歩に起因しています。 これらの量子的特徴のいくつかは、一般的に使用される相対的なランダムウォーク確率よりも理論上、あるグラフに対して表現的であることを証明している。 実験により,量子特性の抽出可能なバージョンを計算することにより,標準的なベンチマークや大規模データセット上での最先端モデルの性能を向上させることができることを示す。 本研究は,グラフデータ処理における変圧器の性能向上のために,量子コンピューティング機能を活用する可能性を強調した。

In this work, we propose novel families of positional encodings tailored to graph neural networks obtained with quantum computers. These encodings leverage the long-range correlations inherent in quantum systems that arise from mapping the topology of a graph onto interactions between qubits in a quantum computer. Our inspiration stems from the recent advancements in quantum processing units, which offer computational capabilities beyond the reach of classical hardware. We prove that some of these quantum features are theoretically more expressive for certain graphs than the commonly used relative random walk probabilities. Empirically, we show that the performance of state-of-the-art models can be improved on standard benchmarks and large-scale datasets by computing tractable versions of quantum features. Our findings highlight the potential of leveraging quantum computing capabilities to enhance the performance of transformers in handling graph data.
翻訳日:2024-06-23 13:55:28 公開日:2024-05-21
# クラウドデバイス協調によるバックプロポーゲーションフリーマルチモーダルオンデバイスモデル適応

Backpropogation-Free Multi-modal On-Device Model Adaptation via Cloud-Device Collaboration ( http://arxiv.org/abs/2406.01601v1 )

ライセンス: Link先を確認
Wei Ji, Li Li, Zheqi Lv, Wenqiao Zhang, Mengze Li, Zhen Wan, Wenqiang Lei, Roger Zimmermann, (参考訳) インテリジェントなデバイスが継続的に、パーソナライズされたパーソナライズされたマルチモーダルデータを蓄積している、ますます相互接続する世界では、高品質でパーソナライズされたデバイス対応サービスを提供するためのプレッシャーが生まれます。 しかし、この取り組みは、主にクラウドに根ざした人工知能(AI)システムに、多面的な挑戦をもたらす。 これらのシステムは、クラウドとデバイス間のデータ分散のシフトに対応しているため、ファインチューニングベースの適応(FTA)の従来のアプローチには、FTAが要求するコストと時間を要するデータアノテーションと、モデルオーバーフィッティングの略奪的なリスクがある。 これらの課題を克服するため、我々はUniversal On-Device Multi-modal Model Adaptation Frameworkを導入する。 このフレームワークは、クラウドにホストされるFast Domain Adaptor(FDA)を特徴とし、デバイス上の軽量マルチモーダルモデル用に調整されたパラメータを提供する。 マルチモーダルタスク間の適応性を高めるため、ADR(AnchorFrame Distribution Reasoner)は通信コストを最小化する。 クラウド・デバイス・コラボレーション・マルチモーダルパラメータ生成(CDC-MMPG)フレームワークにカプセル化されている当社のコントリビューションは、オン・デバイス・マルチモーダル・モデル適応(DMMA)の先駆的なソリューションである。 特にビデオ質問応答と検索タスクにおいて,我々の日常生活におけるインテリジェントデバイスの統合を推進し,本手法の有効性と有効性を検証する。

In our increasingly interconnected world, where intelligent devices continually amass copious personalized multi-modal data, a pressing need arises to deliver high-quality, personalized device-aware services. However, this endeavor presents a multifaceted challenge to prevailing artificial intelligence (AI) systems primarily rooted in the cloud. As these systems grapple with shifting data distributions between the cloud and devices, the traditional approach of fine-tuning-based adaptation (FTA) exists the following issues: the costly and time-consuming data annotation required by FTA and the looming risk of model overfitting. To surmount these challenges, we introduce a Universal On-Device Multi-modal Model Adaptation Framework, revolutionizing on-device model adaptation by striking a balance between efficiency and effectiveness. The framework features the Fast Domain Adaptor (FDA) hosted in the cloud, providing tailored parameters for the Lightweight Multi-modal Model on devices. To enhance adaptability across multi-modal tasks, the AnchorFrame Distribution Reasoner (ADR) minimizes communication costs. Our contributions, encapsulated in the Cloud-Device Collaboration Multi-modal Parameter Generation (CDC-MMPG) framework, represent a pioneering solution for on-Device Multi-modal Model Adaptation (DMMA). Extensive experiments validate the efficiency and effectiveness of our method, particularly in video question answering and retrieval tasks, driving forward the integration of intelligent devices into our daily lives.
翻訳日:2024-06-09 15:59:42 公開日:2024-05-21
# OOD検出のためのViTのトレーニング方法

How to train your ViT for OOD Detection ( http://arxiv.org/abs/2405.17447v1 )

ライセンス: Link先を確認
Maximilian Mueller, Matthias Hein, (参考訳) VisionTransformerは、パブリックなチェックポイントから微調整されたときに、ImageNetスケール設定のための強力な配布外検知器であることが示されている。 本研究では, モデルプールの大規模解析により, 事前学習と微調整の両方がViTの性能に与える影響について検討する。 プレトレーニングの精度は,どの方法が有効か,OOD検出性能に強い影響を与えることがわかった。 さらに,特定のトレーニングスキームは,特定のアウト・ディストリビューションに対してのみ有効であるが,一般には有効ではないことを示し,ベストプラクティスのトレーニングレシピを同定する。

VisionTransformers have been shown to be powerful out-of-distribution detectors for ImageNet-scale settings when finetuned from publicly available checkpoints, often outperforming other model types on popular benchmarks. In this work, we investigate the impact of both the pretraining and finetuning scheme on the performance of ViTs on this task by analyzing a large pool of models. We find that the exact type of pretraining has a strong impact on which method works well and on OOD detection performance in general. We further show that certain training schemes might only be effective for a specific type of out-distribution, but not in general, and identify a best-practice training recipe.
翻訳日:2024-06-02 14:30:04 公開日:2024-05-21
# 画像による文字認識・文書化システム

Image Based Character Recognition, Documentation System To Decode Inscription From Temple ( http://arxiv.org/abs/2405.17449v1 )

ライセンス: Link先を確認
Velmathi G, Shangavelan M, Harish D, Krithikshun M S, (参考訳) 本研究は,Brihadeeswarar寺の壁面から発見された10世紀のタミル文字認識OCR手法の訓練と解析を行う。選択されたOCR手法は,広く使用されているOCRエンジンであるテッセラクト(Tesseract)を含む,現代のICR技術を用いて生データを前処理し,ボックス編集ソフトウェア(box editing software)を用いて,我々のモデルを微調整する。テッセラクト(Tesseract)を用いた分析は,古タミル文字のニュアンスを正確に解読する上で,その有効性を評価することを目的としている。このデータセットの性能は,評価されたデータセットを,トレーニングセットとテストセットに分割した精度で決定する。本研究は,OCRの広い分野において重要な課題に対処することを目的としている。

This project undertakes the training and analysis of optical character recognition OCR methods applied to 10th century ancient Tamil inscriptions discovered on the walls of the Brihadeeswarar Temple.The chosen OCR methods include Tesseract,a widely used OCR engine,using modern ICR techniques to pre process the raw data and a box editing software to finetune our model.The analysis with Tesseract aims to evaluate their effectiveness in accurately deciphering the nuances of the ancient Tamil characters.The performance of our model for the dataset are determined by their accuracy rate where the evaluated dataset divided into training set and testing set.By addressing the unique challenges posed by the script's historical context,this study seeks to contribute valuable insights to the broader field of OCR,facilitating improved preservation and interpretation of ancient inscriptions
翻訳日:2024-06-02 14:30:04 公開日:2024-05-21
# 物理法則学習における次世代予測の力

The Power of Next-Frame Prediction for Learning Physical Laws ( http://arxiv.org/abs/2405.17450v1 )

ライセンス: Link先を確認
Thomas Winterbottom, G. Thomas Hudson, Daniel Kluvanec, Dean Slack, Jamie Sterling, Junjie Shentu, Chenghao Xiao, Zheming Zhou, Noura Al Moubayed, (参考訳) 次フレーム予測はビデオデータのダイナミックスをモデル化し理解するための有用で強力な手法である。 因果的言語モデリングの実証的成功と言語モデリングにおける次世代の予測から着想を得て,次世代の予測が視覚世界を理解するための強力な基礎学習戦略(言語モデリングと類似)として機能するかを考察する。 次フレーム予測によって引き起こされる特定の視覚的理解を定量化するために,重力や質量などの物理定数の変化によって生成される基本的物理法則から導かれる6つの診断シミュレーションビデオデータセットを提案する。 我々は、次のフレームの予測のみに基づいてトレーニングされたモデルが、回帰タスクを通じてこれらの定数を直接訓練することなく、これらの物理定数(例えば重力)の価値を予測できることを実証した。 生成学習フェーズだけでは、ランダムモデルよりも物理定数を著しく予測できるモデル状態が誘導され、1.28~6.24の係数による損失が向上することがわかった。 我々は、視覚領域を支配する多くの「法則」の理解を、明示的なラベリングを必要とせずに誘導する一般的な学習戦略として、次のフレーム予測が大いに期待できると結論付けた。

Next-frame prediction is a useful and powerful method for modelling and understanding the dynamics of video data. Inspired by the empirical success of causal language modelling and next-token prediction in language modelling, we explore the extent to which next-frame prediction serves as a strong foundational learning strategy (analogous to language modelling) for inducing an understanding of the visual world. In order to quantify the specific visual understanding induced by next-frame prediction, we introduce six diagnostic simulation video datasets derived from fundamental physical laws created by varying physical constants such as gravity and mass. We demonstrate that our models trained only on next-frame prediction are capable of predicting the value of these physical constants (e.g. gravity) without having been trained directly to learn these constants via a regression task. We find that the generative training phase alone induces a model state that can predict physical constants significantly better than that of a random model, improving the loss by a factor of between 1.28 to 6.24. We conclude that next-frame prediction shows great promise as a general learning strategy to induce understanding of the many `laws' that govern the visual domain without the need for explicit labelling.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-21
# Green AI in Action: 生産におけるアンサンブルのための戦略的モデル選択

Green AI in Action: Strategic Model Selection for Ensembles in Production ( http://arxiv.org/abs/2405.17451v1 )

ライセンス: Link先を確認
Nienke Nijkamp, June Sallou, Niels van der Heijden, Luís Cruz, (参考訳) 人工知能(AI)をソフトウェアシステムに統合することは、エネルギー需要を増大させながら、その能力を大幅に強化した。 複数のモデルからの予測を1つの予測に組み合わせたアンサンブル学習は、累積エネルギー消費によってこの問題を強化する。 本稿では,AI アンサンブルシステムにおいて,AI モデルの精度とエネルギー消費のバランスをとることの課題に対処する,モデル選択のための新しいアプローチを提案する。 提案手法では,モデル数を削減するか,あるいはアンサンブル内でのモデル使用効率を向上させることで,精度を著しく損なうことなく,エネルギー需要を抑える方法について検討する。 本研究では,エネルギー使用量を最小限に抑えつつ,アンサンブル学習システムの性能を最適化するためのモデル選択戦略である静的と動的の2つを紹介し,評価する。 以上の結果から,静的戦略はF1スコアをベースラインを超えて改善し,全アンサンブルから平均エネルギー使用量を100 %から6 2%に削減した。 ダイナミック戦略はF1スコアをさらに強化し、全アンサンブルの100%に対して平均76\%を使用する。 また,資源消費と精度のバランスを保ち,エネルギー消費を著しく削減する手法を提案する。 この方法では, 静的戦略の平均エネルギー使用量を62 %から14 %に減らし, 動的戦略では76 %から57 %に減らした。 大規模プロフェッショナルサービスプロバイダが開発した運用AIシステムを用いたグリーンAIのフィールドスタディでは,実運用環境におけるエネルギーを考慮したモデル選択戦略の適用性を示した。

Integrating Artificial Intelligence (AI) into software systems has significantly enhanced their capabilities while escalating energy demands. Ensemble learning, combining predictions from multiple models to form a single prediction, intensifies this problem due to cumulative energy consumption. This paper presents a novel approach to model selection that addresses the challenge of balancing the accuracy of AI models with their energy consumption in a live AI ensemble system. We explore how reducing the number of models or improving the efficiency of model usage within an ensemble during inference can reduce energy demands without substantially sacrificing accuracy. This study introduces and evaluates two model selection strategies, Static and Dynamic, for optimizing ensemble learning systems performance while minimizing energy usage. Our results demonstrate that the Static strategy improves the F1 score beyond the baseline, reducing average energy usage from 100\% from the full ensemble to 6\2%. The Dynamic strategy further enhances F1 scores, using on average 76\% compared to 100% of the full ensemble. Moreover, we propose an approach that balances accuracy with resource consumption, significantly reducing energy usage without substantially impacting accuracy. This method decreased the average energy usage of the Static strategy from approximately 62\% to 14\%, and for the Dynamic strategy, from around 76\% to 57\%. Our field study of Green AI using an operational AI system developed by a large professional services provider shows the practical applicability of adopting energy-conscious model selection strategies in live production environments.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-21
# 近接場スポットビームフォーカス:相関型移動学習手法

Near-Field Spot Beamfocusing: A Correlation-Aware Transfer Learning Approach ( http://arxiv.org/abs/2405.19347v1 )

ライセンス: Link先を確認
Mohammad Amir Fallah, Mehdi Monemi, Mehdi Rasti, Matti Latva-Aho, (参考訳) 3次元スポットビームフォーカス(SBF)は、従来の角領域ビームフォーミングとは対照的に、近距離領域の放射状領域と角状領域の両方において、非常に小さな体積内で放射力を集中させる。 近年,チャネル状態情報(CSI)に依存しない機械学習(ML)ベースの手法の実装が,超大規模プログラマブルミータサーフェス(ELPM)を用いた効果的なSBFのために開発されている。 これらの手法は、ELPMをサブアレイに分割し、Desired Focal Point (DFP) にビームを集中させるために、Deep Reinforcement Learningと独立に訓練する。 本稿では、ELPMを用いた近接場SBFについて検討し、サブアレイの独立トレーニングによる長大なトレーニング時間に関連する課題に対処する。 サブアレイのビーム焦点行列間の相関から着想を得た高速なCSI非依存解を実現するために,転送学習技術を利用する。 まず,サブアレイ開口の位相分布画像に基づく新しい類似度基準を提案する。 そして、訓練されたサブアレイから訓練されていないサブアレイへ知識を伝達するサブアレイポリシー伝搬スキームを考案する。 適応政策再利用手法の改訂版として準液層を導入することで学習をさらに強化する。 提案手法がトレーニング速度を約5倍改善することを示す。 さらに,動的DFP管理のために,コンバージェンス率を最大8倍に向上するDFPポリシーブレンディング法を考案した。

3D spot beamfocusing (SBF), in contrast to conventional angular-domain beamforming, concentrates radiating power within very small volume in both radial and angular domains in the near-field zone. Recently the implementation of channel-state-information (CSI)-independent machine learning (ML)-based approaches have been developed for effective SBF using extremely-largescale-programable-metasurface (ELPMs). These methods involve dividing the ELPMs into subarrays and independently training them with Deep Reinforcement Learning to jointly focus the beam at the Desired Focal Point (DFP). This paper explores near-field SBF using ELPMs, addressing challenges associated with lengthy training times resulting from independent training of subarrays. To achieve a faster CSIindependent solution, inspired by the correlation between the beamfocusing matrices of the subarrays, we leverage transfer learning techniques. First, we introduce a novel similarity criterion based on the Phase Distribution Image of subarray apertures. Then we devise a subarray policy propagation scheme that transfers the knowledge from trained to untrained subarrays. We further enhance learning by introducing Quasi-Liquid-Layers as a revised version of the adaptive policy reuse technique. We show through simulations that the proposed scheme improves the training speed about 5 times. Furthermore, for dynamic DFP management, we devised a DFP policy blending process, which augments the convergence rate up to 8-fold.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-21
# NERULA:心電図信号解析のためのデュアルパスウェイ自己監督学習フレームワーク

NERULA: A Dual-Pathway Self-Supervised Learning Framework for Electrocardiogram Signal Analysis ( http://arxiv.org/abs/2405.19348v1 )

ライセンス: Link先を確認
Gouthamaan Manimaran, Sadasivan Puthusserypady, Helena Domínguez, Adrian Atienza, Jakob E. Bardram, (参考訳) 心電図(ECG)信号は、心臓の状態を診断し、詳細な心パターンを捉えるのに重要である。 ウェアラブルなシングルリードECGデバイスがより一般的になるにつれて、効率的な分析方法が不可欠である。 本稿では, NERULA (Non-contrastive ECG and Reconstruction Unsupervised Learning Algorithm) を提案する。 NERULAのデュアルパスウェイアーキテクチャは、心電図再構成と非コントラスト学習を組み合わせて、詳細な心臓の特徴を抽出する。 我々の50%のマスキング戦略は、マスクされた信号と逆マスキングされた信号の両方を用いて、現実世界の不完全または破損したデータに対するモデルロバスト性を高める。 非競合経路はマスクと逆マスク信号の表現を整列し、再構成経路は欠落した特徴を理解し、再構成する。 不整脈分類、性別分類、年齢回帰、人間の活動認識など、心電図解析における優れた性能を示すことにより、トレーニングスペクトルに生成経路と識別経路を組み合わせることで、様々なタスクにおける最先端の自己教師付き学習ベンチマークよりも優れた結果が得られることを示す。 NERULAのデュアルパス設計は、包括的なECG信号解釈のための堅牢で効率的なソリューションを提供する。

Electrocardiogram (ECG) signals are critical for diagnosing heart conditions and capturing detailed cardiac patterns. As wearable single-lead ECG devices become more common, efficient analysis methods are essential. We present NERULA (Non-contrastive ECG and Reconstruction Unsupervised Learning Algorithm), a self-supervised framework designed for single-lead ECG signals. NERULA's dual-pathway architecture combines ECG reconstruction and non-contrastive learning to extract detailed cardiac features. Our 50% masking strategy, using both masked and inverse-masked signals, enhances model robustness against real-world incomplete or corrupted data. The non-contrastive pathway aligns representations of masked and inverse-masked signals, while the reconstruction pathway comprehends and reconstructs missing features. We show that combining generative and discriminative paths into the training spectrum leads to better results by outperforming state-of-the-art self-supervised learning benchmarks in various tasks, demonstrating superior performance in ECG analysis, including arrhythmia classification, gender classification, age regression, and human activity recognition. NERULA's dual-pathway design offers a robust, efficient solution for comprehensive ECG signal interpretation.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-21
# 孤立フレームを超えて:フレーム内およびフレーム間注意によるセンサベース人間活動認識の強化

Beyond Isolated Frames: Enhancing Sensor-Based Human Activity Recognition through Intra- and Inter-Frame Attention ( http://arxiv.org/abs/2405.19349v1 )

ライセンス: Link先を確認
Shuai Shao, Yu Guan, Victor Sanchez, (参考訳) HAR(Human Activity Recognition)は、医療やスポーツなどの分野でウェアラブルセンサーの人気が高まり、ユビキタスコンピューティングで人気が高まっている。 畳み込みニューラルネットワーク(ConvNets)はHARに大きく貢献しているが、それらはフレーム単位の分析を採用し、個々のフレームに集中し、人間の活動に固有のより広い時間的ダイナミクスを見渡す可能性がある。 そこで本研究では,フレーム内およびフレーム間アテンションモデルを提案する。 このモデルは、個々のフレーム内のニュアンスと、複数のフレームにわたるより広いコンテキスト関係の両方をキャプチャし、シーケンシャルデータに対する包括的な視点を提供する。 我々は、新しい時系列バッチ学習戦略を提案することにより、時間的理解をさらに強化する。 この学習戦略は、各バッチ内の時系列データの時系列を保存し、センサベースのHARにおける時間パターンの連続性と整合性を保証する。

Human Activity Recognition (HAR) has become increasingly popular with ubiquitous computing, driven by the popularity of wearable sensors in fields like healthcare and sports. While Convolutional Neural Networks (ConvNets) have significantly contributed to HAR, they often adopt a frame-by-frame analysis, concentrating on individual frames and potentially overlooking the broader temporal dynamics inherent in human activities. To address this, we propose the intra- and inter-frame attention model. This model captures both the nuances within individual frames and the broader contextual relationships across multiple frames, offering a comprehensive perspective on sequential data. We further enrich the temporal understanding by proposing a novel time-sequential batch learning strategy. This learning strategy preserves the chronological sequence of time-series data within each batch, ensuring the continuity and integrity of temporal patterns in sensor-based HAR.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-21
# 量子速度限界によるニュートリノ振動におけるCP振動と質量階層の探索

Probing CP Violation and Mass Hierarchy in Neutrino Oscillations in Matter through Quantum Speed Limits ( http://arxiv.org/abs/2405.13114v1 )

ライセンス: Link先を確認
Subhadip Bouri, Abhishek Kumar Jha, Subhashish Banerjee, (参考訳) 量子速度制限(QSL)は、量子系が与えられた初期状態から最終状態へと進化するために必要な時間に基本的な下限を設定する。 本研究では,QSL時間を重要な解析ツールとして用いて,CP違反とニュートリノ振動の質量階層問題について検討する。 真空中および物質の存在下での2-および3-フレーバーニュートリノ状態の一元的進化のQSL時間について検討した。 二フレーバーニュートリノ振動は三フレーバー振動の前駆体として用いられる。 さらに、ニュートリノ実験において測定可能な量であるニュートリノの生存と振動確率の観点から、ニュートリノ状態の進化と絡み合いに関するQSL時間を計算した。 CP違反相の影響下では, ニュートリノ状態の進化や絡み合いなど, 通常の質量階層と逆質量階層のQSL時間の違いが観察された。 この結果は、T2K、NOvA、DUNE等の実験から得られたエネルギー変化した加速器ニュートリノ源を用いて示される。 特に、定常物質密度における3つのフレアニュートリノ振動は、通常の質量階層のシナリオにおけるこれらすべてのニュートリノ実験よりも高速な状態進化を示す。 さらに,正常な質量階層を仮定したDUNEの高速絡み合い成長を観察する。

The quantum speed limits (QSLs) set fundamental lower bounds on the time required for a quantum system to evolve from a given initial state to a final state. In this work, we investigate CP violation and the mass hierarchy problem of neutrino oscillations in matter using the QSL time as a key analytical tool. We examine the QSL time for the unitary evolution of two- and three-flavor neutrino states, both in vacuum and in the presence of matter. Two-flavor neutrino oscillations are used as a precursor to their three-flavor counterparts. We further compute the QSL time for neutrino state evolution and entanglement in terms of neutrino survival and oscillation probabilities, which are experimentally measurable quantities in neutrino experiments. A difference in the QSL time between the normal and inverted mass hierarchy scenarios, for neutrino state evolution as well as for entanglement, under the effect of a CP violation phase is observed. Our results are illustrated using energy-varying sets of accelerator neutrino sources from experiments such as T2K, NOvA, and DUNE. Notably, three-flavor neutrino oscillations in constant matter density exhibit faster state evolution across all these neutrino experiments in the normal mass hierarchy scenario. Additionally, we observe fast entanglement growth in DUNE assuming a normal mass hierarchy.
翻訳日:2024-05-29 03:18:40 公開日:2024-05-21
# Pseudo Channel: モーターイメージデコードのための時間埋め込み

Pseudo Channel: Time Embedding for Motor Imagery Decoding ( http://arxiv.org/abs/2405.15812v1 )

ライセンス: Link先を確認
Zhengqing Miao, Meirong Zhao, (参考訳) 運動画像(MI)に基づく脳波は、外部デバイスを直接神経制御し、神経リハビリテーションを進めるためのフロンティアである。 本研究では、様々なニューラルネットワークアーキテクチャにおけるMI-EEG信号の復号精度を高めるために擬似チャネルとして使用される、旅行波ベースの時間埋め込みと呼ばれる新しい時間埋め込み手法を提案する。 個人差におけるMI-EEGの時間的ダイナミクスを考慮できない従来のニューラルネットワーク手法とは異なり、我々のアプローチは、事前知識に基づいて、異なる参加者に対する時間的変化をキャプチャする。 複数の参加者による広範囲な実験を通して、この手法は分類精度を向上するだけでなく、トランスフォーマーアーキテクチャで使われる位置符号化と比較して、個人差への適応性も向上することを示した。 特に「EEGリテラシー」とみなす参加者に対しては,旅行波をベースとした時間埋め込みがデコード精度を著しく向上させることが明らかとなった。 脳波研究の新たな方向性として、旅行波ベースの時間埋め込みは、ニューラルネットワーク復号戦略に対する新たな洞察を提供するだけでなく、神経科学における注意機構の研究や脳波信号のより深い理解のための新たな道筋も広げている。

Motor imagery (MI) based EEG represents a frontier in enabling direct neural control of external devices and advancing neural rehabilitation. This study introduces a novel time embedding technique, termed traveling-wave based time embedding, utilized as a pseudo channel to enhance the decoding accuracy of MI-EEG signals across various neural network architectures. Unlike traditional neural network methods that fail to account for the temporal dynamics in MI-EEG in individual difference, our approach captures time-related changes for different participants based on a priori knowledge. Through extensive experimentation with multiple participants, we demonstrate that this method not only improves classification accuracy but also exhibits greater adaptability to individual differences compared to position encoding used in Transformer architecture. Significantly, our results reveal that traveling-wave based time embedding crucially enhances decoding accuracy, particularly for participants typically considered "EEG-illiteracy". As a novel direction in EEG research, the traveling-wave based time embedding not only offers fresh insights for neural network decoding strategies but also expands new avenues for research into attention mechanisms in neuroscience and a deeper understanding of EEG signals.
翻訳日:2024-05-29 02:39:33 公開日:2024-05-21
# 半教師付き音声埋め込みを用いたPD検出のための新しい融合アーキテクチャ

A Novel Fusion Architecture for PD Detection Using Semi-Supervised Speech Embeddings ( http://arxiv.org/abs/2405.17206v1 )

ライセンス: Link先を確認
Tariq Adnan, Abdelrahman Abdelkader, Zipei Liu, Ekram Hossain, Sooyong Park, MD Saiful Islam, Ehsan Hoque, (参考訳) 本稿では,参加者の自宅を含む多様な記録環境からWebアプリケーションを用いて収集した英語パングラム発話音声を用いて,パーキンソン病(PD)を認識する枠組みを提案する。 我々のデータセットには、PDと診断された392人を含む1306人の世界的コホートが含まれている。 データセットの多様性を生かし、年齢、性別、民族など、様々な人口統計特性にまたがって、Wav2Vec 2.0、WavLM、ImageBindといった半教師付きモデルから派生した深層学習埋め込みを用いて、PDに関連する音声力学を表現した。 異なる音声埋め込みを結合的特徴空間に整合させるPD分類のための新しい融合モデルにより,標準結合型融合モデルや他のベースライン(従来の音響特徴に基づくモデルを含む)よりも優れた性能を示した。 ランダム化されたデータ分割構成では、受信器動作特性曲線(AUROC)が88.94%、精度が85.65%に達した。 厳密な統計分析により, 性別, 民族, 年齢の様々なサブグループで同程度に機能し, 疾患の持続期間にかかわらず頑健であることが明らかとなった。 さらに,AUROCスコアは82.12%,AUROCスコア78.44%であった。 これはモデルの堅牢性を確認し、現実のアプリケーションにおけるアクセシビリティとヘルスエクイティを高める可能性がある。

We present a framework to recognize Parkinson's disease (PD) through an English pangram utterance speech collected using a web application from diverse recording settings and environments, including participants' homes. Our dataset includes a global cohort of 1306 participants, including 392 diagnosed with PD. Leveraging the diversity of the dataset, spanning various demographic properties (such as age, sex, and ethnicity), we used deep learning embeddings derived from semi-supervised models such as Wav2Vec 2.0, WavLM, and ImageBind representing the speech dynamics associated with PD. Our novel fusion model for PD classification, which aligns different speech embeddings into a cohesive feature space, demonstrated superior performance over standard concatenation-based fusion models and other baselines (including models built on traditional acoustic features). In a randomized data split configuration, the model achieved an Area Under the Receiver Operating Characteristic Curve (AUROC) of 88.94% and an accuracy of 85.65%. Rigorous statistical analysis confirmed that our model performs equitably across various demographic subgroups in terms of sex, ethnicity, and age, and remains robust regardless of disease duration. Furthermore, our model, when tested on two entirely unseen test datasets collected from clinical settings and from a PD care center, maintained AUROC scores of 82.12% and 78.44%, respectively. This affirms the model's robustness and it's potential to enhance accessibility and health equity in real-world applications.
翻訳日:2024-05-28 15:03:23 公開日:2024-05-21
# スケールアウト空間アーキテクチャによる効率的なオーケストレーションAIワークフローの実行

Efficient Orchestrated AI Workflows Execution on Scale-out Spatial Architecture ( http://arxiv.org/abs/2405.17221v1 )

ライセンス: Link先を確認
Jinyi Deng, Xinru Tang, Zhiheng Yue, Guangyang Lu, Qize Yang, Jiahao Zhang, Jinxi Li, Chao Li, Shaojun Wei, Yang Hu, Shouyi Yin, (参考訳) AIアプリケーションの複雑さが増す中、伝統的な空間アーキテクチャはしばしば不足する。 我々の分析では、AIと一般的な計算プロセスの両方を含む相互接続された多面的タスクのパターンを同定する。 これに応えて、さまざまなタスクとロジック駆動の意思決定を統合して、動的で洗練されたワークフローを構築するアプローチである“Orchestrated AI Workflows”を概念化した。 具体的には、オーケストレーションされたAIワークフローの本質的なデュアルダイナミック性、すなわちタスクブロックの実行時間と頻度を、オーケストレーションされたワークフローグラフを使って効果的に表現できることを見出した。 さらに、本質的なデュアルダイナミック性は、既存の空間アーキテクチャ、すなわち、非差別的なリソース割り当て、リアクティブロードリバランシング、Contagious PEAアイドルネスに課題をもたらす。 これらの課題を克服するために、我々は、Octopusというスケールアウト空間アーキテクチャと、Dual-Scheduling Mechanism、Adaptive TBU Scheduling Strategy、Proactive Cluster Scheduling Strategyといった、オーケストレーションされたAIワークフローの実行に最適化された高度なスケジューリング戦略スイートを提示する。 評価の結果,OctopusはOrchestrate AI Workflowsの動的要求に対処する上で,従来のアーキテクチャよりも大幅に優れており,ウエハスケールチップなどの大規模ハードウェアにおいて堅牢なスケーラビリティを有していることがわかった。

Given the increasing complexity of AI applications, traditional spatial architectures frequently fall short. Our analysis identifies a pattern of interconnected, multi-faceted tasks encompassing both AI and general computational processes. In response, we have conceptualized "Orchestrated AI Workflows," an approach that integrates various tasks with logic-driven decisions into dynamic, sophisticated workflows. Specifically, we find that the intrinsic Dual Dynamicity of Orchestrated AI Workflows, namely dynamic execution times and frequencies of Task Blocks, can be effectively represented using the Orchestrated Workflow Graph. Furthermore, the intrinsic Dual Dynamicity poses challenges to existing spatial architecture, namely Indiscriminate Resource Allocation, Reactive Load Rebalancing, and Contagious PEA Idleness. To overcome these challenges, we present Octopus, a scale-out spatial architecture and a suite of advanced scheduling strategies optimized for executing Orchestrated AI Workflows, such as the Discriminate Dual-Scheduling Mechanism, Adaptive TBU Scheduling Strategy, and Proactive Cluster Scheduling Strategy. Our evaluations demonstrate that Octopus significantly outperforms traditional architectures in handling the dynamic demands of Orchestrated AI Workflows, and possesses robust scalability in large scale hardware such as wafer-scale chip.
翻訳日:2024-05-28 15:03:23 公開日:2024-05-21
# t位スケール分布とK-nearest neighbors分類器を用いたてんかん信号のスパイク・アンド・ウェーブ検出に関する研究

Study on spike-and-wave detection in epileptic signals using t-location-scale distribution and the K-nearest neighbors classifier ( http://arxiv.org/abs/2405.14896v1 )

ライセンス: Link先を確認
Antonio Quintero-Rincón, Jorge Prendes, Valeria Muro, Carlos D'Giano, (参考訳) 脳波信号のパターン分類は、脳活動、特にてんかん発作の早期検出を可能にするため、生体工学において重要な問題である。 本稿では, スパイク・アンド・ウェーブを検出するため, t位置スケールの統計的表現に基づくてんかん性脳波信号の k-nearest 近傍分類を提案する。 提案手法は、スパイク・アンド・ウェーブ現象と正常脳機能信号の両方を含む実データを用いて、分類精度、感度、特異性の観点から評価を行った。

Pattern classification in electroencephalography (EEG) signals is an important problem in biomedical engineering since it enables the detection of brain activity, particularly the early detection of epileptic seizures. In this paper, we propose a k-nearest neighbors classification for epileptic EEG signals based on a t-location-scale statistical representation to detect spike-and-waves. The proposed approach is demonstrated on a real dataset containing both spike-and-wave events and normal brain function signals, where our performance is evaluated in terms of classification accuracy, sensitivity, and specificity.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-21
# 最小コスト適応サブモジュールカバー

Minimum Cost Adaptive Submodular Cover ( http://arxiv.org/abs/2208.08351v2 )

ライセンス: Link先を確認
Hessa Al-Thani, Yubing Cui, Viswanath Nagarajan, (参考訳) 適応部分モジュラリティ(Adaptive submodularity)は確率最適化の基本的な概念であり、センサ配置、仮説同定、バイラルマーケティングなど多くの応用がある。 適応部分モジュラ関数の最小コスト被覆の問題を検討し、Q$が目標値である4(1+\ln Q)$-approximationアルゴリズムを提供する。 実際、我々は、カバーコストの$p^{th}$モーメントを最小化し、我々のアルゴリズムが同時に$(p+1)^{p+1}\cdot (\ln Q+1)^p$approximation guarantee for all $p\ge 1$を達成していることを示す。 すべての近似比は、(P\ne NP$ を仮定して)定数因子まで最善である。 さらに、我々の結果は適応-部分モジュラ函数をカバーしたいという設定にまで拡張される。 最後に,仮説同定の事例に対して,提案アルゴリズムの実証的性能を評価する。

Adaptive submodularity is a fundamental concept in stochastic optimization, with numerous applications such as sensor placement, hypothesis identification and viral marketing. We consider the problem of minimum cost cover of adaptive-submodular functions, and provide a $4(1+\ln Q)$-approximation algorithm, where $Q$ is the goal value. In fact, we consider a significantly more general objective of minimizing the $p^{th}$ moment of the coverage cost, and show that our algorithm simultaneously achieves a $(p+1)^{p+1}\cdot (\ln Q+1)^p$ approximation guarantee for all $p\ge 1$. All our approximation ratios are best possible up to constant factors (assuming $P\ne NP$). Moreover, our results also extend to the setting where one wants to cover {\em multiple} adaptive-submodular functions. Finally, we evaluate the empirical performance of our algorithm on instances of hypothesis identification.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-21
# 絡み合うことなく重力の量子的性質をテストする

Testing the quantum nature of gravity without entanglement ( http://arxiv.org/abs/2302.03075v3 )

ライセンス: Link先を確認
Ludovico Lami, Julen S. Pedernales, Martin B. Plenio, (参考訳) マルチパーティ量子システム上のユニタリ進化$U$と初期状態のアンサンブルが与えられたら、そのアンサンブル上のローカル操作と古典的通信(LOCC)によって、$U$をシミュレートできるだろうか? 我々は,「LOCC不等式」と呼ぶ最大LOCCシミュレーション忠実度に関する一般計算可能な上限を確立することで,この問題に答える。 次に、量子ニュートンハミルトニアンを重力相互作用系上に実装する基本設定に、我々の研究結果を適用する。 LOCCの不等式は、基礎となる進化のLOCC性を排除し、局所古典場では説明できない重力力学の非古典性を確立することができる。 このスキームの顕著な応用として、正規分布に従ってコヒーレントな状態に初期化されニュートン重力を介して相互作用する量子調和振動子の系を研究し、トーションペンデュラによる物理的実装の可能性について議論する。 我々の主な技術的貢献の1つは、上記のLOCC不等式の解析的計算である。 重力によって媒介される絡み合いの検出に基づく既存のテストとは対照的に、我々の提案はコヒーレントな状態のみで動作するため、運動の大部分が非局在化された状態の生成や絡み合いの検出は必要としない。

Given a unitary evolution $U$ on a multi-partite quantum system and an ensemble of initial states, how well can $U$ be simulated by local operations and classical communication (LOCC) on that ensemble? We answer this question by establishing a general, efficiently computable upper bound on the maximal LOCC simulation fidelity -- what we call an 'LOCC inequality'. We then apply our findings to the fundamental setting where $U$ implements a quantum Newtonian Hamiltonian over a gravitationally interacting system. Violation of our LOCC inequality can rule out the LOCCness of the underlying evolution, thereby establishing the non-classicality of the gravitational dynamics, which can no longer be explained by a local classical field. As a prominent application of this scheme we study systems of quantum harmonic oscillators initialised in coherent states following a normal distribution and interacting via Newtonian gravity, and discuss a possible physical implementation with torsion pendula. One of our main technical contributions is the analytical calculation of the above LOCC inequality for this family of systems. As opposed to existing tests based on the detection of gravitationally mediated entanglement, our proposal works with coherent states alone, and thus it does not require the generation of largely delocalised states of motion nor the detection of entanglement, which is never created at any point in the process.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-21
# バーチャルシネマトグラフィーのための没入型自動カメラ軌道制御

Automatic Camera Trajectory Control with Enhanced Immersion for Virtual Cinematography ( http://arxiv.org/abs/2303.17041v3 )

ライセンス: Link先を確認
Xinyi Wu, Haohong Wang, Aggelos K. Katsaggelos, (参考訳) ユーザ生成の映画制作は,私たちの日常の娯楽として人気を博しているが,没入型コンテンツの制作に映画撮影を習得することは困難である。 既存の多くの自動手法は、俳優の状況に視聴者を巻き込むのに苦労する、予め定義されたショットタイプやムーブメントパターンを大まかに制御することに焦点を当てている。 実世界のシネマトグラフィーのルールは、監督がカメラをアクターと包括的に同期させることで没入感を生み出すことができることを示している。 この戦略に触発されて,3次元仮想ステージにおけるフレーム美学,空間行動,感情状態を考慮した3面のアクタカメラ同期を実現するディープカメラ制御フレームワークを提案する。 3分の1のルールに従って、私たちのフレームワークはまず、アクターを審美的に位置決めするために初期カメラ配置を変更する。 この調整は、カメラプロジェクションを介してフレーム構成を分析する自己調整調整器によって容易になる。 次に、エンコーダ・デコーダ・ジェネレータを用いて、アクターの身体動作と心理状態に基づいて、細粒度カメラの動きを逆向きに合成し、キネマティクスと感情変数をカメラトラジェクトリにマッピングするGANモデルを設計する。 さらに、正規化器を組み込んで、生成したスタイル変化を特定の感情的カテゴリや強度と整合させる。 実験結果から,提案手法は,質の高い没入型撮影映像を定量的にも質的にも生成することがわかった。 ライブの例は補足ビデオで見ることができる。

User-generated cinematic creations are gaining popularity as our daily entertainment, yet it is a challenge to master cinematography for producing immersive contents. Many existing automatic methods focus on roughly controlling predefined shot types or movement patterns, which struggle to engage viewers with the circumstances of the actor. Real-world cinematographic rules show that directors can create immersion by comprehensively synchronizing the camera with the actor. Inspired by this strategy, we propose a deep camera control framework that enables actor-camera synchronization in three aspects, considering frame aesthetics, spatial action, and emotional status in the 3D virtual stage. Following rule-of-thirds, our framework first modifies the initial camera placement to position the actor aesthetically. This adjustment is facilitated by a self-supervised adjustor that analyzes frame composition via camera projection. We then design a GAN model that can adversarially synthesize fine-grained camera movement based on the physical action and psychological state of the actor, using an encoder-decoder generator to map kinematics and emotional variables into camera trajectories. Moreover, we incorporate a regularizer to align the generated stylistic variances with specific emotional categories and intensities. The experimental results show that our proposed method yields immersive cinematic videos of high quality, both quantitatively and qualitatively. Live examples can be found in the supplementary video.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-21
# tドープ安定化状態の学習

Learning t-doped stabilizer states ( http://arxiv.org/abs/2305.15398v6 )

ライセンス: Link先を確認
Lorenzo Leone, Salvatore F. E. Oliviero, Alioscia Hamma, (参考訳) 本稿では,有限個の$t$ of$T$-gateをドープしたクリフォード回路を用いて,計算基底状態から得られる学習状態を対象とした学習アルゴリズムを提案する。 このアルゴリズムは、パウリ観測可能量の観点から、$t$ドープ安定化状態の正確なトモグラフィ記述を学習する。 このような状態は可算であり、離散集合を形成するからである。 この問題に対処するために、$t$ドープ安定化状態のための新しい代数的フレームワークを導入し、これは$T$ゲートを超えて拡張され、任意の種類の局所的非クリフォードゲートによるドーピングを含む。 このアルゴリズムは、複雑さのリソースである$\text{poly}(n,2^t)$を必要とし、指数的に小さな失敗の確率を示す。

In this paper, we present a learning algorithm aimed at learning states obtained from computational basis states by Clifford circuits doped with a finite number $t$ of $T$-gates. The algorithm learns an exact tomographic description of $t$-doped stabilizer states in terms of Pauli observables. This is possible because such states are countable and form a discrete set. To tackle the problem, we introduce a novel algebraic framework for $t$-doped stabilizer states, which extends beyond $T$-gates and includes doping with any kind of local non-Clifford gate. The algorithm requires resources of complexity $\text{poly}(n,2^t)$ and exhibits an exponentially small probability of failure.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-21
# ReLU特性の活性化解析

ReLU Characteristic Activation Analysis ( http://arxiv.org/abs/2305.15912v4 )

ライセンス: Link先を確認
Wenlin Chen, Hong Ge, (参考訳) 本稿では,個々のReLUニューロンの特徴的活性化境界を調べることによって,ReLUネットワークのトレーニングダイナミクスを解析するための新しいアプローチを提案する。 提案手法は,確率最適化におけるニューラルネットワークのパラメータ化と正規化において重要な不安定性を示し,高速収束を阻害し,一般化性能を損なう。 そこで我々は,超球面座標系における重みの半径成分と角成分を効果的に分離する新しいニューラルネットワークパラメータ化手法である幾何パラメータ化(GmP)を提案する。 理論的には、GmPが上記の不安定性問題を解決していることを示す。 本稿では,GmPの最適化安定性,収束速度,一般化性能に関する理論的優位性を検証するために,各種モデルおよびベンチマークに関する実験結果について報告する。

We introduce a novel approach for analyzing the training dynamics of ReLU networks by examining the characteristic activation boundaries of individual ReLU neurons. Our proposed analysis reveals a critical instability in common neural network parameterizations and normalizations during stochastic optimization, which impedes fast convergence and hurts generalization performance. Addressing this, we propose Geometric Parameterization (GmP), a novel neural network parameterization technique that effectively separates the radial and angular components of weights in the hyperspherical coordinate system. We show theoretically that GmP resolves the aforementioned instability issue. We report empirical results on various models and benchmarks to verify GmP's theoretical advantages of optimization stability, convergence speed and generalization performance.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-21
# 確率的時系列予測のためのより良いバッチ

Better Batch for Deep Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2305.17028v4 )

ライセンス: Link先を確認
Vincent Zhihao Zheng, Seongjin Choi, Lijun Sun, (参考訳) 深い確率的時系列予測は、非線形近似と決定のための価値ある不確実性定量化を提供する能力に注目されている。 しかし、既存のモデルは、時間に依存しないエラープロセスを仮定し、シリアル相関を見越すことで問題を単純化することが多い。 この制限を克服するため,確率予測精度を向上させるために,誤り自己相関を取り入れた革新的なトレーニング手法を提案する。 本手法は,モデルトレーニングのためのD$連続時系列セグメントのコレクションとしてミニバッチを構築する。 各ミニバッチ上で時間変化の共分散行列を明示的に学習し、隣接する時間ステップ間の誤差相関を符号化する。 学習された共分散行列は、予測精度を改善し、不確実性定量化を高めるために使用できる。 2つの異なるニューラル予測モデルと複数の公開データセットで本手法を評価する。 実験結果から,提案手法の有効性が確認され,予測精度が向上した。

Deep probabilistic time series forecasting has gained attention for its ability to provide nonlinear approximation and valuable uncertainty quantification for decision-making. However, existing models often oversimplify the problem by assuming a time-independent error process and overlooking serial correlation. To overcome this limitation, we propose an innovative training method that incorporates error autocorrelation to enhance probabilistic forecasting accuracy. Our method constructs a mini-batch as a collection of $D$ consecutive time series segments for model training. It explicitly learns a time-varying covariance matrix over each mini-batch, encoding error correlation among adjacent time steps. The learned covariance matrix can be used to improve prediction accuracy and enhance uncertainty quantification. We evaluate our method on two different neural forecasting models and multiple public datasets. Experimental results confirm the effectiveness of the proposed approach in improving the performance of both models across a range of datasets, resulting in notable improvements in predictive accuracy.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-21
# アフリカ中心音声認識の強化:一般化可能なASRモデルのための認識不確実性駆動型データ選択

Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models ( http://arxiv.org/abs/2306.02105v5 )

ライセンス: Link先を確認
Bonaventure F. P. Dossou, (参考訳) アクセントは人間のコミュニケーションを形作る上で重要な役割を担い、明確さと文化的ニュアンスでメッセージを伝え、理解する能力を高める。 自動音声認識(ASR)の進歩は著しいが、アフリカ系英語のASRは、訓練データセットが不足しているために検討されている。 いくつかのアクティブな学習パラダイムとコアセットのアプローチを組み合わせることで,認識の不確実性を利用してアノテーションプロセスを自動化するマルチラウンド適応プロセスを提案し,関連するコストと人的労力を大幅に削減する。 本手法は,データアノテーションを合理化し,モデル不確実性に最も寄与するデータサンプルを戦略的に選択することにより,トレーニング効率を向上させる。 我々は、ハードアクセントへのモデル適応を追跡するために、U-WERと呼ばれる新しい計量を定義する。 提案手法は,複数の領域,データセット,高性能音声モデルにまたがって評価する。 以上の結果から,従来のベースラインよりも平均45倍少ないデータを必要とする一方で,69.44倍のWER改善を実現していることがわかった。 また,非常に低リソースのアクセントに対する分布外一般化を改良し,アクセント付きアフリカASRの文脈で一般化可能なASRモデルを構築する可能性を示した。 https://github.com/bonaventuredossou/active_learning_african_asr

Accents play a pivotal role in shaping human communication, enhancing our ability to convey and comprehend messages with clarity and cultural nuance. While there has been significant progress in Automatic Speech Recognition (ASR), African-accented English ASR has been understudied due to a lack of training datasets, which are often expensive to create and demand colossal human labor. Combining several active learning paradigms and the core-set approach, we propose a new multi-rounds adaptation process that uses epistemic uncertainty to automate the annotation process, significantly reducing the associated costs and human labor. This novel method streamlines data annotation and strategically selects data samples that contribute most to model uncertainty, thereby enhancing training efficiency. We define a new metric called U-WER to track model adaptation to hard accents. We evaluate our approach across several domains, datasets, and high-performing speech models. Our results show that our approach leads to a 69.44\% WER improvement while requiring on average 45\% less data than established baselines. Our approach also improves out-of-distribution generalization for very low-resource accents, demonstrating its viability for building generalizable ASR models in the context of accented African ASR. We open-source the code here: https://github.com/bonaventuredossou/active_learning_african_asr
翻訳日:2024-05-26 21:22:37 公開日:2024-05-21
# 断熱流の誘引子としての積分可能性

Integrability as an attractor of adiabatic flows ( http://arxiv.org/abs/2308.09745v4 )

ライセンス: Link先を確認
Hyeongjin Kim, Anatoli Polkovnikov, (参考訳) 量子カオスと積分性の間の相互作用は、過去数十年にわたって広く研究されてきた。 量子幾何テンソルに符号化された幾何学の観点から、この話題にアプローチし、断熱変換の複雑さを記述する。 特に、2つの独立結合によってパラメータ化されるスピン鎖の2つの一般的なモデルを考える。 1つは可積分性破壊摂動が大域的であり、もう1つは可積分性は境界でのみ破壊される。 どちらの場合も、結合空間の最も短い経路は可積分領域へと導かれ、この挙動は総称的であると論じる。 これらの地域は、自然の河川流域と同様の断熱的な流れの引き付け役として機能する。 物理的には、可積分領域への方向は可積分性に平行な方向よりも高速な緩和ダイナミクスによって特徴づけられ、それらの間の異方性は可積分点に近づくにつれて熱力学的極限に分岐する。 また, 連続相転移と同様に, 可積分性からカオス的挙動への遷移は両モデルとも普遍的であることを示すとともに, 局所可積分性を有するモデルが急速にカオス化するが, エルゴディディティを回避することができることを示す。

The interplay between quantum chaos and integrability has been extensively studied in the past decades. We approach this topic from the point of view of geometry encoded in the quantum geometric tensor, which describes the complexity of adiabatic transformations. In particular, we consider two generic models of spin chains that are parameterized by two independent couplings. In one, the integrability breaking perturbation is global while, in the other, integrability is broken only at the boundary. In both cases, the shortest paths in the coupling space lead towards integrable regions and we argue that this behavior is generic. These regions thus act as attractors of adiabatic flows similar to river basins in nature. Physically, the directions towards integrable regions are characterized by faster relaxation dynamics than those parallel to integrability, and the anisotropy between them diverges in the thermodynamic limit as the system approaches the integrable point. We also provide evidence that the transition from integrable to chaotic behavior is universal for both models, similar to continuous phase transitions, and that the model with local integrability breaking quickly becomes chaotic but avoids ergodicity.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-21
# 非対称性と熱力学におけるコヒーレンス操作

Coherence manipulation in asymmetry and thermodynamics ( http://arxiv.org/abs/2308.12814v2 )

ライセンス: Link先を確認
Tulja Varun Kondra, Ray Ganardi, Alexander Streltsov, (参考訳) 古典的な体制では、熱力学状態変換は自由エネルギーによって支配される。 これは熱力学の第2法則とも呼ばれる。 これまでの研究では、触媒系へのアクセスにより、コヒーレンスを無視すると量子状態における第二の法則を復元できることを示した。 しかし、量子状態においては、コヒーレンスと自由エネルギーは2つの独立した資源である。 したがって、コヒーレンスでは、状態変換に非自明な制限が加えられる。 このギャップを埋めるために、我々はコヒーレンスの性質を分離し、研究する。 自由エネルギー源とともに触媒分解を行うことで、量子状態に存在する任意の量子コヒーレンスを任意に増幅できることを示す。 さらに、系と触媒の相関を任意に抑制することができる。 したがって、この結果は量子熱力学の一般法則を定式化する上で重要なステップとなる。

In the classical regime, thermodynamic state transformations are governed by the free energy. This is also called as the second law of thermodynamics. Previous works showed that, access to a catalytic system allows us to restore the second law in the quantum regime when we ignore coherence. However, in the quantum regime, coherence and free energy are two independent resources. Therefore, coherence places additional non-trivial restrictions on the the state transformations, that remains elusive. In order to close this gap, we isolate and study the nature of coherence, i.e.\ we assume access to a source of free energy. We show that allowing catalysis along with a source of free energy allows us to amplify any quantum coherence present in the quantum state arbitrarily. Additionally, any correlations between the system and the catalyst can be suppressed arbitrarily. Therefore, our results provide a key step in formulating a fully general law of quantum thermodynamics.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-21
# ロボットワイヤハーネスアセンブリにおけるコンピュータビジョン応用の体系的文献レビュー

A Systematic Literature Review of Computer Vision Applications in Robotized Wire Harness Assembly ( http://arxiv.org/abs/2309.13744v3 )

ライセンス: Link先を確認
Hao Wang, Omkar Salunkhe, Walter Quadrini, Dan Lämkull, Fredrik Ore, Mélanie Despeisse, Luca Fumagalli, Johan Stahre, Björn Johansson, (参考訳) 本稿では,ロボットワイヤハーネス組立におけるコンピュータビジョン応用の系統的な文献レビューを行う。

This article provides a systematic literature review of computer vision applications in robotized wire harness assembly.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-21
# 2-Cats:2次元コプラ近似変換

2-Cats: 2D Copula Approximating Transforms ( http://arxiv.org/abs/2309.16391v4 )

ライセンス: Link先を確認
Flavio Figueiredo, José Geraldo Fernandes, Jackson Silva, Renato M. Assunção, (参考訳) Copulaは、データ次元を越えた依存関係をキャプチャするための強力な統計ツールである。 Copulasを適用するには、単純なタスクである独立した辺縁関係を推定し、それに続いて、これらの辺縁関係をリンクする単一の対応関数である$C$を決定するという、はるかに難しいタスクが続く。 二変数データに対して、コプラは 2 つの増分関数 $C: (u,v)\in \mathbb{I}^2 \rightarrow \mathbb{I}$, ここで $\mathbb{I} = [0, 1]$ となる。 本稿では,コピュラ族(アルキメデス系など)に依存しない2次元コピュラ学習モデルである2-Catsを提案する。 さらに、モデルの理論的性質とラグランジアントレーニングアプローチの両方を通して、2-カッツがコプラ性質のデシラタを満たすことを示す。 さらに,物理インフォームドニューラルネットワークとソボレフトレーニングの文献に触発されて,コピュラの出力だけでなく,その誘導体も学習するためのトレーニング戦略をさらに拡張する。 提案手法は,Cの特徴を尊重しつつ,様々なデータセットをまたいだ最先端技術よりも優れた性能を示す。

Copulas are powerful statistical tools for capturing dependencies across data dimensions. Applying Copulas involves estimating independent marginals, a straightforward task, followed by the much more challenging task of determining a single copulating function, $C$, that links these marginals. For bivariate data, a copula takes the form of a two-increasing function $C: (u,v)\in \mathbb{I}^2 \rightarrow \mathbb{I}$, where $\mathbb{I} = [0, 1]$. This paper proposes 2-Cats, a Neural Network (NN) model that learns two-dimensional Copulas without relying on specific Copula families (e.g., Archimedean). Furthermore, via both theoretical properties of the model and a Lagrangian training approach, we show that 2-Cats meets the desiderata of Copula properties. Moreover, inspired by the literature on Physics-Informed Neural Networks and Sobolev Training, we further extend our training strategy to learn not only the output of a Copula but also its derivatives. Our proposed method exhibits superior performance compared to the state-of-the-art across various datasets while respecting (provably for most and approximately for a single other) properties of C.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-21
# 表面符号とハニカムフロケット符号におけるクロスキャップ欠陥とフォールトトレラント論理ゲート

Cross-cap defects and fault-tolerant logical gates in the surface code and the honeycomb Floquet code ( http://arxiv.org/abs/2310.06917v2 )

ライセンス: Link先を確認
Ryohei Kobayashi, Guanyu Zhu, (参考訳) We consider the $\mathbb{Z}_2$ toric code, surface code and Floquet code defined on a non-orientable surface, which can be considered of codes extended Shor's 9-qubit code。 このセットアップにおける$\mathbb{Z}_2$トーリック符号のフォールトトレラント論理ゲートについて検討し、これは基礎となる$\mathbb{Z}_2$ゲージ理論の対称性を交換する$e\leftrightarrow m$に対応する。 非指向性幾何は、創発対称性が符号空間に作用する新しい方法を提供し、非指向性トーリック符号と呼ばれる単一のクロスキャップを持つ曲面上の2d$\mathbb{Z}_2$トーリック符号のフォールトトレラントなアダマールゲートの新たな実現を発見する。 このアダマールゲートは、クロスキャップによって生じる局所的な局所的一様回路の非局所性によって実現することができる。 折り畳みにより、非配向曲面符号を二層局所量子符号に変換することができ、折り畳まれたクロスキャップは、ギャップ付き境界上に停止された二層ツイストと等価であり、論理的アダマールは、層内結合を持つ局所ゲートのみを含む。 さらに、向き付け不能な曲面符号のスタックに対する完全論理的クリフォードゲートセットを得る。 次に、1つのクロスキャップの存在下でハニカム・フロケ符号を構築し、逐次パウリ測度の周期が1つの論理キュービット上の$HZ$論理ゲートとして作用し、クロスキャップは向き付け可能なケースと比較してダイナミクスを豊かにする。 我々は、ハニカム・フロケ符号の力学を$\mathbb{Z}_2$ゲージ理論の凝縮作用素によって正確に記述し、非配向曲面で支持される凝縮作用素の観点から、コードのエキゾチックなダイナミクスを記述する。

We consider the $\mathbb{Z}_2$ toric code, surface code and Floquet code defined on a non-orientable surface, which can be considered as families of codes extending Shor's 9-qubit code. We investigate the fault-tolerant logical gates of the $\mathbb{Z}_2$ toric code in this setup, which corresponds to $e\leftrightarrow m$ exchanging symmetry of the underlying $\mathbb{Z}_2$ gauge theory. We find that non-orientable geometry provides a new way the emergent symmetry acts on the code space, and discover the new realization of the fault-tolerant Hadamard gate of 2d $\mathbb{Z}_2$ toric code on a surface with a single cross-cap, dubbed a non-orientable toric code. This Hadamard gate can be realized by a constant-depth local unitary circuit modulo non-locality caused by a cross-cap. Via folding, the non-orientable surface code can be turned into a bilayer local quantum code, where the folded cross-cap is equivalent to a bi-layer twist terminated on a gapped boundary and the logical Hadamard only contains local gates with intra-layer couplings. We further obtain the complete logical Clifford gate set for a stack of non-orientable surface codes. We then construct the honeycomb Floquet code in the presence of a single cross-cap, and find that the period of the sequential Pauli measurements acts as a $HZ$ logical gate on the single logical qubit, where the cross-cap enriches the dynamics compared with the orientable case. We find that the dynamics of the honeycomb Floquet code is precisely described by a condensation operator of the $\mathbb{Z}_2$ gauge theory, and illustrate the exotic dynamics of our code in terms of a condensation operator supported at a non-orientable surface.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-21
# 非可積分フロケ量子回路におけるロバスト有効基底状態

Robust effective ground state in a nonintegrable Floquet quantum circuit ( http://arxiv.org/abs/2311.16217v2 )

ライセンス: Link先を確認
Tatsuhiko N. Ikeda, Sho Sugiura, Anatoli Polkovnikov, (参考訳) 外部周期(フロケ)ドライブは、駆動周波数$\Omega$にかかわらず、熱力学極限における一般的な非可積分量子多体系において、任意の初期状態を特徴のない無限温度状態に導くと考えられている。 しかし、この仮説を証明または否定する数値的あるいは分析的な証拠は非常に限られており、問題は未解決のままである。 そこで本研究では,フロッケ加熱の初期状態依存性を,効率の良い量子回路シミュレータで最大$L=30$までの長さのアイシングチェーンで検討し,その反例を示す: 有効フロッケハミルトニアンの基底状態は,加熱に対して極めて堅牢であり,有限個のフロッケサイクルの後にも,運転期間がしきい値より短い場合に,有限エネルギー密度に留まることができる。 この鋭いエネルギー局在遷移/交差は、一般的な励起状態では起こらない。 基底状態の例外的な堅牢性は解釈される 一 エネルギースペクトルにおけるその孤立及び (II) Floquet Hamiltonian のような任意の一般局所ハミルトニアンの基底状態エネルギーより上の$L$非独立$\hbar\Omega$エネルギーを持つ状態が非定型であり、相互作用しない準粒子の集合と見なされるという事実。 我々の発見は、有限運転期間でFloquetプロトコルを設計するための道を開くものである。

An external periodic (Floquet) drive is believed to bring any initial state to the featureless infinite temperature state in generic nonintegrable isolated quantum many-body systems in the thermodynamic limit, irrespective of the driving frequency $\Omega$. However, numerical or analytical evidence either proving or disproving this hypothesis is very limited and the issue has remained unsettled. Here, we study the initial state dependence of Floquet heating in a nonintegrable kicked Ising chain of length up to $L=30$ with an efficient quantum circuit simulator, showing a possible counterexample: The ground state of the effective Floquet Hamiltonian is exceptionally robust against heating, and could stay at finite energy density even after infinitely many Floquet cycles, if the driving period is shorter than a threshold value. This sharp energy localization transition/crossover does not happen for generic excited states. The exceptional robustness of the ground state is interpreted by (i) its isolation in the energy spectrum and (ii) the fact that those states with $L$-independent $\hbar\Omega$ energy above the ground state energy of any generic local Hamiltonian, like the approximate Floquet Hamiltonian, are atypical and viewed as a collection of noninteracting quasipartiles. Our finding paves the way for engineering Floquet protocols with finite driving periods realizing long-lived, or possibly even perpetual, Floquet phases by initial state design.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-21
# 平易なモデルにおける不可避な暗号を目指して

Towards Unclonable Cryptography in the Plain Model ( http://arxiv.org/abs/2311.16663v4 )

ライセンス: Link先を確認
Céline Chevalier, Paul Hermouet, Quoc-Huy Vu, (参考訳) 量子力学の非閉鎖原理を利用することで、制限不能暗号は古典的に不可能な新しい暗号プロトコルを実現することができる。 ブロック不能暗号の最も顕著な例はコピー保護(CP)とブロック不能暗号(UE)である。 ほとんどの既知の構造はQROMに依存している(普通のモデルとは対照的に)。 近年、多くの注目を集めているにもかかわらず、2つの重要なオープンな疑問が残る: 平モデルにおけるポイント関数のCPは、通常、実現可能性の実証と見なされる。 これらのプロトコルの中核となる要素は、いわゆるモノガミー・オブ・エンタングルメント(MoE)特性である。 このようなゲームは、特定の文脈における絡み合いを共有する複数の非コミュニケーション当事者の結果の間の相関関係を定量化することができる。 具体的には、第1のプレイヤーに量子状態の分割と共有を依頼され、同時に質問をされ、正しい答えを出力する3人のプレイヤー間のゲームを定義する。 本研究では, 先行研究 (CLLZ21, CV22) を頼りに, 上述の目標に向けて進行する部分空間コセット状態に対して, 新たなMoE特性を確立する。 しかし、それ自身では不十分であり、まず点関数の CP が、異なる挑戦分布を持つ平モデルに存在し、次に、不明瞭なセキュリティを持つUE が平モデルに存在することを示す2つの予想を提示する。 私たちは、新しいMoEは独立した関心事であり、他のアプリケーションにも役立つと信じています。 この最後のポイントを強調するために、新しいMoEプロパティを活用して、unclonable unforgeabilityと呼ばれる新しいセキュリティ定義を持つトークン化されたシグネチャスキームの存在を示します。

By leveraging the no-cloning principle of quantum mechanics, unclonable cryptography enables us to achieve novel cryptographic protocols that are otherwise impossible classically. Two most notable examples of unclonable cryptography are copy-protection (CP) and unclonable encryption (UE). Most known constructions rely on the QROM (as opposed to the plain model). Despite receiving a lot of attention in recent years, two important open questions still remain: CP for point functions in the plain model, which is usually considered as feasibility demonstration, and UE with unclonable indistinguishability security in the plain model. A core ingredient of these protocols is the so-called monogamy-of-entanglement (MoE) property. Such games allow quantifying the correlations between the outcomes of multiple non-communicating parties sharing entanglement in a particular context. Specifically, we define the games between a challenger and three players in which the first player is asked to split and share a quantum state between the two others, who are then simultaneously asked a question and need to output the correct answer. In this work, by relying on previous works [CLLZ21, CV22], we establish a new MoE property for subspace coset states, which allows us to progress towards the aforementioned goals. However, it is not sufficient on its own, and we present two conjectures that would allow first to show that CP of point functions exists in the plain model, with different challenge distributions, and then that UE with unclonable indistinguishability security exists in the plain model. We believe that our new MoE to be of independent interest, and it could be useful in other applications as well. To highlight this last point, we leverage our new MoE property to show the existence of a tokenized signature scheme with a new security definition, called unclonable unforgeability.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-21
# 予混合拡散モデルによる教師なしキーポイント

Unsupervised Keypoints from Pretrained Diffusion Models ( http://arxiv.org/abs/2312.00065v3 )

ライセンス: Link先を確認
Eric Hedlin, Gopal Sharma, Shweta Mahajan, Xingzhe He, Hossam Isack, Abhishek Kar Helge Rhodin, Andrea Tagliasacchi, Kwang Moo Yi, (参考訳) キーポイントとランドマークの教師なし学習は、現代のニューラルネットワークアーキテクチャの助けを借りて大きな進歩を遂げている。 我々は、テキストから画像への拡散モデルにおける創発的な知識を、より堅牢な教師なしキーポイントに活用する。 私たちの中核となる考え方は、生成モデルが画像中のコンパクトな領域(すなわちキーポイント)に一貫して従う原因となるテキスト埋め込みを見つけることである。 そのため,本手法では,最小限の標準偏差を持つガウス系として,デノナイジングネットワーク内のクロスアテンションマップをローカライズするように,テキスト埋め込みを最適化する。 CelebA、CUB-200-2011、Tai-Chi-HD、DeepFashion、Human3.6mのデータセットでパフォーマンスを検証する。 精度が大幅に向上し、時には教師付きデータよりも優れています。 私たちのコードは公開されており、プロジェクトのページで確認できる。

Unsupervised learning of keypoints and landmarks has seen significant progress with the help of modern neural network architectures, but performance is yet to match the supervised counterpart, making their practicability questionable. We leverage the emergent knowledge within text-to-image diffusion models, towards more robust unsupervised keypoints. Our core idea is to find text embeddings that would cause the generative model to consistently attend to compact regions in images (i.e. keypoints). To do so, we simply optimize the text embedding such that the cross-attention maps within the denoising network are localized as Gaussians with small standard deviations. We validate our performance on multiple datasets: the CelebA, CUB-200-2011, Tai-Chi-HD, DeepFashion, and Human3.6m datasets. We achieve significantly improved accuracy, sometimes even outperforming supervised ones, particularly for data that is non-aligned and less curated. Our code is publicly available and can be found through our project page: https://ubc-vision.github.io/StableKeypoints/
翻訳日:2024-05-26 20:04:03 公開日:2024-05-21
# ポート型テレポーテーションのための効率的な量子回路

Efficient quantum circuits for port-based teleportation ( http://arxiv.org/abs/2312.03188v2 )

ライセンス: Link先を確認
Dmitry Grinko, Adam Burchardt, Maris Ozols, (参考訳) ポートベーステレポーテーション(Port-based teleportation, PBT)は、Bennettらによる標準プロトコルとは異なり、テレポーテーション状態の修正操作を必要としない量子テレポーテーションの一種である。 2008年に石坂と広島が導入して以来、PSTの効率的な実装は知られていない。 部分置換行列代数と混合量子シュア変換の表現に関する最近の結果に基づいて、この長年のギャップを埋める。 任意の局所次元の$n$ポート上の確率的および決定論的PBTプロトコルに対して、EPRおよび最適化資源状態の両方に対して効率的な量子アルゴリズムを構築する。 例えば、$\widetilde{O}(n)$ time and $O(n\log(n))$ space complexity, $\widetilde{O}(n^2)$ time and $O(n\log(n)$ space complexity, and $O(\log(n)$ space complexity, for constant local dimension and target error。 また、最適な資源状態を作成するための効率的な回路についても述べる。

Port-based teleportation (PBT) is a variant of quantum teleportation that, unlike the canonical protocol by Bennett et al., does not require a correction operation on the teleported state. Since its introduction by Ishizaka and Hiroshima in 2008, no efficient implementation of PBT was known. We close this long-standing gap by building on our recent results on representations of partially transposed permutation matrix algebras and mixed quantum Schur transform. We construct efficient quantum algorithms for probabilistic and deterministic PBT protocols on $n$ ports of arbitrary local dimension, both for EPR and optimized resource states. We describe two constructions based on different encodings of the Gelfand-Tsetlin basis for $n$ qudits: a standard encoding that achieves $\widetilde{O}(n)$ time and $O(n\log(n))$ space complexity, and a Yamanouchi encoding that achieves $\widetilde{O}(n^2)$ time and $O(\log(n))$ space complexity, both for constant local dimension and target error. We also describe efficient circuits for preparing the optimal resource states.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-21
# VecFusion: 拡散によるベクトルフォント生成

VecFusion: Vector Font Generation with Diffusion ( http://arxiv.org/abs/2312.10540v2 )

ライセンス: Link先を確認
Vikas Thamizharasan, Difan Liu, Shantanu Agarwal, Matthew Fisher, Michael Gharbi, Oliver Wang, Alec Jacobson, Evangelos Kalogerakis, (参考訳) 本稿では,異なる位相構造と正確な制御点位置を持つベクトルフォントを生成可能な新しいニューラルネットワークであるVecFusionを提案する。 提案手法は,ラスタ拡散モデルとベクトル拡散モデルからなるカスケード拡散モデルである。 ラスタモデルは、補助制御点情報付き低解像度ラスタ化フォントを生成し、フォントのグローバルなスタイルと形状をキャプチャし、ベクターモデルは、第1段階から低解像度ラスタ化フォントに条件付ベクターフォントを合成する。 長大かつ複雑な曲線を合成するために、我々のベクトル拡散モデルは変圧器アーキテクチャと、多様なベクトル幾何学のモデリングと制御点の正確な予測を可能にする新しいベクトル表現を用いている。 従来のベクトルグラフィックス生成モデルとは対照的に,我々の新しいカスケードベクトル拡散モデルは,複雑な構造と多様なスタイルを持つ高品質なベクトルフォントを生成する。

We present VecFusion, a new neural architecture that can generate vector fonts with varying topological structures and precise control point positions. Our approach is a cascaded diffusion model which consists of a raster diffusion model followed by a vector diffusion model. The raster model generates low-resolution, rasterized fonts with auxiliary control point information, capturing the global style and shape of the font, while the vector model synthesizes vector fonts conditioned on the low-resolution raster fonts from the first stage. To synthesize long and complex curves, our vector diffusion model uses a transformer architecture and a novel vector representation that enables the modeling of diverse vector geometry and the precise prediction of control points. Our experiments show that, in contrast to previous generative models for vector graphics, our new cascaded vector diffusion model generates higher quality vector fonts, with complex structures and diverse styles.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-21
# モデルミス種別を用いた適応線形二次制御の漸近回帰解析

Nonasymptotic Regret Analysis of Adaptive Linear Quadratic Control with Model Misspecification ( http://arxiv.org/abs/2401.00073v2 )

ライセンス: Link先を確認
Bruce D. Lee, Anders Rantzer, Nikolai Matni, (参考訳) 多様なデータセット上で大規模なモデルを事前トレーニングし、特定のアプリケーションのために微調整するという戦略は、コンピュータビジョン、自然言語処理、ロボット制御において印象的な結果をもたらした。 この戦略は適応制御において大きな可能性を秘めており、限られたデータで変化する条件に迅速に適応する必要がある。 適応制御のための事前学習の利点を具体的に理解するために,学習者が基礎行列の集合について事前知識を持つ設定において,適応線形二次制御問題について検討する。 この基礎は、基礎となるデータ生成プロセスのダイナミックスを完全に表現できないという意味で、誤解されている。 本稿では,この先行知識を用いたアルゴリズムを提案し,システムとのT$相互作用の後に期待される後悔の上限を証明した。 T$ が小さければ、上位境界は $\texttt{poly}(\log T)$ または $\sqrt{T}$ でスケールする項で支配される。 T$が大きければ、その後悔は$\delta T$で成長する項に支配され、$\delta$は誤特定のレベルを定量化する。 この線形項は、不特定基底を用いて基礎となる力学を完璧に推定できないために生じ、したがって基底行列がオンラインにも適用されない限り避けられない。 しかし、これは、基底行列の重みを推定する誤差によって生じる部分線型項が無視されるため、大きな$T$でしか支配しない。 分析を検証するためのシミュレーションを提供する。 また,本シミュレーションでは,関連するシステム群からのオフラインデータを事前学習段階の一部として使用することにより,不特定な動的特性を推定し,適応制御器が利用することを示す。

The strategy of pre-training a large model on a diverse dataset, then fine-tuning for a particular application has yielded impressive results in computer vision, natural language processing, and robotic control. This strategy has vast potential in adaptive control, where it is necessary to rapidly adapt to changing conditions with limited data. Toward concretely understanding the benefit of pre-training for adaptive control, we study the adaptive linear quadratic control problem in the setting where the learner has prior knowledge of a collection of basis matrices for the dynamics. This basis is misspecified in the sense that it cannot perfectly represent the dynamics of the underlying data generating process. We propose an algorithm that uses this prior knowledge, and prove upper bounds on the expected regret after $T$ interactions with the system. In the regime where $T$ is small, the upper bounds are dominated by a term that scales with either $\texttt{poly}(\log T)$ or $\sqrt{T}$, depending on the prior knowledge available to the learner. When $T$ is large, the regret is dominated by a term that grows with $\delta T$, where $\delta$ quantifies the level of misspecification. This linear term arises due to the inability to perfectly estimate the underlying dynamics using the misspecified basis, and is therefore unavoidable unless the basis matrices are also adapted online. However, it only dominates for large $T$, after the sublinear terms arising due to the error in estimating the weights for the basis matrices become negligible. We provide simulations that validate our analysis. Our simulations also show that offline data from a collection of related systems can be used as part of a pre-training stage to estimate a misspecified dynamics basis, which is in turn used by our adaptive controller.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-21
# テキストデータを用いた近因性推論

Proximal Causal Inference With Text Data ( http://arxiv.org/abs/2401.06687v2 )

ライセンス: Link先を確認
Jacob M. Chen, Rohit Bhattacharya, Katherine A. Keith, (参考訳) 最近のテキストベースの因果的手法は、非構造化テキストデータから部分的にあるいは不完全に測定された共起変数のプロキシを推定することにより、共起バイアスを軽減しようとする。 しかしこれらのアプローチは、データプライバシやアノテーションのコストのために時には不可能な制約であるインスタンスのサブセットについて、共同創設者のラベルを監督していると、アナリストは仮定している。 本研究では,重要なコンバウンディング変数が完全にオブザーブドされていない設定に対処する。 本稿では,複数の前処理テキストデータを用いた因果推論手法を提案し,二つのゼロショットモデルから2つのプロキシを推定し,それらのプロキシを近位g-形式に適用する。 テキストベースのプロキシ手法は、近位g-形式が要求する識別条件を満たすが、他の妥当な提案は満たさないことを示す。 本手法は, 合成および半合成条件下で評価し, 低バイアスで推定値が得られた。 近位 g-形式に関連する証明不可能な仮定に対処するために、我々はさらに奇数比のファルシフィケーションヒューリスティックを提案する。 近位因果推論とゼロショット分類器の新たな組み合わせは、実践者が利用できるテキスト固有の因果メソッドのセットを拡張する。

Recent text-based causal methods attempt to mitigate confounding bias by estimating proxies of confounding variables that are partially or imperfectly measured from unstructured text data. These approaches, however, assume analysts have supervised labels of the confounders given text for a subset of instances, a constraint that is sometimes infeasible due to data privacy or annotation costs. In this work, we address settings in which an important confounding variable is completely unobserved. We propose a new causal inference method that uses multiple instances of pre-treatment text data, infers two proxies from two zero-shot models on the separate instances, and applies these proxies in the proximal g-formula. We prove that our text-based proxy method satisfies identification conditions required by the proximal g-formula while other seemingly reasonable proposals do not. We evaluate our method in synthetic and semi-synthetic settings and find that it produces estimates with low bias. To address untestable assumptions associated with the proximal g-formula, we further propose an odds ratio falsification heuristic. This new combination of proximal causal inference and zero-shot classifiers expands the set of text-specific causal methods available to practitioners.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-21
# CANDLE:Commonsense Reasoningのための大規模言語モデルからの反復的概念化とインスティファイション蒸留

CANDLE: Iterative Conceptualization and Instantiation Distillation from Large Language Models for Commonsense Reasoning ( http://arxiv.org/abs/2401.07286v2 )

ライセンス: Link先を確認
Weiqi Wang, Tianqing Fang, Chunyang Li, Haochen Shi, Wenxuan Ding, Baixuan Xu, Zhaowei Wang, Jiaxin Bai, Xin Liu, Jiayang Cheng, Chunkit Chan, Yangqiu Song, (参考訳) 概念化とインスタンス化のシーケンシャルなプロセスは、既存の知識を未知のシナリオに適用できるため、一般化可能なコモンセンス推論に不可欠である。 しかし、既存の研究はインスタンス化のステップを過小評価する傾向にあり、両方の種類の知識を収集するために事前に構築された概念分類やヒューマンアノテーションに強く依存しているため、完全な推論のためのインスタンス化された知識が欠如し、コストが高く、スケーラビリティが制限される。 これらの課題に対処するために、我々はCANDLEを紹介した。CANDLEは、コモンセンス知識ベースに対して文脈化された概念化とインスタンス化を反復的に行う蒸留フレームワークである。 CANDLEをATOMICに適用することにより、600万の概念化と三重項のインスタンス化を含む総合的な知識基盤を構築する。 どちらの種類の知識も元のATOMICデータセットにしっかりと根付いており、本質的な評価はその例外的な品質と多様性を示している。 実験の結果、学生モデル上でのCANDLEの蒸留は、下流4つのタスクにまたがる利点をもたらすことが示唆された。 私たちのコード、データ、モデルはhttps://github.com/HKUST-KnowComp/CANDLE.comで公開されています。

The sequential process of conceptualization and instantiation is essential to generalizable commonsense reasoning as it allows the application of existing knowledge to unfamiliar scenarios. However, existing works tend to undervalue the step of instantiation and heavily rely on pre-built concept taxonomies and human annotations to collect both types of knowledge, resulting in a lack of instantiated knowledge to complete reasoning, high cost, and limited scalability. To tackle these challenges, we introduce CANDLE, a distillation framework that iteratively performs contextualized conceptualization and instantiation over commonsense knowledge bases by instructing large language models to generate both types of knowledge with critic filtering. By applying CANDLE to ATOMIC, we construct a comprehensive knowledge base comprising six million conceptualizations and instantiated commonsense knowledge triples. Both types of knowledge are firmly rooted in the original ATOMIC dataset, and intrinsic evaluations demonstrate their exceptional quality and diversity. Empirical results indicate that distilling CANDLE on student models provides benefits across four downstream tasks. Our code, data, and models are publicly available at https://github.com/HKUST-KnowComp/CANDLE.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-21
# 効率的な計算可能量子回路のための統一的枠組み

Unified framework for efficiently computable quantum circuits ( http://arxiv.org/abs/2401.08187v2 )

ライセンス: Link先を確認
Igor Ermakov, Oleg Lychkovskiy, Tim Byrnes, (参考訳) クリフォードとマッチゲートからなる量子回路は、古典的コンピュータ上で効率的にシミュレート可能であることが知られている2種類の回路である。 我々は、これらの回路を効率的にシミュレートできる特別な構造を透過的に示す統一されたフレームワークを導入する。 このアプローチは、量子回路の進化中に基底演算子のネットワーク内に広がる演算子を分析することに依存する。 しきい値以上の振幅を持つ演算子数による計算の複雑さを定量化することにより、デコヒーレンスの存在下での初期指数的成長、飽和、そして指数的崩壊を含む複雑性曲線の一般的な形式が存在することを示す。 我々の手法は自然に数値的な手順に適応し、シミュレーションの複雑さの関数としてエラーを一貫して制御できる。

Quantum circuits consisting of Clifford and matchgates are two classes of circuits that are known to be efficiently simulatable on a classical computer. We introduce a unified framework that shows in a transparent way the special structure that allows these circuits can be efficiently simulatable. The approach relies on analyzing the operator spread within a network of basis operators during the evolution of quantum circuit. Quantifying the complexity of a calculation by the number of operators with amplitude above a threshold value, we show that there is a generic form of the complexity curve involving an initial exponential growth, saturation, then exponential decay in the presence of decoherence. Our approach is naturally adaptable into a numerical procedure, where errors can be consistently controlled as a function of the complexity of the simulation.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-21
# 敵攻撃下でのオープンリポジトリモデル評価のためのクラウドベースのXAIサービス

Cloud-based XAI Services for Assessing Open Repository Models Under Adversarial Attacks ( http://arxiv.org/abs/2401.12261v3 )

ライセンス: Link先を確認
Zerui Wang, Yan Liu, (参考訳) AIモデルの不透明さは、サービスに統合される前に、検証と評価の両方を必要とします。 これらのモデルを調べるために、説明可能なAI(XAI)は入力特徴と出力予測の関係を解明する手法を採用している。 XAIの操作は単一のアルゴリズムの実行を超えて拡張され、前処理データ、モデルパラメータとの整合性を調整するためにXAIを調整すること、予測を生成するためにモデルを呼び出すこと、XAI結果を要約することを含む一連のアクティビティが含まれる。 敵対的攻撃は、AIモデルを誤解させようとするよく知られた脅威である。 特にXAIでは、さまざまな組み合わせによって、オープンソースのAIモデルが敵の攻撃を受けると、評価の複雑さが増大する。 XAIベースのアセスメントに関わる多数のエンティティやタスクを自動化するために、コンピューティングコンポーネントをマイクロサービスとしてカプセル化し、アセスメントタスクをパイプラインに編成するクラウドベースのサービスフレームワークを提案する。 現在のXAIツールは本質的にサービス指向ではありません。 このフレームワークはパイプライン構成の一部としてオープンなXAIツールライブラリも統合している。 我々は,(1)計算コスト,(2)性能,(3)堅牢性,(4)説明偏差,(5)コンピュータビジョンと表ケース間の説明レジリエンスという,AIモデルの5つの品質特性を評価するためのXAIサービスの適用を実証する。 サービスフレームワークは、100以上の組み合わせシナリオの品質特性を示す集約分析を生成する。

The opacity of AI models necessitates both validation and evaluation before their integration into services. To investigate these models, explainable AI (XAI) employs methods that elucidate the relationship between input features and output predictions. The operations of XAI extend beyond the execution of a single algorithm, involving a series of activities that include preprocessing data, adjusting XAI to align with model parameters, invoking the model to generate predictions, and summarizing the XAI results. Adversarial attacks are well-known threats that aim to mislead AI models. The assessment complexity, especially for XAI, increases when open-source AI models are subject to adversarial attacks, due to various combinations. To automate the numerous entities and tasks involved in XAI-based assessments, we propose a cloud-based service framework that encapsulates computing components as microservices and organizes assessment tasks into pipelines. The current XAI tools are not inherently service-oriented. This framework also integrates open XAI tool libraries as part of the pipeline composition. We demonstrate the application of XAI services for assessing five quality attributes of AI models: (1) computational cost, (2) performance, (3) robustness, (4) explanation deviation, and (5) explanation resilience across computer vision and tabular cases. The service framework generates aggregated analysis that showcases the quality attributes for more than a hundred combination scenarios.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-21
# エンコーダ-プロトタイプ-デコーダアプローチによる混在する風のクアドロレータ制御

Proto-MPC: An Encoder-Prototype-Decoder Approach for Quadrotor Control in Challenging Winds ( http://arxiv.org/abs/2401.15508v2 )

ライセンス: Link先を確認
Yuliang Gu, Sheng Cheng, Naira Hovakimyan, (参考訳) クアドロターは、機動性や機械的な単純さのために、進化する航空ロボティクスの分野でますます使われてきている。 しかし、動的に変化する環境において、空気力学的効果と四重項の操作が組み合わさったような固有の不確実性は、伝統的で名目上のモデルに基づく制御設計に重大な課題をもたらす。 本研究では,多種多様な学習課題間で共有表現と特徴表現を効果的にバランスする,Encoder-Prototype-Decoder (EPD) と呼ばれるマルチタスクメタ学習手法を提案する。 その後、EPDモデルをモデル予測制御問題(Proto-MPC)に統合し、効率的なオンライン実装により動的に変化するタスクに適応し、操作する能力を高める。 提案手法をシミュレーションで検証し, 静的かつ空間的に変化する横風を受けるクアロータの軌道追尾におけるProto-MPCの頑健な性能を示す。

Quadrotors are increasingly used in the evolving field of aerial robotics for their agility and mechanical simplicity. However, inherent uncertainties, such as aerodynamic effects coupled with quadrotors' operation in dynamically changing environments, pose significant challenges for traditional, nominal model-based control designs. We propose a multi-task meta-learning method called Encoder-Prototype-Decoder (EPD), which has the advantage of effectively balancing shared and distinctive representations across diverse training tasks. Subsequently, we integrate the EPD model into a model predictive control problem (Proto-MPC) to enhance the quadrotor's ability to adapt and operate across a spectrum of dynamically changing tasks with an efficient online implementation. We validate the proposed method in simulations, which demonstrates Proto-MPC's robust performance in trajectory tracking of a quadrotor being subject to static and spatially varying side winds.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-21
# 効率的なリワードモデルアンサンブルによる強化学習の改善

Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble ( http://arxiv.org/abs/2401.16635v2 )

ライセンス: Link先を確認
Shun Zhang, Zhenfang Chen, Sunli Chen, Yikang Shen, Zhiqing Sun, Chuang Gan, (参考訳) 人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。 しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存しており、不正確な予測につながる可能性がある。 その結果、RLHFは人間の値と不一致な出力を生成することができる。 この問題を軽減するため,報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。 大規模言語モデルに基づく報酬モデルのアンサンブルを用いた場合、線形層アンサンブルやLoRAベースのアンサンブルを含む効率的なアンサンブル手法を探索する。 実験的に、我々はアンサンブルされた報酬モデルを用いてBest-of-n$とProximal Policy Optimizationを実行し、我々のアンサンブル手法がRLHF出力のアライメント性能の向上に役立つことを検証した。

Reinforcement Learning from Human Feedback (RLHF) is a widely adopted approach for aligning large language models with human values. However, RLHF relies on a reward model that is trained with a limited amount of human preference data, which could lead to inaccurate predictions. As a result, RLHF may produce outputs that are misaligned with human values. To mitigate this issue, we contribute a reward ensemble method that allows the reward model to make more accurate predictions. As using an ensemble of large language model-based reward models can be computationally and resource-expensive, we explore efficient ensemble methods including linear-layer ensemble and LoRA-based ensemble. Empirically, we run Best-of-$n$ and Proximal Policy Optimization with our ensembled reward models, and verify that our ensemble methods help improve the alignment performance of RLHF outputs.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-21
# サロゲートによる連続処理効果

Continuous Treatment Effects with Surrogate Outcomes ( http://arxiv.org/abs/2402.00168v2 )

ライセンス: Link先を確認
Zhenghao Zeng, David Arbour, Avi Feller, Raghavendra Addanki, Ryan Rossi, Ritwik Sinha, Edward H. Kennedy, (参考訳) 多くの実世界の因果推論アプリケーションでは、主要な結果(ラベル)が部分的に欠落していることが多い。 欠落が共変量に依存する場合(すなわち、欠落が完全にランダムではない)、完全に観察されたサンプルのみに基づく分析はバイアスを受けることがある。 一次結果に関連する処理後変数を十分に観察したサロゲートを組み込むことで, この場合の見積もりを改善することができる。 本稿では, 連続処理効果の推定におけるサロゲートの役割について検討し, ラベル付きデータとラベルなしデータの両方を用いて, 上記の選択バイアス問題に苦しむことなく, 効率的にサロゲートを組み込む2つの頑健な手法を提案する。 重要なことは、提案した推定器の漸近正規性を確立し、ラベル付きデータのみを使用する手法と比較して、分散性の改善の可能性を示すことである。 大規模なシミュレーションにより,本手法は経験的性能にアピールできることを示した。

In many real-world causal inference applications, the primary outcomes (labels) are often partially missing, especially if they are expensive or difficult to collect. If the missingness depends on covariates (i.e., missingness is not completely at random), analyses based on fully observed samples alone may be biased. Incorporating surrogates, which are fully observed post-treatment variables related to the primary outcome, can improve estimation in this case. In this paper, we study the role of surrogates in estimating continuous treatment effects and propose a doubly robust method to efficiently incorporate surrogates in the analysis, which uses both labeled and unlabeled data and does not suffer from the above selection bias problem. Importantly, we establish the asymptotic normality of the proposed estimator and show possible improvements on the variance compared with methods that solely use labeled data. Extensive simulations show our methods enjoy appealing empirical performance.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-21
# 因果発見における大規模言語モデルの統合:統計的因果的アプローチ

Integrating Large Language Models in Causal Discovery: A Statistical Causal Approach ( http://arxiv.org/abs/2402.01454v3 )

ライセンス: Link先を確認
Masayuki Takayama, Tadahisa Okuda, Thong Pham, Tatsuyoshi Ikenoue, Shingo Fukuma, Shohei Shimizu, Akiyoshi Sannai, (参考訳) 実用的な統計的因果探索(SCD)では、背景知識の体系的な獲得が困難であるにもかかわらず、アルゴリズムに制約としてドメイン専門家の知識を埋め込むことは、一貫した意味のある因果モデルを作成する上で重要である。 これらの課題を克服するために,LLMの「統計的因果的プロンプト(SCP)」とSCDの事前知識増強を通じて,大規模言語モデル(LLM)を用いたSCD手法と知識ベース因果推論(KBCI)を合成する,因果推論の新しい手法を提案する。 GPT-4 は LLM-KBCI と SCD の出力を LLM-KBCI の事前の知識によって引き起こし、GPT-4 が SCP の処理を行う場合、SCD の結果をさらに改善できることを示した。 さらに, 実世界のデータセットを用いて, LLMのトレーニングデータにこのデータセットが組み込まれていない場合でも, LLMが提供する背景知識が, このデータセット上でSCDを改善することを実証した。 提案手法は、データセットバイアスや制限といった課題に対処し、多様な科学領域にわたるデータ駆動因果推論を改善するLLMの可能性を示す。

In practical statistical causal discovery (SCD), embedding domain expert knowledge as constraints into the algorithm is significant for creating consistent meaningful causal models, despite the challenges in systematic acquisition of the background knowledge. To overcome these challenges, this paper proposes a novel methodology for causal inference, in which SCD methods and knowledge based causal inference (KBCI) with a large language model (LLM) are synthesized through ``statistical causal prompting (SCP)'' for LLMs and prior knowledge augmentation for SCD. Experiments have revealed that GPT-4 can cause the output of the LLM-KBCI and the SCD result with prior knowledge from LLM-KBCI to approach the ground truth, and that the SCD result can be further improved, if GPT-4 undergoes SCP. Furthermore, by using an unpublished real-world dataset, we have demonstrated that the background knowledge provided by the LLM can improve SCD on this dataset, even if this dataset has never been included in the training data of the LLM. The proposed approach can thus address challenges such as dataset biases and limitations, illustrating the potential of LLMs to improve data-driven causal inference across diverse scientific domains.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-21
# LLMは規則に当てはまるか? LLMのストレステストと改善のための論理スキャフォールディング

Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs ( http://arxiv.org/abs/2402.11442v2 )

ライセンス: Link先を確認
Siyuan Wang, Zhongyu Wei, Yejin Choi, Xiang Ren, (参考訳) 大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。 しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。 そこで本研究では,5つの領域にまたがるプリミティブルールとコンポジションルールを組み合わせた,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。 ルールサブセット上でのGPT系列モデルの解析は,LLMの論理的理解において,特に特定のバイアスパターンを持つ構成的・構造的複雑な規則において,人的性能と比較して大きなギャップを生じさせる。 さらにこれらのルールを,よりフレキシブルなルール生成と下流推論の強化のために,より小型な推論エンジンに蒸留する。 提案する推論エンジンは, 精度, 複雑, 抽象的な結論と前提を生成するのに有効であることを証明し, 各種常識推論タスクを改良する。 全体として、我々の研究は、推論ルールの把握における LLM の限界に光を当て、論理的推論能力~\footnote{Code を向上する方法を、 \url{https://github.com/SiyuanWangw/ULogic} で提案しています。 と。

Large language models (LLMs) have achieved impressive human-like performance across various reasoning tasks. However, their mastery of underlying inferential rules still falls short of human capabilities. To investigate this, we propose a logic scaffolding inferential rule generation framework, to construct an inferential rule base, ULogic, comprising both primitive and compositional rules across five domains. Our analysis of GPT-series models over a rule subset reveals significant gaps in LLMs' logic understanding compared to human performance, especially in compositional and structural complex rules with certain bias patterns. We further distill these rules into a smaller-scale inference engine for flexible rule generation and enhancing downstream reasoning. Through a multi-judger evaluation, our inference engine proves effective in generating accurate, complex and abstract conclusions and premises, and improve various commonsense reasoning tasks. Overall, our work sheds light on LLMs' limitations in grasping inferential rule and suggests ways to enhance their logical reasoning abilities~\footnote{Code and data are available at \url{https://github.com/SiyuanWangw/ULogic}.}.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-21
# 学習記憶を用いたAIシステムの訓練におけるエネルギー効率限界

Energy-efficiency Limits on Training AI Systems using Learning-in-Memory ( http://arxiv.org/abs/2402.14878v2 )

ライセンス: Link先を確認
Zihao Chen, Johannes Leugering, Gert Cauwenberghs, Shantanu Chakrabartty, (参考訳) ラーニングインメモリ(Learning-in-Memory、LIM)は、機械学習システムのトレーニングにおいて、基本的なメモリボトルネックを克服するためのパラダイムである。 コンピュート・イン・メモリ(CIM)アプローチは、いわゆるメモリウォール(すなわち、繰り返しメモリの読み取りアクセスによって放出されるエネルギー)に対処できるが、それらは、トレーニングに必要な正確さ(更新ウォール)において繰り返しメモリ書き込みによって放出されるエネルギーに依存しず、短期記憶と長期記憶の間で情報を転送する際に放出されるエネルギー(統合ウォール)を考慮しない。 LIMパラダイムは、物理メモリのエネルギー障壁が適応的に変調された場合、これらのボトルネックも克服できる、と提案している。 本稿では、異なるLIM手法を用いてAIシステムのトレーニングを行う際に、エネルギー散逸に関する新たな理論的な下限を導出する。 ここでは、モデルに依存しない分析を行い、エネルギー効率とトレーニングの速度のトレードオフを強調した。 結果として生じる非平衡エネルギー効率境界は、ランダウアーのエネルギー散逸境界と同様のフレーバーを持つ。 また、トレーニングに使用する浮動小数点演算(FLOP)の数、AIモデルのサイズ、トレーニングパラメータの精度を考慮して、これらの制限を拡張する。 我々の予測では、LIMを用いた脳規模のAIシステムをトレーニングするためのエネルギー散逸は10^8 \sim 10^9$ Joulesであり、これはランダウアーのアディベート低バウンドと同じ大きさで、最先端のAIアクセラレーターハードウェアの低バウンドを用いて得られた予測よりも6ドルから7ドル低い。

Learning-in-memory (LIM) is a recently proposed paradigm to overcome fundamental memory bottlenecks in training machine learning systems. While compute-in-memory (CIM) approaches can address the so-called memory-wall (i.e. energy dissipated due to repeated memory read access) they are agnostic to the energy dissipated due to repeated memory writes at the precision required for training (the update-wall), and they don't account for the energy dissipated when transferring information between short-term and long-term memories (the consolidation-wall). The LIM paradigm proposes that these bottlenecks, too, can be overcome if the energy barrier of physical memories is adaptively modulated such that the dynamics of memory updates and consolidation match the Lyapunov dynamics of gradient-descent training of an AI model. In this paper, we derive new theoretical lower bounds on energy dissipation when training AI systems using different LIM approaches. The analysis presented here is model-agnostic and highlights the trade-off between energy efficiency and the speed of training. The resulting non-equilibrium energy-efficiency bounds have a similar flavor as that of Landauer's energy-dissipation bounds. We also extend these limits by taking into account the number of floating-point operations (FLOPs) used for training, the size of the AI model, and the precision of the training parameters. Our projections suggest that the energy-dissipation lower-bound to train a brain scale AI system (comprising of $10^{15}$ parameters) using LIM is $10^8 \sim 10^9$ Joules, which is on the same magnitude the Landauer's adiabatic lower-bound and $6$ to $7$ orders of magnitude lower than the projections obtained using state-of-the-art AI accelerator hardware lower-bounds.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-21
# 簡易, 高飽和, 量子制限, RF SQUIDアレイを用いたジョセフソンパラメトリック増幅器

Simple, High Saturation Power, Quantum-limited, RF SQUID Array-based Josephson Parametric Amplifiers ( http://arxiv.org/abs/2402.19435v2 )

ライセンス: Link先を確認
Ryan Kaufman, Chenxu Liu, Katarina Cicak, Boris Mesits, Mingkang Xia, Chao Zhou, Maria Nowicki, José Aumentado, David Pekker, Michael Hatridge, (参考訳) 高忠実性量子非劣化量子ビット測定は、大規模量子コンピューティングにおける誤り訂正と迅速な量子ビットフィードバックに不可欠である。 高忠実な読み出しには、キュービットの読み出し共振器を通して短パルスと強いパルスを通過させ、十分な高帯域幅、高飽和電力、量子制限増幅器で処理する必要がある。 我々は,未処理デバイスであるハミルトンの時間領域シミュレーション,製造制約,飽和電力の最大化を組み合わせた設計パイプラインを開発した。 信号ポート上のディプレクサを介して供給される高出力電圧ポンプを駆動する低Q共振器内に埋め込まれた25個の高周波超電導QUantum Interference Devices (rf SQUIDs) のアレイを利用する改良NIST三層Nb製造スイートに基づく増幅器を実現した。 ポンプの強度にもかかわらず、この装置は量子効率が高く、トランスモンの状態遷移によって制限される高忠実度測定が可能であることを示す。 本研究では,最大出力-91.2dBmの入力飽和電力と20dBのゲイン,28MHzの即時帯域幅,および62%の量子効率を持つ位相保存量子ビット計測実験を行った。

High-fidelity quantum non-demolition qubit measurement is critical to error correction and rapid qubit feedback in large-scale quantum computing. High-fidelity readout requires passing a short and strong pulse through the qubit's readout resonator, which is then processed by a sufficiently high bandwidth, high saturation power, and quantum-limited amplifier. We have developed a design pipeline that combines time-domain simulation of the un-truncated device Hamiltonian, fabrication constraints, and maximization of saturation power. We have realized an amplifier based on a modified NIST tri-layer Nb fabrication suite which utilizes an array of 25 radio frequency Superconducting QUantum Interference Devices (rf SQUIDs) embedded within a low-Q resonator powered by a high-power voltage pump delivered via a diplexer on the signal port. We show that, despite the intensity of the pump, the device is quantum-efficient and capable of high-fidelity measurement limited by state transitions in the transmon. We present experimental data demonstrating up to -91.2 dBm input saturation power with 20 dB gain, up to 28 MHz instantaneous bandwidth, and phase-preserving qubit measurements with 62% quantum efficiency.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-21
# 階層ROIと適応量子化による超高忠実画像圧縮

Super-High-Fidelity Image Compression via Hierarchical-ROI and Adaptive Quantization ( http://arxiv.org/abs/2403.13030v3 )

ライセンス: Link先を確認
Jixiang Luo, Yan Wang, Hongwei Qin, (参考訳) 学習された画像圧縮(lic)は、客観的および主観的メトリクスに関して劇的な進歩を遂げた。 MSEベースのモデルは客観的メトリクスを改善することを目的としており、生成モデルは主観的メトリクスによって測定された視覚的品質を改善するために活用される。 しかし、いずれも低ビットレートで、特に0.2bpp$以下のぼやけや変形に悩まされている。 さらに、人間の顔やテキストの変形は視覚的品質評価には受け入れられず、小さな顔やテキストではより顕著になる。 この問題を解決するために、関心領域(ROI)を利用して、MSEベースのモデルと生成モデルの利点を組み合わせる。 本研究では,顔,テキスト,複雑なテクスチャを含む領域の再構成を改善するために,画像を複数の前景領域と1つの背景領域に分割する階層ROI(H-ROI)を提案する。 さらに、チャネル次元内における非線形マッピングによる適応量子化を提案し、視覚的品質を維持しながらビットレートを制約する。 提案手法は,HiFiCの0.7X$ビット,BPGの0.5X$ビットなど,低ビットレートの小さな顔やテキストに対して,より視覚的品質が得られることを示す。

Learned Image Compression (LIC) has achieved dramatic progress regarding objective and subjective metrics. MSE-based models aim to improve objective metrics while generative models are leveraged to improve visual quality measured by subjective metrics. However, they all suffer from blurring or deformation at low bit rates, especially at below $0.2bpp$. Besides, deformation on human faces and text is unacceptable for visual quality assessment, and the problem becomes more prominent on small faces and text. To solve this problem, we combine the advantage of MSE-based models and generative models by utilizing region of interest (ROI). We propose Hierarchical-ROI (H-ROI), to split images into several foreground regions and one background region to improve the reconstruction of regions containing faces, text, and complex textures. Further, we propose adaptive quantization by non-linear mapping within the channel dimension to constrain the bit rate while maintaining the visual quality. Exhaustive experiments demonstrate that our methods achieve better visual quality on small faces and text with lower bit rates, e.g., $0.7X$ bits of HiFiC and $0.5X$ bits of BPG.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-21
# 可変検出器結合による測定誘起相転移の制御

Controlling measurement induced phase transitions with tunable detector coupling ( http://arxiv.org/abs/2404.07918v2 )

ライセンス: Link先を確認
Ritu Nehra, Alessandro Romito, Dganit Meidan, (参考訳) 2つの競合する測定によって駆動される量子多体系の進化について検討し、2つの異なる領域法相間のトポロジ的絡み合い遷移を誘導する。 我々は、自由フェルミオン力学における系と検出器の間の可変結合を持つ正の演算子値測定を用いる。 このアプローチは、射影と連続的な監視の間の遷移の普遍的性質を継続的に追跡することを可能にする。 その結果,系-検出器結合が減少すると,射影限界における遷移のパーコレーション普遍性が不安定であることが示唆された。

We study the evolution of a quantum many-body system driven by two competing measurements, which induces a topological entanglement transition between two distinct area law phases. We employ a positive operator-valued measurement with variable coupling between the system and detector within free Fermion dynamics. This approach allows us to continuously track the universal properties of the transition between projective and continuous monitoring. Our findings suggest that the percolation universality of the transition in the projective limit is unstable when the system-detector coupling is reduced.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-21
# 検索の思考:効率のレンズを通して言語モデルで計画する

Thought of Search: Planning with Language Models Through The Lens of Efficiency ( http://arxiv.org/abs/2404.11833v2 )

ライセンス: Link先を確認
Michael Katz, Harsha Kokel, Kavitha Srinivas, Shirin Sohrabi, (参考訳) 計算機科学において研究されるアルゴリズムの最も重要な性質は、健全性、完全性、複雑さである。 しかし、これらの特性は、最近提案された大規模言語モデルによる計画手法の膨大な収集のために分析されることは稀である。 この作業では、このギャップを緩和します。 我々は,LSMを計画に使用するというこれらの特性を分析し,近年の傾向が非効率性のために音質と完全性の両方を放棄している点を強調した。 音質と完全性の両方を同時に維持できる、はるかに効率的なアプローチを提案する。 そこで本研究では,これらの問題を解こうとする文献からの LLM ベースの解と比較し,4つの代表的な探索問題を例示する。 LLMを検索コンポーネントのコードを生成することで,LLMに数回しか呼ばずに,100倍の精度で全データセットを解くことができることを示す。 我々は、計算資源の責任ある利用を議論し、研究コミュニティに対して、効率を維持するための健全で完全なLCMベースのアプローチを調査するよう促す。

Among the most important properties of algorithms investigated in computer science are soundness, completeness, and complexity. These properties, however, are rarely analyzed for the vast collection of recently proposed methods for planning with large language models. In this work, we alleviate this gap. We analyse these properties of using LLMs for planning and highlight that recent trends abandon both soundness and completeness for the sake of inefficiency. We propose a significantly more efficient approach that can, at the same time, maintain both soundness and completeness. We exemplify on four representative search problems, comparing to the LLM-based solutions from the literature that attempt to solve these problems. We show that by using LLMs to produce the code for the search components we can solve the entire datasets with 100\% accuracy with only a few calls to the LLM. We argue for a responsible use of compute resources; urging research community to investigate sound and complete LLM-based approaches that uphold efficiency.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-21
# 古典的および学習的最適化のためのデータ駆動型パフォーマンス保証

Data-Driven Performance Guarantees for Classical and Learned Optimizers ( http://arxiv.org/abs/2404.13831v2 )

ライセンス: Link先を確認
Rajiv Sambharya, Bartolomeo Stellato, (参考訳) 統計的学習理論から一般化保証を用いた連続最適化アルゴリズムの性能解析のためのデータ駆動型手法を提案する。 パラメトリック最適化問題のファミリーを解くために,古典的および学習的最適化法について研究する。 本稿では,古典最適化の一般化保証,サンプル収束バウンダリ,学習オプティマイザについて,確率的近似(PAC)-ベイズ(Bayes)フレームワークを用いて構築する。 学習したオプティマイザを訓練するために、勾配に基づくアルゴリズムを用いてPAC-Bayes上界を直接最小化する。 信号処理,制御,メタラーニングの数値実験により,古典的および学習的最適化の両面において,一定の予算のイテレーションを与えられた上で,強力な一般化保証を提供するフレームワークの能力を示した。 古典的なオプティマイザにとって、私たちの限界は最悪のケースで保証されるものよりもずっと厳格です。 学習したオプティマイザにとって、我々のバウンダリは非学習者で観察された経験的結果よりも優れています。

We introduce a data-driven approach to analyze the performance of continuous optimization algorithms using generalization guarantees from statistical learning theory. We study classical and learned optimizers to solve families of parametric optimization problems. We build generalization guarantees for classical optimizers, using a sample convergence bound, and for learned optimizers, using the Probably Approximately Correct (PAC)-Bayes framework. To train learned optimizers, we use a gradient-based algorithm to directly minimize the PAC-Bayes upper bound. Numerical experiments in signal processing, control, and meta-learning showcase the ability of our framework to provide strong generalization guarantees for both classical and learned optimizers given a fixed budget of iterations. For classical optimizers, our bounds are much tighter than those that worst-case guarantees provide. For learned optimizers, our bounds outperform the empirical outcomes observed in their non-learned counterparts.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-21
# モデル非依存アテンションマップを用いた解釈可能なバイタルサイン予測

Interpretable Vital Sign Forecasting with Model Agnostic Attention Maps ( http://arxiv.org/abs/2405.01714v3 )

ライセンス: Link先を確認
Yuwei Liu, Chen Dan, Anubhav Bhatti, Bingjie Shen, Divij Gupta, Suraj Parmar, San Lee, (参考訳) セプシスは集中治療室(ICU)の死亡率の主要な原因であり、深刻な医療上の課題である。 敗血症を予測するために様々な重要な兆候を分析する複雑さは、この問題をさらに悪化させる。 深層学習技術は早期の敗血症予測のために進歩してきたが、その'ブラックボックス'という性質は内部ロジックを曖昧にし、ICUのようなクリティカルな設定での解釈性を損なう。 本稿では,深層学習モデルと注意機構を組み合わせたフレームワークを提案する。これは,予測過程における臨界時間ステップを強調し,モデル解釈性を改善し,臨床的意思決定を支援する。 注意機構は,N-HiTSやN-BEATSといった様々なブラックボックス時系列予測モデルに適用可能であることを示す。 本手法は,従来のディープラーニングモデルの精度を保ちながら,注目重み付きヒートマップによる解釈性を向上させる。 eICU-CRDデータセットを用いて,敗血症患者に対するバイタルサインの予測に焦点をあてた。 平均二乗誤差 (MSE) と動的時間歪み (DTW) 測定値を用いて評価を行った。 我々は,N-HiTS と N-BEATS の注意マップを探索し,その性能の違いを調べた。

Sepsis is a leading cause of mortality in intensive care units (ICUs), representing a substantial medical challenge. The complexity of analyzing diverse vital signs to predict sepsis further aggravates this issue. While deep learning techniques have been advanced for early sepsis prediction, their 'black-box' nature obscures the internal logic, impairing interpretability in critical settings like ICUs. This paper introduces a framework that combines a deep learning model with an attention mechanism that highlights the critical time steps in the forecasting process, thus improving model interpretability and supporting clinical decision-making. We show that the attention mechanism could be adapted to various black box time series forecasting models such as N-HiTS and N-BEATS. Our method preserves the accuracy of conventional deep learning models while enhancing interpretability through attention-weight-generated heatmaps. We evaluated our model on the eICU-CRD dataset, focusing on forecasting vital signs for sepsis patients. We assessed its performance using mean squared error (MSE) and dynamic time warping (DTW) metrics. We explored the attention maps of N-HiTS and N-BEATS, examining the differences in their performance and identifying crucial factors influencing vital sign forecasting.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-21
# 厳密な変動性、容積法則の振る舞い、ニューラルネットワーク状態の効率的な表現をキャプチャするテンソルネットワーク計算

Tensor Network Computations That Capture Strict Variationality, Volume Law Behavior, and the Efficient Representation of Neural Network States ( http://arxiv.org/abs/2405.03797v2 )

ライセンス: Link先を確認
Wen-Yuan Liu, Si-Jing Du, Ruojing Peng, Johnnie Gray, Garnet Kin-Lic Chan, (参考訳) 本稿では,振幅の収縮の計算グラフによって定義されるテンソルネットワーク状態の視点変化を紹介する。 結果として得られる状態のクラスはテンソルネットワーク関数と呼ばれ、テンソルネットワーク状態の概念上の利点を継承し、近似された収縮を収束させる必要から生じる計算的制約を除去する。 テンソルネットワーク関数を用いて、ループグラフ上のエネルギーの厳密な変動推定を計算し、基底状態の表現力を解析し、体積法則の時間進化の側面を捉え、一般的なフィードフォワードニューラルネットワークの効率的なテンソルネットワーク関数へのマッピングを提供する。 我々の研究は、計算可能なテンソルネットワークの領域を、正確な収縮法が利用できない領域に拡大し、テンソルネットワークを使用するための新たな道を開く。

We introduce a change of perspective on tensor network states that is defined by the computational graph of the contraction of an amplitude. The resulting class of states, which we refer to as tensor network functions, inherit the conceptual advantages of tensor network states while removing computational restrictions arising from the need to converge approximate contractions. We use tensor network functions to compute strict variational estimates of the energy on loopy graphs, analyze their expressive power for ground-states, show that we can capture aspects of volume law time evolution, and provide a mapping of general feed-forward neural nets onto efficient tensor network functions. Our work expands the realm of computable tensor networks to ones where accurate contraction methods are not available, and opens up new avenues to use tensor networks.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-21
# (一部調査)分散・協調多エージェント強化学習

(A Partial Survey of) Decentralized, Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.06161v2 )

ライセンス: Link先を確認
Christopher Amato, (参考訳) マルチエージェント強化学習(MARL)は近年急速に普及している。 多くのアプローチが開発されているが、これらは集中型トレーニングと実行(CTE)、分散型実行(CTDE)のための集中型トレーニング(CTDE)、分散型トレーニングと実行(DTE)の3つの主なタイプに分けられる。 分散トレーニングと実行メソッドは最も小さな仮定であり、実装が簡単であることが多い。 実際、私が議論するとおり、各エージェントが個別に学習させることで、DTEに任意の単エージェントRLメソッドを使うことができる。 もちろん、下記のようなアプローチには長所と短所があります。 オフラインの調整が不要な場合、DTEは必須である点に注意が必要だ。 つまり、すべてのエージェントが事前調整なしでオンラインインタラクション中に学習しなければならない場合、学習と実行はどちらも分散化されなければならない。 DTE法は協調的、競争的、あるいは混合的な場合に応用できるが、本文は協調的MARL事例に焦点をあてる。 本文では、まず、DEC-POMDPの形で協調的なMARL問題の簡単な説明を行う。 次に、独立したQ-ラーニングとその拡張から始まる価値に基づくDTE手法について論じ、さらに、DQNによる深層ケースの拡張について論じる。 次に、独立なREINFORCE(バニラ政策勾配)から始まるポリシー勾配DTE手法について論じ、アクター批判的なケースと深い変種(独立なPPOなど)にまで拡張する。 最後に、DTEと今後の方向性に関するいくつかの一般的な話題について論じる。

Multi-agent reinforcement learning (MARL) has exploded in popularity in recent years. Many approaches have been developed but they can be divided into three main types: centralized training and execution (CTE), centralized training for decentralized execution (CTDE), and Decentralized training and execution (DTE).Decentralized training and execution methods make the fewest assumptions and are often simple to implement. In fact, as I'll discuss, any single-agent RL method can be used for DTE by just letting each agent learn separately. Of course, there are pros and cons to such approaches as I discuss below. It is worth noting that DTE is required if no offline coordination is available. That is, if all agents must learn during online interactions without prior coordination, learning and execution must both be decentralized. DTE methods can be applied in cooperative, competitive, or mixed cases but this text will focus on the cooperative MARL case. In this text, I will first give a brief description of the cooperative MARL problem in the form of the Dec-POMDP. Then, I will discuss value-based DTE methods starting with independent Q-learning and its extensions and then discuss the extension to the deep case with DQN, the additional complications this causes, and methods that have been developed to (attempt to) address these issues. Next, I will discuss policy gradient DTE methods starting with independent REINFORCE (i.e., vanilla policy gradient), and then extending to the actor-critic case and deep variants (such as independent PPO). Finally, I will discuss some general topics related to DTE and future directions.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-21
# AIOSコンパイラ: LLMによるAIエージェントの自然言語プログラミングとフロープログラミングの解釈

AIOS Compiler: LLM as Interpreter for Natural Language Programming and Flow Programming of AI Agents ( http://arxiv.org/abs/2405.06907v2 )

ライセンス: Link先を確認
Shuyuan Xu, Zelong Li, Kai Mei, Yongfeng Zhang, (参考訳) 当初から、プログラミング言語はより読みやすく、プログラマの障壁も低くなっている。 この傾向に従って、自然言語は優れた柔軟性とユーザビリティを提供し、プログラミングの民主主義に寄与する、有望なタイプのプログラミング言語になり得る。 しかし、自然言語の固有のあいまいさ、曖昧さ、冗長さは、プログラムロジックを正確に理解し、自然言語で書かれた命令を実行することができるインタプリタを開発する上で、重大な課題となっている。 幸いなことに、Large Language Models (LLMs) の最近の進歩は、複雑な自然言語の解釈に顕著な習熟性を示している。 そこで我々は,LLMをインタプリタとして用い,自然言語命令の解釈と実行を行う,コード表現・実行(CoRE)のための新しいシステムを開発した。 提案システムは自然言語プログラミング,擬似コードプログラミング,フロープログラミングを同一表現で統一し,LLMはエージェントプログラムの解釈と実行を行うインタプリタとして機能する。 本稿では,自然言語命令を論理的に構造化するプログラミング構文を定義することから始める。 実行中に、冗長性を最小化するために外部メモリを組み込む。 さらに、設計したインタプリタに外部ツールを起動する機能を備え、特殊なドメインにおけるLLMの制限やリアルタイム情報へのアクセス時の補償を行う。 https://github.com/agiresearch/CoRE, https://github.com/agiresearch/OpenAGI, https://github.com/agiresearch/AIOSで公開されている。

Since their inception, programming languages have trended towards greater readability and lower barriers for programmers. Following this trend, natural language can be a promising type of programming language that provides great flexibility and usability and helps towards the democracy of programming. However, the inherent vagueness, ambiguity, and verbosity of natural language pose significant challenges in developing an interpreter that can accurately understand the programming logic and execute instructions written in natural language. Fortunately, recent advancements in Large Language Models (LLMs) have demonstrated remarkable proficiency in interpreting complex natural language. Inspired by this, we develop a novel system for Code Representation and Execution (CoRE), which employs LLM as interpreter to interpret and execute natural language instructions. The proposed system unifies natural language programming, pseudo-code programming, and flow programming under the same representation for constructing language agents, while LLM serves as the interpreter to interpret and execute the agent programs. In this paper, we begin with defining the programming syntax that structures natural language instructions logically. During the execution, we incorporate external memory to minimize redundancy. Furthermore, we equip the designed interpreter with the capability to invoke external tools, compensating for the limitations of LLM in specialized domains or when accessing real-time information. This work is open-source at https://github.com/agiresearch/CoRE, https://github.com/agiresearch/OpenAGI, and https://github.com/agiresearch/AIOS.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-21
# AD-Aligning:ディープラーニングにおける認知領域適応のための人間ライクな一般化のエミュレート

AD-Aligning: Emulating Human-like Generalization for Cognitive Domain Adaptation in Deep Learning ( http://arxiv.org/abs/2405.09582v2 )

ライセンス: Link先を確認
Zhuoying Li, Bohua Wan, Cong Mu, Ruzhang Zhao, Shushan Qiu, Chao Yan, (参考訳) ドメイン適応は、プレゼンテーションのバリエーションや認知的ニュアンスによって複雑化するタスクである、さまざまなドメインにわたるディープラーニングモデルを一般化する上で、重要な要素である。 本稿では,Ad-Aligningについて紹介する。AD-Aligningは,敵対的トレーニングとソース・ターゲット領域アライメントを組み合わせた新しい手法で,一般化能力を向上する。 コーラル損失と標準損失で事前訓練することにより、AD-Aligningは対象のドメイン統計を事前訓練されたエンコーダの統計と整合させ、ドメインシフトを調節しながら堅牢性を維持する。 ノイズによるシフトや認知領域適応タスクなど,さまざまなデータセットやドメインシフトシナリオに関する広範な実験を通じて,AD-AligningのパフォーマンスをDeep CoralやADDAといった既存手法と比較して実証した。 われわれはAD-Aligningが人間の知覚に固有のニュアンス認知過程をエミュレートする能力を強調した。

Domain adaptation is pivotal for enabling deep learning models to generalize across diverse domains, a task complicated by variations in presentation and cognitive nuances. In this paper, we introduce AD-Aligning, a novel approach that combines adversarial training with source-target domain alignment to enhance generalization capabilities. By pretraining with Coral loss and standard loss, AD-Aligning aligns target domain statistics with those of the pretrained encoder, preserving robustness while accommodating domain shifts. Through extensive experiments on diverse datasets and domain shift scenarios, including noise-induced shifts and cognitive domain adaptation tasks, we demonstrate AD-Aligning's superior performance compared to existing methods such as Deep Coral and ADDA. Our findings highlight AD-Aligning's ability to emulate the nuanced cognitive processes inherent in human perception, making it a promising solution for real-world applications requiring adaptable and robust domain adaptation strategies.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-21
# コンフォーマルアライメント: 保証者による基礎モデルの信頼の時期を知る

Conformal Alignment: Knowing When to Trust Foundation Models with Guarantees ( http://arxiv.org/abs/2405.10301v2 )

ライセンス: Link先を確認
Yu Gui, Ying Jin, Zhimei Ren, (参考訳) ファンデーションモデルからのアウトプットを高精細なタスクにデプロイする前には、それらが人間の価値と一致していることを保証することが不可欠である。 例えば、放射線学レポート生成では、ビジョン言語モデルによって生成された報告は、医学的意思決定に使用する前に人間の評価と一致しなければならない。 本稿では,ユーザが指定したアライメント基準を満たす出力単位を識別する一般的なフレームワークであるConformal Alignmentを提案する。 基本モデルやデータ分布にかかわらず、選択された単位の所定の割合がアライメント基準を満たすことが保証される。 事前訓練されたモデルとモデル生成出力を持つ新しいユニットが与えられた場合、コンフォーマルアライメントは、アライメント予測器をトレーニングするために、接地トラストアライメント状態の参照データのセットを活用する。 次に、予測アライメントスコアがデータ依存しきい値を超えた新しいユニットを選択し、対応するアウトプットを信頼できるものとして認定する。 質問応答や放射線学レポート生成の応用を通して,本手法は軽度基準データを用いた軽量トレーニングにより,信頼性の高い出力を持つ単位を正確に識別できることを実証する。 そこで我々は,アライメント予測における様々な特徴の有意性について検討し,それらを標準モデルと組み合わせてアライメント予測器を構築する。

Before deploying outputs from foundation models in high-stakes tasks, it is imperative to ensure that they align with human values. For instance, in radiology report generation, reports generated by a vision-language model must align with human evaluations before their use in medical decision-making. This paper presents Conformal Alignment, a general framework for identifying units whose outputs meet a user-specified alignment criterion. It is guaranteed that on average, a prescribed fraction of selected units indeed meet the alignment criterion, regardless of the foundation model or the data distribution. Given any pre-trained model and new units with model-generated outputs, Conformal Alignment leverages a set of reference data with ground-truth alignment status to train an alignment predictor. It then selects new units whose predicted alignment scores surpass a data-dependent threshold, certifying their corresponding outputs as trustworthy. Through applications to question answering and radiology report generation, we demonstrate that our method is able to accurately identify units with trustworthy outputs via lightweight training over a moderate amount of reference data. En route, we investigate the informativeness of various features in alignment prediction and combine them with standard models to construct the alignment predictor.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-21
# プランク離散性は宇宙論において観測可能であるか?

Is Planckian discreteness observable in cosmology? ( http://arxiv.org/abs/2405.12534v1 )

ライセンス: Link先を確認
Gabriel R. Bengochea, Gabriel Leon, Alejandro Perez, (参考訳) プランクスケールのインフレーション時代 — 基本スケールでの量子幾何学の離散性を予測する量子重力理論において — は、摂動のテンソルとスカラーの非常に小さな比率と、天然のダークマターの生成シナリオにつながるホットビッグバンを持つ不均一性のスケール不変スペクトルを生成する。 ここでは、宇宙論における主要なパズルのいくつかが、量子重力に根ざした説明を持つ可能性について言及する。

A Planck scale inflationary era -- in a quantum gravity theory predicting discreteness of quantum geometry at the fundamental scale -- produces the scale invariant spectrum of inhomogeneities with very small tensor-to-scalar ratio of perturbations and a hot big bang leading to a natural dark matter genesis scenario. Here we evoke the possibility that some of the major puzzles in cosmology would have an explanation rooted in quantum gravity.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-21
# スコアCDM:多変量時系列インプットのためのスコアウェイト畳み込み拡散モデル

Score-CDM: Score-Weighted Convolutional Diffusion Model for Multivariate Time Series Imputation ( http://arxiv.org/abs/2405.13075v1 )

ライセンス: Link先を確認
S. Zhang, S. Wang, H. Miao, H. Chen, C. Fan, J. Zhang, (参考訳) MTS(Multivariant Time Series)データは通常、実際のシナリオでは不完全であり、様々な時系列マイニング作業を容易にするためには、不完全MTSを強制することが事実上重要である。 近年,拡散モデルに基づくMTS計算手法は,時間的特徴学習のためのCNNやアテンション機構を利用して,有望な結果を得た。 しかし、CNNと注意を単純に組み合わせることで、局所的・グローバル的時間的特徴の多様な影響を適応的に排除することは困難である。 本稿では,Score-weighted Convolutional Diffusion Model (Score-CDM,略してScore-CDM)を提案する。 SCMは時間領域のグローバルな時間的特徴を捉えるためにスコアマップを採用し、ARMはスペクトル領域内のローカル時系列データを畳み込むためにSpectral2Time Window Block (S2TWB)を使用している。 ファストフーリエ変換の時間畳み込み特性により、ARMはスコアマップの受容場を適応的に変化させ、局所的および大域的時間的特徴を効果的にバランスさせることができる。 我々は,異なる領域の3つの実MCSデータセットに対して広範囲に評価を行い,提案したScore-CDMの有効性を検証する。

Multivariant time series (MTS) data are usually incomplete in real scenarios, and imputing the incomplete MTS is practically important to facilitate various time series mining tasks. Recently, diffusion model-based MTS imputation methods have achieved promising results by utilizing CNN or attention mechanisms for temporal feature learning. However, it is hard to adaptively trade off the diverse effects of local and global temporal features by simply combining CNN and attention. To address this issue, we propose a Score-weighted Convolutional Diffusion Model (Score-CDM for short), whose backbone consists of a Score-weighted Convolution Module (SCM) and an Adaptive Reception Module (ARM). SCM adopts a score map to capture the global temporal features in the time domain, while ARM uses a Spectral2Time Window Block (S2TWB) to convolve the local time series data in the spectral domain. Benefiting from the time convolution properties of Fast Fourier Transformation, ARM can adaptively change the receptive field of the score map, and thus effectively balance the local and global temporal features. We conduct extensive evaluations on three real MTS datasets of different domains, and the result verifies the effectiveness of the proposed Score-CDM.
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# 金融市場リスク予測のためのK平均アルゴリズム

A K-means Algorithm for Financial Market Risk Forecasting ( http://arxiv.org/abs/2405.13076v1 )

ライセンス: Link先を確認
Jinxin Xu, Kaixian Xu, Yue Wang, Qinyan Shen, Ruisi Li, (参考訳) 金融市場のリスク予測には、将来の市場の動きが投資に与える影響を推定するために数学的モデル、歴史的データ分析、統計手法を適用することが含まれる。 このプロセスは、投資家が戦略を策定し、金融機関が資産を管理し、規制当局が政策を策定する上で不可欠である。 今日の社会では、金融市場リスク予測の精度に大きな影響を及ぼす、高いエラー率と低い精度の問題がある。 機械学習におけるK平均アルゴリズムは、金融市場にとって効果的なリスク予測手法である。 本研究では、K平均アルゴリズムを用いて金融市場リスク予測システムを構築し、金融市場リスク予測の精度と効率を大幅に向上させる。 最終的に実験の結果、K平均アルゴリズムがユーザフレンドリーな単純さで動作し、94.61%の精度を達成することを確認した。

Financial market risk forecasting involves applying mathematical models, historical data analysis and statistical methods to estimate the impact of future market movements on investments. This process is crucial for investors to develop strategies, financial institutions to manage assets and regulators to formulate policy. In today's society, there are problems of high error rate and low precision in financial market risk prediction, which greatly affect the accuracy of financial market risk prediction. K-means algorithm in machine learning is an effective risk prediction technique for financial market. This study uses K-means algorithm to develop a financial market risk prediction system, which significantly improves the accuracy and efficiency of financial market risk prediction. Ultimately, the outcomes of the experiments confirm that the K-means algorithm operates with user-friendly simplicity and achieves a 94.61% accuracy rate
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# GPT-4、自己説明でほぼ完璧に成功

GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation ( http://arxiv.org/abs/2405.13077v1 )

ライセンス: Link先を確認
Govind Ramesh, Yao Dou, Wei Xu, (参考訳) ジェイルブレイクの研究は、大規模言語モデル(LLM)の安全性とセキュリティの問題をテストし理解するのに有用である。 本稿では, ブラックボックスアクセスのみのジェイルブレイクにおいて, LLMの反射能力を活用する新しい手法であるIRISを導入する。 以前の方法とは異なり、IRISは単一のモデルを攻撃者とターゲットの両方として使用することで、ジェイルブレイクプロセスを単純化する。 この手法はまず, 自己説明を通じて, 敵対的プロンプトを反復的に洗練させる。 IRISは、精製されたプロンプトが有害性を高めるために出力を評価・増強する。 IRIS は GPT-4 で 98%, GPT-4 Turbo で 92% のジェイルブレイク成功率を 7 以下のクエリで達成している。 これは、自動、ブラックボックス、解釈可能なジェイルブレイクにおいて、かなり少ないクエリを必要とする一方で、以前のアプローチよりも大幅に優れており、解釈可能なジェイルブレイクメソッドの新たな標準を確立している。

Research on jailbreaking has been valuable for testing and understanding the safety and security issues of large language models (LLMs). In this paper, we introduce Iterative Refinement Induced Self-Jailbreak (IRIS), a novel approach that leverages the reflective capabilities of LLMs for jailbreaking with only black-box access. Unlike previous methods, IRIS simplifies the jailbreaking process by using a single model as both the attacker and target. This method first iteratively refines adversarial prompts through self-explanation, which is crucial for ensuring that even well-aligned LLMs obey adversarial instructions. IRIS then rates and enhances the output given the refined prompt to increase its harmfulness. We find IRIS achieves jailbreak success rates of 98% on GPT-4 and 92% on GPT-4 Turbo in under 7 queries. It significantly outperforms prior approaches in automatic, black-box and interpretable jailbreaking, while requiring substantially fewer queries, thereby establishing a new standard for interpretable jailbreaking methods.
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# 教師能力の異なる暗黒知識の探索と課題

Exploring Dark Knowledge under Various Teacher Capacities and Addressing Capacity Mismatch ( http://arxiv.org/abs/2405.13078v1 )

ライセンス: Link先を確認
Xin-Chun Li, Wen-Shu Fan, Bowen Tao, Le Gan, De-Chuan Zhan, (参考訳) 知識蒸留(KD)は、よく性能のよい大きなニューラルネットワークの「暗黒の知識」を、より弱く軽量なものに転送することができる。出力ロジットとソフト化確率の観点から、この論文は、異なる能力を持つ教師が提供する暗黒の知識を深く掘り下げる。(1)より大きい教師は、非基底的クラスと区別されない確率ベクトルを生成する傾向にある。(2)異なる能力を持つ教師は、基本的に、相対的なクラス親和性の認知に一貫性がある。過去の実験的研究は、これらの観察を検証し、深遠な経験的説明を提供する。暗黒の知識の違いは、教師が、より正確な「暗黒のミスマッチ」("capacity mismatch")と呼ばれる現象をもたらす。 大規模教員に対する非基幹クラス確率の相違性を高めることは, 容量ミスマッチ問題に対処する可能性がある。 本稿では,この目標を達成し,その成功を,キャパシティミスマッチを解くKD手法と比較することによって検証する。

Knowledge Distillation (KD) could transfer the ``dark knowledge" of a well-performed yet large neural network to a weaker but lightweight one. From the view of output logits and softened probabilities, this paper goes deeper into the dark knowledge provided by teachers with different capacities. Two fundamental observations are: (1) a larger teacher tends to produce probability vectors that are less distinct between non-ground-truth classes; (2) teachers with different capacities are basically consistent in their cognition of relative class affinity. Abundant experimental studies verify these observations and in-depth empirical explanations are provided. The difference in dark knowledge leads to the peculiar phenomenon named ``capacity mismatch" that a more accurate teacher does not necessarily perform as well as a smaller teacher when teaching the same student network. Enlarging the distinctness between non-ground-truth class probabilities for larger teachers could address the capacity mismatch problem. This paper explores multiple simple yet effective ways to achieve this goal and verify their success by comparing them with popular KD methods that solve the capacity mismatch.
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# Eminspector: 埋め込み検査によるフェデレーション自己監視学習におけるバックドアアタックの回避

EmInspector: Combating Backdoor Attacks in Federated Self-Supervised Learning Through Embedding Inspection ( http://arxiv.org/abs/2405.13080v1 )

ライセンス: Link先を確認
Yuwen Qian, Shuchi Wu, Kang Wei, Ming Ding, Di Xiao, Tao Xiang, Chuan Ma, Song Guo, (参考訳) フェデレートされた自己教師型学習(FSSL)は、データプライバシを保護しながら、膨大な量の未ラベルデータの利用を可能にする、有望なパラダイムとして最近登場した。 FSSLはアドバンテージを提供するが、従来のFSL(Federated supervised learning)で特定されている、バックドア攻撃に対する感受性は調査されていない。 研究のギャップを埋めるため、我々はバックドア攻撃のパラダイムを包括的に調査し、不気味なクライアントがグローバルモデルを操作し、そのような攻撃に対するFSSLの脆弱性を明らかにする。 FSLでは、バックドア攻撃は通常、バックドアトリガーとターゲットラベルとを直接関連付ける。 対照的に、FSSLでは、バックドアアタックは、攻撃者の意図するターゲットクラスを優先して、攻撃者の指定したトリガーパターンを含むイメージに対して、グローバルモデルの表現を変更することを目的としている。 この意味では、既存の防御がFSSLのバックドア攻撃を緩和するには不十分であることを示し、効果的な防御機構の発見が急務である。 この問題に対処するため、我々はFSSLに対するバックドア攻撃の基本的なメカニズムを掘り下げ、ローカルモデルの埋め込み空間を検査して悪意のあるクライアントを検出するEmInspector(EmInspector)を提案する。 特に、EmInspectorは、サンプル分布やラベルの特定の要求なしに、小さな検査画像(例えば、CIFAR100の10の画像)を使用して、異なるローカルモデルからの埋め込みの類似性を評価する。 バックドアモデルからの埋め込みは、与えられた検査画像の埋め込み空間にまとめられる傾向があることを発見した。 評価結果から,EmInspectorはFSSLに対するバックドア攻撃を効果的に軽減できることが示された。 私たちのコードはhttps://github.com/ShuchiWu/EmInspector.comで有効です。

Federated self-supervised learning (FSSL) has recently emerged as a promising paradigm that enables the exploitation of clients' vast amounts of unlabeled data while preserving data privacy. While FSSL offers advantages, its susceptibility to backdoor attacks, a concern identified in traditional federated supervised learning (FSL), has not been investigated. To fill the research gap, we undertake a comprehensive investigation into a backdoor attack paradigm, where unscrupulous clients conspire to manipulate the global model, revealing the vulnerability of FSSL to such attacks. In FSL, backdoor attacks typically build a direct association between the backdoor trigger and the target label. In contrast, in FSSL, backdoor attacks aim to alter the global model's representation for images containing the attacker's specified trigger pattern in favor of the attacker's intended target class, which is less straightforward. In this sense, we demonstrate that existing defenses are insufficient to mitigate the investigated backdoor attacks in FSSL, thus finding an effective defense mechanism is urgent. To tackle this issue, we dive into the fundamental mechanism of backdoor attacks on FSSL, proposing the Embedding Inspector (EmInspector) that detects malicious clients by inspecting the embedding space of local models. In particular, EmInspector assesses the similarity of embeddings from different local models using a small set of inspection images (e.g., ten images of CIFAR100) without specific requirements on sample distribution or labels. We discover that embeddings from backdoored models tend to cluster together in the embedding space for a given inspection image. Evaluation results show that EmInspector can effectively mitigate backdoor attacks on FSSL across various adversary settings. Our code is avaliable at https://github.com/ShuchiWu/EmInspector.
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# 生成的視覚とテキストに基づくAIモデルの子どものメンタルモデル

Children's Mental Models of Generative Visual and Text Based AI Models ( http://arxiv.org/abs/2405.13081v1 )

ライセンス: Link先を確認
Eliza Kosoy, Soojin Jeong, Anoop Sinha, Alison Gopnik, Tanya Kraljic, (参考訳) 本研究では,5-12歳児がテキストベースのLLMs ChatGPTや視覚ベースのDALL-Eなどの生成AIモデルをどのように認識し,理解し,利用しているかを検討する。 ジェネレーティブAIは、チャットGPT以来、広く使われている。 子どもたちは、生成AIのメンタルモデルも作っている。 これらはこれまで研究されておらず、また、非常に短い使用量であっても、子供のモデルがツールを使用するときに動的である場合もあります。 5歳から12歳までの40人以上の子どもを調査、実験的に観察した結果、子どもたちは一般的にAIに対して非常に肯定的な見通しを持ち、AIが日々の生活に利益をもたらし、支援する方法に興奮していることがわかった。 強制的な選択では、子どもたちは正の形容詞と負の形容詞を強く結び付ける。 私たちはまた、子供たちがAIモデルに問い合わせているものを分類し、子供たちがテキストベースのAIを使用するときではなく、視覚ベースのAIを使用するときに存在しない、想像力のないものを探すことを見つけました。 追跡調査では,GenAIモデルとの対話前後の子どものAIに対する反応と感情を観察した。 子どもたちは、AIと対話した後で、AIが怖くないことに気付きます。 これらの発見が、子どものメンタルなAIモデルに光を当て、必然的にAIを生かしている子供たちに最適なツールを設計するための洞察を与えてくれることを期待しています。 この研究の動機は、ヒューマン・コンピュータ・インタラクション(HCI)と心理学のギャップを埋め、AIが社会に与える影響を研究することである。 私たちは、AIとは何か、どのように機能するのかという人間の精神モデルにおけるギャップを特定することを目的としています。 これまでの研究は、大人と子供の両方が、さまざまな種類のロボット、コンピュータ、その他の技術概念をどう捉えているかを調査してきた。 しかし、これらの概念を、単にロボットや物理技術を具現化するのではなく、生成的AIモデルのために調査する研究はほとんどない。

In this work we investigate how children ages 5-12 perceive, understand, and use generative AI models such as a text-based LLMs ChatGPT and a visual-based model DALL-E. Generative AI is newly being used widely since chatGPT. Children are also building mental models of generative AI. Those haven't been studied before and it is also the case that the children's models are dynamic as they use the tools, even with just very short usage. Upon surveying and experimentally observing over 40 children ages 5-12, we found that children generally have a very positive outlook towards AI and are excited about the ways AI may benefit and aid them in their everyday lives. In a forced choice, children robustly associated AI with positive adjectives versus negative ones. We also categorize what children are querying AI models for and find that children search for more imaginative things that don't exist when using a visual-based AI and not when using a text-based one. Our follow-up study monitored children's responses and feelings towards AI before and after interacting with GenAI models. We even find that children find AI to be less scary after interacting with it. We hope that these findings will shine a light on children's mental models of AI and provide insight for how to design the best possible tools for children who will inevitably be using AI in their lifetimes. The motivation of this work is to bridge the gap between Human-Computer Interaction (HCI) and Psychology in an effort to study the effects of AI on society. We aim to identify the gaps in humans' mental models of what AI is and how it works. Previous work has investigated how both adults and children perceive various kinds of robots, computers, and other technological concepts. However, there is very little work investigating these concepts for generative AI models and not simply embodied robots or physical technology.
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# 歩行型神経変性疾患診断における人工知能の検討

A Survey of Artificial Intelligence in Gait-Based Neurodegenerative Disease Diagnosis ( http://arxiv.org/abs/2405.13082v1 )

ライセンス: Link先を確認
Haocong Rao, Minlin Zeng, Xuejiao Zhao, Chunyan Miao, (参考訳) 近年、神経変性疾患(ND)による世界的な人口増加が観測されている。 重要な疾患関連運動症状として、ヒトの歩行を利用して異なるNDを特徴づけることができる。 人工知能(AI)モデルの現在の進歩は、NDの識別と分類のための自動歩行分析を可能にし、NDの迅速でコスト効率のよい診断を容易にする新しい道を開く。 本稿では,5つの典型的なNDの歩行による診断に応用した,機械学習とディープラーニングに基づくAI技術の最近の進歩に関する包括的調査を行う。 本稿では,AIによるNDs診断のプロセスの概要と,既存の歩行データとAIモデルの系統分類について述べる。 164研究の広範なレビューと分析を通じて、この分野における課題、潜在的な解決策、今後の方向性を特定し、議論する。 最後に,人間の歩行表現のための3Dスケルトンデータの将来的活用と,NDs診断のためのより効率的なAIモデルの開発を想定する。 私たちは、この新興分野の開発を追跡、促進するための公開リソースリポジトリを提供しています。

Recent years have witnessed an increasing global population affected by neurodegenerative diseases (NDs), which traditionally require extensive healthcare resources and human effort for medical diagnosis and monitoring. As a crucial disease-related motor symptom, human gait can be exploited to characterize different NDs. The current advances in artificial intelligence (AI) models enable automatic gait analysis for NDs identification and classification, opening a new avenue to facilitate faster and more cost-effective diagnosis of NDs. In this paper, we provide a comprehensive survey on recent progress of machine learning and deep learning based AI techniques applied to diagnosis of five typical NDs through gait. We provide an overview of the process of AI-assisted NDs diagnosis, and present a systematic taxonomy of existing gait data and AI models. Through an extensive review and analysis of 164 studies, we identify and discuss the challenges, potential solutions, and future directions in this field. Finally, we envision the prospective utilization of 3D skeleton data for human gait representation and the development of more efficient AI models for NDs diagnosis. We provide a public resource repository to track and facilitate developments in this emerging field: https://github.com/Kali-Hac/AI4NDD-Survey.
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# 第2回未来課題:検索拡張型対話システム(FutureDial-RAG)

The 2nd FutureDial Challenge: Dialog Systems with Retrieval Augmented Generation (FutureDial-RAG) ( http://arxiv.org/abs/2405.13084v1 )

ライセンス: Link先を確認
Yucheng Cai, Si Chen, Yi Huang, Junlan Feng, Zhijian Ou, (参考訳) 第2回未来課題:SLT 2024と併用した検索拡張型ダイアログシステム(FutureDial-RAG)

The 2nd FutureDial Challenge: Dialog Systems with Retrieval Augmented Generation (FutureDial-RAG), Co-located with SLT 2024
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# 多様な下流タスクのための多分野知識グラフ協調事前学習とプロンプトチューニング

Multi-domain Knowledge Graph Collaborative Pre-training and Prompt Tuning for Diverse Downstream Tasks ( http://arxiv.org/abs/2405.13085v1 )

ライセンス: Link先を確認
Yichi Zhang, Binbin Hu, Zhuo Chen, Lingbing Guo, Ziqi Liu, Zhiqiang Zhang, Lei Liang, Huajun Chen, Wen Zhang, (参考訳) 知識グラフ(KG)は、構造化三重項という形で、幅広いAIタスクに対する信頼性の高い外部知識を提供する。 知識グラフ事前学習(KGP)は、大規模なKG上でニューラルネットワークを事前トレーニングし、さまざまな下流タスクを強化する統一インターフェースを提供することを目的としている。 既存の作業は、多くの場合、オープンドメインで純粋に研究する問題に焦点を当てている。 一方、既存の研究では、KGPモデルの深部での訓練効率と伝達性について調べていない。 これらの問題に対処するために,マルチドメイン協調事前学習と効率的なプレフィックス・プロンプトチューニングを実現するためのフレームワーク MuDoK を提案する。 我々の設計は、異なる下流タスクバックボーンに柔軟に適応できるプラグイン・アンド・プレイ・プロンプト・ラーニング・アプローチである。 オープンソースのベンチマークが欠如しているため、我々はKPIと呼ばれる新しいマルチドメインKGPベンチマークを構築し、2つの大規模KGと6つの異なるサブドメインタスクを用いて、我々の手法を評価し、その後の研究のためにオープンソース化した。 提案手法は, 多様なバックボーンモデルを用いて構築されたKPIベンチマークに基づいて評価した。 実験結果から,本フレームワークは汎用性,効率性,転送性とともに,大幅な性能向上をもたらすことが示された。

Knowledge graphs (KGs) provide reliable external knowledge for a wide variety of AI tasks in the form of structured triples. Knowledge graph pre-training (KGP) aims to pre-train neural networks on large-scale KGs and provide unified interfaces to enhance different downstream tasks, which is a key direction for KG management, maintenance, and applications. Existing works often focus on purely research questions in open domains, or they are not open source due to data security and privacy in real scenarios. Meanwhile, existing studies have not explored the training efficiency and transferability of KGP models in depth. To address these problems, We propose a framework MuDoK to achieve multi-domain collaborative pre-training and efficient prefix prompt tuning to serve diverse downstream tasks like recommendation and text understanding. Our design is a plug-and-play prompt learning approach that can be flexibly adapted to different downstream task backbones. In response to the lack of open-source benchmarks, we constructed a new multi-domain KGP benchmark called KPI with two large-scale KGs and six different sub-domain tasks to evaluate our method and open-sourced it for subsequent research. We evaluated our approach based on constructed KPI benchmarks using diverse backbone models in heterogeneous downstream tasks. The experimental results show that our framework brings significant performance gains, along with its generality, efficiency, and transferability.
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# 資源を考慮したDNNプルーニングにおける妥当性とマグニチュードの組み合わせ

Combining Relevance and Magnitude for Resource-Aware DNN Pruning ( http://arxiv.org/abs/2405.13088v1 )

ライセンス: Link先を確認
Carla Fabiana Chiasserini, Francesco Malandrino, Nuria Molner, Zhiqiang Zhao, (参考訳) ニューラルネットワークのプルーニング、すなわち、精度を維持しながらパラメータの一部を削除することは、特にリソースや帯域制限のあるシナリオにおいて、機械学習パイプラインのレイテンシを低減する主要な方法の1つである。 この文脈では、取り除くパラメータをどうやって選択するかというプルーニング技術がシステム性能に不可欠である。 本稿では,計算資源と帯域幅の両方を節約しつつ,結果の精度を向上するため,FlexRelと呼ばれる新しいプルーニング手法を提案する。 性能評価の結果,FlexRelは高いプルーニング係数を達成でき,通常の精度目標に対して35%以上の帯域幅を節約できることがわかった。

Pruning neural networks, i.e., removing some of their parameters whilst retaining their accuracy, is one of the main ways to reduce the latency of a machine learning pipeline, especially in resource- and/or bandwidth-constrained scenarios. In this context, the pruning technique, i.e., how to choose the parameters to remove, is critical to the system performance. In this paper, we propose a novel pruning approach, called FlexRel and predicated upon combining training-time and inference-time information, namely, parameter magnitude and relevance, in order to improve the resulting accuracy whilst saving both computational resources and bandwidth. Our performance evaluation shows that FlexRel is able to achieve higher pruning factors, saving over 35% bandwidth for typical accuracy targets.
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# SEGAN: 欠落データ計算のための半教師付き学習手法

SEGAN: semi-supervised learning approach for missing data imputation ( http://arxiv.org/abs/2405.13089v1 )

ライセンス: Link先を確認
Xiaohua Pan, Weifeng Wu, Peiran Liu, Zhen Li, Peng Lu, Peijian Cao, Jianfeng Zhang, Xianfei Qiu, YangYang Wu, (参考訳) 多くの実世界の応用において、データ不足は非常に一般的な現象であり、データ駆動人工知能理論や技術の開発がますます困難になっている。 データ補完は、データ前処理の欠如にとって重要な方法である。 ほとんどの既存のミススルーデータ補完モデルは、欠落したデータセットの既知の情報を直接使用するが、欠落したデータ補完モデルにデータセットに含まれるデータラベル情報の影響を無視する。 本稿では,主にジェネレータ,識別器,分類器の3つの重要なモジュールを含む半教師付き学習に基づくデータ補完モデルSEGANを提案する。 SEGANモデルでは、ジェネレータは、欠落したデータ値を予測する際に、既知のデータとそのラベル情報をよりフルに利用することができる。 さらに、SE-GANモデルでは、識別器が既知のデータとジェネレータによって満たされたデータをより効果的に識別できるように、ヒント行列が欠落している。 本稿では,分類器とヒント行列の欠如を導入したSEGANモデルが,ナッシュ平衡に達すると実データ分布特性を学習できることを理論的に証明する。 最後に, 本論文では, 多数の実験を行い, 実験結果から, 現状の多変量データ補完法と組み合わせて, SEGANモデルの性能を3%以上向上することを示した。

In many practical real-world applications, data missing is a very common phenomenon, making the development of data-driven artificial intelligence theory and technology increasingly difficult. Data completion is an important method for missing data preprocessing. Most existing miss-ing data completion models directly use the known information in the missing data set but ignore the impact of the data label information contained in the data set on the missing data completion model. To this end, this paper proposes a missing data completion model SEGAN based on semi-supervised learning, which mainly includes three important modules: generator, discriminator and classifier. In the SEGAN model, the classifier enables the generator to make more full use of known data and its label information when predicting missing data values. In addition, the SE-GAN model introduces a missing hint matrix to allow the discriminator to more effectively distinguish between known data and data filled by the generator. This paper theoretically proves that the SEGAN model that introduces a classifier and a missing hint matrix can learn the real known data distribution characteristics when reaching Nash equilibrium. Finally, a large number of experiments were conducted in this article, and the experimental results show that com-pared with the current state-of-the-art multivariate data completion method, the performance of the SEGAN model is improved by more than 3%.
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# FedASTA:交通流予測のための適応型時空間注意機能

FedASTA: Federated adaptive spatial-temporal attention for traffic flow prediction ( http://arxiv.org/abs/2405.13090v1 )

ライセンス: Link先を確認
Kaiyuan Li, Yihan Zhang, Xinlei Chen, (参考訳) モバイルデバイスとIoT(Internet of Things)デバイスは、今日では大量の異種空間時間データを生成している。 プライバシーの懸念の下で空間的時間的ダイナミクスをモデル化することは依然として難しい問題である。 フェデレートラーニング(FL)は、プライバシの懸念を減らすために、オリジナルのデータを共有することなく、分散デバイス間のモデルトレーニングを可能にするフレームワークとして提案されている。 パーソナライズド・フェデレーションド・ラーニング(PFL)手法は、データの異種問題にさらに対処する。 しかし,これらの手法はノード間の自然空間関係を考慮しない。 空間関係をモデル化するために,グラフニューラルネトワーク(GNN)に基づくFL手法が提案されている。 しかし、エッジノード間の動的時空間関係は考慮されていない。 中央集権環境における空間時間力学をモデル化するアプローチもいくつかあるが、連合環境下での取り組みは少ない。 これらの課題を克服するために,動的空間的時間的関係をモデル化する新しいフェデレーション適応時空間注意(FedASTA)フレームワークを提案する。 クライアントノードでは、FedASTAはオリジナルの時系列の分解された用語から時間的関係と傾向パターンを抽出する。 次に、サーバノード上でFedASTAはクライアントのトレンドパターンを利用して、クライアント間の動的相関を捉える適応的時間空間認識グラフを構築する。 また,静的グラフと適応グラフを併用したマスク付き空間アテンションモジュールを設計し,クライアント間の空間依存をモデル化する。 5つの実世界の公共交通フローデータセットに対する大規模な実験により,フェデレートされたシナリオにおいて,我々の手法が最先端の性能を達成することを示す。 さらに、集中的な設定で行った実験は、他の一般的な動的時空間認識手法と比較して、我々の新しい適応グラフ構築手法の有効性を示した。

Mobile devices and the Internet of Things (IoT) devices nowadays generate a large amount of heterogeneous spatial-temporal data. It remains a challenging problem to model the spatial-temporal dynamics under privacy concern. Federated learning (FL) has been proposed as a framework to enable model training across distributed devices without sharing original data which reduce privacy concern. Personalized federated learning (PFL) methods further address data heterogenous problem. However, these methods don't consider natural spatial relations among nodes. For the sake of modeling spatial relations, Graph Neural Netowork (GNN) based FL approach have been proposed. But dynamic spatial-temporal relations among edge nodes are not taken into account. Several approaches model spatial-temporal dynamics in a centralized environment, while less effort has been made under federated setting. To overcome these challeges, we propose a novel Federated Adaptive Spatial-Temporal Attention (FedASTA) framework to model the dynamic spatial-temporal relations. On the client node, FedASTA extracts temporal relations and trend patterns from the decomposed terms of original time series. Then, on the server node, FedASTA utilize trend patterns from clients to construct adaptive temporal-spatial aware graph which captures dynamic correlation between clients. Besides, we design a masked spatial attention module with both static graph and constructed adaptive graph to model spatial dependencies among clients. Extensive experiments on five real-world public traffic flow datasets demonstrate that our method achieves state-of-art performance in federated scenario. In addition, the experiments made in centralized setting show the effectiveness of our novel adaptive graph construction approach compared with other popular dynamic spatial-temporal aware methods.
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# CausalPlayground:Cutting-Edge Causality Researchにおけるデータ生成要求に対処する

CausalPlayground: Addressing Data-Generation Requirements in Cutting-Edge Causality Research ( http://arxiv.org/abs/2405.13092v1 )

ライセンス: Link先を確認
Andreas W M Sauter, Erman Acar, Aske Plaat, (参考訳) 因果効果の研究は、しばしば地上構造効果を持つ実世界のデータセットが不足しているため、合成データに依存する。 現在のデータ生成ツールは、常に最先端の研究の全ての要件を満たすわけではないため、アドホックな手法がしばしば用いられる。 これはデータセットの不均一性をもたらし、研究の進展を遅らせる。 我々は、構造因果モデル(SCM)の生成、サンプリング、共有のための標準化されたプラットフォームを提供するPythonライブラリであるCausalPlaygroundを導入することで、現在のデータ生成ライブラリの欠点に対処する。 CausalPlaygroundは、SCMの詳細な制御、介入、学習と定量的研究のためのSCMのデータセットの生成を提供する。 さらに、強化学習環境(RL)の標準フレームワークであるGymnasiumと統合することにより、SCMとのオンラインインタラクションを可能にする。 全体として、CausalPlaygroundを導入することで、この分野におけるより効率的で同等の研究を促進することを目指しています。 すべてのコードとAPIドキュメンテーションはhttps://github.com/sa-and/CausalPlayground.comで公開されている。

Research on causal effects often relies on synthetic data due to the scarcity of real-world datasets with ground-truth effects. Since current data-generating tools do not always meet all requirements for state-of-the-art research, ad-hoc methods are often employed. This leads to heterogeneity among datasets and delays research progress. We address the shortcomings of current data-generating libraries by introducing CausalPlayground, a Python library that provides a standardized platform for generating, sampling, and sharing structural causal models (SCMs). CausalPlayground offers fine-grained control over SCMs, interventions, and the generation of datasets of SCMs for learning and quantitative research. Furthermore, by integrating with Gymnasium, the standard framework for reinforcement learning (RL) environments, we enable online interaction with the SCMs. Overall, by introducing CausalPlayground we aim to foster more efficient and comparable research in the field. All code and API documentation is available at https://github.com/sa-and/CausalPlayground.
翻訳日:2024-05-25 04:22:11 公開日:2024-05-21
# 熱力学による局所的なグラフニューラルネットワーク

Graph neural networks informed locally by thermodynamics ( http://arxiv.org/abs/2405.13093v1 )

ライセンス: Link先を確認
Alicia Tierz, Iciar Alfaro, David González, Francisco Chinesta, Elías Cueto, (参考訳) 熱力学インフォームドニューラルネットワークは、熱力学の第1原理と第2原理の施行に誘導バイアスを用いる。 これらのバイアスを構築するために、系の緯度進化を仮定する。 これは、非インフォームされたブラックボックスネットワークと比較して、優れた結果をもたらす。 グラフネットワークの場合、精度は1~2桁に向上するが、これはグローバルなポアソンと散逸行列を組み立てることを必要とし、そのようなネットワークの局所構造を壊す。 この欠点を回避するため, 上記の行列組立を回避し, グラフネットワークのノード・バイ・ノード構造を保ちながら, 直交バイアスの局所バージョンを開発した。 この枠組みを固体力学や流体力学の分野に応用する。 提案手法は計算効率と強力な一般化能力を示し,実例の推測をトレーニング中に遭遇したものとは大きく異なるものにする。

Thermodynamics-informed neural networks employ inductive biases for the enforcement of the first and second principles of thermodynamics. To construct these biases, a metriplectic evolution of the system is assumed. This provides excellent results, when compared to uninformed, black box networks. While the degree of accuracy can be increased in one or two orders of magnitude, in the case of graph networks, this requires assembling global Poisson and dissipation matrices, which breaks the local structure of such networks. In order to avoid this drawback, a local version of the metriplectic biases has been developed in this work, which avoids the aforementioned matrix assembly, thus preserving the node-by-node structure of the graph networks. We apply this framework for examples in the fields of solid and fluid mechanics. Our approach demonstrates significant computational efficiency and strong generalization capabilities, accurately making inferences on examples significantly different from those encountered during training.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# KPG:強化学習に基づく地震検出のためのキープロパゲーショングラフ生成装置

KPG: Key Propagation Graph Generator for Rumor Detection based on Reinforcement Learning ( http://arxiv.org/abs/2405.13094v1 )

ライセンス: Link先を確認
Yusong Zhang, Kun Xie, Xingyi Zhang, Xiangyu Dong, Sibo Wang, (参考訳) 米国の選挙や新型コロナウイルス(COVID-19)のパンデミックなど、ソーシャルメディア上での噂の高まりは、社会の安定と公衆衛生に大きな影響を与えている。 既存の噂検出手法は主にモデルの有効性を高めるために伝播グラフに依存している。 しかし,伝搬過程におけるノイズや無関係構造の存在は,これらの手法の有効性を制限している。 この問題に対処するため、重量調整やデータ拡張といった手法が提案されている。 しかし、これらの技術はリッチなオリジナル伝搬構造に大きく依存しており、初期の伝播段階で十分な伝搬情報がないという噂に対処する際の性能を損なう。 本稿では, トポロジ情報が不十分なイベントに対して, 文脈的に一貫性のある情報伝達パターンを生成するとともに, 冗長でノイズの多いイベントに対する表現的サブストラクチャを識別する, 拡張学習に基づく新しい噂検出フレームワークであるKey Propagation Graph Generator (KPG)を提案する。 KPGはCandidate Response Generator (CRG)とEnding Node Selector (ENS)の2つの重要なコンポーネントで構成されている。 CRGは、洗練された伝搬パターンから潜時分布を学習し、ノイズを除去し、ENSの新しい候補を生成する。 ENSは同時に、伝播グラフ内の最も影響力のあるサブ構造を特定し、CRGのトレーニングデータを生成する。 さらに,報奨を生かしたエンドツーエンドのフレームワークを導入し,事前学習したグラフニューラルネットワークを通じてトレーニングプロセス全体をガイドする。 4つのデータセットで実施された大規模な実験は、最先端のアプローチと比較して、KPGの優位性を示している。

The proliferation of rumors on social media platforms during significant events, such as the US elections and the COVID-19 pandemic, has a profound impact on social stability and public health. Existing approaches for rumor detection primarily rely on propagation graphs to enhance model effectiveness. However, the presence of noisy and irrelevant structures during the propagation process limits the efficacy of these approaches. To tackle this issue, techniques such as weight adjustment and data augmentation have been proposed. However, these techniques heavily depend on rich original propagation structures, thus hindering performance when dealing with rumors that lack sufficient propagation information in the early propagation stages. In this paper, we propose Key Propagation Graph Generator (KPG), a novel reinforcement learning-based rumor detection framework that generates contextually coherent and informative propagation patterns for events with insufficient topology information, while also identifies indicative substructures for events with redundant and noisy propagation structures. KPG consists of two key components: the Candidate Response Generator (CRG) and the Ending Node Selector (ENS). CRG learns the latent distribution from refined propagation patterns, filtering out noise and generating new candidates for ENS. Simultaneously, ENS identifies the most influential substructures within propagation graphs and generates training data for CRG. Moreover, we introduce an end-to-end framework that utilizes rewards to guide the entire training process via a pre-trained graph neural network. Extensive experiments conducted on four datasets demonstrate the superiority of our KPG compared to the state-of-the-art approaches.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# プレゼンテーションは必ずしも線形ではない! GNN がドキュメントからプレゼンテーションへの変換のための LLM と attribution

Presentations are not always linear! GNN meets LLM for Document-to-Presentation Transformation with Attribution ( http://arxiv.org/abs/2405.13095v1 )

ライセンス: Link先を確認
Himanshu Maheshwari, Sambaran Bandyopadhyay, Aparna Garimella, Anandhavelu Natarajan, (参考訳) 長い文書のテキストからプレゼンテーションを自動的に生成することは、困難で有用な問題である。 フラットな要約とは対照的に、プレゼンテーションはより良く非線形な物語、すなわちスライドの内容は、与えられた文書の異なる部分と非連続的な部分から得る必要がある。 しかし、このような非直線的なコンテンツマッピングをスライドに組み込むことは困難であり、その内容が文書に忠実であることを保証することは困難である。 LLMは幻覚を起こす傾向があり、その性能は入力文書の長さとともに低下する。 そこで本研究では,入力文書からグラフを学習し,グラフニューラルネットワークとLLMの組み合わせを用いて,各スライドに対するコンテンツの属性によるプレゼンテーションを生成する,新しいグラフベースソリューションを提案する。 本研究は, LLM を直接使用した場合と比較して, アプローチのメリットを示すため, 徹底的な実験を行う。

Automatically generating a presentation from the text of a long document is a challenging and useful problem. In contrast to a flat summary, a presentation needs to have a better and non-linear narrative, i.e., the content of a slide can come from different and non-contiguous parts of the given document. However, it is difficult to incorporate such non-linear mapping of content to slides and ensure that the content is faithful to the document. LLMs are prone to hallucination and their performance degrades with the length of the input document. Towards this, we propose a novel graph based solution where we learn a graph from the input document and use a combination of graph neural network and LLM to generate a presentation with attribution of content for each slide. We conduct thorough experiments to show the merit of our approach compared to directly using LLMs for this task.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# NieR:普通の照明シーンレンダリング

NieR: Normal-Based Lighting Scene Rendering ( http://arxiv.org/abs/2405.13097v1 )

ライセンス: Link先を確認
Hongsheng Wang, Yang Wang, Yalan Liu, Fayuan Hu, Shengyu Zhang, Fei Wu, Feng Lin, (参考訳) 現実の道路シーンでは、多様な材料特性が複雑な光反射現象を引き起こし、シミュレートされた運転環境の現実性と安全性を高めるために正確な色再現が不可欠である。 しかし、既存の手法は、特に視点の変化が重要な物質色の変化を引き起こす動的なシナリオにおいて、照明効果の全スペクトルを捉えるのに苦労することが多い。 この課題に対処するために、さまざまな材料表面における光反射のニュアンスを考慮し、より正確なレンダリングを実現する新しいフレームワークであるNieR(Normal-Based Lighting Scene Rendering)を紹介した。 照明合成過程をシミュレートするため,表面の反射特性を捉えるLD(Light Decomposition)モジュールを提案する。 さらに, 動的照明シーンに対処するため, 疎ガウス表現の限界を克服するHNGD (Hierarchical Normal Gradient Densification) モジュールを提案する。 具体的には、正規勾配に基づいてガウス密度を動的に調整する。 実験により,本手法は視覚的品質の点で最先端(SOTA)法より優れ,性能指標に有意な優位性を示すことが示された。 コードはhttps://wanghongsheng01.github.io/NieR/で公開されている。

In real-world road scenes, diverse material properties lead to complex light reflection phenomena, making accurate color reproduction crucial for enhancing the realism and safety of simulated driving environments. However, existing methods often struggle to capture the full spectrum of lighting effects, particularly in dynamic scenarios where viewpoint changes induce significant material color variations. To address this challenge, we introduce NieR (Normal-Based Lighting Scene Rendering), a novel framework that takes into account the nuances of light reflection on diverse material surfaces, leading to more precise rendering. To simulate the lighting synthesis process, we present the LD (Light Decomposition) module, which captures the lighting reflection characteristics on surfaces. Furthermore, to address dynamic lighting scenes, we propose the HNGD (Hierarchical Normal Gradient Densification) module to overcome the limitations of sparse Gaussian representation. Specifically, we dynamically adjust the Gaussian density based on normal gradients. Experimental evaluations demonstrate that our method outperforms state-of-the-art (SOTA) methods in terms of visual quality and exhibits significant advantages in performance indicators. Codes are available at https://wanghongsheng01.github.io/NieR/.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# オンライン健康コミュニティにおける情報支援質問応答ペアにおける感情の役割 : マルチモーダルディープラーニングアプローチ

The Role of Emotions in Informational Support Question-Response Pairs in Online Health Communities: A Multimodal Deep Learning Approach ( http://arxiv.org/abs/2405.13099v1 )

ライセンス: Link先を確認
Mohsen Jozani, Jason A. Williams, Ahmed Aleroud, Sarbottam Bhagat, (参考訳) 本研究は,オンライン・ヘルス・コミュニティにおいて,質問・回答・助力評価を求める情報支援の関連について検討した。 我々は、質問応答対のラベル付きデータセットを作成し、情報支援質問や回答を確実に予測するマルチモーダル機械学習とディープラーニングモデルを開発した。 我々は、情報支援交換に埋め込まれた感情を明らかにするために説明可能なAIを使用し、情報支援の提供における感情の重要性を実証した。 この感情的支援と情報的支援の複雑な相互作用は、これまで研究されていない。 この研究は、社会支援理論を洗練させ、ユーザ意思決定支援の開発の基礎を築き上げている。 さらなる意味について論じる。

This study explores the relationship between informational support seeking questions, responses, and helpfulness ratings in online health communities. We created a labeled data set of question-response pairs and developed multimodal machine learning and deep learning models to reliably predict informational support questions and responses. We employed explainable AI to reveal the emotions embedded in informational support exchanges, demonstrating the importance of emotion in providing informational support. This complex interplay between emotional and informational support has not been previously researched. The study refines social support theory and lays the groundwork for the development of user decision aids. Further implications are discussed.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# DAG-Adaptation of the Onion Method による因果発見の検証

Better Simulations for Validating Causal Discovery with the DAG-Adaptation of the Onion Method ( http://arxiv.org/abs/2405.13100v1 )

ライセンス: Link先を確認
Bryan Andrews, Erich Kummerfeld, (参考訳) データから因果モデルを学ぶ人工知能アルゴリズムの数は急速に増えている。 ほとんどの『因果発見』や『因果構造学習』のアルゴリズムは、主にシミュレーション研究によって検証される。 しかしながら、広く受け入れられているシミュレーション標準は存在せず、出版物は、しばしば競合するパフォーマンス統計を報告します。 これに対し、いくつかの写本は、線形の場合のアルゴリズムを検証するために一般的なシミュレーション設計を批判している。 配向非巡回グラフ(DAG)に対する線形モデル生成のための新しいシミュレーション設計法を提案する。 DaOシミュレーションは線形効果の分布よりも相関行列の分布を優先するため、既存のシミュレーションと根本的に異なる。 具体的には、DAO法は、(マルコフから)DAGと整合したすべての相関行列の空間を均一にサンプリングする。 また,DAGのサンプル化方法や,DAGをスケールフリー・イン・ディグリーまたはアウト・ディグリーで生成する方法についても論じる。 我々は、DaOメソッドを2つの代替シミュレーション設計と比較し、PythonとRでDaOメソッドの実装を提供する: https://github.com/bja43/DaO_simulation。 我々は,DAOシミュレーションを公正な普遍的ベンチマークとして採用することを主張する。

The number of artificial intelligence algorithms for learning causal models from data is growing rapidly. Most ``causal discovery'' or ``causal structure learning'' algorithms are primarily validated through simulation studies. However, no widely accepted simulation standards exist and publications often report conflicting performance statistics -- even when only considering publications that simulate data from linear models. In response, several manuscripts have criticized a popular simulation design for validating algorithms in the linear case. We propose a new simulation design for generating linear models for directed acyclic graphs (DAGs): the DAG-adaptation of the Onion (DaO) method. DaO simulations are fundamentally different from existing simulations because they prioritize the distribution of correlation matrices rather than the distribution of linear effects. Specifically, the DaO method uniformly samples the space of all correlation matrices consistent with (i.e. Markov to) a DAG. We also discuss how to sample DAGs and present methods for generating DAGs with scale-free in-degree or out-degree. We compare the DaO method against two alternative simulation designs and provide implementations of the DaO method in Python and R: https://github.com/bja43/DaO_simulation. We advocate for others to adopt DaO simulations as a fair universal benchmark.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# C++、Fortran、Go、Java、Julia、Matlab、Python、R、Rust用のAI生成コードの評価

Evaluating AI-generated code for C++, Fortran, Go, Java, Julia, Matlab, Python, R, and Rust ( http://arxiv.org/abs/2405.13101v1 )

ライセンス: Link先を確認
Patrick Diehl, Noujoud Nader, Steve Brandt, Hartmut Kaiser, (参考訳) 本研究では,ChatGPTバージョン3.5と4の多種多様なプログラミング言語におけるコード生成能力を評価する。 我々の目標は、これらのAIモデルが科学プログラムを生成するための有効性を評価することである。 そこで我々はChatGPTに,単純な数値積分,共役勾配解法,並列1次元ステンシル式熱方程式解法という3つの異なる符号を生成するよう依頼した。 分析の焦点は、コードのコンパイル、実行時のパフォーマンス、正確性でした。 どちらのバージョンのChatGPTも(多少の助けを借りて)コンパイルと実行に成功しているが、いくつかの言語はAIが他の言語よりも使いやすくなった(おそらくはトレーニングセットのサイズのため)。 並列コードは、私たちがここで研究した単純な例でさえも、AIが正しく生成することが難しい。

This study evaluates the capabilities of ChatGPT versions 3.5 and 4 in generating code across a diverse range of programming languages. Our objective is to assess the effectiveness of these AI models for generating scientific programs. To this end, we asked ChatGPT to generate three distinct codes: a simple numerical integration, a conjugate gradient solver, and a parallel 1D stencil-based heat equation solver. The focus of our analysis was on the compilation, runtime performance, and accuracy of the codes. While both versions of ChatGPT successfully created codes that compiled and ran (with some help), some languages were easier for the AI to use than others (possibly because of the size of the training sets used). Parallel codes -- even the simple example we chose to study here -- also difficult for the AI to generate correctly.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# オンライン学習による取引ボリュームの最大化

Trading Volume Maximization with Online Learning ( http://arxiv.org/abs/2405.13102v1 )

ライセンス: Link先を確認
Tommaso Cesari, Roberto Colomboni, (参考訳) オンライン学習フレームワークにおけるトレーサ間のブローカについて検討する。 交換が相互に有益であるならば、2人のトレーダーが1つの資産を交換するために会合する。 ブローカーはトレーディング価格を提案し、各トレーダは、その価格が自身のプライベートなバリュエーションよりも高いか低いかに応じて、その資産を売却したり、相手から資産を購入しようとする。 取引は、一方のトレーダーが売り、もう一方のトレーダーが提案された価格で買いたい場合に行われる。 それまでの作業は、トレーダーの利益を最大化してトレーダーの総利益を高めることを目的としたブローカーへのガイダンスを提供し、トレーダーの純益の合計として各取引後の取引が定義された。 対照的に、取引量、すなわち取引総数を最大化するためにブローカーがどのように振る舞うかを検討する。 我々は、トレーダーのバリュエーションを未知の分布を持つi.d.プロセスとしてモデル化する。 相互作用の後にトレーダーのバリュエーションが明らかにされ(フルフィードバック)、トレーダーのバリュエーションが累積分布関数(cdf)が連続である場合、対数後悔を達成するアルゴリズムを提供し、その最適性を一定要素まで示す。 提案された価格で売り買いの意思が各取引の後に明らかにされる場合(2$-bitのフィードバック)、トレーダのcdfがリプシッツであり、このレートがほぼ最適であることを示す場合に、多言語的後悔を達成するアルゴリズムを提供する。 我々は、未知のトレーダーのバリュエーションcdfに対する規則性の仮定を下げることの意味を分析することで、その結果を補完する。 連続 cdf の仮定を下すと、後悔率は $\Theta(\sqrt{T})$ に縮退する。 もしリプシッツ cdf の仮定を捨てると、学習は 2$-bit のフィードバックケースでは不可能になる。

We explore brokerage between traders in an online learning framework. At any round $t$, two traders meet to exchange an asset, provided the exchange is mutually beneficial. The broker proposes a trading price, and each trader tries to sell their asset or buy the asset from the other party, depending on whether the price is higher or lower than their private valuations. A trade happens if one trader is willing to sell and the other is willing to buy at the proposed price. Previous work provided guidance to a broker aiming at enhancing traders' total earnings by maximizing the gain from trade, defined as the sum of the traders' net utilities after each interaction. In contrast, we investigate how the broker should behave to maximize the trading volume, i.e., the total number of trades. We model the traders' valuations as an i.i.d. process with an unknown distribution. If the traders' valuations are revealed after each interaction (full-feedback), and the traders' valuations cumulative distribution function (cdf) is continuous, we provide an algorithm achieving logarithmic regret and show its optimality up to constant factors. If only their willingness to sell or buy at the proposed price is revealed after each interaction ($2$-bit feedback), we provide an algorithm achieving poly-logarithmic regret when the traders' valuations cdf is Lipschitz and show that this rate is near-optimal. We complement our results by analyzing the implications of dropping the regularity assumptions on the unknown traders' valuations cdf. If we drop the continuous cdf assumption, the regret rate degrades to $\Theta(\sqrt{T})$ in the full-feedback case, where $T$ is the time horizon. If we drop the Lipschitz cdf assumption, learning becomes impossible in the $2$-bit feedback case.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# 2+1d格子ゲージ理論における非可逆および高形式対称性

Non-invertible and higher-form symmetries in 2+1d lattice gauge theories ( http://arxiv.org/abs/2405.13105v1 )

ライセンス: Link先を確認
Yichul Choi, Yaman Sanghavi, Shu-Heng Shao, Yunqin Zheng, (参考訳) 標準 2+1d 格子 $\mathbb{Z}_2$ゲージ理論において、イジングモデルと結合した正確な一般化対称性を探索し、それらの連続体理論と比較する。 1つのモデルは(非正則でない)非可逆対称性を持ち、2つの異なる非可逆対称性保護位相を同定する。 非可逆代数は、積状態からトーリック符号基底状態を生成する格子凝縮作用素を含む。 別のモデルは、1-形式対称性と通常の対称性の混合異常を持つ。 この異常は位相図において「ヒッグス=SPT」の提案と一致する非自明な遷移を強制する。 最後に、これらの2つのモデルにおける対称性と異常が、ケネディ・タサキ変換の2+1d版であるゲージングによってどのように関連しているかについて議論する。

We explore exact generalized symmetries in the standard 2+1d lattice $\mathbb{Z}_2$ gauge theory coupled to the Ising model, and compare them with their continuum field theory counterparts. One model has a (non-anomalous) non-invertible symmetry, and we identify two distinct non-invertible symmetry protected topological phases. The non-invertible algebra involves a lattice condensation operator, which creates a toric code ground state from a product state. Another model has a mixed anomaly between a 1-form symmetry and an ordinary symmetry. This anomaly enforces a nontrivial transition in the phase diagram, consistent with the "Higgs=SPT" proposal. Finally, we discuss how the symmetries and anomalies in these two models are related by gauging, which is a 2+1d version of the Kennedy-Tasaki transformation.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# 非アベリア格子ゲージ理論における量子多体スキャリング

Quantum Many-Body Scarring in a Non-Abelian Lattice Gauge Theory ( http://arxiv.org/abs/2405.13112v1 )

ライセンス: Link先を確認
Giuseppe Calajò, Giovanni Cataldi, Marco Rigobello, Darvin Wanisch, Pietro Silvi, Simone Montangero, Jad C. Halimeh, (参考訳) 量子多体散乱(Quantum many-body scarring, QMBS)は、エルゴディディディティ破壊の興味深いメカニズムであり、近年大きな注目を集めている。 特にアベリア格子ゲージ理論 (LGTs) では、QMBS が非アベリアLGT に自明に現れるかどうかが議論されている。 ここでは、動的物質を持つ非アベリアSU(2)LGTにおける頑健なQMBSの証拠を示す。 実験的なオーバーヘッドがほとんどない積状態から始めると、特定のクエンチに対して顕著なQMBSが出現し、中間子とバリオン・アンティバリオンの励起が促進され、非アベリアの性質が強調される。 発見されていないスカーレッドのダイナミクスは、実験的にアクセス可能な局所観測装置における長期間のコヒーレント振動、および州の忠実さにおける顕著な回復として現れている。 我々の発見は、QMBSを非アベリアLGTの領域に持ち込み、スカーリングとゲージ対称性の親密な関係を強調し、最近提案されたトラップイオンキュート量子コンピュータで観測可能である。

Quantum many-body scarring (QMBS) is an intriguing mechanism of ergodicity breaking that has recently spurred significant attention. Particularly prominent in Abelian lattice gauge theories (LGTs), an open question is whether QMBS nontrivially arises in non-Abelian LGTs. Here, we present evidence of robust QMBS in a non-Abelian SU(2) LGT with dynamical matter. Starting in product states that require little experimental overhead, we show that prominent QMBS arises for certain quenches, facilitated through meson and baryon-antibaryon excitations, highlighting its non-Abelian nature. The uncovered scarred dynamics manifests as long-lived coherent oscillations in experimentally accessible local observables as well as prominent revivals in the state fidelity. Our findings bring QMBS to the realm of non-Abelian LGTs, highlighting the intimate connection between scarring and gauge symmetry, and are amenable for observation in a recently proposed trapped-ion qudit quantum computer.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# 量子コンピュータによる光活性スピン欠陥のシミュレーション

Simulating optically-active spin defects with a quantum computer ( http://arxiv.org/abs/2405.13115v1 )

ライセンス: Link先を確認
Jack S. Baker, Pablo A. M. Casares, Modjtaba Shokrian Zini, Jaydeep Thik, Debasish Banerjee, Chen Ling, Alain Delgado, Juan Miguel Arrazola, (参考訳) 量子センシングプラットフォームの開発を支援するため、材料中の欠陥の光電子特性のより正確な計算シミュレーションが必要である。 本研究では,この目的のために量子コンピュータを効果的に活用する方法について検討する。 具体的には、光学活性な欠陥状態とその放射放出率をシミュレートするフォールトトレラント量子アルゴリズムを開発する。 我々は、欠陥を含むスーパーセルのハミルトニアンを誘電体スクリーニング効果を考慮に入れたより小さく効果的なハミルトニアンに変換するために量子欠陥埋め込み理論を用いる。 本手法は、双極子作用素のブロックエンコーディングと量子位相推定を統合し、最大双極子遷移振幅を示す光学活性励起状態を選択的にサンプリングする。 また、六方晶窒化ホウ素クラスターにおける負電荷のホウ素空孔をシミュレートするために必要な量子資源の推定を行った。 量子コンピュータの可能性について、量子センサーの能力を高め、量子コンピューティングが従来のコンピュータでは難しい問題を解くことのできる特定のシナリオを特定するために、先見的な視点を提供する。

There is a pressing need for more accurate computational simulations of the opto-electronic properties of defects in materials to aid in the development of quantum sensing platforms. In this work, we explore how quantum computers could be effectively utilized for this purpose. Specifically, we develop fault-tolerant quantum algorithms to simulate optically active defect states and their radiative emission rates. We employ quantum defect embedding theory to translate the Hamiltonian of a defect-containing supercell into a smaller, effective Hamiltonian that accounts for dielectric screening effects. Our approach integrates block-encoding of the dipole operator with quantum phase estimation to selectively sample the optically active excited states that exhibit the largest dipole transition amplitudes. We also provide estimates of the quantum resources required to simulate a negatively-charged boron vacancy in a hexagonal boron nitride cluster. We conclude by offering a forward-looking perspective on the potential of quantum computers to enhance quantum sensor capabilities and identify specific scenarios where quantum computing can resolve problems traditionally challenging for classical computers.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# 画像キャプションのための検索拡張アーキテクチャに向けて

Towards Retrieval-Augmented Architectures for Image Captioning ( http://arxiv.org/abs/2405.13127v1 )

ライセンス: Link先を確認
Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Alessandro Nicolosi, Rita Cucchiara, (参考訳) 画像キャプションモデルの目的は、入力画像の内容を正確に反映した自然言語記述を生成することにより、視覚的モダリティと言語的モダリティのギャップを埋めることである。 近年,ディープラーニングモデルを活用し,視覚的特徴の抽出やマルチモーダル接続の設計に進歩を遂げている。 本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。 具体的には、視覚的類似性に基づく知識検索コンポーネントと、入力画像を表す識別可能なエンコーダと、外部メモリから取得したコンテキストキューとテキストに基づいてトークンを予測するkNN拡張言語モデルとを組み込んだモデル変種を提案する。 我々はCOCOとnocapsデータセットに対する我々のアプローチを実験的に検証し、特により大きな検索コーパスを用いて、明示的な外部メモリを組み込むことでキャプションの品質を大幅に向上させることができることを示した。 本研究は,検索強化キャプションモデルに関する貴重な知見を提供し,画像キャプションを大規模に改善するための新たな道を開く。

The objective of image captioning models is to bridge the gap between the visual and linguistic modalities by generating natural language descriptions that accurately reflect the content of input images. In recent years, researchers have leveraged deep learning-based models and made advances in the extraction of visual features and the design of multimodal connections to tackle this task. This work presents a novel approach towards developing image captioning models that utilize an external kNN memory to improve the generation process. Specifically, we propose two model variants that incorporate a knowledge retriever component that is based on visual similarities, a differentiable encoder to represent input images, and a kNN-augmented language model to predict tokens based on contextual cues and text retrieved from the external memory. We experimentally validate our approach on COCO and nocaps datasets and demonstrate that incorporating an explicit external memory can significantly enhance the quality of captions, especially with a larger retrieval corpus. This work provides valuable insights into retrieval-augmented captioning models and opens up new avenues for improving image captioning at a larger scale.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# 純政策への純計画と再帰的ツリープランナーとの関わり

Pure Planning to Pure Policies and In Between with a Recursive Tree Planner ( http://arxiv.org/abs/2405.13130v1 )

ライセンス: Link先を確認
A. Norman Redlich, (参考訳) 再帰的ツリープランナー(RTP)は、一方の極端にポリシーなしで純粋なプランナーとして機能し、もう一方の極端に純粋に欲求的なポリシーを実行するように設計されている。 その間に、RTPは計画性能を改善し、ある計画問題から別の計画問題へのゼロショット転送を改善するためにポリシーを利用する。 政策はプランナーの模倣によって学習される。 その後、これらはプランナーによって、厳格なサイクルでポリシーを改善するために使用される。 計画性能とゼロショット転送を改善するため、RTPは学習済みのタスクを階層の任意のレベルにおいて一般化されたアクション(GA)として組み込んでおり、任意のレベルにプリミティブなアクションを追加することでそれらのGAを洗練することができる。 RTP は一般化された Dijkstra アルゴリズム (Dijkstra 1959) を用いており、このアルゴリズムはまず欲求政策を試み、その後、ほぼ欲求経路を探索し、必要に応じて遠くまで行く。 RPTは、複数のサブゴールを低レベルから、障害に近い境界状態から返却することができ、バックグラウンドおよびオブジェクト番号の不変性を持つポリシーを利用することができる。 階層のあらゆるレベルにおけるポリシーは、同時に、あるいは任意の順序で、あるいはフレームワークの外から学ぶことができる。 RTPは、古典的な月面着陸機(Farama 2022)や、MuJoCo(Todorov et al 2012)逆振り子など、さまざまなBox2d(Cato 2022)問題でテストされている。

A recursive tree planner (RTP) is designed to function as a pure planner without policies at one extreme and run a pure greedy policy at the other. In between, the RTP exploits policies to improve planning performance and improve zero-shot transfer from one class of planning problem to another. Policies are learned through imitation of the planner. These are then used by the planner to improve policies in a virtuous cycle. To improve planning performance and zero-shot transfer, the RTP incorporates previously learned tasks as generalized actions (GA) at any level of its hierarchy, and can refine those GA by adding primitive actions at any level too. For search, the RTP uses a generalized Dijkstra algorithm [Dijkstra 1959] which tries the greedy policy first and then searches over near-greedy paths and then farther away as necessary. The RPT can return multiple sub-goals from lower levels as well as boundary states near obstacles, and can exploit policies with background and object-number invariance. Policies at all levels of the hierarchy can be learned simultaneously or in any order or come from outside the framework. The RTP is tested here on a variety of Box2d [Cato 2022] problems, including the classic lunar lander [Farama 2022], and on the MuJoCo [Todorov et al 2012] inverted pendulum.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# より優れたロングフォームジェネレーションのための原子自己整合性

Atomic Self-Consistency for Better Long Form Generations ( http://arxiv.org/abs/2405.13131v1 )

ライセンス: Link先を確認
Raghuveer Thirukovalluru, Yukun Huang, Bhuwan Dhingra, (参考訳) 近年,幻覚の除去によるLCM世代の改善が目指され,応答情報の精度の向上が図られている。 しかし、長文応答の正確性は、問題に関連する複数の情報のリコールにも依存する。 本稿では,LSM応答における関連情報のリコールを改善する手法であるAtomic Self-Consistency (ASC)を紹介する。 ASCは最近の研究に続き、LLMから複数の確率的サンプルを用いて長期応答を改善するユニバーサル自己整合性(USC)を開発した。 最高の1世代のみを選択するUSCとは異なり、ASCはサンプルから真正の部分を選び、それらをより優れた合成回答にマージする。 広範囲な実験と改善を通じて,複数のサンプルの関連部分を統合することで,単一のサンプルを選択するよりもはるかに優れた性能が得られた。 ASCは、複数のファクトイドとオープンエンドのQAデータセット(ASQA、QAMPARI、QUEST、ELI5、ChatGPT、Llama2)でUSCを大きく上回っている。 また,複数試料の融合による長期化の可能性も明らかにした。

Recent work has aimed to improve LLM generations by filtering out hallucinations, thereby improving the precision of the information in responses. Correctness of a long-form response, however, also depends on the recall of multiple pieces of information relevant to the question. In this paper, we introduce Atomic Self-Consistency (ASC), a technique for improving the recall of relevant information in an LLM response. ASC follows recent work, Universal Self-Consistency (USC) in using multiple stochastic samples from an LLM to improve the long-form response. Unlike USC which only focuses on selecting the best single generation, ASC picks authentic subparts from the samples and merges them into a superior composite answer. Through extensive experiments and ablations, we show that merging relevant subparts of multiple samples performs significantly better than picking a single sample. ASC demonstrates significant gains over USC on multiple factoids and open-ended QA datasets - ASQA, QAMPARI, QUEST, ELI5 with ChatGPT and Llama2. Our analysis also reveals untapped potential for enhancing long-form generations using approach of merging multiple samples.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# Bi-LSTM-CRFモデルを用いた科学論文のデータセット操作抽出

Dataset Mention Extraction in Scientific Articles Using Bi-LSTM-CRF Model ( http://arxiv.org/abs/2405.13135v1 )

ライセンス: Link先を確認
Tong Zeng, Daniel Acuna, (参考訳) データセットは科学的研究において重要であり、複製、再現性、効率において重要な役割を果たしている。 研究者たちは最近、データセットは科学が適切に機能することがより重要になり、研究の成果物としても機能していることを示した。 しかしながら、データセットの引用は、データリポジトリや資金調達機関による最近の取り組みにもかかわらず、一般的な、あるいは標準的なプラクティスではない。 これは、彼らの使用状況と重要性を追跡する能力に大きな影響を与えます。 この問題の潜在的な解決策は、科学論文からデータセットの言及を自動的に抽出することである。 本研究では,Bi-LSTM-CRFアーキテクチャに基づくニューラルネットワークを用いて,そのような抽出を実現することを提案する。 本手法は,Rich Context Datasetの一部として公開された社会科学論文においてF1 = 0.885を達成する。 我々は,現在のデータセットの限界について議論し,将来行うべきモデルの変更を提案する。

Datasets are critical for scientific research, playing an important role in replication, reproducibility, and efficiency. Researchers have recently shown that datasets are becoming more important for science to function properly, even serving as artifacts of study themselves. However, citing datasets is not a common or standard practice in spite of recent efforts by data repositories and funding agencies. This greatly affects our ability to track their usage and importance. A potential solution to this problem is to automatically extract dataset mentions from scientific articles. In this work, we propose to achieve such extraction by using a neural network based on a Bi-LSTM-CRF architecture. Our method achieves F1 = 0.885 in social science articles released as part of the Rich Context Dataset. We discuss the limitations of the current datasets and propose modifications to the model to be done in the future.
翻訳日:2024-05-25 04:12:17 公開日:2024-05-21
# バンディットとタブラルMDPの原則的・実践的政策グラディエントに向けて

Towards Principled, Practical Policy Gradient for Bandits and Tabular MDPs ( http://arxiv.org/abs/2405.13136v1 )

ライセンス: Link先を確認
Michael Lu, Matin Aghaei, Anant Raj, Sharan Vaswani, (参考訳) バンディットおよび表型マルコフ決定過程(MDP)に対する(確率的)ソフトマックスポリシー勾配(PG)法を検討する。 PG目的は非凹面であるが、最近の研究では、最適政策への収束を達成するために、目的の滑らかさと勾配支配特性を用いている。 しかし、これらの理論的結果は、未知の問題依存量(例えば、バンドイット問題における最適作用や真の報酬ベクトル)に応じてアルゴリズムパラメータを設定する必要がある。 この問題に対処するために、最適化文献からアイデアを借りて、厳密かつ確率的な設定で実用的で原則化されたPG手法を設計する。 正確な設定では、アルミホ線探索を用いてソフトマックスPGのステップサイズを設定し、線形収束率を実証的に示す。 確率的設定では、指数関数的に減少するステップサイズを利用し、結果のアルゴリズムの収束率を特徴付ける。 提案アルゴリズムは,技術結果と類似した理論的保証を提供するが,オラクルのような量の知識は必要としないことを示す。 マルチアームバンディット設定の場合,提案手法は明示的な探索や報奨ギャップの知識,報奨分布,ノイズを必要としない理論的なPGアルゴリズムを実現する。 最後に,提案手法と託宣知識を必要とするPG手法を実証的に比較し,競合性能を実証する。

We consider (stochastic) softmax policy gradient (PG) methods for bandits and tabular Markov decision processes (MDPs). While the PG objective is non-concave, recent research has used the objective's smoothness and gradient domination properties to achieve convergence to an optimal policy. However, these theoretical results require setting the algorithm parameters according to unknown problem-dependent quantities (e.g. the optimal action or the true reward vector in a bandit problem). To address this issue, we borrow ideas from the optimization literature to design practical, principled PG methods in both the exact and stochastic settings. In the exact setting, we employ an Armijo line-search to set the step-size for softmax PG and empirically demonstrate a linear convergence rate. In the stochastic setting, we utilize exponentially decreasing step-sizes, and characterize the convergence rate of the resulting algorithm. We show that the proposed algorithm offers similar theoretical guarantees as the state-of-the art results, but does not require the knowledge of oracle-like quantities. For the multi-armed bandit setting, our techniques result in a theoretically-principled PG algorithm that does not require explicit exploration, the knowledge of the reward gap, the reward distributions, or the noise. Finally, we empirically compare the proposed methods to PG approaches that require oracle knowledge, and demonstrate competitive performance.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# 交互方向SGHMCアルゴリズムの収束性について

On Convergence of the Alternating Directions SGHMC Algorithm ( http://arxiv.org/abs/2405.13140v1 )

ライセンス: Link先を確認
Soumyadip Ghsoh, Yingdong Lu, Tomasz Nowicki, (参考訳) 本研究では, 目標分布(SGHMC)に対する確率勾配オラクルの温和条件下での跳躍フロッグ積分を用いたハミルトンモンテカルロアルゴリズムの収束率について検討した。 提案手法は, 汎用的な補助分布を用いることにより, 標準HMCを拡張し, 代替方向の新たな手順により実現した。 収束解析は、アルゴリズムを駆動するマルコフ連鎖に付随するディリクレ形式の研究に基づいている。 この目的のために、ハミルトン運動に対する跳躍積分器の誤差について、運動エネルギー関数とポテンシャルエネルギー関数の両方を一般形式として詳細に解析する。 本研究では,問題次元,目標分布と補助分布の両方の機能特性,およびオラクルの品質といった重要なパラメータに対する収束率の明示的依存性を特徴付ける。

We study convergence rates of Hamiltonian Monte Carlo (HMC) algorithms with leapfrog integration under mild conditions on stochastic gradient oracle for the target distribution (SGHMC). Our method extends standard HMC by allowing the use of general auxiliary distributions, which is achieved by a novel procedure of Alternating Directions. The convergence analysis is based on the investigations of the Dirichlet forms associated with the underlying Markov chain driving the algorithms. For this purpose, we provide a detailed analysis on the error of the leapfrog integrator for Hamiltonian motions with both the kinetic and potential energy functions in general form. We characterize the explicit dependence of the convergence rates on key parameters such as the problem dimension, functional properties of both the target and auxiliary distributions, and the quality of the oracle.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# Mamo: 数理モデリングベンチマーク

Mamo: a Mathematical Modeling Benchmark with Solvers ( http://arxiv.org/abs/2405.13144v1 )

ライセンス: Link先を確認
Xuhan Huang, Qingning Shen, Yan Hu, Anningzhe Gao, Benyou Wang, (参考訳) 数学的モデリングは、実世界の現象、システム、あるいはそれらの振る舞いを分析し、理解し、予測するために数学的表現と方程式を用いて問題を表現する。 このプロセスは通常経験豊富な専門家を必要とするため、Large Language Models (LLMs) が人的労働力を減らすために数学的モデリングを行うことができるかどうかを探求することに興味がある。 数学的モデリングにおけるLLMの評価のために,従来の結果指向評価を超越した新しいベンチマークであるMamoを導入する。 数学問題に対する解の精度に基づいてLLMを評価する従来の手法とは異なり、本手法はモデリングプロセス自体について深い洞察を与える。 最終的な解決策の正しさよりも、LCMが実行しているプロセスに焦点を合わせることで、Mamoは新たな評価パラダイムを開拓した。 このシフトは、LLMの本質的なモデリング能力を理解することの重要性を浮き彫りにし、彼らの問題解決戦略をより微妙で包括的な分析する道を開いた。 本研究は,LLMのモデリングプロセスの評価を単なる正解性よりも重視することにより,今後の研究に向けた新たな方向性を示唆するものである。 このベンチマークは、LLMの数学的モデリング能力の理解を深めるだけでなく、複雑な問題解決シナリオにおけるそれらの性能を評価するための新しい標準も設定する。

Mathematical modeling involves representing real-world phenomena, systems, or problems using mathematical expressions and equations to analyze, understand, and predict their behavior. Given that this process typically requires experienced experts, there is an interest in exploring whether Large Language Models (LLMs) can undertake mathematical modeling to potentially decrease human labor. To evaluate of LLMs in mathematical modeling, we introduce a new benchmark, Mamo, that transcends traditional result-oriented assessments. Unlike conventional methods that primarily assess LLMs based on the accuracy of solutions to mathematical problems, our approach offers deeper insight into the modeling process itself. By focusing on the processes LLMs undertake rather than the correctness of their final solutions, Mamo pioneers a novel evaluation paradigm. This shift underscores the importance of understanding the inherent modeling capabilities of LLMs, paving the way for a more nuanced and comprehensive analysis of their problem-solving strategies. Our work marks a significant advancement in the field, suggesting a new direction for future research by emphasizing the evaluation of LLMs' modeling processes over the mere correctness of answers. This benchmark not only facilitates a better understanding of LLMs' mathematical modeling capabilities but also sets a new standard for evaluating their performance in complex problem-solving scenarios.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# PUFに基づく軽量認証プロトコル

A lightweight PUF-based authentication protocol ( http://arxiv.org/abs/2405.13146v1 )

ライセンス: Link先を確認
Yu Zhuang, Gaoxiang Li, (参考訳) リソース制約のあるIoT(Internet-of-Things)には,軽量認証が不可欠である。 低リソースで動作可能で低電力で動作可能であるPhysical Unclonable Functions(PUF)は、軽量認証プロトコルを実装するためのハードウェアプリミティブとしての可能性を持っている。 arbiter PUF(APUF)はおそらく、認証プロトコルの望ましい特性である、指数的に多くのチャレンジ応答ペア(CRP)を生成することができる最も軽量な強力なPUFであるが、APUFはモデリング攻撃に対して非常に弱い。 PUF設計への取り組みは、多くのPUFをモデリング攻撃に対する高い抵抗と、より高い領域オーバーヘッドに導いた。 プロトコル開発にもかなりの取り組みがあり、モデリング攻撃と戦うためにPUFの強みを利用する者もおり、また、問題や応答を曖昧にするために慎重に設計されたプロトコル技術を用いている者もいる。 本稿では,低リソースフットプリントと高モデリングアタック耐性を実現するために,PUFとプロトコルの共設計を提案する。 難読化PUFは、条件が満たされたときにモデリング攻撃に対して厳密に証明された可能性と実験的に支持された性能を有し、このプロトコルは、PUFが要求する条件を提供し、PUFのモデリング抵抗を利用して、低リソースオーバーヘッドと高い運用上の単純さに到達し、モデリング攻撃に抵抗しながら軽量な認証を可能にする。

Lightweight authentication is essential for resource-constrained Internet-of-Things (IoT). Implementable with low resource and operable with low power, Physical Unclonable Functions (PUFs) have the potential as hardware primitives for implementing lightweight authentication protocols. The arbiter PUF (APUF) is probably the most lightweight strong PUF capable of generating exponentially many challenge-response pairs (CRPs), a desirable property for authentication protocols, but APUF is severely weak against modeling attacks. Efforts on PUF design have led to many PUFs of higher resistance to modeling attacks and also higher area overhead. There are also substantial efforts on protocol development, some leverage PUFs' strength in fighting modeling attacks, and some others employ carefully designed protocol techniques to obfuscate either the challenges or the responses with modest increase of area overhead for some or increased operations for some others. To attain both low resource footprint and high modeling attack resistance, in this paper we propose a co-design of PUF and protocol, where the PUF consists of an APUF and a zero-transistor interface that obfuscates the true challenge bits fed to the PUF. The obfuscated PUF possesses rigorously proven potential and experimentally supported performance against modeling attacks when a condition is met, and the protocol provides the condition required by the PUF and leverages the PUF's modeling resistance to arrive at low resource overhead and high operational simplicity, enabling lightweight authentications while resisting modeling attacks.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# 身体的不可避関数の新しい信頼性攻撃

A novel reliability attack of Physical Unclonable Functions ( http://arxiv.org/abs/2405.13147v1 )

ライセンス: Link先を確認
Gaoxiang Li, Yu Zhuang, (参考訳) Physical Unclonable Functions(PUF)は、IoTデバイスの将来的なセキュリティプリミティブとして登場し、物理的特性に基づいたデバイスの指紋を提供する。 その強みにもかかわらず、PUFは従来のおよび信頼性ベースの攻撃を含む機械学習(ML)攻撃に対して脆弱である。 従来のML攻撃は多くのPUFの脆弱性を明らかにするのに有効であり、信頼性ベースのML攻撃は従来のML攻撃に耐性のあるPUFの脆弱性を検出する強力なツールである。 信頼性に基づくML攻撃は,PUFの信頼性の低い情報を活用しているため,信頼性向上技術を用いて,ビルディングディフェンスの実現可能性を検討した。 多数決は信頼性が低下するが,信頼性が低いPUFの信頼性が低い新たな攻撃方法が存在するかどうかを調査する動機があることが知られており,新たな信頼性表現と,高繰り返しの多数決によって強化された新しい表現可能な攻撃方法の開発につながっている。

Physical Unclonable Functions (PUFs) are emerging as promising security primitives for IoT devices, providing device fingerprints based on physical characteristics. Despite their strengths, PUFs are vulnerable to machine learning (ML) attacks, including conventional and reliability-based attacks. Conventional ML attacks have been effective in revealing vulnerabilities of many PUFs, and reliability-based ML attacks are more powerful tools that have detected vulnerabilities of some PUFs that are resistant to conventional ML attacks. Since reliability-based ML attacks leverage information of PUFs' unreliability, we were tempted to examine the feasibility of building defense using reliability enhancing techniques, and have discovered that majority voting with reasonably high repeats provides effective defense against existing reliability-based ML attack methods. It is known that majority voting reduces but does not eliminate unreliability, we are motivated to investigate if new attack methods exist that can capture the low unreliability of highly but not-perfectly reliable PUFs, which led to the development of a new reliability representation and the new representation-enabled attack method that has experimentally cracked PUFs enhanced with majority voting of high repetitions.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# 非線形観測に基づくガウス測度:一貫性、MAP推定器、シミュレーション

Gaussian Measures Conditioned on Nonlinear Observations: Consistency, MAP Estimators, and Simulation ( http://arxiv.org/abs/2405.13149v1 )

ライセンス: Link先を確認
Yifan Chen, Bamdad Hosseini, Houman Owhadi, Andrew M Stuart, (参考訳) この記事では、ガウス確率変数 $\xi$ を非線型観測値 $F \circ \phi(\xi)$ ここで、$\phi: \mathcal{X} \to \mathbb{R}^N$ は有界線型作用素であり、$F$ は非線形である。 このような問題は、ベイズ推論と最近の機械学習にインスパイアされたPDEソルバの文脈で発生する。 条件付き確率変数 $\xi \mid F\circ \phi(\xi)$ に対し、有限次元のガウス測度だけでなく無限次元のガウス測度の和として分解されるという表現定理を与える。 また,この問題の自然緩和の限界を捉えた条件付き測度モードの新たな概念を導入し,後続測度の最大推定器の既存概念を適用した。 最後に、上述した条件付きガウス確率変数を不確実量化するための効率的なシミュレーションのためのラプラス近似の変種を導入する。

The article presents a systematic study of the problem of conditioning a Gaussian random variable $\xi$ on nonlinear observations of the form $F \circ \phi(\xi)$ where $\phi: \mathcal{X} \to \mathbb{R}^N$ is a bounded linear operator and $F$ is nonlinear. Such problems arise in the context of Bayesian inference and recent machine learning-inspired PDE solvers. We give a representer theorem for the conditioned random variable $\xi \mid F\circ \phi(\xi)$, stating that it decomposes as the sum of an infinite-dimensional Gaussian (which is identified analytically) as well as a finite-dimensional non-Gaussian measure. We also introduce a novel notion of the mode of a conditional measure by taking the limit of the natural relaxation of the problem, to which we can apply the existing notion of maximum a posteriori estimators of posterior measures. Finally, we introduce a variant of the Laplace approximation for the efficient simulation of the aforementioned conditioned Gaussian random variables towards uncertainty quantification.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# 軌道予測のためのエージェント選択と物理手法による相互作用モデリングの強化

Enhancing Interaction Modeling with Agent Selection and Physical Methods for Trajectory Prediction ( http://arxiv.org/abs/2405.13152v1 )

ライセンス: Link先を確認
Shiji Huang, Lei Ye, Min Chen, Wenhai Luo, Chenqi Xu, Deyuan Liang, Dihong Wang, (参考訳) 本研究では、エージェント間相互作用を考慮した場合、すべてのエージェントを所定の近傍に無差別に組み込む、既存の車両軌道予測手法に固有の制約について検討する。 これらのアプローチは一般的に、インタラクションを符号化するために注意ベースのアーキテクチャまたはグラフニューラルネットワークを使用します。 (i) 近接エージェントの無差別選択は、特に相互作用に富むシナリオにおいて、モデルの計算要求を大幅に増大させる。 (二)現在の時間的エージェントの簡易的特徴抽出は、相互作用のニュアンスなダイナミクスを適切に捉えるには不十分である。 三 注意機構及びグラフニューラルネットワークの本質的に低い解釈可能性により、あるエージェントに信頼できない相関係数を割り当て、軌道予測の精度に悪影響を及ぼす確率がある。 これらの問題を緩和するために, ASPILinを導入し, インタラクションエージェントの選択を現在の車線と将来の車線を考慮し, 全ての歴史的フレームにまたがって拡張する手法を提案する。 エージェントの状態を利用して、エージェント間の最も近い将来距離と、この距離に到達するのに必要な時間とを推定する。 次に、これらを現在の距離と組み合わせて、相互作用を符号化する物理的相関係数を導出する。 一般的な軌道予測データセットを用いて行った実験は、我々の手法が効率的で簡単であり、他の最先端の手法よりも優れていることを示した。

In this study, we address the limitations inherent in most existing vehicle trajectory prediction methodologies that indiscriminately incorporate all agents within a predetermined proximity when accounting for inter-agent interactions. These approaches commonly employ attention-based architecture or graph neural networks for encoding interactions, which introduces three challenges: (i) The indiscriminate selection of all nearby agents substantially escalates the computational demands of the model, particularly in those interaction-rich scenarios. (ii) Moreover, the simplistic feature extraction of current time agents falls short of adequately capturing the nuanced dynamics of interactions. (iii) Compounded by the inherently low interpretability of attention mechanism and graph neural networks, there is a propensity for the model to allocate unreliable correlation coefficients to certain agents, adversely impacting the accuracy of trajectory predictions. To mitigate these issues, we introduce ASPILin, a novel approach that enhances the selection of interacting agents by considering their current and future lanes, extending this consideration across all historical frames. Utilizing the states of the agents, we estimate the nearest future distance between agents and the time needed to reach this distance. Then, combine these with their current distances to derive a physical correlation coefficient to encode interactions. Experiments conducted on popular trajectory prediction datasets demonstrate that our method is efficient and straightforward, outperforming other state-of-the-art methods.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# 最大スライスワッサーシュタイン濃度とRKHSの実験測度の均一比境界

Max-sliced Wasserstein concentration and uniform ratio bounds of empirical measures on RKHS ( http://arxiv.org/abs/2405.13153v1 )

ライセンス: Link先を確認
Ruiyu Han, Cynthia Rush, Johannes Wiesel, (参考訳) 最適輸送とワッサーシュタイン距離$\mathcal{W}_p$は最近、統計学、機械学習、データサイエンス、物理科学の分野で多くの応用例を見てきた。 しかし、これらの応用は次元性の呪いによって厳しく制限されているため、これらの問題を推定するために必要なデータポイントの数は次元において指数関数的に増加する。 この問題を緩和するために、$\mathcal{W}_p$の多くの変種が導入された。 ここでは、これらの変種の一つ、すなわち max-sliced Wasserstein 計量 $\overline{\mathcal{W}}_p$ に焦点を当てる。 この計量は、$\mathcal{W}_p$によって与えられる高次元最小化問題を、次元性の呪いを克服するために最大1次元の測定値に還元する。 ここでは、非有界再生核ヒルベルト空間上の実測度と経験測度の間の$\overline{\mathcal{W}}_p$の期待値の集中結果と上界を導出する。 非常に一般的な仮定の下では、確率測度は(ほぼ)パラメトリックレートで、一次元部分空間において一様に高速に集中することが示される。 我々の結果は、有限次元の場合の$\overline{\mathcal{W}}_p$に対する現在知られている境界の改善に依存している。

Optimal transport and the Wasserstein distance $\mathcal{W}_p$ have recently seen a number of applications in the fields of statistics, machine learning, data science, and the physical sciences. These applications are however severely restricted by the curse of dimensionality, meaning that the number of data points needed to estimate these problems accurately increases exponentially in the dimension. To alleviate this problem, a number of variants of $\mathcal{W}_p$ have been introduced. We focus here on one of these variants, namely the max-sliced Wasserstein metric $\overline{\mathcal{W}}_p$. This metric reduces the high-dimensional minimization problem given by $\mathcal{W}_p$ to a maximum of one-dimensional measurements in an effort to overcome the curse of dimensionality. In this note we derive concentration results and upper bounds on the expectation of $\overline{\mathcal{W}}_p$ between the true and empirical measure on unbounded reproducing kernel Hilbert spaces. We show that, under quite generic assumptions, probability measures concentrate uniformly fast in one-dimensional subspaces, at (nearly) parametric rates. Our results rely on an improvement of currently known bounds for $\overline{\mathcal{W}}_p$ in the finite-dimensional case.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# ReALLM: LLM圧縮と微調整のための一般的なフレームワーク

ReALLM: A general framework for LLM compression and fine-tuning ( http://arxiv.org/abs/2405.13155v1 )

ライセンス: Link先を確認
Louis Leconte, Lisa Bedin, Van Minh Nguyen, Eric Moulines, (参考訳) ReALLMは,事前学習した言語モデルの圧縮とメモリ効率を向上するための新しい手法であり,学習後の量子化と4ビットの予算のための微調整手法の大部分を包含する。 事前学習行列は、高精度低ランク成分とベクトル量子化潜在表現(オートエンコーダを用いて)に分解される。 微調整の段階では、低ランクのコンポーネントだけが更新される。 その結果,事前学習した行列は異なるパターンを示すことがわかった。 ReALLMは、エンコーダ(小/大埋め込み、高/低ビットVQなど)の形状を各マトリックスに適応させる。 ReALLMは、各行列を$b$ビットに小さな埋め込みと、$b_\phi$ビットに重みを持つニューラルデコーダモデル$\mathcal{D}_\phi$で表現することを提案する。 行列の圧縮には1つの埋め込みと1つのフォワードパスしか必要としない。 我々の重みのみの量子化アルゴリズムは、トレーニングなしで3ドルビットの予算で言語生成タスク(C4とWikiText-2)の最良の結果を得る。 2ドルの予算で、ReALLMは小さなキャリブレーションデータセットを微調整した後、最先端のアートパフォーマンスを達成する。

We introduce ReALLM, a novel approach for compression and memory-efficient adaptation of pre-trained language models that encompasses most of the post-training quantization and fine-tuning methods for a budget of <4 bits. Pre-trained matrices are decomposed into a high-precision low-rank component and a vector-quantized latent representation (using an autoencoder). During the fine-tuning step, only the low-rank components are updated. Our results show that pre-trained matrices exhibit different patterns. ReALLM adapts the shape of the encoder (small/large embedding, high/low bit VQ, etc.) to each matrix. ReALLM proposes to represent each matrix with a small embedding on $b$ bits and a neural decoder model $\mathcal{D}_\phi$ with its weights on $b_\phi$ bits. The decompression of a matrix requires only one embedding and a single forward pass with the decoder. Our weight-only quantization algorithm yields the best results on language generation tasks (C4 and WikiText-2) for a budget of $3$ bits without any training. With a budget of $2$ bits, ReALLM achieves state-of-the art performance after fine-tuning on a small calibration dataset.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# NFT認証を用いたプライバシ保護DAOモデル

A Privacy-Preserving DAO Model Using NFT Authentication for the Punishment not Reward Blockchain Architecture ( http://arxiv.org/abs/2405.13156v1 )

ライセンス: Link先を確認
Talgar Bayan, Richard Banach, (参考訳) 本稿では,Punishment Not Reward(PnR)ブロックチェーンフレームワーク内での高度なアクセス制御とプライバシ保護インタラクションにNFTを活用する,新たな分散自律組織(DAO)モデルを提案する。 認証とアクセス制御のためのメンバシップNTT(\(NFT_{auth}\)と、参加者間のプライベートで暗号化されたインタラクションを可能にするインタラクションNTT(\(NFT_{priv}\)である。 ガバナンスは、評価を管理し、条件付きID開示などの罰則を管理するスマートコントラクトによって実施される。 このモデルは、プライバシ、セキュリティ、金銭的報酬よりも抑止性を優先することにより、既存のブロックチェーンインセンティブ構造における重要な課題に対処し、より持続的で分散化されたガバナンスフレームワークへの道を開く。

\This paper presents a novel decentralized autonomous organization (DAO) model leveraging non-fungible tokens (NFTs) for advanced access control and privacy-preserving interactions within a Punishment not Reward (PnR) blockchain framework. The proposed model introduces a dual NFT architecture: Membership NFTs (\(NFT_{auth}\)) for authentication and access control, and Interaction NFTs (\(NFT_{priv}\)) for enabling private, encrypted interactions among participants. Governance is enforced through smart contracts that manage reputation and administer punitive measures, such as conditional identity disclosure. By prioritizing privacy, security, and deterrence over financial rewards, this model addresses key challenges in existing blockchain incentive structures, paving the way for more sustainable and decentralized governance frameworks.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# 階層型ディリクレプロセスによる分布ロバスト最適化におけるボローリング強度

Borrowing Strength in Distributionally Robust Optimization via Hierarchical Dirichlet Processes ( http://arxiv.org/abs/2405.13160v1 )

ライセンス: Link先を確認
Nicola Bariletto, Khai Nguyen, Nhat Ho, (参考訳) 本稿では,現代の機械学習アプリケーションにおいて,高次元性,分布不確実性,データ不均一性といった重要な課題に対処する新しい最適化フレームワークを提案する。 提案手法は,正規化推定,分散ロバスト最適化(DRO),階層ベイズモデリングを1つのデータ駆動基準で統一する。 階層的ディリクレプロセス(HDP)を前もって採用することにより、多元的データを効果的に処理し、正規化、分散ロバスト性、多種多様な関連データ生成プロセスにおける借入強度を達成できる。 ディリクレ過程(DP)理論に基づく理論的性能保証とトラクタブルモンテカルロ近似を確立することにより,提案手法の利点を実証する。 予測とパラメータ推定の精度の改善と安定化におけるフレームワークの有効性を検証する数値実験により、複雑なデータ環境におけるその可能性を示す。

This paper presents a novel optimization framework to address key challenges presented by modern machine learning applications: High dimensionality, distributional uncertainty, and data heterogeneity. Our approach unifies regularized estimation, distributionally robust optimization (DRO), and hierarchical Bayesian modeling in a single data-driven criterion. By employing a hierarchical Dirichlet process (HDP) prior, the method effectively handles multi-source data, achieving regularization, distributional robustness, and borrowing strength across diverse yet related data-generating processes. We demonstrate the method's advantages by establishing theoretical performance guarantees and tractable Monte Carlo approximations based on Dirichlet process (DP) theory. Numerical experiments validate the framework's efficacy in improving and stabilizing both prediction and parameter estimation accuracy, showcasing its potential for application in complex data environments.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# 音声クローンを用いた非自己回帰リアルタイムアクセント変換モデル

Non-autoregressive real-time Accent Conversion model with voice cloning ( http://arxiv.org/abs/2405.13162v1 )

ライセンス: Link先を確認
Vladimir Nechaev, Sergey Kosyakov, (参考訳) 現在、外部アクセント変換(FAC)モデルの開発には、ディープニューラルネットワークアーキテクチャと、音声認識と音声生成のためのニューラルネットワークのアンサンブルが使用されている。 これらのモデルの使用は、生成した音声の音色を柔軟に変化させることができず、文脈の蓄積が要求されるアーキテクチャ的特徴によって制限され、生成の遅延が増大し、リアルタイムなマルチユーザ通信シナリオでの使用には適さない。 我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。 このモデルは、入力L2アクセント音声に基づいて、最小レイテンシでネイティブなL1音声を生成する。 このモデルは、アクセント、性別、話者埋め込みを抽出し、音声に変換し、スペクトログラムを生成し、その結果のスペクトログラムをオーディオ信号に復号するための相互接続モジュールで構成されている。 このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。 その結果,既存の音声認識システムでは音声認識性能が向上し,音声認識性能が向上することが示唆された。 主観的テストの結果,提案したアクセントとジェンダーエンコーダが生成品質を向上させることが示された。 開発したモデルは,高品質な低遅延アクセント変換,音声クローニング,音声強調機能を実現し,リアルタイムマルチユーザ通信のシナリオに適合する。

Currently, the development of Foreign Accent Conversion (FAC) models utilizes deep neural network architectures, as well as ensembles of neural networks for speech recognition and speech generation. The use of these models is limited by architectural features, which does not allow flexible changes in the timbre of the generated speech and requires the accumulation of context, leading to increased delays in generation and makes these systems unsuitable for use in real-time multi-user communication scenarios. We have developed the non-autoregressive model for real-time accent conversion with voice cloning. The model generates native-sounding L1 speech with minimal latency based on input L2 accented speech. The model consists of interconnected modules for extracting accent, gender, and speaker embeddings, converting speech, generating spectrograms, and decoding the resulting spectrogram into an audio signal. The model has the ability to save, clone and change the timbre, gender and accent of the speaker's voice in real time. The results of the objective assessment show that the model improves speech quality, leading to enhanced recognition performance in existing ASR systems. The results of subjective tests show that the proposed accent and gender encoder improves the generation quality. The developed model demonstrates high-quality low-latency accent conversion, voice cloning, and speech enhancement capabilities, making it suitable for real-time multi-user communication scenarios.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# FairLENS: 法執行音声認識における公正性の評価

FairLENS: Assessing Fairness in Law Enforcement Speech Recognition ( http://arxiv.org/abs/2405.13166v1 )

ライセンス: Link先を確認
Yicheng Wang, Mark Cusick, Mohamed Laila, Kate Puech, Zhengping Ji, Xia Hu, Michael Wilson, Noah Spitzer-Williams, Michael Wheeler, Yasser Ibrahim, (参考訳) 自動音声認識(ASR)技術は強力なツールとなり、法執行のシナリオにおける効率性を高めている。 異なる音響環境における人口集団の公平性を確保するために、ASRエンジンは現実的な設定で様々な話者間でテストされなければならない。 しかし、信頼性のあるモデル間の公平性の違いを説明することは依然として困難である。 一方、ほとんどのパブリックなASRデータセットは満足のいく公正性評価を行うには不十分である。 この制限に対処するため、系統的な公平性評価フレームワークであるFairLENSを構築しました。 本研究では,異なるモデル間の公平さの相違を検証するための,新しい適応性評価手法を提案する。 また、複数のシナリオと人口統計次元をカバーする公平性評価データセットも収集した。 このフレームワークを活用することで、1つのオープンソースと11の商用利用可能な最先端のASRモデルに対して公平性の評価を行った。 以上の結果から,特定の実世界のシナリオに対してASRモデルを選択する際に,ユーザが情報選択を行うためのフェアネスガイドラインとして機能するモデルが,他のモデルよりも多くのバイアスを示すことが明らかとなった。 さらに、特定の人口集団に対するモデルバイアスについて検討し、音響領域の変化が新しいバイアスの出現につながることを観察した。

Automatic speech recognition (ASR) techniques have become powerful tools, enhancing efficiency in law enforcement scenarios. To ensure fairness for demographic groups in different acoustic environments, ASR engines must be tested across a variety of speakers in realistic settings. However, describing the fairness discrepancies between models with confidence remains a challenge. Meanwhile, most public ASR datasets are insufficient to perform a satisfying fairness evaluation. To address the limitations, we built FairLENS - a systematic fairness evaluation framework. We propose a novel and adaptable evaluation method to examine the fairness disparity between different models. We also collected a fairness evaluation dataset covering multiple scenarios and demographic dimensions. Leveraging this framework, we conducted fairness assessments on 1 open-source and 11 commercially available state-of-the-art ASR models. Our results reveal that certain models exhibit more biases than others, serving as a fairness guideline for users to make informed choices when selecting ASR models for a given real-world scenario. We further explored model biases towards specific demographic groups and observed that shifts in the acoustic domain can lead to the emergence of new biases.
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# 不均一データを用いた製品質問応答のための効率的かつ解釈可能な情報検索法

Efficient and Interpretable Information Retrieval for Product Question Answering with Heterogeneous Data ( http://arxiv.org/abs/2405.13173v1 )

ライセンス: Link先を確認
Biplob Biswas, Rajiv Ramnath, (参考訳) 拡張強調語彙表現は語彙ミスマッチ問題を最小化することにより情報検索(IR)を改善する。 本稿では、密接なセマンティック表現を共同学習し、それを語彙情報と組み合わせて候補情報をランク付けする可能性について検討する。 本稿では,その欠点を最小化しつつ,語彙と意味のマッチングを最大化するハイブリッド情報検索機構を提案する。 私たちのアーキテクチャは、クエリと情報要素を独立してエンコードする2つのハイブリッドエンコーダで構成されています。 各エンコーダは、コントラスト学習を通じて、対応するテキストの学習可能な用語展開によって強化された密接な意味表現とスパース語彙表現を共同で学習する。 オンライン製品ページ上で利用可能な典型的な異種情報を含むベンチマーク製品質問回答データセットの単段階評価において,本モデルの有効性を実証する。 MRR@5スコアにおいて,我々のハイブリッドアプローチは10.95%(スパース)と2.7%(デンス)で独立に訓練されたレトリバーよりも優れていた。 さらに,本モデルでは,応答時間を30%(レイテンシ)削減し,計算負荷を約38%(FLOP)削減しながら,最先端のクロスエンコーダに互換性を持たせることができる。

Expansion-enhanced sparse lexical representation improves information retrieval (IR) by minimizing vocabulary mismatch problems during lexical matching. In this paper, we explore the potential of jointly learning dense semantic representation and combining it with the lexical one for ranking candidate information. We present a hybrid information retrieval mechanism that maximizes lexical and semantic matching while minimizing their shortcomings. Our architecture consists of dual hybrid encoders that independently encode queries and information elements. Each encoder jointly learns a dense semantic representation and a sparse lexical representation augmented by a learnable term expansion of the corresponding text through contrastive learning. We demonstrate the efficacy of our model in single-stage ranking of a benchmark product question-answering dataset containing the typical heterogeneous information available on online product pages. Our evaluation demonstrates that our hybrid approach outperforms independently trained retrievers by 10.95% (sparse) and 2.7% (dense) in MRR@5 score. Moreover, our model offers better interpretability and performs comparably to state-of-the-art cross encoders while reducing response time by 30% (latency) and cutting computational load by approximately 38% (FLOPs).
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# FV8: 侵入テクニックを検出する強制実行JavaScriptエンジン

FV8: A Forced Execution JavaScript Engine for Detecting Evasive Techniques ( http://arxiv.org/abs/2405.13175v1 )

ライセンス: Link先を確認
Nikolaos Pantelaios, Alexandros Kapravelos, (参考訳) 侵入技術は悪意のあるコードを決して観察しないことを可能にする。 これは、悪意のあるコードを処理することができないため、動的または静的な分析に依存するツールの検出能力に大きな影響を与える。 コードを動的に注入するJavaScriptの動的な性質は、エスケープを特に効果的にします。 しかし、JavaScriptのような困難な環境で回避技術を検出するツールがない。 本稿では,JavaScriptコードの回避技術を特定するために設計された改良V8 JavaScriptエンジンであるFV8を提案する。 FV8は動的コードを条件付きで注入するAPI上でのコード実行を選択的に実施する。 私たちはツールをNode.jsエンジンとChromiumブラウザの両方に統合し、npmパッケージとChromeブラウザ拡張機能で魅力的なコード実行を行います。 我々のツールは、デフォルトのV8と比較してコードカバレッジを11%増加させ、以前に報告されていない5つのテクニックを含む28のユニークな回避カテゴリを検出します。 両方のエコシステムから悪質であると確認されたデータでは、我々のツールは1,443 (14.6%) npmパッケージと164 (82%)拡張に少なくとも1つの種類のエスケープが含まれていることを識別している。 これまでの未検査拡張(39,592)では,16,471個のサードパーティ製スクリプトを注入し,強制実行装置により8,732,120行のコードを実行した。 さらに、回避と悪意の両方で合計423の拡張機能をタグ付けし、110のエクステンション(26%)を実際に悪意のあるものに手作業で検証し、200万人のユーザーに影響を与えました。 我々のツールはオープンソースであり、ブラウザ内およびスタンドアロンの動的解析ツールとして機能し、回避コードの検出、特定のケースでの難読化の回避、悪意のあるコードへのアクセスの改善、動的コード注入の再帰的解析をサポートする。

Evasion techniques allow malicious code to never be observed. This impacts significantly the detection capabilities of tools that rely on either dynamic or static analysis, as they never get to process the malicious code. The dynamic nature of JavaScript, where code is often injected dynamically, makes evasions particularly effective. Yet, we lack tools that can detect evasive techniques in a challenging environment such as JavaScript. In this paper, we present FV8, a modified V8 JavaScript engine designed to identify evasion techniques in JavaScript code. FV8 selectively enforces code execution on APIs that conditionally inject dynamic code, thus enhancing code coverage and consequently improving visibility into malicious code. We integrate our tool in both the Node.js engine and the Chromium browser, compelling code execution in npm packages and Chrome browser extensions. Our tool increases code coverage by 11% compared to default V8 and detects 28 unique evasion categories, including five previously unreported techniques. In data confirmed as malicious from both ecosystems, our tool identifies 1,443 (14.6%) npm packages and 164 (82%) extensions containing at least one type of evasion. In previously unexamined extensions (39,592), our tool discovered 16,471 injected third-party scripts, and a total of 8,732,120 lines of code executed due to our forced execution instrumentation. Furthermore, it tagged a total of 423 extensions as both evasive and malicious and we manually verify 110 extensions (26%) to actually be malicious, impacting two million users. Our tool is open-source and serves both as an in-browser and standalone dynamic analysis tool, capable of detecting evasive code, bypassing obfuscation in certain cases, offering improved access to malicious code, and supporting recursive analysis of dynamic code injections
翻訳日:2024-05-25 02:13:10 公開日:2024-05-21
# RAG-RLRC-LaySum at BioLaySumm:Integrated Retrieval-Augmented Generation and Readability Control for Layman Summarization of Biomedical Texts

RAG-RLRC-LaySum at BioLaySumm: Integrating Retrieval-Augmented Generation and Readability Control for Layman Summarization of Biomedical Texts ( http://arxiv.org/abs/2405.13179v1 )

ライセンス: Link先を確認
Yuelyu Ji, Zhuochun Li, Rui Meng, Sonish Sivarajkumar, Yanshan Wang, Zeshui Yu, Hui Ji, Yushui Han, Hanyu Zeng, Daqing He, (参考訳) 本稿では,RAG-RLRC-LaySumフレームワークについて述べる。 我々の検索型拡張生成(RAG)ソリューションは,複数の知識源を用いて,複数の要約の精度と妥当性を保証している。 さらに、RLRC(Reinforcement Learning for Readability Control)戦略は、可読性を改善し、非専門家にとって科学的コンテンツを理解できるようにする。 PLOSおよびeLifeデータセットを用いて評価したところ,本手法はPlain Geminiモデルを超え,可読性スコアが20%向上し,ROUGE-2関連スコアが15%改善し,事実精度が10%向上した。 RAG-RLRC-LaySumフレームワークは、科学的知識を効果的に民主化し、生物医学的な発見への公的な関与を高める。

This paper introduces the RAG-RLRC-LaySum framework, designed to make complex biomedical research understandable to laymen through advanced Natural Language Processing (NLP) techniques. Our Retrieval Augmented Generation (RAG) solution, enhanced by a reranking method, utilizes multiple knowledge sources to ensure the precision and pertinence of lay summaries. Additionally, our Reinforcement Learning for Readability Control (RLRC) strategy improves readability, making scientific content comprehensible to non-specialists. Evaluations using the publicly accessible PLOS and eLife datasets show that our methods surpass Plain Gemini model, demonstrating a 20% increase in readability scores, a 15% improvement in ROUGE-2 relevance scores, and a 10% enhancement in factual accuracy. The RAG-RLRC-LaySum framework effectively democratizes scientific knowledge, enhancing public engagement with biomedical discoveries.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# 機械学習サロゲートモデルによるデータ同化: FourCastNet を用いたケーススタディ

Data Assimilation with Machine Learning Surrogate Models: A Case Study with FourCastNet ( http://arxiv.org/abs/2405.13180v1 )

ライセンス: Link先を確認
Melissa Adrian, Daniel Sanz-Alonso, Rebecca Willett, (参考訳) 気象予報のための現代のデータ駆動サロゲートモデルは、正確な短期予測を提供するが、不正確で非物理的長期予測を提供する。 本稿では,部分的・雑音的な観測を補足した機械学習サロゲートを用いたオンライン天気予報について検討する。 我々は、サロゲートの長期間の不安定さと観測の空間性にもかかわらず、フィルタリング推定が長時間の地平線で正確であることを実証的に証明し、理論的に正当化する。 ケーススタディとして,現在最先端の気象サロゲートモデルであるFourCastNetを,部分的なノイズの多いERA5データを用いた変動データ同化フレームワークに統合する。 その結果,フィルタ推定は1年間の同化ウィンドウ上で精度が保たれており,極端な事象予測を含むタスクの予測に有効な初期条件が得られた。

Modern data-driven surrogate models for weather forecasting provide accurate short-term predictions but inaccurate and nonphysical long-term forecasts. This paper investigates online weather prediction using machine learning surrogates supplemented with partial and noisy observations. We empirically demonstrate and theoretically justify that, despite the long-time instability of the surrogates and the sparsity of the observations, filtering estimates can remain accurate in the long-time horizon. As a case study, we integrate FourCastNet, a state-of-the-art weather surrogate model, within a variational data assimilation framework using partial, noisy ERA5 data. Our results show that filtering estimates remain accurate over a year-long assimilation window and provide effective initial conditions for forecasting tasks, including extreme event prediction.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# 低リソース環境における大規模言語モデル(LLM)の高精度チューニング法の比較分析

Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting ( http://arxiv.org/abs/2405.13181v1 )

ライセンス: Link先を確認
Krishna Prasad Varadarajan Srinivasan, Prasanth Gumpena, Madhusudhana Yattapu, Vishal H. Brahmbhatt, (参考訳) 大規模言語モデル(LLMs)の分野において、arXiv:2305.16938は、ほとんどショットのないフルモデルの微調整、すなわちバニラファインチューニング(FT)とパターンベースファインチューニング(PBFT)、およびインコンテキストラーニング(ICL)がOut-Of-Domain(OOD)データセットでも同様に一般化されることを示したが、タスク適応の点で異なる。 しかし、両者とも特にメモリ要件の観点から、課題を提起している。 本稿では,LLMの様々な微調整戦略の理解をさらに進めるとともに,これらを多種多様なデータセットのフルモデル微調整と比較するため,同じ台座に多種多様な微調整戦略を導入することを目的としている。 そこで我々は,2つのデータセット(COLAとMNLI)にまたがる事前学習モデル上で,バニラファインチューニングやPBFT(Pattern-Based Fine-Tuning)のような最先端の手法から,一連の実験を行った。 次に, 適応微調整とLoRAアダプタの効率性について, 数ショット設定で検討する。 最後に、最近のコンテクスト蒸留という別のアプローチと、バニラFTとPBFTを数発のセットアップなしで比較した。 以上の結果から,バニラFTやPBFTに匹敵する領域外一般化が期待できる可能性が示唆された。 PBFTはドメイン外データ(OOD)でVanilla FTを過小評価し、効果的なプロンプトの必要性を強調している。 さらに, 適応微調整とLoRA実験は, 標準微調整がモデル全体のチューニングを伴うため, 従来の微調整と同等あるいはわずかに劣る。 最後に, コンテクスト蒸留実験は, 標準的な微調整法より優れていた。 これらの結果は、最終的には適切な微調整方法を選択することは、利用可能なリソース(メモリ、計算、データ)とタスク適応性に依存していることを示している。

In the domain of large language models (LLMs), arXiv:2305.16938 showed that few-shot full-model fine-tuning -- namely Vanilla Fine Tuning (FT) and Pattern-Based Fine Tuning (PBFT) --, and In-Context Learning (ICL) generalize similarly on Out-Of-Domain (OOD) datasets, but vary in terms of task adaptation. However, they both pose challenges, especially in term of memory requirements. In this paper, we further try to push the understanding of different fine-tuning strategies for LLM and aim to bring a myriad of these on the same pedestal for an elaborate comparison with full-model fine-tuning on two diverse datasets. To that end, we conducted a series of experiments, beginning with state-of-the-art methods like vanilla fine-tuning and Pattern-Based Fine-Tuning (PBFT) on pre-trained models across two datasets, COLA and MNLI. We then investigate adaptive fine-tuning and the efficiency of LoRA adapters in a few-shot setting. Finally, we also compare an alternative approach that has gained recent popularity -- context distillation -- with the vanilla FT and PBFT with and without few-shot setup. Our findings suggest that these alternative strategies that we explored can exhibit out-of-domain generalization comparable to that of vanilla FT and PBFT. PBFT under-performs Vanilla FT on out-of-domain (OOD) data, emphasizing the need for effective prompts. Further, our adaptive-fine tuning and LoRA experiments perform comparable or slightly worse than the standard fine-tunings as anticipated, since standard fine-tunings involve tuning the entire model. Finally, our context distillation experiments out-perform the standard fine-tuning methods. These findings underscore that eventually the choice of an appropriate fine-tuning method depends on the available resources (memory, compute, data) and task adaptability.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# ソフトウェアエンジニアリングのための事前訓練モデルの自動分類:Hugging Faceデータセットを用いたケーススタディ

Automated categorization of pre-trained models for software engineering: A case study with a Hugging Face dataset ( http://arxiv.org/abs/2405.13185v1 )

ライセンス: Link先を確認
Claudio Di Sipio, Riccardo Rubei, Juri Di Rocco, Davide Di Ruscio, Phuong T. Nguyen, (参考訳) ソフトウェアエンジニアリング(SE)の活動は、特定のSEタスクを実行するための微調整が可能な大規模機械学習(ML)モデルとして定義された、事前訓練されたモデル(PTM)の出現によって革新された。 しかし、限られた専門知識を持つユーザは、現在のタスクに適したモデルを選択するのに役立ちます。 この問題に対処するため、Hugging Face (HF)プラットフォームは、複数のモデルを収集、保存、キュレーションすることで、PTMの使用を単純化する。 それにもかかわらず、プラットフォームはSE用に特別に設計されたPMMの包括的な分類を欠いている。 本稿では,SEタスクの PTM の自動分類を可能にすることによって,このギャップに対処する手法を提案する。 まず、HFのパブリックダンプを使用して、モデルドキュメンテーションや関連するタグを含むPTM情報を抽出する。 そこで本研究では,既存の文献からSEタスクとその対応するPTMを半自動で識別する手法を提案する。 このアプローチでは、類似性ベースの戦略を使用して、HFタグと特定のSEタスクの最初のマッピングを作成し、関連するタグでPTMを識別する。 評価の結果,モデルカードはパイプラインタグを考慮したPTMを分類するのに十分な情報であることがわかった。 さらに、モデル名に依存することで、SEタスクとストアドPTMのマッピングを提供する。

Software engineering (SE) activities have been revolutionized by the advent of pre-trained models (PTMs), defined as large machine learning (ML) models that can be fine-tuned to perform specific SE tasks. However, users with limited expertise may need help to select the appropriate model for their current task. To tackle the issue, the Hugging Face (HF) platform simplifies the use of PTMs by collecting, storing, and curating several models. Nevertheless, the platform currently lacks a comprehensive categorization of PTMs designed specifically for SE, i.e., the existing tags are more suited to generic ML categories. This paper introduces an approach to address this gap by enabling the automatic classification of PTMs for SE tasks. First, we utilize a public dump of HF to extract PTMs information, including model documentation and associated tags. Then, we employ a semi-automated method to identify SE tasks and their corresponding PTMs from existing literature. The approach involves creating an initial mapping between HF tags and specific SE tasks, using a similarity-based strategy to identify PTMs with relevant tags. The evaluation shows that model cards are informative enough to classify PTMs considering the pipeline tag. Moreover, we provide a mapping between SE tasks and stored PTMs by relying on model names.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# 患者経路の解釈予測のための機械学習フレームワーク--敗血症の症状のある患者に対するICU入院予測の事例

A machine learning framework for interpretable predictions in patient pathways: The case of predicting ICU admission for patients with symptoms of sepsis ( http://arxiv.org/abs/2405.13187v1 )

ライセンス: Link先を確認
Sandra Zilker, Sven Weinzierl, Mathias Kraus, Patrick Zschech, Martin Matzner, (参考訳) 患者経路の積極的な分析は、医療提供者が治療に関連するリスクを予測し、成果を特定し、リソースを割り当てるのに役立つ。 マシンラーニング(ML)は、患者の完全な健康履歴を活用して、将来のイベントに関する情報的な決定を行う。 しかし、これまでの研究は主にいわゆるブラックボックスモデルに依存しており、人間には理解できないため、臨床医がそのようなモデルを適用するのは困難である。 パットウェイネット(PatWay-Net)は、敗血症の症状のある患者に対する集中治療室(ICU)への入院の予測を解釈可能なMLフレームワークである。 本稿では,新しいタイプのリカレントニューラルネットワークを提案し,それを多層パーセプトロンと組み合わせて患者経路を処理し,予測的かつ解釈可能な結果を生成する。 我々は、患者の健康状態、予測結果、関連するリスクを視覚化する包括的ダッシュボードを通じて、その実用性を実証する。 PatWay-Netは意思決定木や無作為林、勾配決定木などの標準モデルよりも優れており、臨床応用は臨床医との構造化インタビューを通じて検証されている。 PatWay-Netは、予測精度の向上と、解釈可能で行動可能な洞察を提供することによって、敗血症の症状のある患者にとって、医療上の意思決定を支援する貴重なツールとして機能する。

Proactive analysis of patient pathways helps healthcare providers anticipate treatment-related risks, identify outcomes, and allocate resources. Machine learning (ML) can leverage a patient's complete health history to make informed decisions about future events. However, previous work has mostly relied on so-called black-box models, which are unintelligible to humans, making it difficult for clinicians to apply such models. Our work introduces PatWay-Net, an ML framework designed for interpretable predictions of admission to the intensive care unit (ICU) for patients with symptoms of sepsis. We propose a novel type of recurrent neural network and combine it with multi-layer perceptrons to process the patient pathways and produce predictive yet interpretable results. We demonstrate its utility through a comprehensive dashboard that visualizes patient health trajectories, predictive outcomes, and associated risks. Our evaluation includes both predictive performance - where PatWay-Net outperforms standard models such as decision trees, random forests, and gradient-boosted decision trees - and clinical utility, validated through structured interviews with clinicians. By providing improved predictive accuracy along with interpretable and actionable insights, PatWay-Net serves as a valuable tool for healthcare decision support in the critical case of patients with symptoms of sepsis.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# 正規微分方程式を用いた脳構造影響ネットワークの解釈可能な時空間埋め込み

Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation ( http://arxiv.org/abs/2405.13190v1 )

ライセンス: Link先を確認
Haoteng Tang, Guodong Liu, Siyuan Dai, Kai Ye, Kun Zhao, Wenlu Wang, Carl Yang, Lifang He, Alex Leow, Paul Thompson, Heng Huang, Liang Zhan, (参考訳) MRI由来の脳ネットワークは、脳の構造的側面と機能的側面の両方を解明するための重要な手段として機能し、疾患や発達過程を包含する。 しかし、しばしばfMRI(Functional MRI)からの同期BOLD信号に焦点をあてる一般的な手法は、脳領域の方向の影響を捉えておらず、時間的機能的ダイナミクスに取り組むことは滅多にない。 本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。 次に,STE-ODE (Spatio-Temporal Embedding ODE) と呼ばれる解釈可能なグラフ学習フレームワークを提案する。 このフレームワークは、空間的時間的脳のダイナミクスを特徴付ける常微分方程式(ODE)モデルを用いて、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。 本フレームワークは,2つの独立した公開データセット(HCPとOASIS)を用いて,臨床表現型予測タスクについて検証した。 実験結果は,いくつかの最先端手法と比較して,本モデルの利点を明らかに示している。

The MRI-derived brain network serves as a pivotal instrument in elucidating both the structural and functional aspects of the brain, encompassing the ramifications of diseases and developmental processes. However, prevailing methodologies, often focusing on synchronous BOLD signals from functional MRI (fMRI), may not capture directional influences among brain regions and rarely tackle temporal functional dynamics. In this study, we first construct the brain-effective network via the dynamic causal model. Subsequently, we introduce an interpretable graph learning framework termed Spatio-Temporal Embedding ODE (STE-ODE). This framework incorporates specifically designed directed node embedding layers, aiming at capturing the dynamic interplay between structural and effective networks via an ordinary differential equation (ODE) model, which characterizes spatial-temporal brain dynamics. Our framework is validated on several clinical phenotype prediction tasks using two independent publicly available datasets (HCP and OASIS). The experimental results clearly demonstrate the advantages of our model compared to several state-of-the-art methods.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# Pragmatic auditing: 機械学習システムの監査のためのパイロット駆動型アプローチ

Pragmatic auditing: a pilot-driven approach for auditing Machine Learning systems ( http://arxiv.org/abs/2405.13191v1 )

ライセンス: Link先を確認
Djalel Benbouzid, Christiane Plociennik, Laura Lucaj, Mihai Maftei, Iris Merget, Aljoscha Burchardt, Marc P. Hauer, Abdeldjallil Naceri, Patrick van der Smagt, (参考訳) 機械学習(ML)システムの採用とデプロイの増加は、倫理的インシデントと社会的な懸念の共有によってもたらされた。 また、倫理的原則に照らして、これらのシステムを適切に監査する必要があることも明らかにした。 このような新しいタイプのアルゴリズム監査が標準化されるためには、透明性と説明責任に合わせたライフサイクルモデルと、監査の適切なスクーピングを可能にする原則化されたリスク評価手順という、2つの主要な前提条件が必要である。 ML監査の普及に向けて実践的な一歩を踏み出すため、欧州委員会が発行するAI-HLEGガイドラインを拡張する手順をそれぞれ提示する。 監査手続きは、文書化、説明責任、品質保証を明確に重視するMLライフサイクルモデルに基づいており、監査者と監査組織との整合の共通基盤となっている。 2つの異なる組織による実世界のユースケースで実施された2つのパイロットについて述べ、MLアルゴリズム監査の欠点と今後の方向性について論じる。

The growing adoption and deployment of Machine Learning (ML) systems came with its share of ethical incidents and societal concerns. It also unveiled the necessity to properly audit these systems in light of ethical principles. For such a novel type of algorithmic auditing to become standard practice, two main prerequisites need to be available: A lifecycle model that is tailored towards transparency and accountability, and a principled risk assessment procedure that allows the proper scoping of the audit. Aiming to make a pragmatic step towards a wider adoption of ML auditing, we present a respective procedure that extends the AI-HLEG guidelines published by the European Commission. Our audit procedure is based on an ML lifecycle model that explicitly focuses on documentation, accountability, and quality assurance; and serves as a common ground for alignment between the auditors and the audited organisation. We describe two pilots conducted on real-world use cases from two different organisations and discuss the shortcomings of ML algorithmic auditing as well as future directions thereof.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# 保守的世界モデルを用いた効率的な模倣学習

Efficient Imitation Learning with Conservative World Models ( http://arxiv.org/abs/2405.13193v1 )

ライセンス: Link先を確認
Victor Kolev, Rafael Rafailov, Kyle Hatch, Jiajun Wu, Chelsea Finn, (参考訳) 報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。 この領域における中心的な課題は、これらのポリシーが分散シフト、環境確率性、複雑なエラーのためにデプロイ時に失敗することである。 敵対的模倣学習はこの問題を緩和するが、安定性のための追加の政治訓練サンプルを必要とする。 この問題の1つのアプローチは、環境の世界モデルを学び、ポリシートレーニングに合成データを使用することである。 先行研究で成功したが、学習したモデルと実環境の間のさらなる分布シフトのため、これは準最適であると論じる。 代わりに、純粋な強化学習ではなく、微調整問題として模倣学習を再設定します。 オフラインのRLと微調整アルゴリズムとの理論的接続を描画することで、標準的なオンラインワールドモデルアルゴリズムは模倣学習問題にはあまり適していないと論じる。 本研究では,高次元の原画素観測による2つの非常に困難な操作環境の性能向上を実証的に示す。 我々は、イメージからFranka Kitchen環境に新しい最先端のパフォーマンスを設定し、報酬ラベルなしで10のデモしか必要とせず、複雑なデキスタリティ操作タスクを解決しました。

We tackle the problem of policy learning from expert demonstrations without a reward function. A central challenge in this space is that these policies fail upon deployment due to issues of distributional shift, environment stochasticity, or compounding errors. Adversarial imitation learning alleviates this issue but requires additional on-policy training samples for stability, which presents a challenge in realistic domains due to inefficient learning and high sample complexity. One approach to this issue is to learn a world model of the environment, and use synthetic data for policy training. While successful in prior works, we argue that this is sub-optimal due to additional distribution shifts between the learned model and the real environment. Instead, we re-frame imitation learning as a fine-tuning problem, rather than a pure reinforcement learning one. Drawing theoretical connections to offline RL and fine-tuning algorithms, we argue that standard online world model algorithms are not well suited to the imitation learning problem. We derive a principled conservative optimization bound and demonstrate empirically that it leads to improved performance on two very challenging manipulation environments from high-dimensional raw pixel observations. We set a new state-of-the-art performance on the Franka Kitchen environment from images, requiring only 10 demos on no reward labels, as well as solving a complex dexterity manipulation task.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# KPConvX: カーネルアテンションによるカーネルポイントコンボリューションの近代化

KPConvX: Modernizing Kernel Point Convolution with Kernel Attention ( http://arxiv.org/abs/2405.13194v1 )

ライセンス: Link先を確認
Hugues Thomas, Yao-Hung Hubert Tsai, Timothy D. Barfoot, Jian Zhang, (参考訳) 深層クラウド理解の分野では、KPConvは、Multi-Layer Perceptron (MLP)エンコーディングに頼るのではなく、カーネルポイントを使用して空間内の畳み込み重みを見つけるユニークなアーキテクチャである。 当初は成功したが、その後、新しい設計とトレーニング戦略を採用した最近のMLPネットワークに取って代わられた。 KPConvD (deepthwise KPConv) とKPConvX (deepwise convolutional weights of KPConvD with kernel attention value) である。 KPConvXをモダンなアーキテクチャとトレーニング戦略で利用することで、ScanObjectNN、Scannetv2、S3DISデータセットにおける最先端のアプローチを上回ります。 アブレーション研究を通じて設計選択を検証し、コードとモデルをリリースします。

In the field of deep point cloud understanding, KPConv is a unique architecture that uses kernel points to locate convolutional weights in space, instead of relying on Multi-Layer Perceptron (MLP) encodings. While it initially achieved success, it has since been surpassed by recent MLP networks that employ updated designs and training strategies. Building upon the kernel point principle, we present two novel designs: KPConvD (depthwise KPConv), a lighter design that enables the use of deeper architectures, and KPConvX, an innovative design that scales the depthwise convolutional weights of KPConvD with kernel attention values. Using KPConvX with a modern architecture and training strategy, we are able to outperform current state-of-the-art approaches on the ScanObjectNN, Scannetv2, and S3DIS datasets. We validate our design choices through ablation studies and release our code and models.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# CamViG:マルチモーダルトランスを用いたカメラによる画像・映像生成

CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers ( http://arxiv.org/abs/2405.13195v1 )

ライセンス: Link先を確認
Andrew Marmon, Grant Schindler, José Lezama, Dan Kondratyuk, Bryan Seybold, Irfan Essa, (参考訳) 我々は,映像生成タスクの条件信号として3Dカメラ動作を含むマルチモーダルトランスフォーマーを拡張した。 生成ビデオモデルはますます強力になり、このようなモデルの出力を制御する方法の研究に焦点が当てられている。 生成した映像を3次元カメラの動きの符号化に適応させることにより、生成ビデオに仮想3Dカメラ制御を加えることを提案する。 その結果,(1)単一フレームとカメラ信号から始まる映像生成におけるカメラの制御に成功し,(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことができた。

We extend multimodal transformers to include 3D camera motion as a conditioning signal for the task of video generation. Generative video models are becoming increasingly powerful, thus focusing research efforts on methods of controlling the output of such models. We propose to add virtual 3D camera controls to generative video methods by conditioning generated video on an encoding of three-dimensional camera movement over the course of the generated video. Results demonstrate that we are (1) able to successfully control the camera during video generation, starting from a single frame and a camera signal, and (2) we demonstrate the accuracy of the generated 3D camera paths using traditional computer vision methods.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# 強化学習を用いた実用的で効率的な量子回路合成とトランスパイリング

Practical and efficient quantum circuit synthesis and transpiling with Reinforcement Learning ( http://arxiv.org/abs/2405.13196v1 )

ライセンス: Link先を確認
David Kremer, Victor Villar, Hanhee Paik, Ivan Duran, Ismael Faro, Juan Cruz-Benito, (参考訳) 本稿では、RL(Reinforcement Learning)の量子トランスパイリングワークフローへの統合を実証し、量子回路の合成とルーティングを大幅に強化する。 RLを用いて最大9, 11, 65キュービットの線形関数, クリフォード, 置換回路をほぼ最適に合成し, ネイティブデバイス命令セットと接続制約に適合し, SATソルバなどの最適化手法よりも桁違いに高速である。 また、SABREなどの他のルーティングヒューリスティックに対して、2量子ゲート深さの大幅な削減と、133キュービットまでの回路ルーティングのカウントを実現している。 典型的な量子トランスパイリングパイプラインにおいて,本手法が実用に有効であることを示す。 我々の結果は、量子コンピューティングワークフローのさらなるAIによる拡張のステージに立った。

This paper demonstrates the integration of Reinforcement Learning (RL) into quantum transpiling workflows, significantly enhancing the synthesis and routing of quantum circuits. By employing RL, we achieve near-optimal synthesis of Linear Function, Clifford, and Permutation circuits, up to 9, 11 and 65 qubits respectively, while being compatible with native device instruction sets and connectivity constraints, and orders of magnitude faster than optimization methods such as SAT solvers. We also achieve significant reductions in two-qubit gate depth and count for circuit routing up to 133 qubits with respect to other routing heuristics such as SABRE. We find the method to be efficient enough to be useful in practice in typical quantum transpiling pipelines. Our results set the stage for further AI-powered enhancements of quantum computing workflows.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# 光リモートセンシング画像における海氷認識のためのグローバルローカル詳細案内変換器

Global-Local Detail Guided Transformer for Sea Ice Recognition in Optical Remote Sensing Images ( http://arxiv.org/abs/2405.13197v1 )

ライセンス: Link先を確認
Zhanchao Huang, Wenjun Hong, Hua Su, (参考訳) 海氷の認識は、気候変動を反映し、航海の安全を確保する上で非常に重要である。 近年,多くの深層学習手法が提案され,海氷領域のセグメンテーションと認識に応用されている。 しかし, 海氷域の多様さ, ジグザグと細い縁の輪郭, 異なる種類の海氷の識別が困難であることは, 既存の海氷認識モデルに課題をもたらす。 本稿では,光リモートセンシング画像における海氷認識のためのGDGT法を提案する。 GDGTでは、グローバルな局所的な特徴融合機構は、グローバルな構造的相関特徴と局所的な空間的詳細特徴を融合するように設計されている。 さらに、海氷認識性能を向上させるため、特徴再構成中により高精細な情報を保持するためのディテールガイドデコーダを開発した。 生成した海氷データセットの実験により, GDGTの有効性と進歩が示された。

The recognition of sea ice is of great significance for reflecting climate change and ensuring the safety of ship navigation. Recently, many deep learning based methods have been proposed and applied to segment and recognize sea ice regions. However, the diverse scales of sea ice areas, the zigzag and fine edge contours, and the difficulty in distinguishing different types of sea ice pose challenges to existing sea ice recognition models. In this paper, a Global-Local Detail Guided Transformer (GDGT) method is proposed for sea ice recognition in optical remote sensing images. In GDGT, a global-local feature fusiont mechanism is designed to fuse global structural correlation features and local spatial detail features. Furthermore, a detail-guided decoder is developed to retain more high-resolution detail information during feature reconstruction for improving the performance of sea ice recognition. Experiments on the produced sea ice dataset demonstrated the effectiveness and advancement of GDGT.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# TauAD:条件付き拡散モデルを用いたPET画像におけるMRIのないTau異常検出

TauAD: MRI-free Tau Anomaly Detection in PET Imaging via Conditioned Diffusion Models ( http://arxiv.org/abs/2405.13199v1 )

ライセンス: Link先を確認
Lujia Zhong, Shuo Huang, Jiaxin Yue, Jianwei Zhang, Zhiwei Deng, Wenhao Chi, Yonggang Shi, (参考訳) 過去10年間のタウPET画像の出現により、アルツハイマー病(AD)研究者はタウの病態をin vivoで調べ、ADの疾患軌跡をより効果的に特徴づけることができた。 しかし、現在のタウPET分析法は、典型的には大脳皮質ROIの推測を行い、被験者によって異なる局所的なタウ病の検出に制限される。 また,高分解能MRIで従来のtau PET解析を行なわなければならないが,これは臨床実践では一般的には得られず,強い運動アーチファクト,閉所恐怖症,特定の金属インプラントによる認知症高齢者では得られない。 本研究では,タウPET画像データからMRIのない異常検出を行う条件拡散モデルを提案する。 本モデルでは、個別化条件と擬似不健康および擬似不健康再建からの2つの相補的損失マップを含めることで、脳領域全体にわたる異常マップを計算し、疾患の重症度を分類するための支援ベクトルマシン(SVM)を簡易に訓練することができる。 対象はADNI対象者(n=534)で,A4臨床試験対象者(n=447)とは別のデータセットで評価を行った。 本手法は,脳皮質下領域と脳外領域におけるターゲット外結合を誤検出することなく,異常局所化において,ベースライン生成モデルと従来のZスコア法よりも優れていることを示す。 また,ADNIデータに基づいて訓練したSVMを用いて,A4被験者の異常マップに基づいてA4被験者を分類することにより,認知機能が大きく異なる前臨床被験者をグループ化できることを示す。

The emergence of tau PET imaging over the last decade has enabled Alzheimer's disease (AD) researchers to examine tau pathology in vivo and more effectively characterize the disease trajectories of AD. Current tau PET analysis methods, however, typically perform inferences on large cortical ROIs and are limited in the detection of localized tau pathology that varies across subjects. Furthermore, a high-resolution MRI is required to carry out conventional tau PET analysis, which is not commonly acquired in clinical practices and may not be acquired for many elderly patients with dementia due to strong motion artifacts, claustrophobia, or certain metal implants. In this work, we propose a novel conditional diffusion model to perform MRI-free anomaly detection from tau PET imaging data. By including individualized conditions and two complementary loss maps from pseudo-healthy and pseudo-unhealthy reconstructions, our model computes an anomaly map across the entire brain area that allows simply training a support vector machine (SVM) for classifying disease severity. We train our model on ADNI subjects (n=534) and evaluate its performance on a separate dataset from the preclinical subjects of the A4 clinical trial (n=447). We demonstrate that our method outperforms baseline generative models and the conventional Z-score-based method in anomaly localization without mis-detecting off-target bindings in sub-cortical and out-of-brain areas. By classifying the A4 subjects according to their anomaly map using the SVM trained on ADNI data, we show that our method can successfully group preclinical subjects with significantly different cognitive functions, which further demonstrates the effectiveness of our method in capturing biologically relevant anomaly in tau PET imaging.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# 都市交通管理の強化:データ収集のための高次3次元LiDARと高度な物体検出分析

Empowering Urban Traffic Management: Elevated 3D LiDAR for Data Collection and Advanced Object Detection Analysis ( http://arxiv.org/abs/2405.13202v1 )

ライセンス: Link先を確認
Nawfal Guefrachi, Hakim Ghazzai, Ahmad Alsharoa, (参考訳) 都市環境における3次元物体検出能力は、近年の光検出・距離(LiDAR)技術の発展により大幅に改善されている。 本稿では,高機能LiDARセンサのパワーを利用して,交通シナリオにおける3次元物体の検出と解析を変換する新しいフレームワークを提案する。 複雑な3Dポイントのクラウドデータを収集し、都市交通のダイナミクスを正確にかつ詳細に捉えることができる。 実世界のトラフィックデータセットの取得に制限があるため、シミュレータを用いて特定のシナリオに対して3Dポイントクラウドを生成する。 実験的な解析を支援するために,まず,様々な3次元クラウドトラフィック関連オブジェクトをシミュレートする。 そして、このデータセットを、都市交通環境を模擬した車と歩行者の両方を識別・監視するために、我々の3Dオブジェクト検出モデルのトレーニングと評価の基盤として使用する。 次に、Voxel-Region-based Convolutional Neural Network (PV-RCNN)アーキテクチャを微調整し、都市交通シミュレーションによって生成された大量のポイントクラウドデータを処理し、理解するのにより適している。 本研究は,交通現場における物体の正確な検出における提案手法の有効性を示し,都市安全の向上とインテリジェント交通システムの高度化におけるLiDARの役割を強調した。

The 3D object detection capabilities in urban environments have been enormously improved by recent developments in Light Detection and Range (LiDAR) technology. This paper presents a novel framework that transforms the detection and analysis of 3D objects in traffic scenarios by utilizing the power of elevated LiDAR sensors. We are presenting our methodology's remarkable capacity to collect complex 3D point cloud data, which allows us to accurately and in detail capture the dynamics of urban traffic. Due to the limitation in obtaining real-world traffic datasets, we utilize the simulator to generate 3D point cloud for specific scenarios. To support our experimental analysis, we firstly simulate various 3D point cloud traffic-related objects. Then, we use this dataset as a basis for training and evaluating our 3D object detection models, in identifying and monitoring both vehicles and pedestrians in simulated urban traffic environments. Next, we fine tune the Point Voxel-Region-based Convolutional Neural Network (PV-RCNN) architecture, making it more suited to handle and understand the massive volumes of point cloud data generated by our urban traffic simulations. Our results show the effectiveness of the proposed solution in accurately detecting objects in traffic scenes and highlight the role of LiDAR in improving urban safety and advancing intelligent transportation systems.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# 時間付きダイアリゼーショントランスクリプトによるリアルタイム対話のモデル化

Modeling Real-Time Interactive Conversations as Timed Diarized Transcripts ( http://arxiv.org/abs/2405.13203v1 )

ライセンス: Link先を確認
Garrett Tanzer, Gustaf Ahdritz, Luke Melas-Kyriazi, (参考訳) 言語モデル上に構築されたチャットボットの人気は爆発的に高まっているが、それらは主に同期的でターンバイターンな対話に限られている。 本稿では,時間付きダイアライズされた文字起こしをモデル化し,因果的拒絶サンプリングを用いて復号化することにより,事前訓練されたテキストのみの言語モデルを用いてリアルタイム対話をシミュレートする簡易かつ汎用的な手法を提案する。 リアルタイムの対話性を維持するために約30 tok/sと20 tok/sの生成を必要とするインスタントメッセンジャー対話と音声会話の2つのケーススタディで本手法の可能性を実証する。 これらの機能は、比較的小さなデータを使用して言語モデルに追加し、コモディティハードウェア上で動作させることができる。

Chatbots built upon language models have exploded in popularity, but they have largely been limited to synchronous, turn-by-turn dialogues. In this paper we present a simple yet general method to simulate real-time interactive conversations using pretrained text-only language models, by modeling timed diarized transcripts and decoding them with causal rejection sampling. We demonstrate the promise of this method with two case studies: instant messenger dialogues and spoken conversations, which require generation at about 30 tok/s and 20 tok/s respectively to maintain real-time interactivity. These capabilities can be added into language models using relatively little data and run on commodity hardware.
翻訳日:2024-05-25 02:03:26 公開日:2024-05-21
# 緊急応答器配置のための階層的コーディネーションを用いたマルチエージェント強化学習

Multi-Agent Reinforcement Learning with Hierarchical Coordination for Emergency Responder Stationing ( http://arxiv.org/abs/2405.13205v1 )

ライセンス: Link先を確認
Amutheezan Sivagnanam, Ava Pettet, Hunter Lee, Ayan Mukhopadhyay, Abhishek Dubey, Aron Laszka, (参考訳) 救急隊員管理システム(ERM)は救急隊員などの救急隊員を医療援助の要請に応じて派遣する。 ERMシステムはまた、事前に指定された待機場所間で応答器を積極的に再配置することで、応答器の事前配布や、期待される要求の配布の大幅な変更によって生じるギャップをカバーできる。 最適な再配置は、ロケーション間で応答器を割り当てる指数関数的な数と、将来の要求の不確実性のため、計算的に困難である。 積極的再配置における最先端のアプローチは、空間分解とオンラインモンテカルロ木探索に基づく階層的なアプローチであり、秒が命を救うことができる領域における各決定に数分の計算を必要とする可能性がある。 同じ階層的な分解に基づく新しい強化学習(RL)アプローチを導入し、オンライン検索を学習に置き換えることで、長い意思決定時間の問題に対処する。 本研究では,(1)変圧器を組み込んだ可変次元状態と動作を扱うアクタ批判型エージェント,(2)複雑な状態を扱うための固定次元観測への投射,(3)連続的な動作を離散的な割り当てにマッピングするための組合せ的手法を提案する。 我々は、ナッシュビル、TN、シアトルの2つの都市から得られた実世界のデータを用いて、我々のアプローチを評価した。 提案手法は, 最先端技術と比較して, 決定毎の計算時間を3桁程度削減し, 平均救急応答時間を5秒程度短縮する。

An emergency responder management (ERM) system dispatches responders, such as ambulances, when it receives requests for medical aid. ERM systems can also proactively reposition responders between predesignated waiting locations to cover any gaps that arise due to the prior dispatch of responders or significant changes in the distribution of anticipated requests. Optimal repositioning is computationally challenging due to the exponential number of ways to allocate responders between locations and the uncertainty in future requests. The state-of-the-art approach in proactive repositioning is a hierarchical approach based on spatial decomposition and online Monte Carlo tree search, which may require minutes of computation for each decision in a domain where seconds can save lives. We address the issue of long decision times by introducing a novel reinforcement learning (RL) approach, based on the same hierarchical decomposition, but replacing online search with learning. To address the computational challenges posed by large, variable-dimensional, and discrete state and action spaces, we propose: (1) actor-critic based agents that incorporate transformers to handle variable-dimensional states and actions, (2) projections to fixed-dimensional observations to handle complex states, and (3) combinatorial techniques to map continuous actions to discrete allocations. We evaluate our approach using real-world data from two U.S. cities, Nashville, TN and Seattle, WA. Our experiments show that compared to the state of the art, our approach reduces computation time per decision by three orders of magnitude, while also slightly reducing average ambulance response time by 5 seconds.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# マイクロジェスチャ理解によるアイデンティティフリーな人工感情知

Identity-free Artificial Emotional Intelligence via Micro-Gesture Understanding ( http://arxiv.org/abs/2405.13206v1 )

ライセンス: Link先を確認
Rong Gao, Xin Liu, Bohao Xing, Zitong Yu, Bjorn W. Schuller, Heikki Kälviäinen, (参考訳) 本研究は,人体言語の特殊グループであるマイクロ・ジェスチャ(MG)に焦点を当て,内的感情によって引き起こされる意図的行動ではなく,内的感情によって引き起こされる意図的行動である,通常の説明的行動とは異なっている。 この特徴は、再考に値する2つの新しい課題をもたらす。 1つ目は、他のアクション認識のために設計された戦略が、マイクロジェスチャーに適用できるかどうかである。 2つ目は、補足データとして、感情的な理解にさらなる洞察を与えることができるかどうかである。 そこで我々は,マイクロ・ジェスチャの微妙な空間的・短時間の時間的特徴を考慮し,より適切なオースメント法を決定するために,マイクロ・ジェスチャの認識において,マイクロ・ジェスチャの微妙な時間的特徴を考慮に入れた様々なオースメント戦略を検討した。 微小妊娠における時間領域情報の重要性を考慮し, 簡易かつ効率的な時空間分散融合法を提案する。 提案手法について検討しただけでなく,本研究の主流となる行動データセットについても実験を行った。 その結果,本手法は,従来のマイクロ・ジェスチャ認識法と比較して,従来のマイクロ・ジェスチャ認識法と比較して,最先端の性能を達成し,マイクロ・ジェスチャ認識や他のデータセットで良好に機能することが示された。 微小な姿勢に基づく感情理解のために,我々は複雑な感情的推論シナリオを構築した。 大規模言語モデルを用いて行った評価は, 包括的感情理解を深める上で, マイクロジェスチャーが有意かつ肯定的な役割を担っていることを示唆している。 私たちが開発したシナリオは、詐欺検出やインタビューなど、他のマイクロジェスチャーベースのタスクにも拡張できます。 我々は、我々の新しい洞察が、マイクロ・ジェスチャと感情的人工知能の研究の進展に寄与していることを確認した。

In this work, we focus on a special group of human body language -- the micro-gesture (MG), which differs from the range of ordinary illustrative gestures in that they are not intentional behaviors performed to convey information to others, but rather unintentional behaviors driven by inner feelings. This characteristic introduces two novel challenges regarding micro-gestures that are worth rethinking. The first is whether strategies designed for other action recognition are entirely applicable to micro-gestures. The second is whether micro-gestures, as supplementary data, can provide additional insights for emotional understanding. In recognizing micro-gestures, we explored various augmentation strategies that take into account the subtle spatial and brief temporal characteristics of micro-gestures, often accompanied by repetitiveness, to determine more suitable augmentation methods. Considering the significance of temporal domain information for micro-gestures, we introduce a simple and efficient plug-and-play spatiotemporal balancing fusion method. We not only studied our method on the considered micro-gesture dataset but also conducted experiments on mainstream action datasets. The results show that our approach performs well in micro-gesture recognition and on other datasets, achieving state-of-the-art performance compared to previous micro-gesture recognition methods. For emotional understanding based on micro-gestures, we construct complex emotional reasoning scenarios. Our evaluation, conducted with large language models, shows that micro-gestures play a significant and positive role in enhancing comprehensive emotional understanding. The scenarios we developed can be extended to other micro-gesture-based tasks such as deception detection and interviews. We confirm that our new insights contribute to advancing research in micro-gesture and emotional artificial intelligence.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# 大規模言語モデルの記号能力の検討

Investigating Symbolic Capabilities of Large Language Models ( http://arxiv.org/abs/2405.13209v1 )

ライセンス: Link先を確認
Neisarg Dave, Daniel Kifer, C. Lee Giles, Ankur Mali, (参考訳) プロンプティング技術は、推論、計画、数学用語の問題の解決など、様々な複雑なタスクにわたって、LLM(Large Language Models)の機能を大幅に強化した。 しかしながら、ほとんどの研究は言語に基づく推論と単語の問題に重点を置いており、シンボルベースの計算や推論を扱う上でのLLMの可能性を見落としていることが多い。 本研究の目的は,加法,乗算,モジュラー算術,数値精度,記号数など,一連の記号的タスク上でLLMを厳格に評価することにより,このギャップを埋めることである。 我々の分析では、エンタープライズグレードの4つのモデルとオープンソースの4つのモデルを含む8つのLCMを含み、そのうち3つは数学的なタスクで事前訓練されている。 評価フレームワークはチョムスキーの階層に固定されており、これらのモデルの計算能力の堅牢な尺度を提供する。 この評価では、ゼロショットのChain of Thoughtsテクニックと並行して、最小限に説明されたプロンプトを使用して、モデルがソリューションプロセスを自律的にナビゲートすることができる。 その結果,記号数で表される複雑性が増大するにつれて,LLMの文脈自由かつ文脈依存的な記号処理における性能が著しく低下することが明らかとなった。 特に、微調整のGPT3.5でさえ、他のモデルで観測されるパフォーマンストレンドを反映して、限界的な改善しか示さない。 ボード全体では、全てのモデルがこれらのシンボル集約的なタスクに対して限定的な一般化能力を示した。 本研究は,記号に基づく推論タスクにおける習熟度を高めるための,特別な訓練,記憶,アーキテクチャ調整の必要性を強調し,LLMの課題を浮き彫りにする。

Prompting techniques have significantly enhanced the capabilities of Large Language Models (LLMs) across various complex tasks, including reasoning, planning, and solving math word problems. However, most research has predominantly focused on language-based reasoning and word problems, often overlooking the potential of LLMs in handling symbol-based calculations and reasoning. This study aims to bridge this gap by rigorously evaluating LLMs on a series of symbolic tasks, such as addition, multiplication, modulus arithmetic, numerical precision, and symbolic counting. Our analysis encompasses eight LLMs, including four enterprise-grade and four open-source models, of which three have been pre-trained on mathematical tasks. The assessment framework is anchored in Chomsky's Hierarchy, providing a robust measure of the computational abilities of these models. The evaluation employs minimally explained prompts alongside the zero-shot Chain of Thoughts technique, allowing models to navigate the solution process autonomously. The findings reveal a significant decline in LLMs' performance on context-free and context-sensitive symbolic tasks as the complexity, represented by the number of symbols, increases. Notably, even the fine-tuned GPT3.5 exhibits only marginal improvements, mirroring the performance trends observed in other models. Across the board, all models demonstrated a limited generalization ability on these symbol-intensive tasks. This research underscores LLMs' challenges with increasing symbolic complexity and highlights the need for specialized training, memory and architectural adjustments to enhance their proficiency in symbol-based reasoning tasks.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# 長文理解のためのランダムアクセシブル読解変換器

Equipping Transformer with Random-Access Reading for Long-Context Understanding ( http://arxiv.org/abs/2405.13216v1 )

ライセンス: Link先を確認
Chenghao Yang, Zi Yang, Nan Hua, (参考訳) 長文モデリングは、自己認識機構の2次複雑さと、短い入力にのみ事前学習することによる長さ外挿の問題により、トランスフォーマーベースの大規模言語モデル(LLM)にとって重要な課題である。 既存の手法は、テキストチャンキング、カーネルアプローチ、構造化された注意を通して計算複雑性に対処し、位置エンコーディング、継続的な事前学習、データエンジニアリングを通じて長さ外挿問題に取り組む。 これらのアプローチは通常、ドキュメントに対して$\textbf{sequential access}$を必要とし、最初のトークンから最後のトークンまで読み込む必要がある。 長い文書をゴール指向で読むためには、このようなシーケンシャルなアクセスは不要であり、熟練した訓練を受けたモデルでは、数百の関連するトークンを省略することができる、と我々は主張する。 人間の読影行動や既存の経験的観察から着想を得て,すべてのトークンを検査することなく,トランスフォーマーが効率的に長い文書を処理できる新しい読影戦略である$\textbf{random access}$を提案する。 プレトレーニング,微調整,推論による実験結果から,本手法の有効性が検証された。

Long-context modeling presents a significant challenge for transformer-based large language models (LLMs) due to the quadratic complexity of the self-attention mechanism and issues with length extrapolation caused by pretraining exclusively on short inputs. Existing methods address computational complexity through techniques such as text chunking, the kernel approach, and structured attention, and tackle length extrapolation problems through positional encoding, continued pretraining, and data engineering. These approaches typically require $\textbf{sequential access}$ to the document, necessitating reading from the first to the last token. We contend that for goal-oriented reading of long documents, such sequential access is not necessary, and a proficiently trained model can learn to omit hundreds of less pertinent tokens. Inspired by human reading behaviors and existing empirical observations, we propose $\textbf{random access}$, a novel reading strategy that enables transformers to efficiently process long documents without examining every token. Experimental results from pretraining, fine-tuning, and inference phases validate the efficacy of our method.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# ニューラルネットワークにおけるバックドアのインタラクティブシミュレーション

Interactive Simulations of Backdoors in Neural Networks ( http://arxiv.org/abs/2405.13217v1 )

ライセンス: Link先を確認
Peter Bajcsy, Maxime Bros, (参考訳) この研究は、人工知能(AI)モデルにおける暗号ベースのバックドアの植え付けと防御の問題に対処する。 その動機は、私たちの理解の欠如と、実際にデプロイされた大規模なAIモデルシステムにおける理論的前提の下で、検出不可能なバックドアを植え付けるための暗号化技術を使うことの意味から来ています。 我々のアプローチは、ニューラルネットワーク(NN)における暗号バックドアの植え付け、活性化、防御を可能にするWebベースのシミュレーションプレイグラウンドを設計することに基づいている。 デジタル署名検証をサポートするNNモデルアーキテクチャの拡張と、非線形演算子に対するアーキテクチャブロックの変更である。 バックドアに対するバックドア防御のシミュレーションは、近接分析に基づいて利用可能であり、バックドアに対する植林と防御のゲームのための遊び場を提供する。 シミュレーションはhttps://pages.nist.gov/nn-calculatorで公開されている。

This work addresses the problem of planting and defending cryptographic-based backdoors in artificial intelligence (AI) models. The motivation comes from our lack of understanding and the implications of using cryptographic techniques for planting undetectable backdoors under theoretical assumptions in the large AI model systems deployed in practice. Our approach is based on designing a web-based simulation playground that enables planting, activating, and defending cryptographic backdoors in neural networks (NN). Simulations of planting and activating backdoors are enabled for two scenarios: in the extension of NN model architecture to support digital signature verification and in the modified architectural block for non-linear operators. Simulations of backdoor defense against backdoors are available based on proximity analysis and provide a playground for a game of planting and defending against backdoors. The simulations are available at https://pages.nist.gov/nn-calculator
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# 画像合成における計算トレードオフ:拡散, マスケ-トケン, 次点予測

Computational Tradeoffs in Image Synthesis: Diffusion, Masked-Token, and Next-Token Prediction ( http://arxiv.org/abs/2405.13218v1 )

ライセンス: Link先を確認
Maciej Kilian, Varun Japan, Luke Zettlemoyer, (参考訳) 拡散、マスクトケン予測、次のトケン予測を含む最近の画像合成アプローチのほぼ全てが、Transformerネットワークアーキテクチャを使用している。 この一般的なバックボーンにもかかわらず、これらのアプローチがパフォーマンスと効率にどのように影響するかを直接、計算で制御された比較は行われていない。 FLOPで測定された計算予算のレンズを用いて,各手法のスケーラビリティを解析する。 次点予測によって導かれるトークン予測手法は, 後続のプロンプト上での拡散率を著しく上回ることがわかった。 画像の品質では、次点の予測は最初はより良い性能を示すが、スケーリングの傾向は最終的に拡散によって一致することを示唆している。 我々は,各手法の推論計算効率を比較し,次のトークン予測が最も効率的であることを示す。 この結果から,画像品質と低レイテンシをターゲットとしたアプリケーションへの拡散を推奨する。

Nearly every recent image synthesis approach, including diffusion, masked-token prediction, and next-token prediction, uses a Transformer network architecture. Despite this common backbone, there has been no direct, compute controlled comparison of how these approaches affect performance and efficiency. We analyze the scalability of each approach through the lens of compute budget measured in FLOPs. We find that token prediction methods, led by next-token prediction, significantly outperform diffusion on prompt following. On image quality, while next-token prediction initially performs better, scaling trends suggest it is eventually matched by diffusion. We compare the inference compute efficiency of each approach and find that next token prediction is by far the most efficient. Based on our findings we recommend diffusion for applications targeting image quality and low latency; and next-token prediction when prompt following or throughput is more important.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# AIチャットボットは患者からの病気予測にどのように役立つか?

How Reliable AI Chatbots are for Disease Prediction from Patient Complaints? ( http://arxiv.org/abs/2405.13219v1 )

ライセンス: Link先を確認
Ayesha Siddika Nipu, K M Sajjadul Islam, Praveen Madiraju, (参考訳) 大規模言語モデル(LLM)を活用した人工知能(AI)チャットボットは、患者のインタラクションを自動化し、臨床的意思決定を支援する可能性から、医療分野で勢いを増している。 本研究は,AIチャットボット,特にGPT 4.0,Claude 3 Opus,Gemini Ultra 1.0の信頼性を,救急部門における患者の苦情から疾患を予測するために検討した。 この手法には、病気予測におけるチャットボットの有効性を評価するための数発の学習技術が含まれている。 また、変換器ベースのモデルBERTを微調整し、その性能をAIチャットボットと比較する。 結果は、GPT 4.0は数ショットデータの増加で高い精度を達成し、Gemini Ultra 1.0は少ないサンプルで良好に動作し、Claude 3 Opusは一貫性のある性能を維持していることを示唆している。 しかしBERTのパフォーマンスは、すべてのチャットボットよりも低く、ラベル付きデータに制限があることを示している。 チャットボットの精度は様々だが、いずれも重要な医療的意思決定に十分な信頼性を持たず、厳格な検証と人間の監視の必要性を強調している。 この研究は、AIチャットボットは医療の可能性を秘めているが、患者の安全を確保するために人間の専門知識を補完し、置き換えるべきではないことを反映している。 疾病予測のためのAIベースの医療アプリケーションの信頼性を改善するためには、さらなる改善と研究が必要である。

Artificial Intelligence (AI) chatbots leveraging Large Language Models (LLMs) are gaining traction in healthcare for their potential to automate patient interactions and aid clinical decision-making. This study examines the reliability of AI chatbots, specifically GPT 4.0, Claude 3 Opus, and Gemini Ultra 1.0, in predicting diseases from patient complaints in the emergency department. The methodology includes few-shot learning techniques to evaluate the chatbots' effectiveness in disease prediction. We also fine-tune the transformer-based model BERT and compare its performance with the AI chatbots. Results suggest that GPT 4.0 achieves high accuracy with increased few-shot data, while Gemini Ultra 1.0 performs well with fewer examples, and Claude 3 Opus maintains consistent performance. BERT's performance, however, is lower than all the chatbots, indicating limitations due to limited labeled data. Despite the chatbots' varying accuracy, none of them are sufficiently reliable for critical medical decision-making, underscoring the need for rigorous validation and human oversight. This study reflects that while AI chatbots have potential in healthcare, they should complement, not replace, human expertise to ensure patient safety. Further refinement and research are needed to improve AI-based healthcare applications' reliability for disease prediction.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# 逆問題に対するペアオートエンコーダ

Paired Autoencoders for Inverse Problems ( http://arxiv.org/abs/2405.13220v1 )

ライセンス: Link先を確認
Matthias Chung, Emma Hart, Julianne Chung, Bas Peters, Eldad Haber, (参考訳) 前方問題は偏微分方程式の離散化である非線形逆問題の解を考える。 このような問題は実際に解くのが難しく、データ適合項と正規化項の組合せを最小化する必要がある。 典型的なアルゴリズムの主な計算ボトルネックは、データ不適合性の直接推定である。 したがって、可能性のないアプローチは代替案として魅力的なものとなっている。 それでも、一般化の難しさと精度の限界は、その幅広い実用性と適用性を妨げている。 本研究では,逆問題に対する確率自由度推定器として,ペアオートエンコーダフレームワークを用いる。 このようなアーキテクチャを用いることで、解を効率的に構築し、確率自由推定器を使用する場合の既知の未解決問題を克服できることを示す。 特に、我々のフレームワークは、ソリューションの品質を評価し、必要に応じて改善することができる。 フルウェーブフォームインバージョンと逆電磁イメージングの例を用いて,本手法の有効性を実証する。

We consider the solution of nonlinear inverse problems where the forward problem is a discretization of a partial differential equation. Such problems are notoriously difficult to solve in practice and require minimizing a combination of a data-fit term and a regularization term. The main computational bottleneck of typical algorithms is the direct estimation of the data misfit. Therefore, likelihood-free approaches have become appealing alternatives. Nonetheless, difficulties in generalization and limitations in accuracy have hindered their broader utility and applicability. In this work, we use a paired autoencoder framework as a likelihood-free estimator for inverse problems. We show that the use of such an architecture allows us to construct a solution efficiently and to overcome some known open problems when using likelihood-free estimators. In particular, our framework can assess the quality of the solution and improve on it if needed. We demonstrate the viability of our approach using examples from full waveform inversion and inverse electromagnetic imaging.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# Dataset Decomposition: 可変列長カリキュラムによる高速LCMトレーニング

Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum ( http://arxiv.org/abs/2405.13226v1 )

ライセンス: Link先を確認
Hadi Pouransari, Chun-Liang Li, Jen-Hao Rick Chang, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Oncel Tuzel, (参考訳) 大規模言語モデル(LLM)は、固定長トークンシーケンスからなるデータセットで一般的に訓練される。 これらのデータセットは、様々な長さの文書をランダムに連結し、所定のターゲット長のシーケンスに分類することで生成される。 しかし、この結合方式は、望ましい学習信号でも、計算効率でもなければ、シーケンス内のクロスドキュメントの注意を惹きつける可能性がある。 さらに、注意の2次コストのため、長いシーケンスのトレーニングは計算的に禁止される。 本研究では,これらの課題に対処するために,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。 データセットをバケットの結合に分解し、それぞれがユニークなドキュメントから抽出された同じサイズのシーケンスを含む。 トレーニング中、可変シーケンス長とバッチサイズを使用し、カリキュラムですべてのバケットから同時にサンプリングします。 トレーニングの各ステップで一定の注意コストを発生させるConcat-and-chunkベースラインとは対照的に,提案手法は各ステップの実際の文書長に比例してペナルティを発生させ,トレーニング時間を大幅に短縮する。 ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。 ウェブスケールコーパスの実験により,本手法は標準言語評価と長文ベンチマークの性能を大幅に向上させ,ベースラインに比べて目標精度を3倍に向上させることを示した。 提案手法は,長い列の事前学習を効果的に行うだけでなく,データセットサイズで効果的にスケールすることができる。 最後に、我々は、大規模言語モデルのトレーニングにおいて、重要かつあまり研究されていない側面、すなわちシーケンス長の分布とカリキュラムに光を当てた。

Large language models (LLMs) are commonly trained on datasets consisting of fixed-length token sequences. These datasets are created by randomly concatenating documents of various lengths and then chunking them into sequences of a predetermined target length. However, this method of concatenation can lead to cross-document attention within a sequence, which is neither a desirable learning signal nor computationally efficient. Additionally, training on long sequences becomes computationally prohibitive due to the quadratic cost of attention. In this study, we introduce dataset decomposition, a novel variable sequence length training technique, to tackle these challenges. We decompose a dataset into a union of buckets, each containing sequences of the same size extracted from a unique document. During training, we use variable sequence length and batch size, sampling simultaneously from all buckets with a curriculum. In contrast to the concat-and-chunk baseline, which incurs a fixed attention cost at every step of training, our proposed method incurs a penalty proportional to the actual document lengths at each step, resulting in significant savings in training time. We train an 8k context-length 1B model at the same cost as a 2k context-length model trained with the baseline approach. Experiments on a web-scale corpus demonstrate that our approach significantly enhances performance on standard language evaluations and long-context benchmarks, reaching target accuracy 3x faster compared to the baseline. Our method not only enables efficient pretraining on long sequences but also scales effectively with dataset size. Lastly, we shed light on a critical yet less studied aspect of training large language models: the distribution and curriculum of sequence lengths, which results in a non-negligible difference in performance.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# 生成的対向ネットワークを用いた都市交通騒音マッピングの迅速化

A rapid approach to urban traffic noise mapping with a generative adversarial network ( http://arxiv.org/abs/2405.13227v1 )

ライセンス: Link先を確認
Xinhao Yang, Zhen Han, Xiaodong Lu, Yuan Zhang, (参考訳) 急速な都市化と交通密度の増加に伴い、交通騒音は都市計画において大きな関心事となっている。 しかし、従来のグリッドノイズマッピング手法には、時間消費、ソフトウェアコスト、パラメータ統合インタフェースの欠如といった制限がある。 これらの制限は、街路規模の都市計画の初期段階において、反復的な更新と迅速なパフォーマンスフィードバックの必要性を満たす能力を妨げている。 そこで我々は,GANを代理モデルとして利用する都市交通騒音の高速マッピング手法を開発した。 提案手法は,道路や建物などの都市要素を入力として,都市交通騒音分布の迅速評価を可能にする。 平均二乗誤差(MSE)と構造類似度指数(SSIM)はそれぞれ0.0949と0.8528である。 したがって、予測精度は従来の予測ソフトウェアと同等である。 さらに、トレーニングされたモデルはGrasshopperにツールとして統合され、交通騒音マップの迅速な生成を容易にする。 この統合により、都市設計者やプランナーは、音響学の専門知識のない者でも、設計による音響への影響を簡単に予測できる。

With rapid urbanisation and the accompanying increase in traffic density, traffic noise has become a major concern in urban planning. However, traditional grid noise mapping methods have limitations in terms of time consumption, software costs, and a lack of parameter integration interfaces. These limitations hinder their ability to meet the need for iterative updates and rapid performance feedback in the early design stages of street-scale urban planning. Herein, we developed a rapid urban traffic noise mapping technique that leverages generative adversarial networks (GANs) as a surrogate model. This approach enables the rapid assessment of urban traffic noise distribution by using urban elements such as roads and buildings as the input. The mean values for the mean squared error (MSE) and structural similarity index (SSIM) are 0.0949 and 0.8528, respectively, for the validation dataset. Hence, our prediction accuracy is on par with that of conventional prediction software. Furthermore, the trained model is integrated into Grasshopper as a tool, facilitating the rapid generation of traffic noise maps. This integration allows urban designers and planners, even those without expertise in acoustics, to easily anticipate changes in acoustics impacts caused by design.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# 鉄道技術地図(RTM)コンポーネント同定のための伝達学習手法

Transfer Learning Approach for Railway Technical Map (RTM) Component Identification ( http://arxiv.org/abs/2405.13229v1 )

ライセンス: Link先を確認
Obadage Rochana Rumalshan, Pramuka Weerasinghe, Mohamed Shaheer, Prabhath Gunathilake, Erunika Dayaratna, (参考訳) 鉄道輸送における長年の極端な人気は、世界中の効率的な鉄道管理システムを維持する必要性を喚起している。 しかしながら、現在、コンピュータ支援設計鉄道技術地図(RTM)の大規模なコレクションは存在するが、ポータブル文書形式(PDF)でのみ利用可能である。 本研究では,ディープラーニングと光学文字認識技術を用いて,入力画像から関連する地図成分データをデジタル化し,画像毎にフォーマットされたテキストファイルを作成する汎用システムを提案する。 YOLOv3、SSD、Faster-RCNNのオブジェクト検出モデルのうち、Faster-RCNNは平均精度(mAP)が最も高く、F1スコアは0.68と0.76である。 さらに、画像を含むテキストが洗練された前処理パイプラインを介して送信され歪みを除去する場合、OCRによる結果を改善することができることが得られた結果から証明された。

The extreme popularity over the years for railway transportation urges the necessity to maintain efficient railway management systems around the globe. Even though, at present, there exist a large collection of Computer Aided Designed Railway Technical Maps (RTMs) but available only in the portable document format (PDF). Using Deep Learning and Optical Character Recognition techniques, this research work proposes a generic system to digitize the relevant map component data from a given input image and create a formatted text file per image. Out of YOLOv3, SSD and Faster-RCNN object detection models used, Faster-RCNN yields the highest mean Average Precision (mAP) and the highest F1 score values 0.68 and 0.76 respectively. Further it is proven from the results obtained that, one can improve the results with OCR when the text containing image is being sent through a sophisticated pre-processing pipeline to remove distortions.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# 多重実現可能性とディープラーニングの台頭

Multiple Realizability and the Rise of Deep Learning ( http://arxiv.org/abs/2405.13231v1 )

ライセンス: Link先を確認
Sam Whitman McGrath, Jacob Russin, (参考訳) 多重実現可能性論は、心理学的状態が様々な物理的システムに実装される可能性があるとしている。 ディープラーニング革命は、この可能性を生かしているようで、現在まで高度な認知機能の人造実現の最も確実な例を提供している。 本稿では,多重実現可能性論における深層学習モデルの有効性について考察する。 とりわけ、複数の実現可能性には、脳や人工的なアナロジーにおけるその実装の研究とは無関係に、心の研究が可能で、追求されなければならないという、広く認識されている見解に異議を唱えている。 その中心的な貢献は哲学的ではあるが、この論文は現代の認知科学にとって重要な方法論的なアップショットを持ち、ディープニューラルネットワークは、たとえそれが実装レベルモデルとして解釈されたとしても、認知に関する仮説を定式化し、評価する上で重要な役割を果たす可能性があることを示唆している。 ディープラーニングの時代において、多重実現性は新たな重要性を持つ。

The multiple realizability thesis holds that psychological states may be implemented in a diversity of physical systems. The deep learning revolution seems to be bringing this possibility to life, offering the most plausible examples of man-made realizations of sophisticated cognitive functions to date. This paper explores the implications of deep learning models for the multiple realizability thesis. Among other things, it challenges the widely held view that multiple realizability entails that the study of the mind can and must be pursued independently of the study of its implementation in the brain or in artificial analogues. Although its central contribution is philosophical, the paper has substantial methodological upshots for contemporary cognitive science, suggesting that deep neural networks may play a crucial role in formulating and evaluating hypotheses about cognition, even if they are interpreted as implementation-level models. In the age of deep learning, multiple realizability possesses a renewed significance.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# MELD-ST:感情対応音声翻訳データセット

MELD-ST: An Emotion-aware Speech Translation Dataset ( http://arxiv.org/abs/2405.13233v1 )

ライセンス: Link先を確認
Sirou Chen, Sakiko Yahata, Shuichiro Shimizu, Zhengdong Yang, Yihang Li, Chenhui Chu, Sadao Kurohashi, (参考訳) 感情は人間の会話において重要な役割を果たす。 本稿では,音声翻訳における感情の意義について述べる。 本稿では,感情認識型音声翻訳タスクのためのMELD-STデータセットについて述べる。 各言語ペアには、MELDデータセットからの感情ラベルを付加した約10,000の発話が含まれている。 データセット上のSeamlessM4Tモデルを用いたベースライン実験では、感情ラベルを用いた微調整により、一部の環境での翻訳性能が向上し、感情対応音声翻訳システムにおけるさらなる研究の必要性が強調されている。

Emotion plays a crucial role in human conversation. This paper underscores the significance of considering emotion in speech translation. We present the MELD-ST dataset for the emotion-aware speech translation task, comprising English-to-Japanese and English-to-German language pairs. Each language pair includes about 10,000 utterances annotated with emotion labels from the MELD dataset. Baseline experiments using the SeamlessM4T model on the dataset indicate that fine-tuning with emotion labels can enhance translation performance in some settings, highlighting the need for further research in emotion-aware speech translation systems.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# フリーハンド2次元超音波映像からの3次元胎児脳電位予測のための幾何学的変換不確かさ

Geometric Transformation Uncertainty for Improving 3D Fetal Brain Pose Prediction from Freehand 2D Ultrasound Videos ( http://arxiv.org/abs/2405.13235v1 )

ライセンス: Link先を確認
Jayroop Ramesh, Nicola K Dinsdale, the INTERGROWTH-21st Consortium, Pak-Hei Yeung, Ana IL Namburete, (参考訳) 3次元脳内の2次元超音波(US)の正確な局所化は、最小限の計算資源を用いて、胎児の成長と発達を自動解析するための重要な課題である。 2次元胎児脳画像における3次元面の自動位置決めのための不確実性を考慮した深層学習モデルを提案する。 具体的には、異なる幾何学的変換の観点から、2次元画像から3次元平面を合成する多頭部ネットワークを訓練する。 モデルは、不確実性を予測して、異なる変換間で低分散の入力により高い重みを割り当て、パフォーマンスを向上させることを明示的に学習する。 提案手法であるQAERTSは, 現状と不確実性に基づくアプローチよりも優れたポーズ推定精度を示し, 局所化精度は平面角 (PA) が9%, サンプル画像品質は正規化相互相関 (NCC) が8%向上した。 QAERTSは効率性も示しており、アンサンブルベースのアプローチよりも5$\times$パラメータが少ないため、リソース制約された設定で有利である。 さらに、QAERTSは、回転の不連続性と明示的な出力不確実性を利用して、フリーハンドUSスキャンで観測されたノイズ効果に対してより堅牢であることが証明された。

Accurately localizing two-dimensional (2D) ultrasound (US) fetal brain images in the 3D brain, using minimal computational resources, is an important task for automated US analysis of fetal growth and development. We propose an uncertainty-aware deep learning model for automated 3D plane localization in 2D fetal brain images. Specifically, a multi-head network is trained to jointly regress 3D plane pose from 2D images in terms of different geometric transformations. The model explicitly learns to predict uncertainty to allocate higher weight to inputs with low variances across different transformations to improve performance. Our proposed method, QAERTS, demonstrates superior pose estimation accuracy than the state-of-the-art and most of the uncertainty-based approaches, leading to 9% improvement on plane angle (PA) for localization accuracy, and 8% on normalized cross-correlation (NCC) for sampled image quality. QAERTS also demonstrates efficiency, containing 5$\times$ fewer parameters than ensemble-based approach, making it advantageous in resource-constrained settings. In addition, QAERTS proves to be more robust to noise effects observed in freehand US scanning by leveraging rotational discontinuities and explicit output uncertainties.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# 2次元マンモグラフィ画像と検体X線像の空間的マッチング : 微石灰化の簡易化を目指して

Spatial Matching of 2D Mammography Images and Specimen Radiographs: Towards Improved Characterization of Suspicious Microcalcifications ( http://arxiv.org/abs/2405.13237v1 )

ライセンス: Link先を確認
Noor Nakhaei, Chrysostomos Marasinou, Akinyinka Omigbodun, Nina Capiro, Bo Li, Anne Hoyt, William Hsu, (参考訳) 不審な微小石灰化の正確な特徴は、これらの石灰化が浸潤性疾患と関連しているかどうかを判断するために重要である。 本研究の目的は,マンモグラフィー画像とデジタル組織像を用いて,微小石灰化と周辺の乳房組織を共同で評価することである。 本研究の目的は, マイクロ石灰化をランドマークとして利用し, 生検コア標本から採取したX線写真とマンモグラフィーで見る石灰化の群とをマッチングするテンプレートマッチング方式を提案することである。 針生検で微小石灰化が認められたマンモグラフィ領域の同定には,高い負の予測値 (0.98) が得られたが, 適度な精度 (0.66) とリコール (0.58) が得られた。

Accurate characterization of suspicious microcalcifications is critical to determine whether these calcifications are associated with invasive disease. Our overarching objective is to enable the joint characterization of microcalcifications and surrounding breast tissue using mammography images and digital histopathology images. Towards this goal, we investigate a template matching-based approach that utilizes microcalcifications as landmarks to match radiographs taken of biopsy core specimens to groups of calcifications that are visible on mammography. Our approach achieved a high negative predictive value (0.98) but modest precision (0.66) and recall (0.58) in identifying the mammographic region where microcalcifications were taken during a core needle biopsy.
翻訳日:2024-05-25 01:53:42 公開日:2024-05-21
# 大規模リコメンダシステムにおけるストリームクラスタリングとメモリネットワークに基づくユーザ関心の強化

Enhancing User Interest based on Stream Clustering and Memory Networks in Large-Scale Recommender Systems ( http://arxiv.org/abs/2405.13238v1 )

ライセンス: Link先を確認
Peng Liu, Nian Wang, Cong Xu, Ming Zhao, Bin Wang, Yi Ren, (参考訳) Recommender Systems (RS) は、様々なプラットフォームで広く使われているユーザの関心に基づいてパーソナライズされたレコメンデーションサービスを提供している。 しかし, 消費行動の欠如による関心の低い利用者が多く, 推奨結果の低さを招いている。 この問題は大規模RSで広く知られており、特に対処は困難である。 この問題を解決するために,ユーザプロファイルやユーザ履歴の動作シーケンスを含むユーザの興味を向上するUIE(User Interest Enhancement)と,ストリームクラスタリングとメモリネットワークの異なる視点から生成されたパーソナライズされた拡張ベクトルを提案する。 UIEは、関心の少ないユーザにおけるモデルパフォーマンスを著しく改善するだけでなく、他のユーザに対するモデルパフォーマンスを大幅に向上させる。 UIEはエンドツーエンドのソリューションで、ランキングモデルに基づいて簡単に実装できます。 さらに,ソリューションを拡張し,類似の手法をロングテールアイテムに適用し,優れた改善を実現した。 さらに,大規模産業RSにおいて大規模なオフラインおよびオンライン実験を行う。 結果から,本モデルが他のモデル,特に疎利なユーザに対して著しく優れていたことが示唆された。 これまで、UIEは複数の大規模RSに完全にデプロイされ、目覚ましい改善が達成された。

Recommender Systems (RSs) provide personalized recommendation service based on user interest, which are widely used in various platforms. However, there are lots of users with sparse interest due to lacking consumption behaviors, which leads to poor recommendation results for them. This problem is widespread in large-scale RSs and is particularly difficult to address. To solve this problem, we propose a novel solution named User Interest Enhancement (UIE) which enhances user interest including user profile and user history behavior sequences using the enhancement vectors and personalized enhancement vector generated based on stream clustering and memory networks from different perspectives. UIE not only remarkably improves model performance on the users with sparse interest but also significantly enhance model performance on other users. UIE is an end-to-end solution which is easy to be implemented based on ranking model. Moreover, we expand our solution and apply similar methods to long-tail items, which also achieves excellent improvement. Furthermore, we conduct extensive offline and online experiments in a large-scale industrial RS. The results demonstrate that our model outperforms other models remarkably, especially for the users with sparse interest. Until now, UIE has been fully deployed in multiple large-scale RSs and achieved remarkable improvements.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-21
# 逆転生産プログラムとしてのゴール

Goals as Reward-Producing Programs ( http://arxiv.org/abs/2405.13242v1 )

ライセンス: Link先を確認
Guy Davidson, Graham Todd, Julian Togelius, Todd M. Gureckis, Brenden M. Lake, (参考訳) 人々は、子供の遊びから始まり、成人し続けながら、驚くほど独自の目標を生み出すことができる。 目標と目標指向の行動に関する経験的および計算的な研究にもかかわらず、モデルは日々の人間の目標の豊かさを捉えるには程遠い。 ここでは,人為的な遊び目標のデータセットを収集し,それを報酬生成プログラムとしてモデル化し,プログラム合成を通じて新たな人間的な目標を生成することにより,このギャップを埋める。 リワード生成プログラムは、構成、時間的制約の追加、行動トレース上でプログラムの実行による進捗の評価を可能にする象徴的な操作を通じて、ゴールのリッチなセマンティクスをキャプチャする。 目標生成モデルを構築するために、可能なゴールプログラムの無限集合上の適合関数を学習し、品質多様性アルゴリズムを用いて新しいゴールをサンプリングする。 人間の評価者は、人間の例によって占有されるプログラム空間の分割からサンプルされたモデル生成目標が、人間が作成したゲームと区別できないことを発見した。 また、我々のモデルの内部のフィットネススコアは、プレイしやすく、人間らしく評価されたゲームを予測することもわかりました。

People are remarkably capable of generating their own goals, beginning with child's play and continuing into adulthood. Despite considerable empirical and computational work on goals and goal-oriented behavior, models are still far from capturing the richness of everyday human goals. Here, we bridge this gap by collecting a dataset of human-generated playful goals, modeling them as reward-producing programs, and generating novel human-like goals through program synthesis. Reward-producing programs capture the rich semantics of goals through symbolic operations that compose, add temporal constraints, and allow for program execution on behavioral traces to evaluate progress. To build a generative model of goals, we learn a fitness function over the infinite set of possible goal programs and sample novel goals with a quality-diversity algorithm. Human evaluators found that model-generated goals, when sampled from partitions of program space occupied by human examples, were indistinguishable from human-created games. We also discovered that our model's internal fitness scores predict games that are evaluated as more fun to play and more human-like.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-21
# 量子ソフトウェアエコシステム設計

Quantum Software Ecosystem Design ( http://arxiv.org/abs/2405.13244v1 )

ライセンス: Link先を確認
Achim Basermann, Michael Epping, Benedikt Fauseweh, Michael Felderer, Elisabeth Lobe, Melven Röhrig-Zöllner, Gary Schmiedinghoff, Peter K. Schuhmacher, Yoshinta Setyawati, Alexander Weinert, (参考訳) 量子コンピューティングの急速な進歩は、対応するソフトウェアエコシステムの構築に対する科学的かつ厳密なアプローチを必要とし、このトピックは、体系的な調査の過小評価され、素早いものとなった。 この章は、この方向に重要な一歩を踏み出します。 科学と産業の問題を解決するために量子コンピューティングを利用できる量子ソフトウェアエコシステムを構築するのに不可欠な科学的考察を提示します。 この話の中心は、ハードウェアとソフトウェアの共同設計の概念であり、ソフトウェアスタックの上部にあるアプリケーション層からハードウェアまで、双方向のフィードバックループを促進する。 このアプローチは、量子プロセッサのユニークな仕様と制約に特化して設計されたコンパイラと低レベルのソフトウェアから始まり、基盤となるハードウェアと計算モデルの特徴を明確に理解したアルゴリズムで進行し、量子優位性を達成するためにその能力を効果的に活用するアプリケーションにまで拡張する。 我々は、概念的視点、理論的基盤に焦点を当てた概念的視点と、機能的エコシステムに必要な実量子デバイスに関する実践的な実装に対処する技術的なインフラという、2つの重要な視点からエコシステムを分析します。 このアプローチは、ユーザフレンドリな設計、効率的なデータ管理、全体的なオーケストレーションを確保しながら、アルゴリズムと回路のシナジーを最適化した有望なアプリケーションに注力することを保証する。 この章では、科学的基盤を持つ量子ソフトウェアエコシステムの開発に必要な基本的な概念と実践戦略のガイドを提供しています。

The rapid advancements in quantum computing necessitate a scientific and rigorous approach to the construction of a corresponding software ecosystem, a topic underexplored and primed for systematic investigation. This chapter takes an important step in this direction: It presents scientific considerations essential for building a quantum software ecosystem that makes quantum computing available for scientific and industrial problem solving. Central to this discourse is the concept of hardware-software co-design, which fosters a bidirectional feedback loop from the application layer at the top of the software stack down to the hardware. This approach begins with compilers and low-level software that are specifically designed to align with the unique specifications and constraints of the quantum processor, proceeds with algorithms developed with a clear understanding of underlying hardware and computational model features, and extends to applications that effectively leverage the capabilities to achieve a quantum advantage. We analyze the ecosystem from two critical perspectives: the conceptual view, focusing on theoretical foundations, and the technical infrastructure, addressing practical implementations around real quantum devices necessary for a functional ecosystem. This approach ensures that the focus is towards promising applications with optimized algorithm-circuit synergy, while ensuring a user-friendly design, an effective data management and an overall orchestration. Our chapter thus offers a guide to the essential concepts and practical strategies necessary for developing a scientifically grounded quantum software ecosystem.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-21
# ロボット言語接地に関する調査:シンボルと埋め込みのトレードオフ

A Survey of Robotic Language Grounding: Tradeoffs Between Symbols and Embeddings ( http://arxiv.org/abs/2405.13245v1 )

ライセンス: Link先を確認
Vanya Cohen, Jason Xinyu Liu, Raymond Mooney, Stefanie Tellex, David Watkins, (参考訳) 大きな言語モデルでは、ロボットは言語をより柔軟に理解し、これまで以上に能力を高めることができる。 この調査は最近の文献をレビューし、2つの極を持つスペクトルに分類する。 1)言語といくつかの手作業で定義された意味の形式表現のマッピング 2)低レベルロボットポリシーに直接変換する言語と高次元ベクトル空間のマッピング。 形式表現を使用することで、言語の意味を正確に表現することができ、学習の問題のサイズを制限し、解釈可能性と形式的安全性を保証するためのフレームワークにつながる。 言語や知覚データを高次元空間に埋め込む手法は、手動で指定した記号構造を回避し、十分なデータを供給するとより一般的な可能性を持つが、訓練により多くのデータや計算を必要とする。 我々は、それぞれのアプローチの利点とトレードオフについて議論し、両方の世界のベストを達成するための今後の仕事の方向性を提供することで、仕上げる。

With large language models, robots can understand language more flexibly and more capable than ever before. This survey reviews recent literature and situates it into a spectrum with two poles: 1) mapping between language and some manually defined formal representation of meaning, and 2) mapping between language and high-dimensional vector spaces that translate directly to low-level robot policy. Using a formal representation allows the meaning of the language to be precisely represented, limits the size of the learning problem, and leads to a framework for interpretability and formal safety guarantees. Methods that embed language and perceptual data into high-dimensional spaces avoid this manually specified symbolic structure and thus have the potential to be more general when fed enough data but require more data and computing to train. We discuss the benefits and tradeoffs of each approach and finish by providing directions for future work that achieves the best of both worlds.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-21
# 深層学習による放射速度における地球型惑星検出の改善

Improving Earth-like planet detection in radial velocity using deep learning ( http://arxiv.org/abs/2405.13247v1 )

ライセンス: Link先を確認
Yinan Zhao, Xavier Dumusque, Michael Cretignier, Andrew Collier Cameron, David W. Latham, Mercedes López-Morales, Michel Mayor, Alessandro Sozzetti, Rosario Cosentino, Isidro Gómez-Vargas, Francesco Pepe, Stephane Udry, (参考訳) 放射速度(RV)測定における恒星活動の存在が現在の大きな限界であるとして、外惑星検出のための恒星活動を軽減するための多くの新しい手法が提案されている。 RV領域における恒星の活動をモデル化する従来の手法とは異なり、スペクトルレベルで恒星の活動を遠ざける方向に多くの手法が移動している。 本研究の目的は、恒星活動信号をスペクトルレベルで効率的にモデル化し、地球に似た惑星の検出を効率化する、新しい畳み込みニューラルネットワークベースのアルゴリズムを提案することである。 我々は畳み込みニューラルネットワークを訓練し、スペクトル線プロファイルの変化と対応するRV、半最大幅(FWHM)と古典的相互相関関数から得られるbisector span(BIS)の相関関係を構築した。 このアルゴリズムは、Alpha Centauri B (HD128621)、Tau ceti (HD10700)、そして太陽の3つでテストされている。 シミュレーションされた惑星信号をスペクトルレベルに注入することにより、我々の機械学習アルゴリズムがHD128621とHD10700に対して、半振幅で0.5m/sの検出閾値を10日から300日間の周期で達成できることを実証する。 この閾値は、これらの恒星の居住可能な領域における$\sim$4$\mathrm{M}_{\oplus}$の検出に対応する。 HARPS-Nの太陽データセットでは、我々のアルゴリズムは恒星の活動信号を緩和し、地球の軌道上の2.2$\mathrm{M}_{\oplus}$の惑星に対応する0.2m/sの閾値に達することができる。 我々の知る限りでは、このような低い検出しきい値が太陽だけでなく他の恒星にも報告されるのは初めてであり、そのため、RV測定における恒星活動の緩和のための畳み込みニューラルネットワークベースのアルゴリズムの効率性が強調される。

Many novel methods have been proposed to mitigate stellar activity for exoplanet detection as the presence of stellar activity in radial velocity (RV) measurements is the current major limitation. Unlike traditional methods that model stellar activity in the RV domain, more methods are moving in the direction of disentangling stellar activity at the spectral level. The goal of this paper is to present a novel convolutional neural network-based algorithm that efficiently models stellar activity signals at the spectral level, enhancing the detection of Earth-like planets. We trained a convolutional neural network to build the correlation between the change in the spectral line profile and the corresponding RV, full width at half maximum (FWHM) and bisector span (BIS) values derived from the classical cross-correlation function. This algorithm has been tested on three intensively observed stars: Alpha Centauri B (HD128621), Tau ceti (HD10700), and the Sun. By injecting simulated planetary signals at the spectral level, we demonstrate that our machine learning algorithm can achieve, for HD128621 and HD10700, a detection threshold of 0.5 m/s in semi-amplitude for planets with periods ranging from 10 to 300 days. This threshold would correspond to the detection of a $\sim$4$\mathrm{M}_{\oplus}$ in the habitable zone of those stars. On the HARPS-N solar dataset, our algorithm is even more efficient at mitigating stellar activity signals and can reach a threshold of 0.2 m/s, which would correspond to a 2.2$\mathrm{M}_{\oplus}$ planet on the orbit of the Earth. To the best of our knowledge, it is the first time that such low detection thresholds are reported for the Sun, but also for other stars, and therefore this highlights the efficiency of our convolutional neural network-based algorithm at mitigating stellar activity in RV measurements.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-21
# 時空間予測を用いた学習部品のシステム安全モニタリング

System Safety Monitoring of Learned Components Using Temporal Metric Forecasting ( http://arxiv.org/abs/2405.13254v1 )

ライセンス: Link先を確認
Sepehr Sharifi, Andrea Stocco, Lionel C. Briand, (参考訳) 学習可能な自律システムにおいて、学習したコンポーネントの安全監視は、システムの運用状況を考慮すると、そのアウトプットがシステムの安全性違反に結びつかないことを保証するために不可欠である。 しかし、現実のアプリケーションに実際に配置するための安全モニターの開発は困難である。 これは、内部の作業や学習したコンポーネントのトレーニングデータへのアクセスが限られているためです。 さらに、安全モニタは、適切な量の計算を消費しながら、低レイテンシで安全違反を予測する必要がある。 そこで本研究では,確率的時系列予測に基づく安全監視手法を提案する。 学習したコンポーネントのアウトプットと運用状況から、異なるディープラーニング(DL)ベースの確率予測を経験的に検討し、安全要件(安全基準)の満足度や違反を計測する客観的指標を予測する。 自律型航空ケーススタディを用いて、安全度と違反予測精度、および4つの最先端モデルの予測遅延と資源使用率を実験的に評価した。 この結果から, 安全指標の確率的予測が安全監視に有効であることが示唆された。 さらに、自律型航空ケーススタディにおいて、TFT(Temporal Fusion Transformer)は、緊急安全違反を予測するための最も正確なモデルであり、許容レイテンシとリソース消費であった。

In learning-enabled autonomous systems, safety monitoring of learned components is crucial to ensure their outputs do not lead to system safety violations, given the operational context of the system. However, developing a safety monitor for practical deployment in real-world applications is challenging. This is due to limited access to internal workings and training data of the learned component. Furthermore, safety monitors should predict safety violations with low latency, while consuming a reasonable amount of computation. To address the challenges, we propose a safety monitoring method based on probabilistic time series forecasting. Given the learned component outputs and an operational context, we empirically investigate different Deep Learning (DL)-based probabilistic forecasting to predict the objective measure capturing the satisfaction or violation of a safety requirement (safety metric). We empirically evaluate safety metric and violation prediction accuracy, and inference latency and resource usage of four state-of-the-art models, with varying horizons, using an autonomous aviation case study. Our results suggest that probabilistic forecasting of safety metrics, given learned component outputs and scenarios, is effective for safety monitoring. Furthermore, for the autonomous aviation case study, Temporal Fusion Transformer (TFT) was the most accurate model for predicting imminent safety violations, with acceptable latency and resource consumption.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-21
# 多進ラゲール多項式とヤコビ多項式の離散直交関係

Discrete orthogonality relations for multi-indexed Laguerre and Jacobi polynomials ( http://arxiv.org/abs/1907.08950v4 )

ライセンス: Link先を確認
Choon-Lin Ho, Ryu Sasaki, (参考訳) 離散直交関係は、3項の反復関係に従うすべての直交多項式に対して成り立つ。 これらの古典直交多項式を変形して得られる新しい直交多項式である多進ラゲール多項式やヤコビ多項式も持つことを示す。 離散直交関係は、3項の反復関係よりも直交多項式の特徴化を包含していると見なすことができる。 多進直交多項式は正の次数$\ell_{\mathcal D}\ge1$から始まるので、3項の反復関係は破れる。 離散直交関係に必要な余剰$\ell_{\mathcal D}= `lower degree polynomials' が特定される。 対応するクリストッフェル数は決定される。 主な結果は、次数$\ell_{\mathcal D}+\mathcal{N}$でこれらの多項式の零点の周りの多重直交直交多項式を管理する2階微分作用素の爆破解析によって得られる。 %changed 離散直交関係は、エルミート多項式、ラゲール多項式、ヤコビ多項式に基づくクライン・アドラー多項式と呼ばれる「新しい」直交多項式の別の群に対して成り立つ。

The discrete orthogonality relations hold for all the orthogonal polynomials obeying three term recurrence relations. We show that they also hold for multi-indexed Laguerre and Jacobi polynomials, which are new orthogonal polynomials obtained by deforming these classical orthogonal polynomials. The discrete orthogonality relations could be considered as more encompassing characterisation of orthogonal polynomials than the three term recurrence relations. As the multi-indexed orthogonal polynomials start at a positive degree $\ell_{\mathcal D}\ge1$, the three term recurrence relations are broken. The extra $\ell_{\mathcal D}$ `lower degree polynomials', which are necessary for the discrete orthogonality relations, are identified. The corresponding Christoffel numbers are determined. The main results are obtained by the blow-up analysis of the second order differential operators governing the multi-indexed orthogonal polynomials around the zeros of these polynomials at a degree $\ell_{\mathcal D}+\mathcal{N}$. %changed The discrete orthogonality relations are shown to hold for another group of `new' orthogonal polynomials called Krein-Adler polynomials based on the Hermite, Laguerre and Jacobi polynomials.
翻訳日:2024-05-22 19:47:36 公開日:2024-05-21
# MNIST-1Dによるディープラーニングのスケールアップ

Scaling Down Deep Learning with MNIST-1D ( http://arxiv.org/abs/2011.14439v4 )

ライセンス: Link先を確認
Sam Greydanus, Dmitry Kobak, (参考訳) 深層学習モデルは商業的・政治的に関係があるが、その訓練と運用の重要な側面はいまだに理解されていない。 これはディープラーニングプロジェクトの科学への関心を喚起し、その多くは大量の時間、お金、電気を必要とする。 しかし、この研究のどれ程を大規模に行う必要があるのか? 本稿では,従来のディープラーニングベンチマークに代わる最小限のプロシージャ生成,低メモリ,低計算量であるMNIST-1Dを紹介する。 MNIST-1Dの寸法は40に過ぎず、デフォルトのトレーニングセットのサイズは4000に限られるが、MNIST-1Dは異なる深層建築の帰納バイアスの研究、宝くじの発見、深層二重降下の観察、アクティベーション関数の金属化、および自己教師付き学習におけるギロチン正則化の実証に使用できる。 これらの実験はすべてGPU上で、あるいは数分でCPU上で行うことができ、高速なプロトタイピング、教育ユースケース、低予算での最先端の研究を可能にする。

Although deep learning models have taken on commercial and political relevance, key aspects of their training and operation remain poorly understood. This has sparked interest in science of deep learning projects, many of which require large amounts of time, money, and electricity. But how much of this research really needs to occur at scale? In this paper, we introduce MNIST-1D: a minimalist, procedurally generated, low-memory, and low-compute alternative to classic deep learning benchmarks. Although the dimensionality of MNIST-1D is only 40 and its default training set size only 4000, MNIST-1D can be used to study inductive biases of different deep architectures, find lottery tickets, observe deep double descent, metalearn an activation function, and demonstrate guillotine regularization in self-supervised learning. All these experiments can be conducted on a GPU or often even on a CPU within minutes, allowing for fast prototyping, educational use cases, and cutting-edge research on a low budget.
翻訳日:2024-05-22 19:47:36 公開日:2024-05-21
# 決定機械:決定木の拡張

Decision Machines: An Extension of Decision Trees ( http://arxiv.org/abs/2101.11347v4 )

ライセンス: Link先を確認
Jinxiong Zhang, (参考訳) これは二分決定木のコンパクトな表現である。 決定木に対する二分テストに対する予測の依存性を明示的に定式化し、入力サンプルをルートから出口ノードへ誘導する手順を構築する。 そして、決定木とエラー訂正出力コードとの接続を提供します。 そして、注意機構からアイデアを借りて、連続関数を通してこの定式化を近似し拡張する。

Here is a compact representation of binary decision trees. We explicitly formulate the dependence of prediction on binary tests for decision trees and construct a procedure to guide the input sample from the root to its exit node. And we provides a connection between decision trees and error-correcting output codes. Then we borrow the ideas from attention mechanism to approximate and extend this formulation via continuous functions.
翻訳日:2024-05-22 19:47:36 公開日:2024-05-21
# 多目的強化学習ベンチマークとしての深海宝問題

A Review of the Deep Sea Treasure problem as a Multi-Objective Reinforcement Learning Benchmark ( http://arxiv.org/abs/2110.06742v4 )

ライセンス: Link先を確認
Amber Cassimon, Reinout Eyckerman, Siegfried Mercelis, Steven Latré, Peter Hellinckx, (参考訳) 本稿では,Vamplewらによって提案された深海宝(DST)問題について,多くの証明を通じて,著者らによるDST問題は非常に基本的な問題であり,実用的多目的最適化問題を常に表しているわけではないことを示す。 理論を実践に近づけるために、著者らはDST問題の代替として改良されたバージョンを提案し、元のDST問題を単純化するいくつかの性質がもはや成り立たないことを証明した。 著者らはまた、リファレンス実装を提供し、それらの実装と既存のオープンソース実装との比較を行う。 最後に、著者らは新しいDST問題に対して完全なPareto-frontを提供する。

In this paper, the authors investigate the Deep Sea Treasure (DST) problem as proposed by Vamplew et al. Through a number of proofs, the authors show the original DST problem to be quite basic, and not always representative of practical Multi-Objective Optimization problems. In an attempt to bring theory closer to practice, the authors propose an alternative, improved version of the DST problem, and prove that some of the properties that simplify the original DST problem no longer hold. The authors also provide a reference implementation and perform a comparison between their implementation, and other existing open-source implementations of the problem. Finally, the authors also provide a complete Pareto-front for their new DST problem.
翻訳日:2024-05-22 19:47:36 公開日:2024-05-21
# 1つのショットと1つのショットから学ぶ

Learning from One and Only One Shot ( http://arxiv.org/abs/2201.08815v2 )

ライセンス: Link先を確認
Haizi Yu, Igor Mineyev, Lav R. Varshney, James A. Evans, (参考訳) 人間はごく少数の例から、類似したタスクの事前訓練から一般化することができる。 しかし、機械学習(ML)は通常、学習するためには大きなデータを必要とする。 ナチビズムや人工知能に動機づけられた私たちは、人間に生まれつきの先駆者を直接、人格認識やドゥードル認識といった抽象的な視覚的タスクでモデル化する。 これは、人間が自然に「ディストルト」を目の当たりにする方法を模倣することで、一般的な外観の類似性を学習するホワイトボックスモデルをもたらす。 この認知にインスパイアされた類似性空間における最寄りの分類を用いて、私たちは、クラスごとにわずか1ドル~10ドル(約1万1000円)のサンプルで人間レベルの認識を達成し、事前トレーニングを行なわない。 これは、大規模な事前学習を使った数発の学習とは異なる。 MNIST、EMNIST、Omniglot、QuickDrawのベンチマークでは、現代のニューラルネットワークと古典的MLの両方よりも優れています。 教師なし学習では、非ユークリッド的・一般類似性空間を$k$-meansスタイルで学習することにより、人間の直観的アーチタイプをクラスタセントロイドとして生成することで抽象概念の多言語視覚的実現を実現する。

Humans can generalize from only a few examples and from little pretraining on similar tasks. Yet, machine learning (ML) typically requires large data to learn or pre-learn to transfer. Motivated by nativism and artificial general intelligence, we directly model human-innate priors in abstract visual tasks such as character and doodle recognition. This yields a white-box model that learns general-appearance similarity by mimicking how humans naturally ``distort'' an object at first sight. Using just nearest-neighbor classification on this cognitively-inspired similarity space, we achieve human-level recognition with only $1$--$10$ examples per class and no pretraining. This differs from few-shot learning that uses massive pretraining. In the tiny-data regime of MNIST, EMNIST, Omniglot, and QuickDraw benchmarks, we outperform both modern neural networks and classical ML. For unsupervised learning, by learning the non-Euclidean, general-appearance similarity space in a $k$-means style, we achieve multifarious visual realizations of abstract concepts by generating human-intuitive archetypes as cluster centroids.
翻訳日:2024-05-22 19:47:36 公開日:2024-05-21
# 量子カオスとHénon-Heilesモデル:ジャッキー・ケルマン関数を用いたディラックの変分アプローチ

Quantum chaos and Hénon-Heiles model: Dirac's variational approach with Jackiw-Kerman function ( http://arxiv.org/abs/2204.11330v3 )

ライセンス: Link先を確認
C. -L. Ho, C. -I. Chou, (参考訳) 単純半古典的 H\'enon-Heiles モデルはディラックの時間依存変分原理に基づいて構成される。 実効的な半古典的ハミルトニアンは、ジャッキー・ケルマン形式のHatree型2体トライアル波動関数を用いて得られる。 数値的な結果は、量子効果が古典的H\'enon-Heilesモデルの非カオス領域のカオスを実際に引き起こせることを示している。

A simple semiclassical H\'enon-Heiles model is constructed based on Dirac's time-dependent variational principle. We obtain an effective semiclassical Hamiltonian using a Hatree-type two-body trial wavefunction in the Jackiw-Kerman form. Numerical results show that quantum effects can in fact induce chaos in the non-chaotic regions of the classical H\'enon-Heiles model.
翻訳日:2024-05-22 19:47:36 公開日:2024-05-21
# GRACE-C:制約による一般化レート非依存因果推定

GRACE-C: Generalized Rate Agnostic Causal Estimation via Constraints ( http://arxiv.org/abs/2205.09235v4 )

ライセンス: Link先を確認
Mohammadsajad Abavisani, David Danks, Sergey Plis, (参考訳) 時系列データから因果学習アルゴリズムによって推定される図形構造は、生成プロセスの因果時間スケールがデータの測定時間スケールと一致しない場合、誤解を招く因果情報を提供することができる。 既存のアルゴリズムは、この課題に対応するための限られたリソースを提供するため、研究者は彼らが知っているモデルを使うか、あるいは完全に因果学習を行う必要がある。 既存の手法は、そうであるように、最大で4つの異なる欠点に直面します。 1) 因果時間と測定時間の差が知られていることを要求する。 2) 時間スケールの違いが不明な場合にのみ、非常に少数のランダム変数を扱う。 3) 変数のペアのみに適用する。 4) 統計ノイズのある解を見つけることができないこと。 この研究はこれらの課題に対処する。 提案手法は,制約プログラミングと問題構造に関する理論的知見と,許容因果関係に関する事前情報とを組み合わせて,高速化の複数の桁を達成している。 得られたシステムは、時間スケールの違いを知らずに、かなり大きな確率変数の集合(>100)にスケーリングしながら理論的な保証を維持している。 この手法はエッジの誤同定にも頑健であり、パラメトリック接続強度を用いることができる。

Graphical structures estimated by causal learning algorithms from time series data can provide misleading causal information if the causal timescale of the generating process fails to match the measurement timescale of the data. Existing algorithms provide limited resources to respond to this challenge, and so researchers must either use models that they know are likely misleading, or else forego causal learning entirely. Existing methods face up-to-four distinct shortfalls, as they might 1) require that the difference between causal and measurement timescales is known; 2) only handle very small number of random variables when the timescale difference is unknown; 3) only apply to pairs of variables; or 4) be unable to find a solution given statistical noise in the data. This research addresses these challenges. Our approach combines constraint programming with both theoretical insights into the problem structure and prior information about admissible causal interactions to achieve multiple orders of magnitude in speed-up. The resulting system maintains theoretical guarantees while scaling to significantly larger sets of random variables (>100) without knowledge of timescale differences. This method is also robust to edge misidentification and can use parametric connection strengths, while optionally finding the optimal solution among many possible ones.
翻訳日:2024-05-22 19:47:36 公開日:2024-05-21
# 多モード音響共振器における相関周波数雑音

Correlated frequency noise in a multimode acoustic resonator ( http://arxiv.org/abs/2208.13410v4 )

ライセンス: Link先を確認
Nuttamas Tubsrinuan, Jared H. Cole, Per Delsing, Gustav Andersson, (参考訳) 周波数不安定は、量子デバイスにおけるエラーの主な原因である。 本研究では、14個のSAWモードの反射係数を7時間以上同時に測定する表面波共振器(SAW)の周波数変動について検討した。 我々は2つの異なるノイズ特性を報告した。 2レベルシステム(TLS)欠陥との相互作用によって生じるマルチモード周波数ノイズは、デチューニングの増加に伴って減少する有意な相関関係を示す。 この発見は、量子デバイスにおける支配的なノイズ源の1つである寄生TLS挙動の現在の理解と一致する。 TLSによるノイズに加えて、遅い反相関ダイナミクスを持つ強い異常周波数変動を観測する。 これらのノイズバーストは超伝導量子系で観測された宇宙放射の符号に似ている。

Frequency instabilities are a major source of errors in quantum devices. This study investigates frequency fluctuations in a surface acoustic wave (SAW) resonator, where reflection coefficients of 14 SAW modes are measured simultaneously for more than seven hours. We report two distinct noise characteristics. Multimode frequency noise caused by interactions with two-level system (TLS) defects shows significant degrees of correlations that diminish with increased detuning. This finding agrees with the current understanding of the parasitic TLS behavior as one of the dominant noise sources in quantum devices. In addition to the TLS-induced noise, we observe strong anomalous frequency fluctuations with slow, anti-correlated dynamics. These noise bursts resemble signatures of cosmic radiation observed in superconducting quantum systems.
翻訳日:2024-05-22 19:40:07 公開日:2024-05-21
# 強い逆指数としての次数1/2から1のサンドウィッチ付きレニイ分岐の操作的解釈

Operational Interpretation of the Sandwiched Rényi Divergence of Order 1/2 to 1 as Strong Converse Exponents ( http://arxiv.org/abs/2209.00554v4 )

ライセンス: Link先を確認
Ke Li, Yongsheng Yao, (参考訳) サンドイッチ付き R'enyi divergence of order $\alpha\in(\frac{1}{2},1)$ と、その誘導された量子情報量と、量子タスクの正確な強い逆指数を特徴づける操作的解釈を提供する。 特に私たちは a) 最大相対エントロピーの滑らか化 b) 量子プライバシーの増幅 (c) 量子情報の分離。 これら3つのタスクの正確な逆指数を決定する問題は、その性能を忠実度または浄化距離で測定することで解決する。 結果は、次数 $\alpha\in(\frac{1}{2},1)$ のサンドイッチ付き R'enyi 分岐と、その誘導量子 R'enyi 条件エントロピーと量子 R'enyi 相互情報によって与えられる。 R'enyi を R'enyi パラメータで挟んだサンドイッチの正確な操作意味を $\alpha\in(\frac{1}{2},1)$ で見つけるのはこれが初めてである。

We provide the sandwiched R\'enyi divergence of order $\alpha\in(\frac{1}{2},1)$, as well as its induced quantum information quantities, with an operational interpretation in the characterization of the exact strong converse exponents of quantum tasks. Specifically, we consider (a) smoothing of the max-relative entropy, (b) quantum privacy amplification, and (c) quantum information decoupling. We solve the problem of determining the exact strong converse exponents for these three tasks, with the performance being measured by the fidelity or purified distance. The results are given in terms of the sandwiched R\'enyi divergence of order $\alpha\in(\frac{1}{2},1)$, and its induced quantum R\'enyi conditional entropy and quantum R\'enyi mutual information. This is the first time to find the precise operational meaning for the sandwiched R\'enyi divergence with R\'enyi parameter in the interval $\alpha\in(\frac{1}{2},1)$.
翻訳日:2024-05-22 19:40:07 公開日:2024-05-21
# 位相およびフォック空間におけるフォトニック量子回路のリーマン最適化

Riemannian optimization of photonic quantum circuits in phase and Fock space ( http://arxiv.org/abs/2209.06069v5 )

ライセンス: Link先を確認
Yuan Yao, Filippo Miatto, Nicolás Quesada, (参考訳) 本稿では,ガウス的対象(純粋かつ混合ガウス的ユニタリ,ガウス的チャネル,ガウス的測定)と光子数分解測定などの非ガウス的効果からなる一般フォトニック量子回路の設計と最適化を行う枠組みを提案する。 この枠組みでは、シンプレクティック群(あるいは特別な場合におけるユニタリ群や直交群)の要素を用いてガウス対象の位相空間表現をパラメトリズし、任意のガウス対象のフォック振幅を再帰的に計算する単一の線形反復関係を用いてフォック表現に変換する。 また、位相空間パラメータに対するFock振幅の勾配を、繰り返し関係を微分することで計算する。 すると、シンプレクティック群上でリーマン最適化を使用して、M-モードガウス対象を最適化し、基本ゲートの観点で特定の実現にコミットする必要がない。 これにより、最適化が完了した後に選択できる同じ回路のゲートレベルの実装をすべて“モックアウト”することができる。 これは、状態や変換のクラスにプロパティの値をバウンドすることや、回路最適化ステップとは別のハードウェア制約を心配したい場合など、一般的な質問に答える上で特に有用である。 最後に、状態がガウス変換を行うときのグローバル位相の変化を明示的に計算することにより、ガウス変換の線形結合として記述できる非ガウスオブジェクトに我々のフレームワークを拡張できるようにする。 我々はこれらの手法をオープンソースライブラリMrMustardに実装し、Borealisの216モード干渉計を最適化する3つの例と、猫の状態と立方相状態を生成する2モードおよび3モード回路(Fock測定)で実装した。

We propose a framework to design and optimize generic photonic quantum circuits composed of Gaussian objects (pure and mixed Gaussian states, Gaussian unitaries, Gaussian channels, Gaussian measurements) as well as non-Gaussian effects such as photon-number-resolving measurements. In this framework, we parametrize a phase space representation of Gaussian objects using elements of the symplectic group (or the unitary or orthogonal group in special cases), and then we transform it into the Fock representation using a single linear recurrence relation that computes the Fock amplitudes of any Gaussian object recursively. We also compute the gradient of the Fock amplitudes with respect to phase space parameters by differentiating through the recurrence relation. We can then use Riemannian optimization on the symplectic group to optimize M-mode Gaussian objects, avoiding the need to commit to particular realizations in terms of fundamental gates. This allows us to "mod out" all the different gate-level implementations of the same circuit, which now can be chosen after the optimization has completed. This can be especially useful when looking to answer general questions, such as bounding the value of a property over a class of states or transformations, or when one would like to worry about hardware constraints separately from the circuit optimization step. Finally, we make our framework extendable to non-Gaussian objects that can be written as linear combinations of Gaussian ones, by explicitly computing the change in global phase when states undergo Gaussian transformations. We implemented all of these methods in the freely available open-source library MrMustard, which we use in three examples to optimize the 216-mode interferometer in Borealis, and 2- and 3-modes circuits (with Fock measurements) to produce cat states and cubic phase states.
翻訳日:2024-05-22 19:40:07 公開日:2024-05-21
# 短波IR光子計数検出器を用いた非線形干渉法による中赤外メタン検出

Methane sensing in the mid-IR using short wave IR photon counting detectors via non-linear interferometry ( http://arxiv.org/abs/2209.15289v2 )

ライセンス: Link先を確認
Arthur C. Cardoso, Jinghan Dong, Haichen Zhou, Siddarth K. Joshi, John G. Rarity, (参考訳) 非線型干渉計を用いて, 測定波長をSWIR (1.55$\mu$m) にシフトする新しいMIRメタンセンサを実証した。 この技術は、ポンプ、信号、アイドラーモードが非線形結晶をダブルパスする際に3波混合で見られる干渉効果を利用する。 この方法では、検出器が不足している波長($3$\mu$m)を検知し、光子計数感度を達成できる波長を検出できる。 最初の実験では, ガスセル内のメタン濃度を高精度に測定した。 この干渉計は、フィールド操作のためのコンパクトな設計で構築することができ、最大100mの範囲でのメタンの低濃度の検出を可能にする可能性がある。 信号対雑音比の計算は、この手法が既存の短波長($\sim$1.65$\mu$m)積分パス微分吸収直接センシングを高い$>10^{-4}$)非線形ゲインで上回ることを示す。

We demonstrate a novel MIR methane sensor shifting measurement wavelength to SWIR (1.55$\mu$m) by using non-linear interferometry. The technique exploits the interference effects seen in three-wave mixing when pump, signal, and idler modes make a double pass through a nonlinear crystal. The method allows sensing at wavelengths where detectors are poor ($>$3$\mu$m) and detection at wavelengths where photon counting sensitivity can be achieved. In a first experimental demonstration, we measured a small methane concentration inside a gas cell with high precision. This interferometer can be built in a compact design for field operations and potentially enable the detection of low concentrations of methane at up to 100m range. Signal-to-noise ratio calculations show that the method can outperform existing short wavelength ($\sim$1.65$\mu$m) integrated path differential absorption direct sensing at high ($>$$10^{-4}$) non-linear gain.
翻訳日:2024-05-22 19:40:07 公開日:2024-05-21
# VertiBayes: 垂直分割データからのベイズ的ネットワークパラメータの学習

VertiBayes: Learning Bayesian network parameters from vertically partitioned data with missing values ( http://arxiv.org/abs/2210.17228v2 )

ライセンス: Link先を確認
Florian van Daalen, Lianne Ippel, Andre Dekker, Inigo Bermejo, (参考訳) フェデレーション学習は、分散データに基づいて機械学習モデルをトレーニングすることを可能にする。 ベイズネットワーク(英: Bayesian network)は、人工知能アプリケーションで広く使われている確率的グラフィカルモデルである。 彼らの人気は、既存の専門家の知識とデータを組み合わせることで構築できるという事実に起因している。 ベイジアンネットワークの連合学習に関するいくつかの研究が出版されているが、ベイジアンネットワーク上の(異なる変数が異なるデータセットにある)垂直に分割された、あるいは不均一なデータ設定での出版は限られており、欠落したデータの処理のような重要な欠落に悩まされている。 本稿では,垂直分割データ上のベイズネットワーク(構造とパラメータ)を学習するVertiBayesという新しい手法を提案する。 構造学習のために、我々はプライバシー保護スカラー製品プロトコルを用いて広く使われているK2アルゴリズムを適用した。 パラメータ学習には2段階のアプローチを用いる: まず、欠落した値を特別な値として扱い、最大極大を用いて中間モデルを学習し、次にEMアルゴリズムを用いて中間モデルが生成した合成データに基づいてモデルを訓練する。 このアプローチのプライバシ保証は、使用するプライバシ保護スカラー製品プロトコルが提供するものと同等です。 提案手法は,従来のアルゴリズムを用いて学習したモデルに匹敵するモデルを生成することを実験的に示し,サンプル,ネットワークサイズ,複雑性の観点から複雑性の増加を推定する。 最後に,垂直分割データを用いてモデルの性能を推定する2つの方法を提案する。

Federated learning makes it possible to train a machine learning model on decentralized data. Bayesian networks are probabilistic graphical models that have been widely used in artificial intelligence applications. Their popularity stems from the fact they can be built by combining existing expert knowledge with data and are highly interpretable, which makes them useful for decision support, e.g. in healthcare. While some research has been published on the federated learning of Bayesian networks, publications on Bayesian networks in a vertically partitioned or heterogeneous data setting (where different variables are located in different datasets) are limited, and suffer from important omissions, such as the handling of missing data. In this article, we propose a novel method called VertiBayes to train Bayesian networks (structure and parameters) on vertically partitioned data, which can handle missing values as well as an arbitrary number of parties. For structure learning we adapted the widely used K2 algorithm with a privacy-preserving scalar product protocol. For parameter learning, we use a two-step approach: first, we learn an intermediate model using maximum likelihood by treating missing values as a special value and then we train a model on synthetic data generated by the intermediate model using the EM algorithm. The privacy guarantees of our approach are equivalent to the ones provided by the privacy preserving scalar product protocol used. We experimentally show our approach produces models comparable to those learnt using traditional algorithms and we estimate the increase in complexity in terms of samples, network size, and complexity. Finally, we propose two alternative approaches to estimate the performance of the model using vertically partitioned data and we show in experiments that they lead to reasonably accurate estimates.
翻訳日:2024-05-22 19:40:07 公開日:2024-05-21
# Few-Shot行動認識のためのマルチモーダルプロトタイプ強化ネットワーク

Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition ( http://arxiv.org/abs/2212.04873v3 )

ライセンス: Link先を確認
Xinzhe Ni, Yong Liu, Hao Wen, Yatai Ji, Jing Xiao, Yujiu Yang, (参考訳) いくつかのアクション認識のための現在の手法は、主にプロトタイプの重要性を示すProtoNetに続くメートル法学習フレームワークに該当する。 性能は比較的良好であるが,マルチモーダル情報の影響は無視される。 本研究では,ラベルテキストのセマンティック情報をマルチモーダル情報として利用してプロトタイプの強化を図る,MORN(MultimOdal PRototype-ENhanced Network)を提案する。 CLIPビジュアルエンコーダと冷凍CLIPテキストエンコーダを導入し、優れたマルチモーダル初期化機能を実現する。 そして、ビジュアルフローにおいて、ビジュアルプロトタイプは、ビジュアルプロトタイプ計算モジュールによって計算される。 テキストフローでは、セマンティックエンハンス(SE)モジュールとインフレーション操作を用いてテキストプロトタイプを取得する。 最終的なマルチモーダルプロトタイプは、マルチモーダルプロトタイプ強化(MPE)モジュールによって計算される。 さらに,プロトタイプの品質を評価するためにPRIDE (PRototype SImilarity DiffErence) を定義し,MORNのプロトタイプレベルと有効性の改善を検証する。 HMDB51, UCF101, Kinetics, SSv2, MORNの4つのアクション認識データセットについて実験を行った。 PRIDEをトレーニングステージに挿入すると、さらに性能が向上する。

Current methods for few-shot action recognition mainly fall into the metric learning framework following ProtoNet, which demonstrates the importance of prototypes. Although they achieve relatively good performance, the effect of multimodal information is ignored, e.g. label texts. In this work, we propose a novel MultimOdal PRototype-ENhanced Network (MORN), which uses the semantic information of label texts as multimodal information to enhance prototypes. A CLIP visual encoder and a frozen CLIP text encoder are introduced to obtain features with good multimodal initialization. Then in the visual flow, visual prototypes are computed by a visual prototype-computed module. In the text flow, a semantic-enhanced (SE) module and an inflating operation are used to obtain text prototypes. The final multimodal prototypes are then computed by a multimodal prototype-enhanced (MPE) module. Besides, we define a PRototype SImilarity DiffErence (PRIDE) to evaluate the quality of prototypes, which is used to verify our improvement on the prototype level and effectiveness of MORN. We conduct extensive experiments on four popular few-shot action recognition datasets: HMDB51, UCF101, Kinetics and SSv2, and MORN achieves state-of-the-art results. When plugging PRIDE into the training stage, the performance can be further improved.
翻訳日:2024-05-22 19:40:07 公開日:2024-05-21
# t-SMILES:デノボ分子生成のためのスケーラブルフラグメントに基づく分子表現フレームワーク

t-SMILES: A Scalable Fragment-based Molecular Representation Framework for De Novo Molecule Generation ( http://arxiv.org/abs/2301.01829v4 )

ライセンス: Link先を確認
Juan-Ni Wu, Tong Wang, Yue Chen, Li-Juan Tang, Hai-Long Wu, Ru-Qin Yu, (参考訳) 分子の効果的な表現は、人工知能モデルの性能に影響を与える重要な要素である。 本研究では, TSSA, TSDY, TSIDの3つのコードアルゴリズムを用いた, t-SMILES (tree-based SMILES) と呼ばれるフレキシブルでフラグメントベースのマルチスケール分子表現フレームワークを提案する。 フラグメント化された分子グラフから生成された全二分木上で幅優先探索を行うことにより得られるSMILES型文字列を用いて分子を記述する。 JTVAE, BRICS, MMPA, およびScaffoldを用いた系統評価は, 様々な記述が相互に補完し, 全体的な性能を向上させるマルチコード分子記述システムの構築の可能性を示している。 さらに、モデルがオリジナルか、データ拡張されたか、事前訓練された後、微調整されたかにかかわらず、ラベル付き低リソースデータセットに合理的な類似性を維持しながら、オーバーフィッティングを回避し、より高いノベルティスコアを達成することができる。 さらに、従来のSMILES、DeepSMILES、SELFIES、ベースラインモデルをゴール指向タスクで大幅に上回っている。 そして、ChEMBL、Zinc、QM9に基づく、最先端のフラグメント、グラフ、SMILESベースのアプローチを上回る。

Effective representation of molecules is a crucial factor affecting the performance of artificial intelligence models. This study introduces a flexible, fragment-based, multiscale molecular representation framework called t-SMILES (tree-based SMILES) with three code algorithms: TSSA, TSDY and TSID. It describes molecules using SMILES-type strings obtained by performing a breadth-first search on a full binary tree formed from a fragmented molecular graph. Systematic evaluations using JTVAE, BRICS, MMPA, and Scaffold show the feasibility of constructing a multi-code molecular description system, where various descriptions complement each other, enhancing the overall performance. In addition, it can avoid overfitting and achieve higher novelty scores while maintaining reasonable similarity on labeled low-resource datasets, regardless of whether the model is original, data-augmented, or pre-trained then fine-tuned. Furthermore, it significantly outperforms classical SMILES, DeepSMILES, SELFIES and baseline models in goal-directed tasks. And it surpasses state-of-the-art fragment, graph and SMILES based approaches on ChEMBL, Zinc, and QM9.
翻訳日:2024-05-22 19:40:07 公開日:2024-05-21
# 変動推論:後部閾値はスパースレジームにおけるネットワーククラスタリング精度を改善する

Variational Inference: Posterior Threshold Improves Network Clustering Accuracy in Sparse Regimes ( http://arxiv.org/abs/2301.04771v3 )

ライセンス: Link先を確認
Xuezhen Li, Can M. Le, (参考訳) 変分推論は機械学習の文献で様々なベイズモデルに適合するために広く用いられている。 ネットワーク解析において,この手法はコミュニティ検出問題の解決に成功している。 これらの結果は有望であるが、理論上の支持は相対的に密度の高いネットワークに限られており、これは実際のネットワークには当てはまらない仮定である。 また, 最近, ばらつき損失面には多くのサドル点があり, 特にスパースネットワークに適用した場合, その性能に深刻な影響を及ぼす可能性があることが示されている。 本稿では,各反復後のコミュニティ割り当ての後部をハードしきい値にすることで,変分推論法を改善するための簡易な方法を提案する。 提案手法は, ネットワークのノード平均次数が有界であっても, 真のコミュニティラベルを収束し, 正確に復元できることを, 真のコミュニティ割り当てと相関するランダム初期化を用いて示す。 大規模な数値研究により、古典的変分推論と別の最先端アルゴリズムに対する提案手法の利点がさらに裏付けられる。

Variational inference has been widely used in machine learning literature to fit various Bayesian models. In network analysis, this method has been successfully applied to solve the community detection problems. Although these results are promising, their theoretical support is only for relatively dense networks, an assumption that may not hold for real networks. In addition, it has been shown recently that the variational loss surface has many saddle points, which may severely affect its performance, especially when applied to sparse networks. This paper proposes a simple way to improve the variational inference method by hard thresholding the posterior of the community assignment after each iteration. Using a random initialization that correlates with the true community assignment, we show that the proposed method converges and can accurately recover the true community labels, even when the average node degree of the network is bounded. Extensive numerical study further confirms the advantage of the proposed method over the classical variational inference and another state-of-the-art algorithm.
翻訳日:2024-05-22 19:40:07 公開日:2024-05-21
# 確率的表現によるPDE学習のためのモンテカルロニューラルPDE解法

Monte Carlo Neural PDE Solver for Learning PDEs via Probabilistic Representation ( http://arxiv.org/abs/2302.05104v4 )

ライセンス: Link先を確認
Rui Zhang, Qi Meng, Rongchan Zhu, Yue Wang, Wenlei Shi, Shihua Zhang, Zhi-Ming Ma, Tie-Yan Liu, (参考訳) 利用可能な限られたデータを持つシナリオでは、教師なしの方法で関数から関数へのニューラルPDEソルバを訓練することが不可欠である。 しかし、既存の手法の効率性と精度は、有限差分法や擬スペクトル法といった数値アルゴリズムの特性によって制約される。 これらの手法は、適切な精度を達成するために、慎重な時空間離散化を必要とし、特に相当な時空間変動のある場合において、重要な計算課題と不正確なシミュレーションをもたらす。 これらの制約に対処するために、PDEの確率的表現を用いて教師なしニューラルネットワークを訓練するためのモンテカルロ・ニューラルPDEソルバー(MCNPソルバー)を提案する。 他の教師なし手法と比較して、MCNPソルバーはモンテカルロ法(英語版)の利点を自然に受け継いでいる。 粒子の軌道をシミュレートするために, 対流過程にHeunの手法を用い, 拡散過程中に隣接する格子点の確率密度関数を用いて期待値を計算する。 これらの技術は精度を高め、モンテカルロサンプリングに関連する計算問題を回避している。 対流拡散, アレン・カーン, ナヴィエ・ストークス方程式に関する数値実験により, 他の教師なしベースラインと比較して精度と効率が著しく向上した。 ソースコードは、https://github.com/optray/MCNPで公開されます。

In scenarios with limited available data, training the function-to-function neural PDE solver in an unsupervised manner is essential. However, the efficiency and accuracy of existing methods are constrained by the properties of numerical algorithms, such as finite difference and pseudo-spectral methods, integrated during the training stage. These methods necessitate careful spatiotemporal discretization to achieve reasonable accuracy, leading to significant computational challenges and inaccurate simulations, particularly in cases with substantial spatiotemporal variations. To address these limitations, we propose the Monte Carlo Neural PDE Solver (MCNP Solver) for training unsupervised neural solvers via the PDEs' probabilistic representation, which regards macroscopic phenomena as ensembles of random particles. Compared to other unsupervised methods, MCNP Solver naturally inherits the advantages of the Monte Carlo method, which is robust against spatiotemporal variations and can tolerate coarse step size. In simulating the trajectories of particles, we employ Heun's method for the convection process and calculate the expectation via the probability density function of neighbouring grid points during the diffusion process. These techniques enhance accuracy and circumvent the computational issues associated with Monte Carlo sampling. Our numerical experiments on convection-diffusion, Allen-Cahn, and Navier-Stokes equations demonstrate significant improvements in accuracy and efficiency compared to other unsupervised baselines. The source code will be publicly available at: https://github.com/optray/MCNP.
翻訳日:2024-05-22 19:40:07 公開日:2024-05-21
# 無線ネットワークにおける分散タスクのための空気上のグラフニューラルネットワーク

Graph Neural Networks over the Air for Decentralized Tasks in Wireless Networks ( http://arxiv.org/abs/2302.08447v3 )

ライセンス: Link先を確認
Zhan Gao, Deniz Gunduz, (参考訳) グラフニューラルネットワーク(GNN)は、ネットワーク化されたデータから表現をモデル化し、ローカライズされた通信を通じて分散推論を可能にする。 既存のGNNアーキテクチャは理想的な通信を前提としており、フェージングやノイズなどのチャネル効果を無視することが多く、実際の実装の性能低下につながる。 無線リンクを介して接続されたノード上に実装されたGNNを考慮し、チャネル障害がGNNの性能に与える影響を安定解析し、通信モデルを組み込んだ新しいGNNアーキテクチャである空気上のグラフニューラルネットワーク(AirGNN)を提案する。 AirGNNは、グラフ信号をランダムな通信グラフにシフトするグラフ畳み込み操作を変更して、隣国からの特徴を集約する際のチャネルのフェージングとノイズを考慮して、テスト中のチャネル障害に対するアーキテクチャの堅牢性を改善する。 チャネル状態情報(CSI)が利用可能である場合,AirGNNのチャネル反転信号伝送戦略を開発し,CSIが不明な場合に,確率勾配降下に基づくAirGNNの訓練手法を提案する。 収束解析は、学習手順が関連する確率最適化問題の定常解に近づき、分散解析が訓練されたモデルの統計的挙動を特徴付けることを示す。 分散型ソースローカライゼーションとマルチロボット・フロッキングの実験は、理論的な知見を裏付け、無線通信チャネルよりもAirGNNの優れた性能を示す。

Graph neural networks (GNNs) model representations from networked data and allow for decentralized inference through localized communications. Existing GNN architectures often assume ideal communications and ignore potential channel effects, such as fading and noise, leading to performance degradation in real-world implementation. Considering a GNN implemented over nodes connected through wireless links, this paper conducts a stability analysis to study the impact of channel impairments on the performance of GNNs, and proposes graph neural networks over the air (AirGNNs), a novel GNN architecture that incorporates the communication model. AirGNNs modify graph convolutional operations that shift graph signals over random communication graphs to take into account channel fading and noise when aggregating features from neighbors, thus, improving architecture robustness to channel impairments during testing. We develop a channel-inversion signal transmission strategy for AirGNNs when channel state information (CSI) is available, and propose a stochastic gradient descent based method to train AirGNNs when CSI is unknown. The convergence analysis shows that the training procedure approaches a stationary solution of an associated stochastic optimization problem and the variance analysis characterizes the statistical behavior of the trained model. Experiments on decentralized source localization and multi-robot flocking corroborate theoretical findings and show superior performance of AirGNNs over wireless communication channels.
翻訳日:2024-05-22 19:40:07 公開日:2024-05-21
# 親子:自然画像からマルチモーダルディープフェイクを識別する

Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images ( http://arxiv.org/abs/2304.00500v2 )

ライセンス: Link先を確認
Roberto Amoroso, Davide Morelli, Marcella Cornia, Lorenzo Baraldi, Alberto Del Bimbo, Rita Cucchiara, (参考訳) 近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。 これらのモデルには様々な分野に多くの利点があるが、偽画像の誤用を懸念し、偽画像検出に新たな圧力をかけた。 本研究では,最先端拡散モデルにより生成されたディープフェイク検出の体系的研究を開拓する。 まず、画像分類データセットに基づいて学習したCLIPモデルとResNetまたはViTアーキテクチャから抽出した、コントラストと分類に基づく視覚的特徴の総合的な分析を行う。 その結果、偽画像は共通の低レベルの手がかりを共有しており、認識しやすくなっていることがわかった。 さらに,複数のテキストキャプションによって偽画像が合成され,ジェネレータの種として使用されるマルチモーダル・セッティングを考案した。 本設定では,偽検出手法の性能を定量化するとともに,テキスト記述と低レベルの知覚的手がかりのセマンティクスの役割を解析するコントラストベース・ディエンタング法を導入する。 最後に、我々はCOCOFakeと呼ばれる新しいデータセットをリリースし、COCOイメージキャプチャ対から生成された約1.2万の画像を含む2つの最新のテキスト対画像拡散モデル、すなわち、安定拡散v1.4とv2.0を作成した。

Recent advancements in diffusion models have enabled the generation of realistic deepfakes from textual prompts in natural language. While these models have numerous benefits across various sectors, they have also raised concerns about the potential misuse of fake images and cast new pressures on fake image detection. In this work, we pioneer a systematic study on deepfake detection generated by state-of-the-art diffusion models. Firstly, we conduct a comprehensive analysis of the performance of contrastive and classification-based visual features, respectively extracted from CLIP-based models and ResNet or ViT-based architectures trained on image classification datasets. Our results demonstrate that fake images share common low-level cues, which render them easily recognizable. Further, we devise a multimodal setting wherein fake images are synthesized by different textual captions, which are used as seeds for a generator. Under this setting, we quantify the performance of fake detection strategies and introduce a contrastive-based disentangling method that lets us analyze the role of the semantics of textual descriptions and low-level perceptual cues. Finally, we release a new dataset, called COCOFake, containing about 1.2M images generated from the original COCO image-caption pairs using two recent text-to-image diffusion models, namely Stable Diffusion v1.4 and v2.0.
翻訳日:2024-05-22 19:30:21 公開日:2024-05-21
# 投票者としてのデータ:承認に基づく多票制による事例選択

Data as voters: instance selection using approval-based multi-winner voting ( http://arxiv.org/abs/2304.09995v2 )

ライセンス: Link先を確認
Luis Sánchez-Fernández, Jesús A. Fisteus, Rafael López-Zaragoza, (参考訳) 本稿では,機械学習(あるいはデータマイニング)におけるインスタンス選択問題に対する新しいアプローチを提案する。 提案手法は,承認に基づく多票制選挙における(比例的な)表現に関する最近の結果に基づいている。 私たちのモデルでは、インスタンスは有権者と候補者として二重の役割を担います。 トレーニングセット内の各インスタンスの承認セット(投票者として実行される)は、既に文献に存在しているローカルセットの概念から定義される。 次に、代表投票ルールを用いて選挙勝者を選択し、そのような勝者は、縮小されたトレーニングセットに保持されるデータインスタンスである。 実験の結果, 単純2-EJR法則(2-EJRを満足する簡易EJR法則の変種)は, KNNの場合, 最先端のアルゴリズムと, 精度と削減率の観点から検討したベースラインを全て上回っていることがわかった。 SVM では,EJR や PJR を満足する投票ルールを,元となるデータセットと比較することにより,平均精度をわずかに向上させることができた。

We present a novel approach to the instance selection problem in machine learning (or data mining). Our approach is based on recent results on (proportional) representation in approval-based multi-winner elections. In our model, instances play a double role as voters and candidates. The approval set of each instance in the training set (acting as a voter) is defined from the concept of local set, which already exists in the literature. We then select the election winners by using a representative voting rule, and such winners are the data instances kept in the reduced training set. Our experiments show that, for KNN, the rule Simple 2-EJR (a variant of the Simple EJR voting rule that satisfies 2-EJR) outperforms all the state-of-the-art algorithms and all the baselines that we consider in this paper in terms of accuracy vs reduction. For SVMs, we have obtained slight increases in the average accuracy by using several voting rules that satisfy EJR or PJR compared to the results obtained with the original datasets.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# 高速クロスモーダルMRI画像再構成のための空間的・モーダル的移動法

Spatial and Modal Optimal Transport for Fast Cross-Modal MRI Reconstruction ( http://arxiv.org/abs/2305.02774v3 )

ライセンス: Link先を確認
Qi Wang, Zhijie Wen, Jun Shi, Qian Wang, Dinggang Shen, Shihui Ying, (参考訳) 多モードMRI(Multi-modal magnetic resonance imaging)は、臨床医学における包括的疾患診断において重要な役割を担っている。 しかし、T2重み付き画像(T2WIs)のような特定のモダリティの取得には時間がかかり、モーションアーティファクトを使う傾向がある。 これはその後のマルチモーダル画像解析に悪影響を及ぼす。 この問題に対処するために,T1重み付き画像(T1WI)を補助モダリティとして活用し,T2WIの取得を高速化するエンド・ツー・エンドのディープラーニングフレームワークを提案する。 画像前処理はミスアライメントを軽減することができるが、不適切なパラメータ選択は、反復的な実験と調整を必要とする、悪い前処理効果をもたらす。 この不足を克服するため,我々はT1WIの整列とクロスモーダル合成によりT2WIの合成に最適輸送(OT)を用い,空間的不整合効果を効果的に軽減した。 さらに,再構築タスクとモーダル間合成タスクを交互に組み合わせて最終結果の最適化を行う。 そして, 再構成されたT2WIと合成されたT2WIが, 繰り返しの増大とともにT2画像多様体に近づくことを証明し, さらに, 改良された再構成結果が合成過程を向上させる一方で, 改良された合成結果が再構成過程を改善することを示す。 最後に,FastMRIと内部データセットによる実験結果から本手法の有効性が確認され,低サンプリングレートでも画像再構成精度が大幅に向上した。

Multi-modal magnetic resonance imaging (MRI) plays a crucial role in comprehensive disease diagnosis in clinical medicine. However, acquiring certain modalities, such as T2-weighted images (T2WIs), is time-consuming and prone to be with motion artifacts. It negatively impacts subsequent multi-modal image analysis. To address this issue, we propose an end-to-end deep learning framework that utilizes T1-weighted images (T1WIs) as auxiliary modalities to expedite T2WIs' acquisitions. While image pre-processing is capable of mitigating misalignment, improper parameter selection leads to adverse pre-processing effects, requiring iterative experimentation and adjustment. To overcome this shortage, we employ Optimal Transport (OT) to synthesize T2WIs by aligning T1WIs and performing cross-modal synthesis, effectively mitigating spatial misalignment effects. Furthermore, we adopt an alternating iteration framework between the reconstruction task and the cross-modal synthesis task to optimize the final results. Then, we prove that the reconstructed T2WIs and the synthetic T2WIs become closer on the T2 image manifold with iterations increasing, and further illustrate that the improved reconstruction result enhances the synthesis process, whereas the enhanced synthesis result improves the reconstruction process. Finally, experimental results from FastMRI and internal datasets confirm the effectiveness of our method, demonstrating significant improvements in image reconstruction quality even at low sampling rates.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# 絡み合いの強化:論理的定義から量的メトリクスへ

Enriching Disentanglement: From Logical Definitions to Quantitative Metrics ( http://arxiv.org/abs/2305.11512v2 )

ライセンス: Link先を確認
Yivan Zhang, Masashi Sugiyama, (参考訳) 複素データにおける説明的要因の解消は、一般化可能かつデータ効率のよい表現学習のための有望なアプローチである。 不整合表現を学習し、評価するための様々な定量的指標が提案されているが、これらの指標が真に定量化する性質は定かではない。 本研究では、トポス理論とリッチな圏論を用いて、非絡み合いの論理的定義と定量的メトリクスの間の理論的関係を確立する。 我々は,一階述語を置換して実数値に変換する体系的アプローチを導入する。 (i)厳格な事前基準による等式 (ii)連続値の量子を持つ二項真理値のハイティング代数、及び 三 凝集剤を添加した定量器 論理的定義によって引き起こされるメトリクスは強力な理論的保証を持ち、その一部は容易に微分可能であり、直接学習目的として利用することができる。 最後に,不整合表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。

Disentangling the explanatory factors in complex data is a promising approach for generalizable and data-efficient representation learning. While a variety of quantitative metrics for learning and evaluating disentangled representations have been proposed, it remains unclear what properties these metrics truly quantify. In this work, we establish a theoretical connection between logical definitions of disentanglement and quantitative metrics using topos theory and enriched category theory. We introduce a systematic approach for converting a first-order predicate into a real-valued quantity by replacing (i) equality with a strict premetric, (ii) the Heyting algebra of binary truth values with a quantale of continuous values, and (iii) quantifiers with aggregators. The metrics induced by logical definitions have strong theoretical guarantees, and some of them are easily differentiable and can be used as learning objectives directly. Finally, we empirically demonstrate the effectiveness of the proposed metrics by isolating different aspects of disentangled representations.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# MAGE: 野生の機械によるテキスト検出

MAGE: Machine-generated Text Detection in the Wild ( http://arxiv.org/abs/2305.13242v3 )

ライセンス: Link先を確認
Yafu Li, Qintong Li, Leyang Cui, Wei Bi, Zhilin Wang, Longyue Wang, Linyi Yang, Shuming Shi, Yue Zhang, (参考訳) 大規模言語モデル(LLM)は、偽ニュースの拡散や盗作などのリスクを軽減するために効果的なAI生成テキスト検出の必要性を強調し、人間レベルのテキスト生成を実現している。 既存の研究は、特定のドメインや特定の言語モデルにおける検出方法を評価することで制約されている。 しかし、実際のシナリオでは、検出器はソースを知らずに、様々なドメインやLLMのテキストに直面する。 この目的のために,様々な LLM が生成する多種多様な人文やテキストからテキストを収集し,総合的なテストベッドを構築する。 実証的な結果は、機械が生成したテキストと、さまざまなシナリオ、特にアウト・オブ・ディストリビューションにおける人間によるテキストを区別する上での課題を示している。 これらの課題は、2つの情報源間の言語的区別の減少によるものである。 問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。 私たちはリソースをhttps://github.com/yafuly/MAGE.comでリリースします。

Large language models (LLMs) have achieved human-level text generation, emphasizing the need for effective AI-generated text detection to mitigate risks like the spread of fake news and plagiarism. Existing research has been constrained by evaluating detection methods on specific domains or particular language models. In practical scenarios, however, the detector faces texts from various domains or LLMs without knowing their sources. To this end, we build a comprehensive testbed by gathering texts from diverse human writings and texts generated by different LLMs. Empirical results show challenges in distinguishing machine-generated texts from human-authored ones across various scenarios, especially out-of-distribution. These challenges are due to the decreasing linguistic distinctions between the two sources. Despite challenges, the top-performing detector can identify 86.54% out-of-domain texts generated by a new LLM, indicating the feasibility for application scenarios. We release our resources at https://github.com/yafuly/MAGE.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# 言語は相互にどのように影響するか? LM微調整中の言語間データ共有に関する研究

How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning ( http://arxiv.org/abs/2305.13286v2 )

ライセンス: Link先を確認
Rochelle Choenni, Dan Garrette, Ekaterina Shutova, (参考訳) 多言語大言語モデル(MLLM)は、個々の言語の表現が他の言語のデータから恩恵を受けるように、多くの異なる言語からのデータに基づいて共同で訓練される。 ゼロショットの言語間転送における印象的な性能は、これらのモデルが他の言語からのデータを利用することができることを示している。 しかし、どの程度、どの条件下で、言語が互いのデータに依存しているかは未だ不明である。 本研究では,TracIn (Pruthi et al , 2020) をトレーニングデータ属性 (TDA) 法として用いて,特定のテスト言語に対する多言語微調整において最も影響力のあるトレーニングサンプルを検索する。 これにより,MLLMの言語間共有機構を新たな視点から解析することができる。 前回の研究では、モデルパラメータのレベルでの言語間共有を研究していたが、データレベルでの言語間共有を研究するための最初のアプローチを提示した。 MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。 さらに、異なる微調整言語が与えられたテスト言語上でのモデルパフォーマンスにどのように影響するかを調べ、それらがテスト言語自体のデータから得られる知識を補強し補うことができることを確かめる。

Multilingual large language models (MLLMs) are jointly trained on data from many different languages such that representation of individual languages can benefit from other languages' data. Impressive performance on zero-shot cross-lingual transfer shows that these models are capable of exploiting data from other languages. Yet, it remains unclear to what extent, and under which conditions, languages rely on each other's data. In this study, we use TracIn (Pruthi et al., 2020), a training data attribution (TDA) method, to retrieve the most influential training samples seen during multilingual fine-tuning for a particular test language. This allows us to analyse cross-lingual sharing mechanisms of MLLMs from a new perspective. While previous work studied cross-lingual sharing at the level of model parameters, we present the first approach to study cross-lingual sharing at the data level. We find that MLLMs rely on data from multiple languages from the early stages of fine-tuning and that this reliance gradually increases as fine-tuning progresses. We further study how different fine-tuning languages influence model performance on a given test language and find that they can both reinforce and complement the knowledge acquired from data of the test language itself.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# 地下イメージングにおける自己線現象

Auto-Linear Phenomenon in Subsurface Imaging ( http://arxiv.org/abs/2305.13314v3 )

ライセンス: Link先を確認
Yinan Feng, Yinpeng Chen, Peng Jin, Shihang Feng, Zicheng Liu, Youzuo Lin, (参考訳) 地表面イメージングは、フルウェーブフォームインバージョン(FWI)を解くことで、測定から物理特性を予測する。 この問題はイメージ・ツー・イメージの変換として再編成することができ、通常のアプローチでは2つの領域(物理特性と測定)のペアデータを使ってエンコーダ・デコーダネットワークをトレーニングする。 最近のセミナルワーク(InvLINT)では、2つのドメインの潜在空間の間には線形マッピングしか存在せず、デコーダはトレーニングにペアデータを必要とすることが示されている。 本稿では, 線形写像がペアデータのみを必要とすることを示すとともに, エンコーダとデコーダの両方が自己教師付き学習によって各領域から学習可能であることを示す。 これは、2つの別々のドメインの自己学習した特徴が自動的に線形に相関する興味深い現象(Auto-Linearと呼ばれる)を明らかにする。 既存の方法と比較して、Auto-Linearには4つの利点があります。 (a)前後のモデリングを同時に解くこと。 (b) 異なる地下撮影作業に適用し、従来の方法よりも著しく優れた結果を得る。 (c)特にペアデータが少ない場合やノイズの多いデータが存在する場合のパフォーマンスを向上させ、 (d) 訓練されたエンコーダとデコーダの強力な一般化能力。

Subsurface imaging involves solving full waveform inversion (FWI) to predict geophysical properties from measurements. This problem can be reframed as an image-to-image translation, with the usual approach being to train an encoder-decoder network using paired data from two domains: geophysical property and measurement. A recent seminal work (InvLINT) demonstrates there is only a linear mapping between the latent spaces of the two domains, and the decoder requires paired data for training. This paper extends this direction by demonstrating that only linear mapping necessitates paired data, while both the encoder and decoder can be learned from their respective domains through self-supervised learning. This unveils an intriguing phenomenon (named Auto-Linear) where the self-learned features of two separate domains are automatically linearly correlated. Compared with existing methods, our Auto-Linear has four advantages: (a) solving both forward and inverse modeling simultaneously, (b) applicable to different subsurface imaging tasks and achieving markedly better results than previous methods, (c)enhanced performance, especially in scenarios with limited paired data and in the presence of noisy data, and (d) strong generalization ability of the trained encoder and decoder.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# 単一拡散モデルによるロバスト分類

Robust Classification via a Single Diffusion Model ( http://arxiv.org/abs/2305.15241v2 )

ライセンス: Link先を確認
Huanran Chen, Yinpeng Dong, Zhengyi Wang, Xiao Yang, Chengqi Duan, Hang Su, Jun Zhu, (参考訳) 拡散モデルは、画像分類器の対向性を改善するために、対向雑音を浄化したり、対向訓練のための現実的なデータを生成することによって応用されている。 しかし、拡散に基づく浄化は強い適応攻撃によって回避できるが、敵の訓練は目に見えない脅威の下ではうまく機能せず、これらの方法の必然的な制限が示される。 本稿では,拡散モデルの表現力をよりよく活用するために,事前学習した拡散モデルから構築した生成的分類器であるロバスト拡散分類器(RDC)を提案する。 RDCはまず与えられた入力のデータ確率を最大化し、ベイズの定理を通じて拡散モデルによって推定される条件付き推定値を用いて最適化された入力のクラス確率を予測する。 計算コストをさらに削減するため,マルチヘッド拡散と呼ばれる新しい拡散バックボーンを提案し,効率的なサンプリング戦略を開発した。 RDCは特定の敵攻撃の訓練を必要としないため、複数の目に見えない脅威に対して防御することがより一般的であることを示す。 特に、RCCは、CIFAR-10上の$\epsilon_\infty=8/255$による様々な$\ell_\infty$ノルムバウンドアダプティブアタックに対して、75.67\%の堅牢な精度を達成した。 その結果, 比較検討された識別分類器と比較して, 逆方向の堅牢性に対する事前学習拡散モデルを用いることで, 生成型分類器の可能性を強調した。 コードは \url{https://github.com/huanranchen/DiffusionClassifier} で入手できる。

Diffusion models have been applied to improve adversarial robustness of image classifiers by purifying the adversarial noises or generating realistic data for adversarial training. However, diffusion-based purification can be evaded by stronger adaptive attacks while adversarial training does not perform well under unseen threats, exhibiting inevitable limitations of these methods. To better harness the expressive power of diffusion models, this paper proposes Robust Diffusion Classifier (RDC), a generative classifier that is constructed from a pre-trained diffusion model to be adversarially robust. RDC first maximizes the data likelihood of a given input and then predicts the class probabilities of the optimized input using the conditional likelihood estimated by the diffusion model through Bayes' theorem. To further reduce the computational cost, we propose a new diffusion backbone called multi-head diffusion and develop efficient sampling strategies. As RDC does not require training on particular adversarial attacks, we demonstrate that it is more generalizable to defend against multiple unseen threats. In particular, RDC achieves $75.67\%$ robust accuracy against various $\ell_\infty$ norm-bounded adaptive attacks with $\epsilon_\infty=8/255$ on CIFAR-10, surpassing the previous state-of-the-art adversarial training models by $+4.77\%$. The results highlight the potential of generative classifiers by employing pre-trained diffusion models for adversarial robustness compared with the commonly studied discriminative classifiers. Code is available at \url{https://github.com/huanranchen/DiffusionClassifier}.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# 二重目的量子演算のための熱力学的最適プロトコル

Thermodynamically Optimal Protocols for Dual-Purpose Qubit Operations ( http://arxiv.org/abs/2306.09088v3 )

ライセンス: Link先を確認
Joe Dunlop, Federico Cerisola, Jorge Tabanera-Bravo, Janet Anders, (参考訳) 量子または古典的な情報処理は、複数の入力状態から異なる対応する出力に変換するチャネルに依存している。 これまでの研究では、そのような操作に必要な熱力学資源の限界が確立されているが、最適な実装のためのプロトコルは特定されていない。 量子ビットの洞察に富む場合、我々は二つの状態をエネルギー的に最適に変換する明示的なプロトコルを開発する。 まず、そのような変換を全く実行可能であることの条件を証明し、達成可能な作業抽出を定量化する。 この結果から, 熱力学的理想の低速準定常過程と, 異なる出力状態の区別性を維持するための情報理論的要件の相違が明らかになった。

Information processing, quantum or classical, relies on channels transforming multiple input states to different corresponding outputs. Previous research has established bounds on the thermodynamic resources required for such operations, but no protocols have been specified for their optimal implementation. For the insightful case of qubits, we here develop explicit protocols to transform two states in an energetically optimal manner. We first prove conditions on the feasibility of carrying out such transformations at all, and then quantify the achievable work extraction. Our results uncover a fundamental incompatibility between the thermodynamic ideal of slow, quasistatic processes and the information-theoretic requirement to preserve distinguishablity between different possible output states.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# ディープラーニングを用いた高濃度セル画像からのマルチオミクス予測

Multi-omics Prediction from High-content Cellular Imaging with Deep Learning ( http://arxiv.org/abs/2306.09391v3 )

ライセンス: Link先を確認
Rahil Mehrizi, Arash Mehrjou, Maryana Alegro, Yi Zhao, Benedetta Carbone, Carl Fishwick, Johanna Vappiani, Jing Bi, Siobhan Sanford, Hakan Keles, Marcus Bantscheff, Cuong Nguyen, Patrick Schwab, (参考訳) 高濃度の細胞イメージング、転写学、およびプロテオミクスのデータは、細胞の状態や機能に影響を与える生物学の分子層についてリッチで相補的な見解を提供する。 しかし、マルチオミクス測定の変化が細胞形態に影響を与える生物学的決定因子はまだ体系的に研究されておらず、細胞イメージングが細胞イメージングデータから直接マルチオミクスを予測できる可能性の程度は今のところ不明である。 本稿では,多色蛍光色素で染色された細胞の高濃度画像から直接,細胞集団のマルチオミクスを予測する深層学習手法であるImage2Omicsを用いて,細胞画像から直接バルクマルチオミクス測定を予測できるかどうかを問う。 我々は、複数の刺激条件下でヒト誘導多能性幹細胞(hiPSC)由来の遺伝子編集マクロファージを実験的に評価し、Image2Omicsは、観察された平均的なトレーニングセット量に基づいて、細胞画像から直接の転写学的およびプロテオミクス測定を予測する上で、はるかに優れた性能を発揮することを示した。 4927 (18.72%; 95% CI: 6.52%, 35.52%) と3521 (13.38%; 95% CI: 4.10%, 32.21%) と422 (8.46%; 95% CI: 0.58%, 25.83%) と697 (13.98%; 95% CI: 2.41%, 32.83%) はそれぞれ4986 (M1) とM2刺激マクロファージ (M2刺激マクロファージ) のそれぞれ。 以上の結果から, 細胞画像から転写産物やタンパク質の存在が予測可能であること, 細胞画像は, 興味の機構や期待される性能閾値によっては, マルチオミクス測定のスケーラブルで資源効率のよい代替品である可能性が示唆された。

High-content cellular imaging, transcriptomics, and proteomics data provide rich and complementary views on the molecular layers of biology that influence cellular states and function. However, the biological determinants through which changes in multi-omics measurements influence cellular morphology have not yet been systematically explored, and the degree to which cell imaging could potentially enable the prediction of multi-omics directly from cell imaging data is therefore currently unclear. Here, we address the question of whether it is possible to predict bulk multi-omics measurements directly from cell images using Image2Omics - a deep learning approach that predicts multi-omics in a cell population directly from high-content images of cells stained with multiplexed fluorescent dyes. We perform an experimental evaluation in gene-edited macrophages derived from human induced pluripotent stem cells (hiPSC) under multiple stimulation conditions and demonstrate that Image2Omics achieves significantly better performance in predicting transcriptomics and proteomics measurements directly from cell images than predictions based on the mean observed training set abundance. We observed significant predictability of abundances for 4927 (18.72%; 95% CI: 6.52%, 35.52%) and 3521 (13.38%; 95% CI: 4.10%, 32.21%) transcripts out of 26137 in M1 and M2-stimulated macrophages respectively and for 422 (8.46%; 95% CI: 0.58%, 25.83%) and 697 (13.98%; 95% CI: 2.41%, 32.83%) proteins out of 4986 in M1 and M2-stimulated macrophages respectively. Our results show that some transcript and protein abundances are predictable from cell imaging and that cell imaging may potentially, in some settings and depending on the mechanisms of interest and desired performance threshold, even be a scalable and resource-efficient substitute for multi-omics measurements.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# グラフメタ学習のための教師なしエピソード生成

Unsupervised Episode Generation for Graph Meta-learning ( http://arxiv.org/abs/2306.15217v3 )

ライセンス: Link先を確認
Jihyeong Jung, Sangwoo Seo, Sungwon Kim, Chanyoung Park, (参考訳) 我々は、教師なしグラフメタラーニングによるFew-Shot Node-Classification (FSNC)タスクを解決するために、Neighbors as Queries (NaQ)と呼ばれる教師なしエピソード生成手法を提案する。 そのため、グラフ内の全てのノードの情報を完全に活用することが可能であり、これはラベル・スカシティの問題によるFSNCの現在の教師付きメタラーニングでは不可能である。 さらに,教師なしのグラフコントラスト学習(GCL)手法では,学習段階で解決すべきダウンストリームタスクを見落とし,グラフのクラス不均衡の脆弱性を生じさせるのとは対照的に,モデルのダウンストリームタスクフォーマット,すなわちFSNCを認識可能なエピソード学習フレームワークを採用する。 提案したNaQは、グラフからノードをランダムにサンプリングしてサポートセットを作成し、続いて類似性に基づくノードのサンプリングを行い、それに対応するクエリセットを作成する。 NaQはモデルに依存しないため、既存の教師付きグラフメタ学習手法は教師なしの方法で訓練することができる。 FSNCタスクに向けたグラフメタ学習における教師なしエピソード生成手法の有効性を実験的に検証した。 私たちのコードは、https://github.com/JhngJng/NaQ-PyTorch.comで利用可能です。

We propose Unsupervised Episode Generation method called Neighbors as Queries (NaQ) to solve the Few-Shot Node-Classification (FSNC) task by unsupervised Graph Meta-learning. Doing so enables full utilization of the information of all nodes in a graph, which is not possible in current supervised meta-learning methods for FSNC due to the label-scarcity problem. In addition, unlike unsupervised Graph Contrastive Learning (GCL) methods that overlook the downstream task to be solved at the training phase resulting in vulnerability to class imbalance of a graph, we adopt the episodic learning framework that allows the model to be aware of the downstream task format, i.e., FSNC. The proposed NaQ is a simple but effective unsupervised episode generation method that randomly samples nodes from a graph to make a support set, followed by similarity-based sampling of nodes to make the corresponding query set. Since NaQ is model-agnostic, any existing supervised graph meta-learning methods can be trained in an unsupervised manner, while not sacrificing much of their performance or sometimes even improving them. Extensive experimental results demonstrate the effectiveness of our proposed unsupervised episode generation method for graph meta-learning towards the FSNC task. Our code is available at: https://github.com/JhngJng/NaQ-PyTorch.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# ニューラルネットワーク混合状態再構成における経験的サンプル複雑度

Empirical Sample Complexity of Neural Network Mixed State Reconstruction ( http://arxiv.org/abs/2307.01840v2 )

ライセンス: Link先を確認
Haimeng Zhao, Giuseppe Carleo, Filippo Vicentini, (参考訳) ニューラル量子状態を用いた量子状態再構成は、実用的な応用において量子ショットの複雑さを低減するための有効なツールとして提案されており、ノイズレスケースを中心にした数値実験において競合技術よりも優れていることが示されている。 本研究では,混合状態に対する異なる量子状態再構成手法の性能について,有限温度イジングモデルを用いて数値解析を行った。 本稿では,分散低減手法を適用して,アルゴリズムの量子リソース要求を体系的に低減する方法を示す。 次に、状態の2つの主要なニューラル量子状態符号化、すなわちニューラル密度演算子と正の演算子値の測定表現を比較し、ターゲット状態の混合度が変化するにつれて、それらの異なる性能を示す。 特定のエンコーディングは混合性の異なる状況においてより効率的であることが分かり、古典的資源と量子的資源の両方の観点からより効率的なエンコーディングを設計する必要性を指摘した。

Quantum state reconstruction using Neural Quantum States has been proposed as a viable tool to reduce quantum shot complexity in practical applications, and its advantage over competing techniques has been shown in numerical experiments focusing mainly on the noiseless case. In this work, we numerically investigate the performance of different quantum state reconstruction techniques for mixed states: the finite-temperature Ising model. We show how to systematically reduce the quantum resource requirement of the algorithms by applying variance reduction techniques. Then, we compare the two leading neural quantum state encodings of the state, namely, the Neural Density Operator and the positive operator-valued measurement representation, and illustrate their different performance as the mixedness of the target state varies. We find that certain encodings are more efficient in different regimes of mixedness and point out the need for designing more efficient encodings in terms of both classical and quantum resources.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# 不均衡データセットを用いたオフライン強化学習

Offline Reinforcement Learning with Imbalanced Datasets ( http://arxiv.org/abs/2307.02752v3 )

ライセンス: Link先を確認
Li Jiang, Sijie Cheng, Jielin Qiu, Haoran Xu, Wai Kin Chan, Zhao Ding, (参考訳) 現在のオフライン強化学習(RL)研究におけるベンチマークの利用は、モデル開発における実世界のデータセット分布の不均衡を無視する原因となっている。 現実世界のオフラインRLデータセットは、探索や安全性の考慮が難しいため、状態空間上で不均衡になることが多い。 本稿では、オフラインRLにおける不均衡データセットの特性を規定する。そこでは、状態カバレッジは、歪んだポリシーを特徴とする電力法分布に従う。 理論的かつ実証的に、保守的なQ-ラーニング(CQL)のような分布制約に基づく通常オフラインのRL手法は、不均衡なデータセットの下でポリシーを抽出するのに効果がないことを示す。 自然知性に触発されて、我々はCQLの強化と検索プロセスを利用して、過去の経験を思い出し、不均衡なデータセットによって引き起こされる課題を効果的に軽減する新しいオフラインRL手法を提案する。 我々は,D4RLの変種を利用して,不均衡なデータセットの文脈における複数のタスクに対する手法の評価を行った。 実験により,本手法が他のベースラインよりも優れていることを示す。

The prevalent use of benchmarks in current offline reinforcement learning (RL) research has led to a neglect of the imbalance of real-world dataset distributions in the development of models. The real-world offline RL dataset is often imbalanced over the state space due to the challenge of exploration or safety considerations. In this paper, we specify properties of imbalanced datasets in offline RL, where the state coverage follows a power law distribution characterized by skewed policies. Theoretically and empirically, we show that typically offline RL methods based on distributional constraints, such as conservative Q-learning (CQL), are ineffective in extracting policies under the imbalanced dataset. Inspired by natural intelligence, we propose a novel offline RL method that utilizes the augmentation of CQL with a retrieval process to recall past related experiences, effectively alleviating the challenges posed by imbalanced datasets. We evaluate our method on several tasks in the context of imbalanced datasets with varying levels of imbalance, utilizing the variant of D4RL. Empirical results demonstrate the superiority of our method over other baselines.
翻訳日:2024-05-22 19:30:20 公開日:2024-05-21
# オフラインRLの予算化対策

Budgeting Counterfactual for Offline RL ( http://arxiv.org/abs/2307.06328v2 )

ライセンス: Link先を確認
Yao Liu, Pratik Chaudhari, Rasool Fakoor, (参考訳) オフライン強化学習(オフライン強化学習)の主な課題は、潜在的な行動の領域内で、反ファクト的推論ジレンマの連続から生じる。 これらの状況は、しばしば外挿誤差を引き起こすが、この問題の地平線とともに指数関数的に蓄積する傾向がある。 したがって、すべての決定ステップが最終結果に等しく重要であるわけではなく、政策が外挿を制御するために行う反実的な決定の数を予算化することが重要である。 政策や価値関数の正則化を利用する既存のアプローチとは対照的に、トレーニング中のアウト・オブ・ディストリビューション・アクションの量を明示的に制限するアプローチを提案する。 具体的には、動的プログラミングを用いて、行動方針とは異なる決定に上限を付けて、外挿すべき場所とすべきでない場所を判定する。 アウト・オブ・ディストリビューション行動による改善の可能性と、外挿によるエラーのリスクのバランスをとる。 理論的には、固定点解の制約された最適性により、我々のQ$更新規則を正当化する。 実験により,我々の手法の全体的な性能は,広く使用されているD4RLベンチマークのタスクにおける最先端のオフラインRL法よりも優れていることを示す。

The main challenge of offline reinforcement learning, where data is limited, arises from a sequence of counterfactual reasoning dilemmas within the realm of potential actions: What if we were to choose a different course of action? These circumstances frequently give rise to extrapolation errors, which tend to accumulate exponentially with the problem horizon. Hence, it becomes crucial to acknowledge that not all decision steps are equally important to the final outcome, and to budget the number of counterfactual decisions a policy make in order to control the extrapolation. Contrary to existing approaches that use regularization on either the policy or value function, we propose an approach to explicitly bound the amount of out-of-distribution actions during training. Specifically, our method utilizes dynamic programming to decide where to extrapolate and where not to, with an upper bound on the decisions different from behavior policy. It balances between the potential for improvement from taking out-of-distribution actions and the risk of making errors due to extrapolation. Theoretically, we justify our method by the constrained optimality of the fixed point solution to our $Q$ updating rules. Empirically, we show that the overall performance of our method is better than the state-of-the-art offline RL methods on tasks in the widely-used D4RL benchmarks.
翻訳日:2024-05-22 19:20:36 公開日:2024-05-21
# GEM:ビジョンファウンデーションモデルによるガラス表面セグメンテーションのための簡易ネットワーク

GEM: Boost Simple Network for Glass Surface Segmentation via Vision Foundation Models ( http://arxiv.org/abs/2307.12018v2 )

ライセンス: Link先を確認
Jing Hao, Moyun Liu, Jinrong Yang, Kuo Feng Hung, (参考訳) ガラス領域の検出は、その透明さと反射特性に固有の曖昧さのために難しい課題である。 この分野の現在のソリューションは、注釈付きデータセットの構築とネットワークアーキテクチャの設計を必要とする、従来のディープラーニングパラダイムに根ざしている。 しかし、これらの主流ソリューションの明らかな欠点は、モデル構造が複雑化するとともに、データセットをキュレートする時間と労力のかかるプロセスにある。 本稿では、既存の2つの視覚基盤モデル(VFM)の能力をフル活用して、これらの問題を解決することを提案する。 まず,S-GSDと呼ばれる合成だが光現実的な大規模ガラス表面検出データセットを構築する。 このデータセットは4つの異なるスケールで構成され、168Kの画像と正確なマスクで構成されている。 また、SAMの強力なセグメンテーション能力に基づいて、単純なクエリベースのエンコーダデコーダアーキテクチャに従うシンプルなGlassサーフェスsEgMentorを考案した。 大規模ガラスセグメンテーションデータセットGSD-Sについて総合実験を行った。 我々のGEMは、これらの2つのVFMの助けを借りて、新しい最先端の性能を確立し、2.1%のIoU改善でGlassSemNetを抜いた。 さらに、我々の合成データセットS-GSDは、ゼロショットおよびトランスファー学習設定において顕著な性能を示すことを示した。 コード、データセット、モデルは、https://github.com/isbrycee/GEMで公開されている。

Detecting glass regions is a challenging task due to the inherent ambiguity in their transparency and reflective characteristics. Current solutions in this field remain rooted in conventional deep learning paradigms, requiring the construction of annotated datasets and the design of network architectures. However, the evident drawback with these mainstream solutions lies in the time-consuming and labor-intensive process of curating datasets, alongside the increasing complexity of model structures. In this paper, we propose to address these issues by fully harnessing the capabilities of two existing vision foundation models (VFMs): Stable Diffusion and Segment Anything Model (SAM). Firstly, we construct a Synthetic but photorealistic large-scale Glass Surface Detection dataset, dubbed S-GSD, without any labour cost via Stable Diffusion. This dataset consists of four different scales, consisting of 168k images totally with precise masks. Besides, based on the powerful segmentation ability of SAM, we devise a simple Glass surface sEgMentor named GEM, which follows the simple query-based encoder-decoder architecture. Comprehensive experiments are conducted on the large-scale glass segmentation dataset GSD-S. Our GEM establishes a new state-of-the-art performance with the help of these two VFMs, surpassing the best-reported method GlassSemNet with an IoU improvement of 2.1%. Additionally, extensive experiments demonstrate that our synthetic dataset S-GSD exhibits remarkable performance in zero-shot and transfer learning settings. Codes, datasets and models are publicly available at: https://github.com/isbrycee/GEM
翻訳日:2024-05-22 19:20:36 公開日:2024-05-21
# スピンの空間波動関数

Spatial Wavefunctions of Spin ( http://arxiv.org/abs/2307.13591v5 )

ライセンス: Link先を確認
T. Peter Rakitzis, (参考訳) 我々は、オイラー角$\phi, \theta, \chi$に依存する空間波動関数に基づく量子力学的角運動量の別の定式化を提案する。 波動関数はウィグナー D-函数、$D_{n m}^j (\phi, \theta, \chi)$ で、体固定射影量子数 $n$ は異常値 $n=|j|=\sqrt{j(j+1)}$ または $n=0$ を持つ。 D_{\sqrt{j(j+1)},m}^j (\phi, \theta, \chi)$ 波動関数は正規化できないが、期待値の計算を可能にする再正規化手順を示す: 例えば、状態 $D_{\sqrt{S(S+1)} M}^S (\phi, \theta, \chi)$ スピンを持つ素粒子の値 $S$ は、g=2$ のジャイロ磁性比を$S>0$ に対して与える。 したがって、$D_{n m}^j (\phi, \theta, \chi)$ が角運動量に対する空間波動関数として有用であるとする。 基本粒子に対する量子数$n$のいくつかの意味は、ニュートリノのディラックフェルミオンの性質やダークマター候補の提案などである。

We present an alternative formulation of quantum mechanical angular momentum, based on spatial wavefunctions that depend on the Euler angles $\phi, \theta, \chi$. The wavefunctions are Wigner D-functions, $D_{n m}^j (\phi, \theta, \chi)$, for which the body-fixed projection quantum number $n$ has the unusual value $n=|j|=\sqrt{j(j+1)}$, or $n=0$. The $D_{\sqrt{j(j+1)},m}^j (\phi, \theta, \chi)$ wavefunctions are unnormalizable, however we demonstrate a renormalization procedure that allows the calculation of expectation values: for example, the states $D_{\sqrt{S(S+1)} M}^S (\phi, \theta, \chi)$ of elementary particles with spin $S$ give a gyromagnetic ratio of $g=2$ for $S>0$, and we identify these as the spatial angular-momentum wavefunctions of known fundamental charged particles with spin. Therefore, we make the case that the $D_{n m}^j (\phi, \theta, \chi)$ are useful as spatial wavefunctions for angular momentum. Some implications of the quantum number $n$ for fundamental particles are discussed, such as the proposed Dirac-fermion nature of the neutrino, and some proposed dark-matter candidates.
翻訳日:2024-05-22 19:20:36 公開日:2024-05-21
# 医用画像におけるアレタリック不確実性定量のための潜在密度分割モデルの検討と改善

Investigating and Improving Latent Density Segmentation Models for Aleatoric Uncertainty Quantification in Medical Imaging ( http://arxiv.org/abs/2307.16694v4 )

ライセンス: Link先を確認
M. M. Amaan Valiuddin, Christiaan G. A. Viviers, Ruud J. G. van Sloun, Peter H. N. de With, Fons van der Sommen, (参考訳) センサノイズ、オクルージョン、取得法における制限などのデータ不確実性は、画像に既約曖昧性を導入し、その結果、様々な、もっとも妥当なセマンティック仮説がもたらされる。 機械学習では、この曖昧さは一般にアレタリック不確実性と呼ばれる。 イメージセグメンテーションでは、この問題に対処するために潜在密度モデルを利用することができる。 最も一般的なアプローチは確率的U-Net (PU-Net) である。 本研究では,PU-Netの潜伏空間が疎外であり,利用が不十分であることを示す。 これを解決するために、潜時空間における相互情報最大化とエントロピー規則化Sinkhorn Divergenceを導入し、すべての潜時次元における均質性を向上し、傾きの更新と潜時空間の通知性を効果的に改善する。 提案手法は, 各種臨床セグメント化問題の公開データセットにこれを適用することにより, ハンガリー・マチェド・インターセクションにおける確率的セグメンテーションに対する先行の潜在変数モデルと比較して, 最大11%の性能向上が得られた。 その結果, 同種潜伏空間の促進は, 医用画像セグメンテーションにおける潜伏密度モデリングを著しく改善することが示された。

Data uncertainties, such as sensor noise, occlusions or limitations in the acquisition method can introduce irreducible ambiguities in images, which result in varying, yet plausible, semantic hypotheses. In Machine Learning, this ambiguity is commonly referred to as aleatoric uncertainty. In image segmentation, latent density models can be utilized to address this problem. The most popular approach is the Probabilistic U-Net (PU-Net), which uses latent Normal densities to optimize the conditional data log-likelihood Evidence Lower Bound. In this work, we demonstrate that the PU-Net latent space is severely sparse and heavily under-utilized. To address this, we introduce mutual information maximization and entropy-regularized Sinkhorn Divergence in the latent space to promote homogeneity across all latent dimensions, effectively improving gradient-descent updates and latent space informativeness. Our results show that by applying this on public datasets of various clinical segmentation problems, our proposed methodology receives up to 11% performance gains compared against preceding latent variable models for probabilistic segmentation on the Hungarian-Matched Intersection over Union. The results indicate that encouraging a homogeneous latent space significantly improves latent density modeling for medical image segmentation.
翻訳日:2024-05-22 19:20:36 公開日:2024-05-21
# 協調フィルタリングに基づくレコメンダシステムへの無謀性の導入

Incorporating Recklessness to Collaborative Filtering based Recommender Systems ( http://arxiv.org/abs/2308.02058v3 )

ライセンス: Link先を確認
Diego Pérez-López, Fernando Ortega, Ángel González-Prieto, Jorge Dueñas-Lerín, (参考訳) リコメンダシステムは本質的に信頼性とカバレッジのジレンマに結びついている: 予測の信頼性が高ければ高いほど、決定はより保守的になり、したがって、より少ない項目が推奨される。 これはシステムの予測能力を損なう原因であり、いかなる項目にも潜在的な関心を見積もることができるのではなく、評価にコンセンサスがある項目に対する潜在的な関心を見積もることができるからである。 本稿では,行列因数分解に基づく推薦システムの学習過程において,予測された評価の出力確率分布のばらつきを考慮した新しい用語「無謀性」を提案する。 このようにして、この無謀性尺度を掲げることで、よりスパイクな出力分布を強制することができ、予測の信頼性に関する決定を行う際に、望ましいリスクレベルの制御を可能にします。 実験結果から、無謀性はリスクレギュレーションだけでなく、レコメンダシステムが提供する予測量や品質も改善することが示された。

Recommender systems are intrinsically tied to a reliability/coverage dilemma: The more reliable we desire the forecasts, the more conservative the decision will be and thus, the fewer items will be recommended. This causes a detriment to the predictive capability of the system, as it is only able to estimate potential interest in items for which there is a consensus in their evaluation, rather than being able to estimate potential interest in any item. In this paper, we propose the inclusion of a new term in the learning process of matrix factorization-based recommender systems, called recklessness, that takes into account the variance of the output probability distribution of the predicted ratings. In this way, gauging this recklessness measure we can force more spiky output distribution, enabling the control of the risk level desired when making decisions about the reliability of a prediction. Experimental results demonstrate that recklessness not only allows for risk regulation but also improves the quantity and quality of predictions provided by the recommender system.
翻訳日:2024-05-22 19:20:36 公開日:2024-05-21
# 反復低分解能点雲完了変圧器による高分解能頭蓋欠損再建

High-Resolution Cranial Defect Reconstruction by Iterative, Low-Resolution, Point Cloud Completion Transformers ( http://arxiv.org/abs/2308.03813v2 )

ライセンス: Link先を確認
Marek Wodzinski, Mateusz Daniol, Daria Hemmerling, Miroslaw Socha, (参考訳) 毎年何千人もの人が頭蓋骨の損傷に悩まされ、手動設計が高価で時間を要するパーソナライズされたインプラントを必要としている。 したがって、パーソナライズされた頭蓋再建の可用性を高めるための、自動的な専用システムが非常に望ましい。 自動頭蓋骨欠損再建の問題は形状完了タスクとして定式化でき、専用ディープネットワークを用いて解決できる。 現在最も一般的なアプローチは、ボリューム表現を使用し、画像セグメンテーション専用のディープネットワークを適用することである。 しかし、このアプローチにはいくつかの制限があり、高解像度のボリュームに十分にスケールできない。 私たちの研究では、問題をポイントクラウドコンプリートタスクに再構成しています。 本稿では,任意の解像度で頭蓋欠損を再現し,訓練や推論において高速かつ資源効率がよい反復型トランスフォーマーに基づく手法を提案する。 提案手法を最先端のボリューム手法と比較し、再構成された欠陥の高品質を維持しつつ、GPUメモリ消費の点で優れた性能を示す。

Each year thousands of people suffer from various types of cranial injuries and require personalized implants whose manual design is expensive and time-consuming. Therefore, an automatic, dedicated system to increase the availability of personalized cranial reconstruction is highly desirable. The problem of the automatic cranial defect reconstruction can be formulated as the shape completion task and solved using dedicated deep networks. Currently, the most common approach is to use the volumetric representation and apply deep networks dedicated to image segmentation. However, this approach has several limitations and does not scale well into high-resolution volumes, nor takes into account the data sparsity. In our work, we reformulate the problem into a point cloud completion task. We propose an iterative, transformer-based method to reconstruct the cranial defect at any resolution while also being fast and resource-efficient during training and inference. We compare the proposed methods to the state-of-the-art volumetric approaches and show superior performance in terms of GPU memory consumption while maintaining high-quality of the reconstructed defects.
翻訳日:2024-05-22 19:20:36 公開日:2024-05-21
# CoVR:Webビデオキャプションから構成ビデオ検索を学ぶ

CoVR: Learning Composed Video Retrieval from Web Video Captions ( http://arxiv.org/abs/2308.14746v2 )

ライセンス: Link先を確認
Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol, (参考訳) Composed Image Retrieval (CoIR)は、最近、テキストと画像のクエリを一緒に検討し、データベース内の関連するイメージを検索するタスクとして人気を集めている。 ほとんどのCoIRアプローチでは、クエリイメージからターゲットイメージへの変更をテキストで記述するイメージ-テキスト-イメージトレーレットを含む、手動でアノテートされたデータセットを必要とする。 しかし、CoIR三重項の手作業によるキュレーションは高価であり、スケーラビリティを損なう。 そこで本研究では,ビデオキャプション対のトリプレットを生成するスケーラブルな自動データセット作成手法を提案するとともに,合成ビデオ検索(CoVR)を含むタスクの範囲を拡大する。 この目的のために,大容量のデータベースから類似キャプションとペア動画を抽出し,大容量の言語モデルを用いて対応する修正文を生成する。 この方法論をWebVid2Mコレクションに適用することにより、WebVid-CoVRデータセットを自動的に構築し、160万トリップレットを実現します。 さらに,手動でアノテートした評価セットとベースライン結果を用いたCoVRの新しいベンチマークを導入する。 さらに,データセット上でのCoVRモデルのトレーニングがCoIRに効果的に移行し,CIRRおよびFashionIQベンチマークのゼロショット設定における最先端性能が向上することを示した。 私たちのコード、データセット、モデルはhttps://imagine.enpc.fr/~ventural/covr.comで公開されています。

Composed Image Retrieval (CoIR) has recently gained popularity as a task that considers both text and image queries together, to search for relevant images in a database. Most CoIR approaches require manually annotated datasets, comprising image-text-image triplets, where the text describes a modification from the query image to the target image. However, manual curation of CoIR triplets is expensive and prevents scalability. In this work, we instead propose a scalable automatic dataset creation methodology that generates triplets given video-caption pairs, while also expanding the scope of the task to include composed video retrieval (CoVR). To this end, we mine paired videos with a similar caption from a large database, and leverage a large language model to generate the corresponding modification text. Applying this methodology to the extensive WebVid2M collection, we automatically construct our WebVid-CoVR dataset, resulting in 1.6 million triplets. Moreover, we introduce a new benchmark for CoVR with a manually annotated evaluation set, along with baseline results. Our experiments further demonstrate that training a CoVR model on our dataset effectively transfers to CoIR, leading to improved state-of-the-art performance in the zero-shot setup on both the CIRR and FashionIQ benchmarks. Our code, datasets, and models are publicly available at https://imagine.enpc.fr/~ventural/covr.
翻訳日:2024-05-22 19:20:36 公開日:2024-05-21
# 心臓の形状:学習された距離関数による心臓モデル

Shape of my heart: Cardiac models through learned signed distance functions ( http://arxiv.org/abs/2308.16568v3 )

ライセンス: Link先を確認
Jan Verhülsdonk, Thomas Grandits, Francisco Sahli Costabal, Thomas Pinetz, Rolf Krause, Angelo Auricchio, Gundolf Haase, Simone Pezzuto, Alexander Effland, (参考訳) 解剖学的モデルの効率的な構築は、患者固有のヒト心臓のシリコン内モデルの主要な課題の1つである。 現在の手法は、しばしば線形統計モデルに頼り、高度なトポロジカルな変化を許さず、あるいは、画像解像度、品質、モダリティに強く依存するメッシュパイプラインが続く医療画像セグメンテーションを必要とする。 これらのアプローチは、他のイメージング領域への転送可能性に制限される。 本研究では、リプシッツ正則性を持つ3次元深部符号距離関数を用いて心臓の形状を再構成する。 この目的のために、心臓MRIの形状を学習し、複数の室の空間的関係をモデル化する。 また, 単一心室からの点群や, EAM (Electroanatomical Mapping) などの訓練MRIと異なるモダリティなどの部分的データから解剖モデルを再構成できることを示す。

The efficient construction of anatomical models is one of the major challenges of patient-specific in-silico models of the human heart. Current methods frequently rely on linear statistical models, allowing no advanced topological changes, or requiring medical image segmentation followed by a meshing pipeline, which strongly depends on image resolution, quality, and modality. These approaches are therefore limited in their transferability to other imaging domains. In this work, the cardiac shape is reconstructed by means of three-dimensional deep signed distance functions with Lipschitz regularity. For this purpose, the shapes of cardiac MRI reconstructions are learned to model the spatial relation of multiple chambers. We demonstrate that this approach is also capable of reconstructing anatomical models from partial data, such as point clouds from a single ventricle, or modalities different from the trained MRI, such as the electroanatomical mapping (EAM).
翻訳日:2024-05-22 19:20:36 公開日:2024-05-21
# 線形プログラミングにおけるデータ駆動射影の一般化境界と学習法

Generalization Bound and Learning Methods for Data-Driven Projections in Linear Programming ( http://arxiv.org/abs/2309.00203v3 )

ライセンス: Link先を確認
Shinsaku Sakaue, Taihei Oki, (参考訳) 高次元線形プログラム(LP)を効率的に解く方法は根本的な問題である。 近年、乱射影を用いたLPサイズ削減への関心が高まっており、LP解法の改善とは無関係に、LPの解法を高速化することができる。 本稿では、ランダムな投影行列ではなく、データから学習した投影行列を用いた、データ駆動投影の新しい方向について検討する。 n 次元 LP のトレーニングデータを考えると、$n > k$ の射影行列が$n\times k$ となる。 将来のLPインスタンスに対処するとき、学習されたプロジェクション行列を介してその次元を$n$から$k$に減らし、その結果のLPを解いて$k$次元の解を取得し、学習した行列をそれに適用して$n$次元の解を復元する。 理論上、自然な疑問は、回復したソリューションの品質を保証するのに十分なデータがどのくらいあるか、ということです。 この問題は、一般化境界を確立するのに十分なデータ量と性能指標の擬似次元を結合する、データ駆動型アルゴリズム設計の枠組みに基づいて解決される。 擬次元上の上界を$\tilde{\mathrm{O}}(nk^2)$とすると、$\tilde{\mathrm{O}}$は対数因子を圧縮する。 また、$\Omega(nk)$ lower bound も提供しており、その結果は $\tilde{\mathrm{O}}(k)$ factor まで厳密であることを意味する。 実用面では,PCA法と勾配法という,投影行列を学習するための2つの簡単な方法を検討する。 前者は比較的効率的であるが、後者は時により良いソリューション品質を達成することができる。 実験により、データから予測行列を学習することは本当に有益であることが示され、既存のランダムな予測よりも解の質が大幅に向上し、LPの解法にかかる時間が大幅に短縮される。

How to solve high-dimensional linear programs (LPs) efficiently is a fundamental question. Recently, there has been a surge of interest in reducing LP sizes using random projections, which can accelerate solving LPs independently of improving LP solvers. This paper explores a new direction of data-driven projections, which use projection matrices learned from data instead of random projection matrices. Given training data of $n$-dimensional LPs, we learn an $n\times k$ projection matrix with $n > k$. When addressing a future LP instance, we reduce its dimensionality from $n$ to $k$ via the learned projection matrix, solve the resulting LP to obtain a $k$-dimensional solution, and apply the learned matrix to it to recover an $n$-dimensional solution. On the theoretical side, a natural question is: how much data is sufficient to ensure the quality of recovered solutions? We address this question based on the framework of data-driven algorithm design, which connects the amount of data sufficient for establishing generalization bounds to the pseudo-dimension of performance metrics. We obtain an $\tilde{\mathrm{O}}(nk^2)$ upper bound on the pseudo-dimension, where $\tilde{\mathrm{O}}$ compresses logarithmic factors. We also provide an $\Omega(nk)$ lower bound, implying our result is tight up to an $\tilde{\mathrm{O}}(k)$ factor. On the practical side, we explore two simple methods for learning projection matrices: PCA- and gradient-based methods. While the former is relatively efficient, the latter can sometimes achieve better solution quality. Experiments demonstrate that learning projection matrices from data is indeed beneficial: it leads to significantly higher solution quality than the existing random projection while greatly reducing the time for solving LPs.
翻訳日:2024-05-22 19:20:36 公開日:2024-05-21
# 機械学習によるフィットネス近似

Fitness Approximation through Machine Learning ( http://arxiv.org/abs/2309.03318v2 )

ライセンス: Link先を確認
Itai Tzruia, Tomer Halperin, Moshe Sipper, Achiya Elyasaf, (参考訳) 本稿では、進化状態への動的適応を通して、機械学習(ML)モデルを用いた遺伝的アルゴリズム(GA)の適合性近似を行うための新しいアプローチを提案する。 サンプルのデータセットと実際のフィットネススコアを維持することで、進化的な実行を通じて、フィットネス近似MLモデルを継続的に更新する。 異なる方法を比較します。 1)実際のフィットネスと近似フィットネスの切り替え 2 人口の採取、及び 3) 試料の重み付け。 実験結果によると、完全に実行されたGAと同等またはわずかに低いフィットネススコアを持つ進化的ランタイムは、近似現実性計算の比率によって大幅に改善されている。 Gymnasium(ゲーム)シミュレーターの進化的エージェント(フィットネス計算がコストがかかる)に焦点を当てていますが、我々のアプローチは汎用的で、多くの異なる領域に容易に適用できます。

We present a novel approach to performing fitness approximation in genetic algorithms (GAs) using machine-learning (ML) models, through dynamic adaptation to the evolutionary state. Maintaining a dataset of sampled individuals along with their actual fitness scores, we continually update a fitness-approximation ML model throughout an evolutionary run. We compare different methods for: 1) switching between actual and approximate fitness, 2) sampling the population, and 3) weighting the samples. Experimental findings demonstrate significant improvement in evolutionary runtimes, with fitness scores that are either identical or slightly lower than that of the fully run GA -- depending on the ratio of approximate-to-actual-fitness computation. Although we focus on evolutionary agents in Gymnasium (game) simulators -- where fitness computation is costly -- our approach is generic and can be easily applied to many different domains.
翻訳日:2024-05-22 19:20:36 公開日:2024-05-21
# EnCodecMAE: 普遍的な音声表現学習のためのニューラルコーデックの活用

EnCodecMAE: Leveraging neural codecs for universal audio representation learning ( http://arxiv.org/abs/2309.07391v2 )

ライセンス: Link先を確認
Leonardo Pepino, Pablo Riera, Luciana Ferrer, (参考訳) 普遍的な音声表現学習の目的は、音声、音楽、環境音を含む様々な下流タスクに使用できる基礎モデルを得ることである。 この問題に対処するために、BERTのようなNLPのための自己教師型学習の研究や、マスク付きオートエンコーダ(MAE)のようなコンピュータビジョンにインスパイアされた手法は、しばしばオーディオ領域に適応する。 本研究では,音声信号のマスキング表現を提案し,マスクされたセグメントを再構築するためにMAEを訓練する。 再構成は、ニューラルオーディオコーデックであるEnCodecが生成した離散ユニットを、未一致の入力から予測することによって行われる。 本研究では,EnCodecMAEと呼ぶこのアプローチを,音声,音楽,環境音を含む幅広いタスクで評価する。 我々の最良のモデルは、グローバルなパフォーマンスの観点から、様々な最先端オーディオ表現モデルより優れています。 さらに、自動音声認識(ASR)の課題における結果の表現を評価し、適切な結果を得るとともに、普遍的な音声表現の道を開く。

The goal of universal audio representation learning is to obtain foundational models that can be used for a variety of downstream tasks involving speech, music and environmental sounds. To approach this problem, methods inspired by works on self-supervised learning for NLP, like BERT, or computer vision, like masked autoencoders (MAE), are often adapted to the audio domain. In this work, we propose masking representations of the audio signal, and training a MAE to reconstruct the masked segments. The reconstruction is done by predicting the discrete units generated by EnCodec, a neural audio codec, from the unmasked inputs. We evaluate this approach, which we call EnCodecMAE, on a wide range of tasks involving speech, music and environmental sounds. Our best model outperforms various state-of-the-art audio representation models in terms of global performance. Additionally, we evaluate the resulting representations in the challenging task of automatic speech recognition (ASR), obtaining decent results and paving the way for a universal audio representation.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# IAIFNet:照明対応赤外線可視画像融合ネットワーク

IAIFNet: An Illumination-Aware Infrared and Visible Image Fusion Network ( http://arxiv.org/abs/2309.14997v2 )

ライセンス: Link先を確認
Qiao Yang, Yu Zhang, Jian Zhang, Zijing Zhao, Shunli Zhang, Jinqiao Wang, Junzhe Chen, (参考訳) Infrared and visible image fusion (IVIF) は、両画像の包括的特徴を持つ融合画像を生成するために用いられる。 しかし、現在の方法では、低照度環境での照明条件をほとんど考慮しておらず、融合画像のターゲットは目立たずであることが多い。 上記の課題に対処するため,IAIFNet という名前のイルミネーション対応赤外線・可視画像融合ネットワークを提案する。 本フレームワークでは,まず,入力画像の入射照明マップを推定する。 その後、適応微分融合モジュール (ADFM) と有向目標認識モジュール (STAM) の助けを借りて、画像融合ネットワークは、照明付赤外線と可視画像の塩分特性を視覚的品質の高い融合画像に効果的に統合する。 広汎な実験結果から,本手法は赤外線と可視像を融合させる5つの最先端手法より優れていることが確認された。

Infrared and visible image fusion (IVIF) is used to generate fusion images with comprehensive features of both images, which is beneficial for downstream vision tasks. However, current methods rarely consider the illumination condition in low-light environments, and the targets in the fused images are often not prominent. To address the above issues, we propose an Illumination-Aware Infrared and Visible Image Fusion Network, named as IAIFNet. In our framework, an illumination enhancement network first estimates the incident illumination maps of input images. Afterwards, with the help of proposed adaptive differential fusion module (ADFM) and salient target aware module (STAM), an image fusion network effectively integrates the salient features of the illumination-enhanced infrared and visible images into a fusion image of high visual quality. Extensive experimental results verify that our method outperforms five state-of-the-art methods of fusing infrared and visible images.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# プライベート, 効率的, 最適$K$-Norm, 楕円型ガウスノイズの構成法

Some Constructions of Private, Efficient, and Optimal $K$-Norm and Elliptic Gaussian Noise ( http://arxiv.org/abs/2309.15790v3 )

ライセンス: Link先を確認
Matthew Joseph, Alexander Yu, (参考訳) 微分プライベートな計算は、ある$d$次元統計学の$\ell_p$感度に束縛されて始まることが多い。 純粋な微分プライバシーのために、$K$-normメカニズムは統計学の感度空間に合わせた規範を用いてこのアプローチを改善することができる。 この最適ノルムの閉形式記述を書くことは、しばしば単純である。 しかし、$K$-norm の機構を実行すると、標準の単位球を均一にサンプリングすることになり、この球は$d$次元凸体であるため、一般的なサンプリングアルゴリズムは遅くなる。 偏微分プライバシーに転換し、楕円型ガウスノイズは球状ガウスノイズよりも類似した改善をもたらす。 この楕円の形状が決定されるとサンプリングが簡単になるが、最良の形状を特定することは困難である。 本稿では,総和,数,投票の単純な統計量について両問題を解く。 各統計量に対して、時間$\tilde O(d^2)$で動作し、楕円ガウス雑音の最適形状に対する閉形式式を導出する最適な$K$-norm機構のサンプリング器を提供する。 結果のアルゴリズムはすべて有意義な精度向上を実現し、実用性に十分な速さと単純さを保ったままである。 より広範に、問題固有の感度空間解析は、個人的な付加音に対する見落とされがちなツールである可能性が示唆された。

Differentially private computation often begins with a bound on some $d$-dimensional statistic's $\ell_p$ sensitivity. For pure differential privacy, the $K$-norm mechanism can improve on this approach using a norm tailored to the statistic's sensitivity space. Writing down a closed-form description of this optimal norm is often straightforward. However, running the $K$-norm mechanism reduces to uniformly sampling the norm's unit ball; this ball is a $d$-dimensional convex body, so general sampling algorithms can be slow. Turning to concentrated differential privacy, elliptic Gaussian noise offers similar improvement over spherical Gaussian noise. Once the shape of this ellipse is determined, sampling is easy; however, identifying the best such shape may be hard. This paper solves both problems for the simple statistics of sum, count, and vote. For each statistic, we provide a sampler for the optimal $K$-norm mechanism that runs in time $\tilde O(d^2)$ and derive a closed-form expression for the optimal shape of elliptic Gaussian noise. The resulting algorithms all yield meaningful accuracy improvements while remaining fast and simple enough to be practical. More broadly, we suggest that problem-specific sensitivity space analysis may be an overlooked tool for private additive noise.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# 量子コンピュータ上のハミルトンシミュレーションのための三角行列分解

Tridiagonal matrix decomposition for Hamiltonian simulation on a quantum computer ( http://arxiv.org/abs/2310.00121v3 )

ライセンス: Link先を確認
Boris Arseniev, Dmitry Guskov, Richik Sengupta, Jacob Biamonte, Igor Zacharov, (参考訳) ハミルトン進化をシミュレートする量子回路の構築は多くの量子アルゴリズムの中心である。 State-of-the-artサーキットは、実装が省略されることが多いオラクルに基づいており、アルゴリズムの複雑さはオラクルクエリを数えることによって推定される。 しかし、実際的な応用では、オラクルの実装はアルゴリズムの全体的な複雑さに大きな定数要素をもたらす。 この研究の鍵となる発見は、三対角行列をパウリ基底で表現するための効率的な手順であり、これにより、オラクルを使わずにハミルトニアン進化回路を構築することができる。 この手順は、分解に存在する全てのパウリ弦を体系的に決定し、それらを可換部分集合に分割することで、一般的な三対角行列 $2^n \times 2^n$ を表す。 効率性は通勤部分集合の数が$O(n)$である。 この手法は1次元波動方程式を用いて実証され、量子ビット数の関数としてのゲート複雑性が、n < 15$ のオラクルベースのアプローチよりも低く、量子ビットの数が半分必要であることを示す。 この方法は、三対角行列に基づいて他のハミルトン系にも適用できる。

The construction of quantum circuits to simulate Hamiltonian evolution is central to many quantum algorithms. State-of-the-art circuits are based on oracles whose implementation is often omitted, and the complexity of the algorithm is estimated by counting oracle queries. However, in practical applications, an oracle implementation contributes a large constant factor to the overall complexity of the algorithm. The key finding of this work is the efficient procedure for representation of a tridiagonal matrix in the Pauli basis, which allows one to construct a Hamiltonian evolution circuit without the use of oracles. The procedure represents a general tridiagonal matrix $2^n \times 2^n$ by systematically determining all Pauli strings present in the decomposition, dividing them into commuting subsets. The efficiency is in the number of commuting subsets $O(n)$. The method is demonstrated using the one-dimensional wave equation, verifying numerically that the gate complexity as function of the number of qubits is lower than the oracle based approach for $n < 15$ and requires half the number of qubits. This method is applicable to other Hamiltonians based on the tridiagonal matrices.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# FedLPA: レイヤーワイズ後層集合を用いたワンショットフェデレーション学習

FedLPA: One-shot Federated Learning with Layer-Wise Posterior Aggregation ( http://arxiv.org/abs/2310.00339v3 )

ライセンス: Link先を確認
Xiang Liu, Liangxi Liu, Feiyang Ye, Yunheng Shen, Xia Li, Linshan Jiang, Jialin Li, (参考訳) ローカルクライアントからサーバ上のグローバルモデルにトレーニングされたニューラルネットワークを効率的に集約することは、フェデレーション学習において広く研究されているトピックである。 近年、プライバシーの懸念を減らし、潜在的な攻撃を軽減し、通信オーバーヘッドを減らし、ワンショット・フェデレーション・ラーニング(クライアント・サーバ間の通信を1ラウンドに制限する)が研究者の間で人気を集めている。 しかし, 実世界のシナリオでは高い統計的不均一性を示す非同一性トレーニングデータ分布の影響は, ワンショットアグリゲーション性能に敏感である。 この問題に対処するため,FedLPAという階層的な後続アグリゲーションを用いたワンショットアグリゲーション手法を提案する。 FedLPAはローカルモデルを集約して、追加の補助データセットを必要とせずに、より正確なグローバルモデルを得る。 実際の非IIDシナリオにおいてバイアス付き局所データセットに保持される統計データを効果的に把握するために,レイヤワイドラプラス近似を用いて各局所モデルの各層の後部を効率的に推定し,それらを集約してグローバルパラメータを訓練する。 大規模な実験結果から,FedLPAは複数の指標をまたいだ最先端手法よりも学習性能を著しく向上させることが示された。

Efficiently aggregating trained neural networks from local clients into a global model on a server is a widely researched topic in federated learning. Recently, motivated by diminishing privacy concerns, mitigating potential attacks, and reducing communication overhead, one-shot federated learning (i.e., limiting client-server communication into a single round) has gained popularity among researchers. However, the one-shot aggregation performances are sensitively affected by the non-identical training data distribution, which exhibits high statistical heterogeneity in some real-world scenarios. To address this issue, we propose a novel one-shot aggregation method with layer-wise posterior aggregation, named FedLPA. FedLPA aggregates local models to obtain a more accurate global model without requiring extra auxiliary datasets or exposing any private label information, e.g., label distributions. To effectively capture the statistics maintained in the biased local datasets in the practical non-IID scenario, we efficiently infer the posteriors of each layer in each local model using layer-wise Laplace approximation and aggregate them to train the global parameters. Extensive experimental results demonstrate that FedLPA significantly improves learning performance over state-of-the-art methods across several metrics.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# TimeGPT-1

TimeGPT-1 ( http://arxiv.org/abs/2310.03589v2 )

ライセンス: Link先を確認
Azul Garza, Cristian Challu, Max Mergenthaler-Canseco, (参考訳) 本稿では、時系列の最初の基礎モデルであるTimeGPTを紹介し、トレーニング中に見られない多様なデータセットの正確な予測を生成する。 我々は,既存の統計,機械学習,深層学習に対して事前学習したモデルを評価し,TGPTゼロショット推論が性能,効率,単純さに優れていることを示す。 我々の研究は、他の人工知能分野からの洞察が時系列分析に効果的に適用できるという説得力のある証拠を提供する。 我々は、大規模時系列モデルが、ディープラーニングにおける現代的進歩の能力を活用して、正確な予測へのアクセスを民主化し、不確実性を減少させるエキサイティングな機会を提供すると結論付けた。

In this paper, we introduce TimeGPT, the first foundation model for time series, capable of generating accurate predictions for diverse datasets not seen during training. We evaluate our pre-trained model against established statistical, machine learning, and deep learning methods, demonstrating that TimeGPT zero-shot inference excels in performance, efficiency, and simplicity. Our study provides compelling evidence that insights from other domains of artificial intelligence can be effectively applied to time series analysis. We conclude that large-scale time series models offer an exciting opportunity to democratize access to precise predictions and reduce uncertainty by leveraging the capabilities of contemporary advancements in deep learning.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# ニューラルバウンディング

Neural Bounding ( http://arxiv.org/abs/2310.06822v3 )

ライセンス: Link先を確認
Stephanie Wenxin Liu, Michael Fischer, Paul D. Yoo, Tobias Ritschel, (参考訳) 境界ボリュームはコンピュータグラフィックスや視覚タスクにおいて確立された概念であるが、初期からほとんど変化していない。 本研究では,ニューラルネットワークを境界体積としての利用について検討する。 我々のキーとなる観察は、これまで計算幾何学の問題と考えられてきた境界は、空間を自由あるいは占有に分類する学習の課題として再定義できるということである。 この学習に基づくアプローチは、ニューラルネットワークが優れていることが知られている複雑なクエリを持つアニメーションシーンのような、高次元空間において特に有利である。 しかし、ニューラルバウンディングのアンロックには、-かつ-----------------を許容すると同時に、------------------------------------------------------------------------------------ 動的に重み付けられた非対称な損失関数を用いて、そのような厳密で保守的な結果を実現する。 以上の結果から,我々の神経境界は従来の方法よりも桁違いに偽陽性を生じさせることが示唆された。 さらに,クエリ速度を25%高速化する早期出口を用いたバウンディング手法の拡張を提案する。 また,本手法は,数秒以内のトレーニングを行う非深層学習モデルに適用可能であることも実証した。 私たちのプロジェクトページは以下の通りです。

Bounding volumes are an established concept in computer graphics and vision tasks but have seen little change since their early inception. In this work, we study the use of neural networks as bounding volumes. Our key observation is that bounding, which so far has primarily been considered a problem of computational geometry, can be redefined as a problem of learning to classify space into free or occupied. This learning-based approach is particularly advantageous in high-dimensional spaces, such as animated scenes with complex queries, where neural networks are known to excel. However, unlocking neural bounding requires a twist: allowing -- but also limiting -- false positives, while ensuring that the number of false negatives is strictly zero. We enable such tight and conservative results using a dynamically-weighted asymmetric loss function. Our results show that our neural bounding produces up to an order of magnitude fewer false positives than traditional methods. In addition, we propose an extension of our bounding method using early exits that accelerates query speeds by 25%. We also demonstrate that our approach is applicable to non-deep learning models that train within seconds. Our project page is at: https://wenxin-liu.github.io/neural_bounding/.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# トポロジー誘導型ハイパーグラフトランスネットワーク:表現改善のための構造的考察

Topology-guided Hypergraph Transformer Network: Unveiling Structural Insights for Improved Representation ( http://arxiv.org/abs/2310.09657v2 )

ライセンス: Link先を確認
Khaled Mohammed Saifuddin, Mehmet Emin Aktas, Esra Akbas, (参考訳) 高階関係を描く能力を持つハイパーグラフは、従来のグラフの重要な拡張として現れてきた。 グラフニューラルネットワーク(GNN)はグラフ表現学習において顕著な性能を持つが、ハイパーグラフへの拡張はその複雑な構造のために困難に直面する。 さらに、GNNの特殊な変種である現在のハイパーグラフトランスフォーマーは、ノードやハイパーエッジのトポロジ特性を無視し、意味的特徴に基づく自己アテンションを利用する。 これらの課題に対処するため,Topology-Guided Hypergraph Transformer Network (THTN)を提案する。 このモデルでは、まず、構造的本質を維持しながらグラフからハイパーグラフを定式化し、グラフ内の高次関係を学習する。 そこで我々は,ノードのトポロジ的,空間的情報を表現に組み込む,シンプルで効果的な構造的,空間的エンコーディングモジュールを設計する。 さらに,意味的,構造的両面から重要なノードとハイパーエッジを検出する構造認識型自己認識機構を提案する。 これら2つのモジュールを活用することで、THTNはノード表現を改善し、局所的およびグローバルなトポロジ表現をキャプチャする。 ノード分類タスクで実施された大規模な実験は、提案モデルの性能が既存の手法よりも常に高いことを示す。

Hypergraphs, with their capacity to depict high-order relationships, have emerged as a significant extension of traditional graphs. Although Graph Neural Networks (GNNs) have remarkable performance in graph representation learning, their extension to hypergraphs encounters challenges due to their intricate structures. Furthermore, current hypergraph transformers, a special variant of GNN, utilize semantic feature-based self-attention, ignoring topological attributes of nodes and hyperedges. To address these challenges, we propose a Topology-guided Hypergraph Transformer Network (THTN). In this model, we first formulate a hypergraph from a graph while retaining its structural essence to learn higher-order relations within the graph. Then, we design a simple yet effective structural and spatial encoding module to incorporate the topological and spatial information of the nodes into their representation. Further, we present a structure-aware self-attention mechanism that discovers the important nodes and hyperedges from both semantic and structural viewpoints. By leveraging these two modules, THTN crafts an improved node representation, capturing both local and global topological expressions. Extensive experiments conducted on node classification tasks demonstrate that the performance of the proposed model consistently exceeds that of the existing approaches.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# 相互情報正規化によるロバストなマルチエージェント強化学習

Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization ( http://arxiv.org/abs/2310.09833v3 )

ライセンス: Link先を確認
Simin Li, Ruixiao Xu, Jingqiao Xiu, Yuwei Zheng, Pu Feng, Yaodong Yang, Xianglong Liu, (参考訳) マルチエージェント強化学習(MARL)では、現実の展開において、同盟国による予測不可能または最悪の行動に対する堅牢性を確保することが重要である。 既存の堅牢なMARL法は、最悪の場合の敵に対する全ての脅威シナリオを近似または列挙し、計算強度とロバスト性を低下させる。 対照的に、人間の学習は、あらゆる脅威に備えることなく、日常生活における堅牢な行動を得る。 このことに触発されて、我々はロバストなMARLを推論問題として定式化し、最悪の場合のロバスト性は、政治外の評価を通じて全ての脅威シナリオ下で暗黙的に最適化される。 本枠組みでは, 相互情報正規化をロバスト正規化(MIR3)として実施することにより, 対戦相手を必要とせずに, 堅牢性の低い境界を最大化できることを実証する。 さらなる洞察は、MIR3が情報のボトルネックとして機能し、エージェントが他人に過剰に反応するのを防ぎ、ポリシーを堅牢なアクション先行と整合することを示しています。 最悪の場合、我々のMIR3は、StarCraft IIとロボット群制御における協調的な性能を維持しながら、ロバストネスとトレーニング効率のベースライン手法をはるかに上回っている。 ロボット群制御アルゴリズムを実世界で展開する場合,本手法は最良基準を14.29%上回っている。

In multi-agent reinforcement learning (MARL), ensuring robustness against unpredictable or worst-case actions by allies is crucial for real-world deployment. Existing robust MARL methods either approximate or enumerate all possible threat scenarios against worst-case adversaries, leading to computational intensity and reduced robustness. In contrast, human learning efficiently acquires robust behaviors in daily life without preparing for every possible threat. Inspired by this, we frame robust MARL as an inference problem, with worst-case robustness implicitly optimized under all threat scenarios via off-policy evaluation. Within this framework, we demonstrate that Mutual Information Regularization as Robust Regularization (MIR3) during routine training is guaranteed to maximize a lower bound on robustness, without the need for adversaries. Further insights show that MIR3 acts as an information bottleneck, preventing agents from over-reacting to others and aligning policies with robust action priors. In the presence of worst-case adversaries, our MIR3 significantly surpasses baseline methods in robustness and training efficiency while maintaining cooperative performance in StarCraft II and robot swarm control. When deploying the robot swarm control algorithm in the real world, our method also outperforms the best baseline by 14.29%.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# EconAgent:マクロ経済活動のシミュレーションのための大規模言語モデル駆動エージェント

EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities ( http://arxiv.org/abs/2310.10436v2 )

ライセンス: Link先を確認
Li Nian, Gao Chen, Li Mingyu, Li Yong, Liao Qingmin, (参考訳) 人工知能の出現により、マクロ経済学におけるデータ駆動モデリングがますます強調され、エージェントベースモデリング(ABM)が顕著なボトムアップシミュレーションパラダイムとして登場した。 ABMでは、エージェント(例えば、世帯、企業)がマクロ経済環境で相互作用し、市場ダイナミクスをまとめて生成する。 既存のエージェントモデリングは通常、決定のために所定のルールまたは学習ベースのニューラルネットワークを使用する。 しかし、各エージェントをカスタマイズすることは、エージェントの不均一性のモデリングを複雑にし、大きな課題をもたらす。 さらに、多周期市場ダイナミクスと多面マクロ経済要因の影響は、意思決定プロセスにおいてしばしば見過ごされる。 本研究では,マクロ経済シミュレーションのための言語モデルを用いた大規模エージェントであるEconAgentを紹介する。 まず,作業や消費に関するエージェントの判断により,様々な市場ダイナミクスを取り入れたシミュレーション環境を構築する。 認識モジュールを通して、異なる意思決定機構を持つ異種エージェントを作成する。 さらに,メモリモジュールを用いたマクロ経済動向の影響をモデル化し,エージェントが過去の個々の経験や市場動態を反映できるようにする。 シミュレーション実験により、EconAgentは現実的な決定を下すことができ、既存のルールベースのエージェントや学習ベースのエージェントと比較して、より合理的なマクロ経済現象をもたらすことが示された。 私たちのコードはhttps://github.com/tsinghua-fib-lab/ACL24-EconAgent.comで公開されています。

The advent of artificial intelligence has led to a growing emphasis on data-driven modeling in macroeconomics, with agent-based modeling (ABM) emerging as a prominent bottom-up simulation paradigm. In ABM, agents (e.g., households, firms) interact within a macroeconomic environment, collectively generating market dynamics. Existing agent modeling typically employs predetermined rules or learning-based neural networks for decision-making. However, customizing each agent presents significant challenges, complicating the modeling of agent heterogeneity. Additionally, the influence of multi-period market dynamics and multifaceted macroeconomic factors are often overlooked in decision-making processes. In this work, we introduce EconAgent, a large language model-empowered agent with human-like characteristics for macroeconomic simulation. We first construct a simulation environment that incorporates various market dynamics driven by agents' decisions regarding work and consumption. Through the perception module, we create heterogeneous agents with distinct decision-making mechanisms. Furthermore, we model the impact of macroeconomic trends using a memory module, which allows agents to reflect on past individual experiences and market dynamics. Simulation experiments show that EconAgent can make realistic decisions, leading to more reasonable macroeconomic phenomena compared to existing rule-based or learning-based agents. Our codes are released at https://github.com/tsinghua-fib-lab/ACL24-EconAgent.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# 決定木を説明する一様言語

A Uniform Language to Explain Decision Trees ( http://arxiv.org/abs/2310.11636v2 )

ライセンス: Link先を確認
Marcelo Arenas, Pablo Barcelo, Diego Bustamante, Jose Caraball, Bernardo Subercaseaux, (参考訳) 公式なXAIコミュニティは、決定木による分類を理解することを目的とした、多種多様な解釈可能性クエリを研究してきた。 しかし、これらのモデルについてどのような疑問に答えたいのか、より統一された理解は、伝統的に容易に解釈できると考えられてきたが、いまだ解明されていない。 最初の試みとして、Arenas et al (2021)は、ブラックボックスMLモデルを説明するロジックであるFOILを提案し、さまざまな解釈可能性クエリを表現可能であることを示した。 しかし、FOILは2つの重要な意味で制限されている。 (i)重要なクエリをキャプチャするのに十分な表現力がなく、 (II)モデル非依存性は決定木に対して高い計算複雑性をもたらす。 本稿では,Q-DT-FOILと最適化変種OPT-DT-FOILの2つの一階述語論理の断片を慎重に構築する。 提案した論理は,従来の文献で考慮した多種多様な解釈可能性クエリを表現できるだけでなく,ユーザが求める説明を最適化するさまざまな目的を,エレガントに指定できることを示す。 有限モデル理論手法を用いて、Q-DT-FOILの異なる成分が表現性に必要であることを示し、なおかつ、Q-DT-FOILのクエリはSATソルバへの多項式数で評価でき、OPT-DT-FOILの最適化版も評価できることを示した。 理論的な結果の他に,産業規模の決定木に基づく OPT-DT-FOIL の評価をSAT ベースで実装する。

The formal XAI community has studied a plethora of interpretability queries aiming to understand the classifications made by decision trees. However, a more uniform understanding of what questions we can hope to answer about these models, traditionally deemed to be easily interpretable, has remained elusive. In an initial attempt to understand uniform languages for interpretability, Arenas et al. (2021) proposed FOIL, a logic for explaining black-box ML models, and showed that it can express a variety of interpretability queries. However, we show that FOIL is limited in two important senses: (i) it is not expressive enough to capture some crucial queries, and (ii) its model agnostic nature results in a high computational complexity for decision trees. In this paper, we carefully craft two fragments of first-order logic that allow for efficiently interpreting decision trees: Q-DT-FOIL and its optimization variant OPT-DT-FOIL. We show that our proposed logics can express not only a variety of interpretability queries considered by previous literature, but also elegantly allows users to specify different objectives the sought explanations should optimize for. Using finite model-theoretic techniques, we show that the different ingredients of Q-DT-FOIL are necessary for its expressiveness, and yet that queries in Q-DT-FOIL can be evaluated with a polynomial number of queries to a SAT solver, as well as their optimization versions in OPT-DT-FOIL. Besides our theoretical results, we provide a SAT-based implementation of the evaluation for OPT-DT-FOIL that is performant on industry-size decision trees.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# 完全同型暗号化とプライバシ保護機械学習のためのブラインド評価フレームワーク

Blind Evaluation Framework for Fully Homomorphic Encryption and Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2310.13140v3 )

ライセンス: Link先を確認
Hunjae "Timothy" Lee, Corey Clark, (参考訳) プライバシ保護機械学習(PPML)の領域では、マシンラーニングモデリングのセキュアでプライバシ保護のアウトソーシングを可能にするために、FHE(Fully Homomorphic Encryption)がしばしば暗号化計算に使用される。 FHEは暗号化演算を可能にするが、制御構造や条件付きプログラミングのようなプログラム論理の実行は依然として困難である。 その結果、PPMLとFHEの暗号化トレーニングの進歩は、トレーニングに必要な論理的複雑さがかなり高いため、暗号化推論に比べて比較的停滞している。 さらに、暗号化トレーニングを実証した以前の作業では、信頼できないコンピュータパーティ(サーバ)と信頼できるプライベートキー所有者(クライアント)の対話的なラウンドを使用して、特定の操作を平文で復号し、評価するInteractive Rounds of Decryption and Evaluation (IRDE)を使用していた。 例えば、決定木トレーニングでは、現在の最先端は d のツリー深さに対して IRDE の d ラウンドを必要とする。 PPML と FHE でこの問題に対処するため,IRDE を使わずに,視覚的かつ正しいプログラミングロジックの実行を可能にする,暗号的にセキュアなプログラミングフレームワークである Blind Evaluation Framework (BEF) を紹介した。 これは、論理論理を二進回路と二進演算に分解して論理文の代替表現を見つけ、安全な論理プログラミングのためにそれらをFHEに採用することで達成される。 我々の知る限りでは、このフレームワークは、復号ラウンドなしでFHEによるPPMLモデルのトレーニングと推論を可能にする最初のフレームワークです。 IRDEを完全に排除することによって、IRDE効率の最先端を推し進めることにより、BEFは、大量のコンピューティングサービスが利用可能なユースケースにおいて、信頼できるクライアントが復号ラウンドを実行できるような機能を持たずに、FHEの採用を可能にする。

In the domain of Privacy-Preserving Machine Learning (PPML), Fully Homomorphic Encryption (FHE) is often used for encrypted computation to allow secure and privacy-preserving outsourcing of machine learning modeling. While FHE enables encrypted arithmetic operations, execution of programmatic logic such as control structures or conditional programming have remained a challenge. As a result, progress in encrypted training of PPML with FHE has been relatively stagnant compared to encrypted inference owing to the considerably higher logical complexity required in training. In addition, prior works that have demonstrated encrypted training use Interactive Rounds of Decryption and Evaluation (IRDE), where certain operations are decrypted and evaluated in plaintext using interactive rounds between the untrusted computing party (server) and the trusted private-key owner (client). In decision tree training for example, the current state-of-the-art requires d-rounds of IRDE for tree-depth of d. To address this issue in PPML and FHE, we introduce the Blind Evaluation Framework (BEF), a cryptographically secure programming framework that enables blind, but correct, execution of programming logic without IRDE. This is achieved by deconstructing programming logic into binary circuits and binary arithmetic to find alternative representations of logical statements, and adopting them to FHE for secure logical programming. To the best of our knowledge, this is the first framework to enable both training and inference of PPML models with FHE without decryption rounds. By advancing the state-of-the-art in IRDE efficiency by eliminating IRDE entirely, BEF enables adoption of FHE in use-cases where large amounts of computing services are available without the ability to have trusted clients available to perform decryption rounds.
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# Sync-NeRF: 動的NeRFを非同期ビデオに一般化する

Sync-NeRF: Generalizing Dynamic NeRFs to Unsynchronized Videos ( http://arxiv.org/abs/2310.13356v3 )

ライセンス: Link先を確認
Seoha Kim, Jeongmin Bae, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung Uh, (参考訳) ニューラルレイディアンスフィールド(NeRF)を用いた4次元シーン再構成の最近の進歩は、マルチビュービデオから動的シーンを表現できることを実証している。 しかし、動的シーンの再構築に失敗し、トレーニングビューでさえ同期しない設定に収まるのに苦労する。 それは、同じフレームのマルチビューイメージが実際には異なるタイミングでキャプチャされている間、フレームに1つの潜伏埋め込みを採用するためである。 この制限に対処するために、個別の非同期ビデオのタイムオフセットを導入し、NeRFと共同でオフセットを最適化する。 設計上,本手法は様々なベースラインに適用可能であり,大きなマージンで改善されている。 さらに、オフセットを見つけることは、手動で動画を同期させるのに自然に役立ちます。 Plenoptic Video Dataset と新たに構築した Unsynchronized Dynamic Blender Dataset を用いて,本手法の性能検証を行った。 プロジェクトページ:https://seoha-kim.github.io/sync-nerf

Recent advancements in 4D scene reconstruction using neural radiance fields (NeRF) have demonstrated the ability to represent dynamic scenes from multi-view videos. However, they fail to reconstruct the dynamic scenes and struggle to fit even the training views in unsynchronized settings. It happens because they employ a single latent embedding for a frame while the multi-view images at the same frame were actually captured at different moments. To address this limitation, we introduce time offsets for individual unsynchronized videos and jointly optimize the offsets with NeRF. By design, our method is applicable for various baselines and improves them with large margins. Furthermore, finding the offsets naturally works as synchronizing the videos without manual effort. Experiments are conducted on the common Plenoptic Video Dataset and a newly built Unsynchronized Dynamic Blender Dataset to verify the performance of our method. Project page: https://seoha-kim.github.io/sync-nerf
翻訳日:2024-05-22 19:10:52 公開日:2024-05-21
# RGB-Dビデオにおける局所物体検出

Salient Object Detection in RGB-D Videos ( http://arxiv.org/abs/2310.15482v2 )

ライセンス: Link先を確認
Ao Mou, Yukang Lu, Jiahao He, Dingyao Min, Keren Fu, Qijun Zhao, (参考訳) 奥行き検知装置の普及に伴い、RGB-Dビデオと関連するデータ/メディアは、日常生活の様々な面で大きな注目を集めている。 その結果、RGB-Dビデオにおけるサルエント物体検出(SOD)の実行は、非常に有望で進化する道を示す。 この領域の可能性にもかかわらず、RGB-DビデオにおけるSODは、RGB-D SODとビデオSOD(VSOD)は、伝統的に独立して研究されている。 この新たな分野を探求するために,本論文では,データセットとモデルという2つの主要なコントリビューションについて述べる。 一方、RDVSデータセットは、現実的な深度を持つ新しいRGB-D VSODデータセットであり、シーンの多様性とフレーム単位の厳密なアノテーションが特徴である。 包括的属性とオブジェクト指向分析を用いてデータセットを検証し、トレーニングとテストの分割を提供する。 さらに、RGB-D VSODに適した3ストリームネットワークであるDCTNet+を導入し、RGBのモダリティを重視し、奥行きと光の流れを補助モダリティとして扱う。 正確な最終予測のために,有効機能強化,改良,融合を追求するために,マルチモーダルアテンションモジュール (MAM) と改良融合モジュール (RFM) の2つのモジュールを提案する。 RFM内での相互作用と融合を強化するため、我々はUIM(Universal Interaction Module)を設計し、RFMに到達する前にマルチモーダルな低レベル特徴を洗練するための全体的マルチモーダル減衰経路(HMAP)を統合する。 RDVSと共に擬似RGB-Dビデオデータセットを用いて総合実験を行い、DCTNet+が17のVSODモデルと14のRGB-D SODモデルよりも優れていることを示した。 擬似的および現実的なRGB-Dビデオデータセット上でアブレーション実験を行い、個々のモジュールの利点と現実的な深さを導入する必要性を実証した。 私たちのコードとRDVSデータセットはhttps://github.com/kerenfu/RDVS/で利用可能です。

Given the widespread adoption of depth-sensing acquisition devices, RGB-D videos and related data/media have gained considerable traction in various aspects of daily life. Consequently, conducting salient object detection (SOD) in RGB-D videos presents a highly promising and evolving avenue. Despite the potential of this area, SOD in RGB-D videos remains somewhat under-explored, with RGB-D SOD and video SOD (VSOD) traditionally studied in isolation. To explore this emerging field, this paper makes two primary contributions: the dataset and the model. On one front, we construct the RDVS dataset, a new RGB-D VSOD dataset with realistic depth and characterized by its diversity of scenes and rigorous frame-by-frame annotations. We validate the dataset through comprehensive attribute and object-oriented analyses, and provide training and testing splits. Moreover, we introduce DCTNet+, a three-stream network tailored for RGB-D VSOD, with an emphasis on RGB modality and treats depth and optical flow as auxiliary modalities. In pursuit of effective feature enhancement, refinement, and fusion for precise final prediction, we propose two modules: the multi-modal attention module (MAM) and the refinement fusion module (RFM). To enhance interaction and fusion within RFM, we design a universal interaction module (UIM) and then integrate holistic multi-modal attentive paths (HMAPs) for refining multi-modal low-level features before reaching RFMs. Comprehensive experiments, conducted on pseudo RGB-D video datasets alongside our RDVS, highlight the superiority of DCTNet+ over 17 VSOD models and 14 RGB-D SOD models. Ablation experiments were performed on both pseudo and realistic RGB-D video datasets to demonstrate the advantages of individual modules as well as the necessity of introducing realistic depth. Our code together with RDVS dataset will be available at https://github.com/kerenfu/RDVS/.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# 拡散モデルを用いた量子回路合成

Quantum circuit synthesis with diffusion models ( http://arxiv.org/abs/2311.02041v2 )

ライセンス: Link先を確認
Florian Fürrutter, Gorka Muñoz-Gil, Hans J. Briegel, (参考訳) 量子コンピューティングは、最近、変革的技術として登場した。 しかし、その約束された利点は、量子演算を実行可能な物理的実現に効率的に変換することに依存する。 本研究では、この変換を促進するために、生成機械学習モデル、特に拡散モデル(DM)をデノナイズする。 テキストコンディショニングを活用して、ゲートベースの量子回路内で所望の量子演算を生成する。 特に、DMは、古典的な量子力学のシミュレーションに固有の指数的オーバーヘッドをトレーニング中にサイドステップすることができる。 モデルを2つのタスク – 絡み合い生成とユニタリコンパイル – にまたがる能力を示す。 このモデルは新しい回路の生成に優れ、マスクや編集などの典型的なDM拡張をサポートし、例えば、回路生成をターゲットの量子デバイスの制約に合わせる。 その柔軟性と一般化能力を考えると、DMは量子回路合成において中心的な役割を担い、実用的な応用だけでなく、理論的量子計算に関する洞察も強化する。

Quantum computing has recently emerged as a transformative technology. Yet, its promised advantages rely on efficiently translating quantum operations into viable physical realizations. In this work, we use generative machine learning models, specifically denoising diffusion models (DMs), to facilitate this transformation. Leveraging text-conditioning, we steer the model to produce desired quantum operations within gate-based quantum circuits. Notably, DMs allow to sidestep during training the exponential overhead inherent in the classical simulation of quantum dynamics -- a consistent bottleneck in preceding ML techniques. We demonstrate the model's capabilities across two tasks: entanglement generation and unitary compilation. The model excels at generating new circuits and supports typical DM extensions such as masking and editing to, for instance, align the circuit generation to the constraints of the targeted quantum device. Given their flexibility and generalization abilities, we envision DMs as pivotal in quantum circuit synthesis, enhancing both practical applications but also insights into theoretical quantum computation.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# CFBenchmark: 大規模言語モデルのための中国の金融アシスタントベンチマーク

CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model ( http://arxiv.org/abs/2311.05812v2 )

ライセンス: Link先を確認
Yang Lei, Jiangtong Li, Dawei Cheng, Zhijun Ding, Changjun Jiang, (参考訳) 大規模言語モデル(LLM)は金融分野において大きな可能性を証明している。 したがって、金融業務におけるLCMの性能を評価することが重要である。 本研究では,中国金融アシスタントのLCMの性能を評価するためのCFBenchmarkを紹介する。 CFBenchmarkの基本的なバージョンは、8つのタスクを含む3つの側面~(\emph{i.e.}認識、分類、生成)から中国の金融テキスト処理の基本能力を評価するために設計されており、50文字から1,800文字を超える金融テキストを含んでいる。 CFBenchmark-Basic を用いていくつかの LLM 実験を行い、実験結果から、いくつかの LLM は特定のタスクにおいて優れた性能を示すが、全体としては、既存のモデルによる財務テキスト処理の基本的なタスクを改善するための重要な余地がまだ残っていることが示唆された。 将来的にはCFBenchmarkの先進的なバージョンを探り、中国語の金融アシスタントとしてより深い範囲で言語モデルの広範な能力を探りたいと考えています。 私たちのコードはhttps://github.com/TongjiFinLab/CFBenchmarkで公開されています。

Large language models (LLMs) have demonstrated great potential in the financial domain. Thus, it becomes important to assess the performance of LLMs in the financial tasks. In this work, we introduce CFBenchmark, to evaluate the performance of LLMs for Chinese financial assistant. The basic version of CFBenchmark is designed to evaluate the basic ability in Chinese financial text processing from three aspects~(\emph{i.e.} recognition, classification, and generation) including eight tasks, and includes financial texts ranging in length from 50 to over 1,800 characters. We conduct experiments on several LLMs available in the literature with CFBenchmark-Basic, and the experimental results indicate that while some LLMs show outstanding performance in specific tasks, overall, there is still significant room for improvement in basic tasks of financial text processing with existing models. In the future, we plan to explore the advanced version of CFBenchmark, aiming to further explore the extensive capabilities of language models in more profound dimensions as a financial assistant in Chinese. Our codes are released at https://github.com/TongjiFinLab/CFBenchmark.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# フラム:中国語でLLMの値アライメントのベンチマーク

Flames: Benchmarking Value Alignment of LLMs in Chinese ( http://arxiv.org/abs/2311.06899v5 )

ライセンス: Link先を確認
Kexin Huang, Xiangyang Liu, Qianyu Guo, Tianxiang Sun, Jiawei Sun, Yaru Wang, Zeyang Zhou, Yixu Wang, Yan Teng, Xipeng Qiu, Yingchun Wang, Dahua Lin, (参考訳) 大規模言語モデル (LLM) が様々な領域で広く採用されていることは、人間の価値観との整合性を評価する緊急の必要性を浮き彫りにしている。 しかし、現在のベンチマークでは、LLMの安全性上の脆弱性を効果的に発見することができない。 これらの評価では、多くのモデルが高いスコアと「チャートを踏む」ことを達成しているが、LLMが人間の価値観と深く一致し、真の無害性を達成するには、依然として大きなギャップがある。 そこで本研究では,調和性などの中国固有の価値観を統合した,共通の調和性原理とユニークな道徳的次元の両方を包含する,Flamesという値アライメントベンチマークを提案する。 したがって、複雑なシナリオとジェイルブレイク手法を組み込んだ敵のプロンプトを、主に暗黙の悪意で慎重に設計する。 17個の LLM を誘導することにより,モデル応答を取得し,詳細な評価のために厳密な注釈付けを行う。 以上の結果から, 評価されたLLMは, フラムの安全性, 公正度が比較的低いことが示唆された。 また,複数の次元にまたがってLCMをスコアリングし,ベンチマークで新しいモデルを効率よく評価できる軽量な特定スコアラを開発した。 Flames の複雑さは既存のベンチマークをはるかに上回り、現代の LLM に新たな課題を与え、LLM のさらなるアライメントの必要性を強調している。 私たちのベンチマークはhttps://github.com/AIFlames/Flames.comで公開されています。

The widespread adoption of large language models (LLMs) across various regions underscores the urgent need to evaluate their alignment with human values. Current benchmarks, however, fall short of effectively uncovering safety vulnerabilities in LLMs. Despite numerous models achieving high scores and 'topping the chart' in these evaluations, there is still a significant gap in LLMs' deeper alignment with human values and achieving genuine harmlessness. To this end, this paper proposes a value alignment benchmark named Flames, which encompasses both common harmlessness principles and a unique morality dimension that integrates specific Chinese values such as harmony. Accordingly, we carefully design adversarial prompts that incorporate complex scenarios and jailbreaking methods, mostly with implicit malice. By prompting 17 mainstream LLMs, we obtain model responses and rigorously annotate them for detailed evaluation. Our findings indicate that all the evaluated LLMs demonstrate relatively poor performance on Flames, particularly in the safety and fairness dimensions. We also develop a lightweight specified scorer capable of scoring LLMs across multiple dimensions to efficiently evaluate new models on the benchmark. The complexity of Flames has far exceeded existing benchmarks, setting a new challenge for contemporary LLMs and highlighting the need for further alignment of LLMs. Our benchmark is publicly available at https://github.com/AIFlames/Flames.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# 量子モラゲームにおけるフォトニックな実装

Photonic implementation of the quantum Morra game ( http://arxiv.org/abs/2311.08495v2 )

ライセンス: Link先を確認
Andres Ulibarrena, Alejandro Sopena, Russell Brooks, Daniel Centeno, Joseph Ho, German Sierra, Alessandro Fedrizzi, (参考訳) 本稿では,古典ゲームを特殊なケースとして含めることで,従来の研究を基盤とした2プレーヤ量子モラゲームの忠実な翻訳について検討する。 本稿では、アリスが古典ゲームのバランスを崩し、勝利の優位性を持つ量子状態におけるゲームの自然な変形を提案する。 ナッシュ均衡は、混合戦略が常に必要となる古典ゲームでは不可能な純粋な戦略を用いることで、いくつかのケースで見つかる。 測定結果の確率に対して平均偏差が2%未満の線形光学装置でフォトニック量子ビットを作製した。 最後に、量子情報と通信の研究における量子モラゲームの可能性について論じる。

In this paper, we study a faithful translation of a two-player quantum Morra game, which builds on previous work by including the classical game as a special case. We propose a natural deformation of the game in the quantum regime in which Alice has a winning advantage, breaking the balance of the classical game. A Nash equilibrium can be found in some cases by employing a pure strategy, which is impossible in the classical game where a mixed strategy is always required. We prepared our states using photonic qubits on a linear optics setup, with an average deviation less than 2% with respect to the measured outcome probabilities. Finally, we discuss potential applications of the quantum Morra game to the study of quantum information and communication.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# 道路ランプ計測のためのモデル予測制御による強化学習

Reinforcement Learning with Model Predictive Control for Highway Ramp Metering ( http://arxiv.org/abs/2311.08820v2 )

ライセンス: Link先を確認
Filippo Airaldi, Bart De Schutter, Azita Dabiri, (参考訳) 本研究は,効果的な都市・高速道路交通システムの必要性の高まりを背景に,モデル予測制御(MPC)フレームワークに強化学習(RL)手法を組み込んだランプ計測制御問題に対する革新的なアプローチを用いて,モデルベースと学習ベースの交通フロー管理を強化する戦略の相乗効果を探求する。 制御問題は、交通条件、制御動作のばらつき、待ち行列中の車両の最大数に対する制約違反を表す適切なステージコスト関数を構築することにより、RLタスクとして定式化される。 RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,システムモデルと変数要求の不確かさにもかかわらず,その制約を効率的に制御し,その制約を満たすことを学ぶ。 提案手法を他の最先端制御手法と比較するため, ベンチマークによる小規模ハイウェイネットワーク上でシミュレーションを行った。 提案手法は,不正確なモデルを持ち,調整が不十分なMPCコントローラから,ネットワーク内の混雑が減少し,制約が満たされるような制御ポリシを効果的に学習し,他のコントローラよりも優れた性能が得られることを示す。

In the backdrop of an increasingly pressing need for effective urban and highway transportation systems, this work explores the synergy between model-based and learning-based strategies to enhance traffic flow management by use of an innovative approach to the problem of ramp metering control that embeds Reinforcement Learning (RL) techniques within the Model Predictive Control (MPC) framework. The control problem is formulated as an RL task by crafting a suitable stage cost function that is representative of the traffic conditions, variability in the control action, and violations of the constraint on the maximum number of vehicles in queue. An MPC-based RL approach, which leverages the MPC optimal problem as a function approximation for the RL algorithm, is proposed to learn to efficiently control an on-ramp and satisfy its constraints despite uncertainties in the system model and variable demands. Simulations are performed on a benchmark small-scale highway network to compare the proposed methodology against other state-of-the-art control approaches. Results show that, starting from an MPC controller that has an imprecise model and is poorly tuned, the proposed methodology is able to effectively learn to improve the control policy such that congestion in the network is reduced and constraints are satisfied, yielding an improved performance that is superior to the other controllers.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# 紙の拡散, コンフォーマル性, 寄与価値への潜在的影響

Disentangling the Potential Impacts of Papers into Diffusion, Conformity, and Contribution Values ( http://arxiv.org/abs/2311.09262v3 )

ライセンス: Link先を確認
Zhikai Xue, Guoxiu He, Zhuoren Jiang, Sichen Gu, Yangyang Kang, Star Zhao, Wei Lu, (参考訳) 学術論文の潜在的影響は、その人気や貢献など、様々な要因によって決定される。 既存のモデルは、通常、静的グラフに基づいて元の引用数を推定し、微妙な視点から値の区別に失敗する。 本研究では,論文の拡散,コンフォーマル性,寄与価値(DPPDCC)への潜在的影響を識別する新しいグラフニューラルネットワークを提案する。 DPPDCCは,構築した動的不均一グラフ内の時間的特徴と構造的特徴を符号化する。 特に,知識の流れを捉えるために,論文と要約の進化的比較・共催・暗黙的情報の重要性を強調した。 人気を得るために,拡散の本質を抽出するために拡張グラフを対比し,蓄積した引用結合をモデル整合性に予測する。 さらに直交的制約を適用して、各視点の個別なモデリングを促進し、貢献の固有の価値を保存する。 様々な時期に発行された論文に対するモデル一般化を評価するために,特定の時間点に基づいてデータを分割し,実世界の条件を反映することで問題を再構築する。 3つのデータセットの大規模な実験結果から、DPPDCCは前、新、即時発行された論文のベースラインを著しく上回っていることが示された。 さらなる分析により、その堅牢性が確認された。 データセットとコードを公開します。

The potential impact of an academic paper is determined by various factors, including its popularity and contribution. Existing models usually estimate original citation counts based on static graphs and fail to differentiate values from nuanced perspectives. In this study, we propose a novel graph neural network to Disentangle the Potential impacts of Papers into Diffusion, Conformity, and Contribution values (called DPPDCC). Given a target paper, DPPDCC encodes temporal and structural features within the constructed dynamic heterogeneous graph. Particularly, to capture the knowledge flow, we emphasize the importance of comparative and co-cited/citing information between papers and aggregate snapshots evolutionarily. To unravel popularity, we contrast augmented graphs to extract the essence of diffusion and predict the accumulated citation binning to model conformity. We further apply orthogonal constraints to encourage distinct modeling of each perspective and preserve the inherent value of contribution. To evaluate models' generalization for papers published at various times, we reformulate the problem by partitioning data based on specific time points to mirror real-world conditions. Extensive experimental results on three datasets demonstrate that DPPDCC significantly outperforms baselines for previously, freshly, and immediately published papers. Further analyses confirm its robust capabilities. We will make our datasets and codes publicly available.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# 連続変数に対する新しい埋め込みを用いた高速化逆モデリングのための生成モデル

A Generative Model for Accelerated Inverse Modelling Using a Novel Embedding for Continuous Variables ( http://arxiv.org/abs/2311.11343v3 )

ライセンス: Link先を確認
Sébastien Bompas, Stefan Sandfeld, (参考訳) 材料科学において、望ましい性質を持つ急速プロトタイピングの課題は、しばしば適切な微細構造を見つけるために広範な実験を必要とする。 さらに、与えられた性質の微細構造を見つけることは、通常、複数の解が存在する可能性がある不適切な問題である。 生成機械学習モデルを使用することは、計算コストの低減にも有効である。 これは、例えば、モデルへの条件付け入力として連続プロパティ変数が必要であるため、新しい課題が伴う。 本稿では,既存手法の欠点を考察し,浮動小数点数のバイナリ表現に基づく生成モデルの新たな埋め込み戦略と比較する。 これにより正規化の必要性を排除し、情報を保存し、生成モデルを条件付けするための汎用的な埋め込み空間を作成する。 この手法は任意の数にネットワークを条件付けし、生成した微細構造画像のきめ細かい制御を提供することにより、加速材料設計に寄与することができる。

In materials science, the challenge of rapid prototyping materials with desired properties often involves extensive experimentation to find suitable microstructures. Additionally, finding microstructures for given properties is typically an ill-posed problem where multiple solutions may exist. Using generative machine learning models can be a viable solution which also reduces the computational cost. This comes with new challenges because, e.g., a continuous property variable as conditioning input to the model is required. We investigate the shortcomings of an existing method and compare this to a novel embedding strategy for generative models that is based on the binary representation of floating point numbers. This eliminates the need for normalization, preserves information, and creates a versatile embedding space for conditioning the generative model. This technique can be applied to condition a network on any number, to provide fine control over generated microstructure images, thereby contributing to accelerated materials design.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# ツリーテンソルネットワーク演算子を決定する状態図

State Diagrams to determine Tree Tensor Network Operators ( http://arxiv.org/abs/2311.13433v4 )

ライセンス: Link先を確認
Richard M. Milbradt, Qunsheng Huang, Christian B. Mendl, (参考訳) この研究は、量子ハミルトニアンを表現するためのツリーテンソルネットワーク演算子(TTNO)に関するものである。 まず、木トポロジーと状態図を結びつける数学的枠組みを確立する。 これらに基づき、ハミルトニアンを与えられたTTNOを構成するアルゴリズムを考案する。 このアルゴリズムはハミルトニアンのテンソル積構造を利用して状態図に経路を追加し、可能であれば局所作用素を組み合わせる。 木構造に対するランダムハミルトニアンのアルゴリズムの性能を検証した。 さらに,木トポロジー上での近接相互作用に対して,TTNOを明示的に構築する。 さらに、木上の任意の相互作用を表すテンソル作用素の結合次元に有界を導出する。 最後に、ボゾン浴場に結合したハイゼンベルクスピン鎖の形で開量子系を具体例として考える。 木構造は、行列積作用素構造と比較してハミルトンテンソルネットワーク表現の結合次元を低くすることができる。 この減少は、スピン当たりの浴の数が3ドルに達するとすぐに必要となるトータルテンソル要素の数を減らすのに十分である。

This work is concerned with tree tensor network operators (TTNOs) for representing quantum Hamiltonians. We first establish a mathematical framework connecting tree topologies with state diagrams. Based on these, we devise an algorithm for constructing a TTNO given a Hamiltonian. The algorithm exploits the tensor product structure of the Hamiltonian to add paths to a state diagram, while combining local operators if possible. We test the capabilities of our algorithm on random Hamiltonians for a given tree structure. Additionally, we construct explicit TTNOs for nearest neighbour interactions on a tree topology. Furthermore, we derive a bound on the bond dimension of tensor operators representing arbitrary interactions on trees. Finally, we consider an open quantum system in the form of a Heisenberg spin chain coupled to bosonic bath sites as a concrete example. We find that tree structures allow for lower bond dimensions of the Hamiltonian tensor network representation compared to a matrix product operator structure. This reduction is large enough to reduce the number of total tensor elements required as soon as the number of baths per spin reaches $3$.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# 共変量と依存シフトの同時によるアルゴリズムフェアネスの一般化

Algorithmic Fairness Generalization under Covariate and Dependence Shifts Simultaneously ( http://arxiv.org/abs/2311.13816v2 )

ライセンス: Link先を確認
Chen Zhao, Kai Jiang, Xintao Wu, Haoliang Wang, Latifur Khan, Christan Grant, Feng Chen, (参考訳) 公平かつ不変な分類器の一般化、特に分布シフトの存在下での一般化を維持する努力は、機械学習において重要かつ複雑な課題となる。 この課題に対して、フェアネスを意識した領域一般化の問題に対処することに焦点を当てた、多数の効果的なアルゴリズムが開発されている。 これらのアルゴリズムは、様々な種類の分散シフトをナビゲートするために設計されており、特に共変量および依存シフトに重点を置いている。 この文脈では、共変量シフトは入力特徴の限界分布の変化に関連するが、依存シフトはラベル変数と感度属性の結合分布の変化を伴う。 本稿では,ドメイン間の共変量と依存シフトを同時に扱うことにより,公平かつ不変な分類器を学習することを目的とした,単純かつ効果的なアプローチを提案する。 基礎となる変換モデルの存在は、非感受性属性やクラスに関連するセマンティクスを保ちながら、データをあるドメインから別のドメインに変換することができる、と我々は主張する。 モデルを用いて様々な合成データドメインを拡張することにより、ソースドメインの公平かつ不変な分類器を学習する。 この分類器は未知の対象領域に一般化することができ、モデル予測と公平性の懸念の両方を維持できる。 4つのベンチマークデータセットに関する大規模な実証研究は、我々のアプローチが最先端の手法を超越していることを示している。

The endeavor to preserve the generalization of a fair and invariant classifier across domains, especially in the presence of distribution shifts, becomes a significant and intricate challenge in machine learning. In response to this challenge, numerous effective algorithms have been developed with a focus on addressing the problem of fairness-aware domain generalization. These algorithms are designed to navigate various types of distribution shifts, with a particular emphasis on covariate and dependence shifts. In this context, covariate shift pertains to changes in the marginal distribution of input features, while dependence shift involves alterations in the joint distribution of the label variable and sensitive attributes. In this paper, we introduce a simple but effective approach that aims to learn a fair and invariant classifier by simultaneously addressing both covariate and dependence shifts across domains. We assert the existence of an underlying transformation model can transform data from one domain to another, while preserving the semantics related to non-sensitive attributes and classes. By augmenting various synthetic data domains through the model, we learn a fair and invariant classifier in source domains. This classifier can then be generalized to unknown target domains, maintaining both model prediction and fairness concerns. Extensive empirical studies on four benchmark datasets demonstrate that our approach surpasses state-of-the-art methods.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# RISAM: 相互認識型アテンション機能によるイメージセグメンテーションの参照

RISAM: Referring Image Segmentation via Mutual-Aware Attention Features ( http://arxiv.org/abs/2311.15727v4 )

ライセンス: Link先を確認
Mengxi Zhang, Yiming Liu, Xiangjun Yin, Huanjing Yue, Jingyu Yang, (参考訳) イメージセグメンテーション(RIS)は、言語表現プロンプトに基づいて特定の領域をセグメンテーションすることを目的としている。 既存の手法では、言語的特徴を視覚的特徴に取り入れ、マスク復号のためのマルチモーダル特徴を得る。 しかし、これらの手法は、多モードの特徴が豊富な視覚的コンテキストに支配されるため、正しい参照領域の代わりに視覚的に健全な実体を分割することができる。 本稿では,Segment Anything Model(SAM)を利用した参照画像分割手法MARISを提案する。 具体的には、視覚的特徴と言語的特徴の関係を双方向にモデル化する視覚誘導注意と言語誘導注意から構成される。 それに対応して,言語表現とのより一貫性のあるセグメンテーションのために,明示的な言語指導を可能にするマスクデコーダを設計する。 この目的のために,言語情報を統合し,同時に視覚情報と対話するマルチモーダルクエリトークンを提案する。 3つのベンチマークデータセットの大規模な実験により、我々の手法は最先端のRIS法よりも優れていることが示された。 私たちのコードは公開されます。

Referring image segmentation (RIS) aims to segment a particular region based on a language expression prompt. Existing methods incorporate linguistic features into visual features and obtain multi-modal features for mask decoding. However, these methods may segment the visually salient entity instead of the correct referring region, as the multi-modal features are dominated by the abundant visual context. In this paper, we propose MARIS, a referring image segmentation method that leverages the Segment Anything Model (SAM) and introduces a mutual-aware attention mechanism to enhance the cross-modal fusion via two parallel branches. Specifically, our mutual-aware attention mechanism consists of Vision-Guided Attention and Language-Guided Attention, which bidirectionally model the relationship between visual and linguistic features. Correspondingly, we design a Mask Decoder to enable explicit linguistic guidance for more consistent segmentation with the language expression. To this end, a multi-modal query token is proposed to integrate linguistic information and interact with visual information simultaneously. Extensive experiments on three benchmark datasets show that our method outperforms the state-of-the-art RIS methods. Our code will be publicly available.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# SARA:空間アライメントと領域適応正規化による制御可能なメイクアップ転送

SARA: Controllable Makeup Transfer with Spatial Alignment and Region-Adaptive Normalization ( http://arxiv.org/abs/2311.16828v2 )

ライセンス: Link先を確認
Xiaojing Zhong, Xinyi Huang, Zhonghua Wu, Guosheng Lin, Qingyao Wu, (参考訳) メイクアップ転送(Makeup Transfer)は、ソースイメージのアイデンティティを保持しながら、基準画像からソースイメージにメイクスタイルを転送するプロセスである。 この手法は非常に望ましいものであり、多くの応用を見出す。 しかし、既存の手法ではメイクスタイルの微妙な制御が欠如しており、空間的ミスアライメントが大きい場合、高品質な結果を得ることが困難である。 そこで本稿では,空間アライメントと領域適応正規化法(SARA)を提案する。 提案手法は,大規模な空間的不整合を処理し,部分特異的で日陰制御可能なメイク転送を実現するための詳細なメイク転送結果を生成する。 具体的には、SARAは3つのモジュールから構成される: まず、化粧の空間的文脈を保存し、形状に依存しないスタイルコードを導くためのターゲットセマンティックマップを提供する空間的アライメントモジュール。 第2に、領域単位のエンコーディングと正規化を用いて形状とメイクスタイルを分離する領域適応正規化モジュールにより、空間的ミスアライメントの除去を容易にする。 最後に、メークアップ融合モジュールは、学習スケールとバイアスパラメータを注入することによって、アイデンティティ特徴とメイクスタイルをブレンドする。 実験の結果,SARA法は既存の手法よりも優れており,2つの公開データセット上での最先端性能を実現していることがわかった。

Makeup transfer is a process of transferring the makeup style from a reference image to the source images, while preserving the source images' identities. This technique is highly desirable and finds many applications. However, existing methods lack fine-level control of the makeup style, making it challenging to achieve high-quality results when dealing with large spatial misalignments. To address this problem, we propose a novel Spatial Alignment and Region-Adaptive normalization method (SARA) in this paper. Our method generates detailed makeup transfer results that can handle large spatial misalignments and achieve part-specific and shade-controllable makeup transfer. Specifically, SARA comprises three modules: Firstly, a spatial alignment module that preserves the spatial context of makeup and provides a target semantic map for guiding the shape-independent style codes. Secondly, a region-adaptive normalization module that decouples shape and makeup style using per-region encoding and normalization, which facilitates the elimination of spatial misalignments. Lastly, a makeup fusion module blends identity features and makeup style by injecting learned scale and bias parameters. Experimental results show that our SARA method outperforms existing methods and achieves state-of-the-art performance on two public datasets.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# PGD攻撃を再考する: Sign Functionは必要か?

Rethinking PGD Attack: Is Sign Function Necessary? ( http://arxiv.org/abs/2312.01260v2 )

ライセンス: Link先を確認
Junjie Yang, Tianlong Chen, Xuxi Chen, Zhangyang Wang, Yingbin Liang, (参考訳) ニューラルネットワークは様々な領域で成功しているが、その性能は小さな入力摂動によって著しく低下する可能性がある。 その結果、敵攻撃として知られるこのような摂動の構築が注目され、その多くはニューラルネットワークに完全にアクセス可能な「ホワイトボックス」シナリオに該当する。 既存の攻撃アルゴリズム、例えば、投影勾配降下(PGD)は、通常、逆入力を更新する前に生勾配上の符号関数を取り、勾配等級情報を無視する。 本稿では,このような符号ベースの更新アルゴリズムが段階的攻撃性能にどのように影響するか,また注意すべき点について理論的に分析する。 また,従来の生勾配直接利用の試みが失敗した理由も解釈した。 そこで本研究では,手話の使用を排除したRGDアルゴリズムを提案する。 具体的には、制約を負わない摂動の隠れ変数を導入することで、制約付き最適化問題を非制約に変換する。 提案したRGDアルゴリズムの有効性は,計算オーバーヘッドを伴わずに,PGDと他の競合よりも高い性能を示す実験で広く実証されている。 コードはhttps://github.com/JunjieYang97/RGDで公開されている。

Neural networks have demonstrated success in various domains, yet their performance can be significantly degraded by even a small input perturbation. Consequently, the construction of such perturbations, known as adversarial attacks, has gained significant attention, many of which fall within "white-box" scenarios where we have full access to the neural network. Existing attack algorithms, such as the projected gradient descent (PGD), commonly take the sign function on the raw gradient before updating adversarial inputs, thereby neglecting gradient magnitude information. In this paper, we present a theoretical analysis of how such sign-based update algorithm influences step-wise attack performance, as well as its caveat. We also interpret why previous attempts of directly using raw gradients failed. Based on that, we further propose a new raw gradient descent (RGD) algorithm that eliminates the use of sign. Specifically, we convert the constrained optimization problem into an unconstrained one, by introducing a new hidden variable of non-clipped perturbation that can move beyond the constraint. The effectiveness of the proposed RGD algorithm has been demonstrated extensively in experiments, outperforming PGD and other competitors in various settings, without incurring any additional computational overhead. The codes is available in https://github.com/JunjieYang97/RGD.
翻訳日:2024-05-22 19:01:09 公開日:2024-05-21
# 住宅の暖房に対する需要応答:物理インフォームドニューラルネットワークに基づく効率的なモンテカルロ木探索制御

Demand response for residential building heating: Effective Monte Carlo Tree Search control based on physics-informed neural networks ( http://arxiv.org/abs/2312.03365v4 )

ライセンス: Link先を確認
Fabio Pavirani, Gargya Gokhale, Bert Claessens, Chris Develder, (参考訳) 地球規模の二酸化炭素排出量を削減し、気候変動を抑えるため、建物内のエネルギー消費を抑えることがパズルの重要なピースである。 本稿では,利用者の熱的快適さを尊重しつつ,住宅の暖房システムのエネルギー消費を抑えるために,需要応答(DR)アルゴリズムの使用に着目する。 この領域では、強化学習(RL)法は非常に効果的であることが示されている。 そのようなRL手法の1つはMCTS(Monte Carlo Tree Search)であり、ボードゲーム(ゴー、チェス)で驚くべき成功を収めた。 MCTSの特に利点は、決定木構造が自然に外在的制約(例えば、それらに違反する枝をトリミングすることで)を統合することができるのに対し、従来のRLソリューションはより精巧な技術(例えば、コスト/リワード関数に罰則を間接的に追加したり、制約違反行為を修正するバックアップコントローラを通して)を必要とすることである。 本論文の主な目的は,建築制御におけるMCTSの採用について検討することである。 MCTSの特定の特性は、実行されたアクションに基づいてその後のシステム状態を予測できるシミュレータコンポーネントが必要であることである。 簡単なデータ駆動ソリューションは、ブラックボックスニューラルネットワーク(NN)を使用することだ。 しかしながら、我々は、マルチステップ予測を提供するために物理情報ニューラルネットワーク(PiNN)モデルを拡張し、予測エラー(-32\% MAE)やMCTSのパフォーマンス(-4\%エネルギーコスト、+7\%熱的快適性)をブラックボックスNNと比較した場合の利点を示す。 第2の貢献は、AlphaZeroで適用されたアイデア(すなわち、学習前の関数と値関数とアクション選択ヒューリスティック)を採用するためにバニラMCTSバージョンを拡張して、制御性能を維持しながら計算コストを下げることである。

To reduce global carbon emissions and limit climate change, controlling energy consumption in buildings is an important piece of the puzzle. Here, we specifically focus on using a demand response (DR) algorithm to limit the energy consumption of a residential building's heating system while respecting user's thermal comfort. In that domain, Reinforcement learning (RL) methods have been shown to be quite effective. One such RL method is Monte Carlo Tree Search (MCTS), which has achieved impressive success in playing board games (go, chess). A particular advantage of MCTS is that its decision tree structure naturally allows to integrate exogenous constraints (e.g., by trimming branches that violate them), while conventional RL solutions need more elaborate techniques (e.g., indirectly by adding penalties in the cost/reward function, or through a backup controller that corrects constraint-violating actions). The main aim of this paper is to study the adoption of MCTS for building control, since this (to the best of our knowledge) has remained largely unexplored. A specific property of MCTS is that it needs a simulator component that can predict subsequent system states, based on actions taken. A straightforward data-driven solution is to use black-box neural networks (NNs). We will however extend a Physics-informed Neural Network (PiNN) model to deliver multi-timestep predictions, and show the benefit it offers in terms of lower prediction errors ($-$32\% MAE) as well as better MCTS performance ($-$4\% energy cost, $+$7\% thermal comfort) compared to a black-box NN. A second contribution will be to extend a vanilla MCTS version to adopt the ideas applied in AlphaZero (i.e., using learned prior and value functions and an action selection heuristic) to obtain lower computational costs while maintaining control performance.
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# GloVeとニューラルネットワークモデルを用いた多言語テキスト分類

Multi-label Text Classification using GloVe and Neural Network Models ( http://arxiv.org/abs/2312.03707v2 )

ライセンス: Link先を確認
Hongren Wang, (参考訳) 本研究では,マルチラベルテキスト分類の課題に対処する。 この困難は、不均衡なデータセット、さまざまなテキストの長さ、多数の主観的特徴ラベルから生じる。 既存のソリューションには、予測のための従来の機械学習とディープニューラルネットワークが含まれる。 しかし、どちらのアプローチにも限界がある。 従来の機械学習は、単語間の関連性を見落としていることが多いが、深いニューラルネットワークは、より優れた分類性能にもかかわらず、トレーニングの複雑さと時間が増加する。 本稿では,GloVe モデルと CNN-BiLSTM ネットワークに基づくback-of-words モデル手法を提案する。 原則は、GloVeモデルによって訓練された単語ベクトル行列を、テキスト埋め込み層の入力として使用することである。 GloVeモデルはそれ以上のトレーニングを必要としないため、ニューラルネットワークモデルはより効率的にトレーニングすることができる。 テストセットの精度は87.26%、F1スコアは0.8737であり、有望な結果を示している。

This study addresses the challenges of multi-label text classification. The difficulties arise from imbalanced data sets, varied text lengths, and numerous subjective feature labels. Existing solutions include traditional machine learning and deep neural networks for predictions. However, both approaches have their limitations. Traditional machine learning often overlooks the associations between words, while deep neural networks, despite their better classification performance, come with increased training complexity and time. This paper proposes a method utilizing the bag-of-words model approach based on the GloVe model and the CNN-BiLSTM network. The principle is to use the word vector matrix trained by the GloVe model as the input for the text embedding layer. Given that the GloVe model requires no further training, the neural network model can be trained more efficiently. The method achieves an accuracy rate of 87.26% on the test set and an F1 score of 0.8737, showcasing promising results.
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# 医用画像におけるCLIP : 包括的調査

CLIP in Medical Imaging: A Comprehensive Survey ( http://arxiv.org/abs/2312.07353v4 )

ライセンス: Link先を確認
Zihao Zhao, Yuxiao Liu, Han Wu, Yonghao Li, Sheng Wang, Lin Teng, Disheng Liu, Zhiming Cui, Qian Wang, Dinggang Shen, (参考訳) Contrastive Language-Image Pre-Training (CLIP) は、シンプルだが効果的な事前学習パラダイムであり、視覚モデルにテキスト管理を導入することに成功した。 様々なタスクにおいて有望な結果を示しており、その一般化可能性と解釈可能性に起因している。 CLIPの使用は最近、医療画像領域への関心が高まり、医療ビジョンと言語を調整するための事前訓練パラダイムとして機能し、多様な臨床タスクにおいて重要な要素となっている。 この将来性のある方向性をより深く理解することを目的として、この調査は、CLIP事前トレーニングとCLIP駆動アプリケーションの両方に関して、医療画像領域におけるCLIPパラダイムの詳細な調査を提供する。 本研究は,まずCLIP方法論の基礎を概説することから始める。 2) 医療領域におけるCLIP事前訓練の適応について検討し, 医用画像の特徴と報告のCLIPの最適化方法について検討した。 さらに,CLIP事前学習モデルの,分類,密集予測,クロスモーダルタスクなど,様々なタスクにおける実用的活用について検討する。 (4) 医用画像領域におけるCLIPの既存の限界について考察し, 医用画像領域の要求に対処するための先進的な方向性を提案する。 この包括的調査は、CLIPパラダイムの全体的理解と、その潜在的な影響を、医学画像分析の分野の研究者に提供することを期待する。 プロジェクトのページはhttps://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imagingにある。

Contrastive Language-Image Pre-training (CLIP), a simple yet effective pre-training paradigm, successfully introduces text supervision to vision models. It has shown promising results across various tasks, attributable to its generalizability and interpretability. The use of CLIP has recently gained increasing interest in the medical imaging domain, serving both as a pre-training paradigm for aligning medical vision and language, and as a critical component in diverse clinical tasks. With the aim of facilitating a deeper understanding of this promising direction, this survey offers an in-depth exploration of the CLIP paradigm within the domain of medical imaging, regarding both refined CLIP pre-training and CLIP-driven applications. In this study, We (1) start with a brief introduction to the fundamentals of CLIP methodology. (2) Then, we investigate the adaptation of CLIP pre-training in the medical domain, focusing on how to optimize CLIP given characteristics of medical images and reports. (3) Furthermore, we explore the practical utilization of CLIP pre-trained models in various tasks, including classification, dense prediction, and cross-modal tasks. (4) Finally, we discuss existing limitations of CLIP in the context of medical imaging and propose forward-looking directions to address the demands of medical imaging domain. We expect that this comprehensive survey will provide researchers in the field of medical image analysis with a holistic understanding of the CLIP paradigm and its potential implications. The project page can be found on https://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imaging.
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# 学習とリコール : 事前学習型言語モデルによるインクリメンタルラーニングの再考

Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Models ( http://arxiv.org/abs/2312.07887v3 )

ライセンス: Link先を確認
Junhao Zheng, Shengjie Qiu, Qianli Ma, (参考訳) インクリメンタルラーニング(IL)は、ビジョンと自然言語処理(NLP)コミュニティにおいて長年の課題であった。 近年、PLM(Pre-trained Language Models)は様々なNLP下流タスクにおいて顕著な進歩を遂げており、最近のNLPにおけるIL研究において、PLMをバックボーンとして活用することが一般的となっている。 殆どの人は、破滅的な忘れが優れたIL性能を達成するための最大の障害であると仮定し、この問題を克服するための様々な手法を提案する。 しかし、この仮定は問題となる。 具体的には,4つの分類タスク(テキスト分類,インテント分類,関係抽出,名前付きエンティティ認識)について,最も一般的な2つのIL設定(クラスインクリメンタルとタスクインクリメンタル)に基づいて20以上の手法を再検討し,PLMの固有のアンチフォジット能力を著しく過小評価していることを明らかにする。 そこで本研究では,PLMを用いたILのためのSEQ*というフラストレーションに富んだ手法を提案する。 その結果,SEQ* は最新式 (SOTA) の IL 法に比べて性能が優れており,トレーニング時間やトレーニング時間もかなり少ないことがわかった。 これらの知見は, ILをPLMで再考し, 今後の研究がPLMにおける破滅的な忘れを根本的に理解することを促すものである。 データ、コード、スクリプトはhttps://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm.comで公開されている。

Incremental Learning (IL) has been a long-standing problem in both vision and Natural Language Processing (NLP) communities. In recent years, as Pre-trained Language Models (PLMs) have achieved remarkable progress in various NLP downstream tasks, utilizing PLMs as backbones has become a common practice in recent research of IL in NLP. Most assume that catastrophic forgetting is the biggest obstacle to achieving superior IL performance and propose various techniques to overcome this issue. However, we find that this assumption is problematic. Specifically, we revisit more than 20 methods on four classification tasks (Text Classification, Intent Classification, Relation Extraction, and Named Entity Recognition) under the two most popular IL settings (Class-Incremental and Task-Incremental) and reveal that most of them severely underestimate the inherent anti-forgetting ability of PLMs. Based on the observation, we propose a frustratingly easy method called SEQ* for IL with PLMs. The results show that SEQ* has competitive or superior performance compared to state-of-the-art (SOTA) IL methods and requires considerably less trainable parameters and training time. These findings urge us to revisit the IL with PLMs and encourage future studies to have a fundamental understanding of the catastrophic forgetting in PLMs. The data, code and scripts are publicly available at https://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm.
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# 初期状態が記憶に及ぼす影響:早期超放射能の研究

Influence of initial states on memory effects: A study of early-time superradiance ( http://arxiv.org/abs/2312.10938v2 )

ライセンス: Link先を確認
S. C. Hou, G. Q. Shuai, X. Y. Zhang, J. Shen, X. X. Yi, (参考訳) 量子系の初期状態は、特に環境記憶の影響により、その将来の力学、特に非マルコバイン量子過程に顕著に影響を及ぼす。 本稿では,従来の研究に基づいて,特定のシステムの初期状態に条件付けされた非マルコフ量子プロセスのメモリ効果を定量化する手法を提案する。 我々は,N$原子 (システム) が単一モード真空空洞 (環境) といくつかの初期状態と相互作用する超放射能モデルの早期ダイナミクスの研究に本手法を適用した。 初期状態における記憶効果の値は、(脱相した)ディック状態の環境光子数の半分であることがわかった。 さらに、いくつかの初期状態のコヒーレンスや絡み合いによって、メモリ効果、環境光子数、超輝度の度合いを同時に向上させることができる。 本研究では,非超放射能初期状態から超放射能初期状態への移行には,常に記憶効果の増強が伴い,超放射能における記憶効果の重要性が示されている。

The initial state of a quantum system can significantly influence its future dynamics, especially in non-Markovain quantum processes due to the environmental memory effects. Based on a previous work of ours, we propose a method to quantify the memory effects of a non-Markovian quantum process conditioned on a particular system initial state. We apply our method to study the early-time dynamics of a superradiance model where $N$ atoms (the system) interacting with a single-mode vacuum cavity (the environment) with several types of initial states. We find that the value of the memory effects in the early-time regime is half the environmental photon number for the (dephased) Dicke states. Besides, the memory effects, the environmental photon number and the degree of superradiance can be simultaneously enhanced by the coherence or entanglement of some initial states. In our study, the transitions from non-superradiant initial states to superradiant ones are always accompanied by the enhancement of memory effects, showing the importance of memory effects in superradiance.
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# ID-Blau: 急激な拡散に基づく再ブラッシングによる画像劣化

ID-Blau: Image Deblurring by Implicit Diffusion-based reBLurring AUgmentation ( http://arxiv.org/abs/2312.10998v2 )

ライセンス: Link先を確認
Jia-Hao Wu, Fu-Jen Tsai, Yan-Tsung Peng, Chung-Chi Tsai, Chia-Wen Lin, Yen-Yu Lin, (参考訳) Image Deblurringは、ダイナミックなシーンで撮影された画像から望ましくないぼやけを取り除くことを目的としている。 モデルアーキテクチャ設計による劣化性能の改善に多くの研究が費やされている。 しかし、画像の劣化に対するデータ拡張についてはほとんど研究されていない。 連続運動は画像露出中にぼやけたアーチファクトを引き起こすため、連続空間における運動軌跡をシミュレートして、多様なぼやけた画像を生成するための画期的なぼやけた拡張法を開発することを目指している。 本稿では、制御可能なぼかし条件マップと組み合わせたシャープな画像を用いて、インプリシット拡散に基づく再ブラッシングAUgmentation(ID-Blau)を提案し、対応するぼかし画像を生成する。 ぼやけた画像のぼやけパターンを画素単位のぼやけ条件マップとしてパラメータ化し、動きの軌跡をシミュレートし、連続空間で暗黙的に表現する。 多様なぼやけた条件をサンプリングすることで、ID-Blauはトレーニングセットに見えない様々なぼやけた画像を生成することができる。 実験結果から,ID-Blauはリアルなぼやけた画像を生成することができ,最先端のデブロアリングモデルの性能を大幅に向上させることができることがわかった。 ソースコードはhttps://github.com/plusgood-steven/ID-Blauで公開されている。

Image deblurring aims to remove undesired blurs from an image captured in a dynamic scene. Much research has been dedicated to improving deblurring performance through model architectural designs. However, there is little work on data augmentation for image deblurring. Since continuous motion causes blurred artifacts during image exposure, we aspire to develop a groundbreaking blur augmentation method to generate diverse blurred images by simulating motion trajectories in a continuous space. This paper proposes Implicit Diffusion-based reBLurring AUgmentation (ID-Blau), utilizing a sharp image paired with a controllable blur condition map to produce a corresponding blurred image. We parameterize the blur patterns of a blurred image with their orientations and magnitudes as a pixel-wise blur condition map to simulate motion trajectories and implicitly represent them in a continuous space. By sampling diverse blur conditions, ID-Blau can generate various blurred images unseen in the training set. Experimental results demonstrate that ID-Blau can produce realistic blurred images for training and thus significantly improve performance for state-of-the-art deblurring models. The source code is available at https://github.com/plusgood-steven/ID-Blau.
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# Lift-Attend-Splat:変圧器を用いたバードアイビューカメラライダー融合

Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers ( http://arxiv.org/abs/2312.14919v3 )

ライセンス: Link先を確認
James Gunn, Zygmunt Lenyk, Anuj Sharma, Andrea Donati, Alexandru Buburuzan, John Redford, Romain Mueller, (参考訳) 相補的なセンサーのモダリティを組み合わせることは、自律運転(AD)のような安全クリティカルなロボティクスアプリケーションに対して、堅牢な認識を提供する上で重要である。 近年のAD用カメラ・ライダー融合法は,ライダーからの深度情報を直接使用した場合と比較して,非常に難しい単眼深度推定に頼っている。 ここでは,本手法が期待通り深度を生かしていないこと,また,過度に深度推定を改良しても物体検出性能が向上しないことを示す。 また, 被写体検出性能が著しく低下することはなく, 単分子深度に依存することは, カメラとライダーの融合において不要なアーキテクチャ上のボトルネックとなる可能性が示唆された。 本研究では,単一眼深度推定を完全に回避し,簡単な注意機構を用いて鳥眼ビューグリッドにおけるカメラ特徴とライダー特徴を抽出・融合する新しい融合手法を提案する。 本モデルでは,ライダー機能の利用率に基づいてカメラ機能の利用を変調し,単眼深度推定に基づくベースラインよりも,nuScenesデータセット上での3次元物体検出が優れていることを示す。

Combining complementary sensor modalities is crucial to providing robust perception for safety-critical robotics applications such as autonomous driving (AD). Recent state-of-the-art camera-lidar fusion methods for AD rely on monocular depth estimation which is a notoriously difficult task compared to using depth information from the lidar directly. Here, we find that this approach does not leverage depth as expected and show that naively improving depth estimation does not lead to improvements in object detection performance. Strikingly, we also find that removing depth estimation altogether does not degrade object detection performance substantially, suggesting that relying on monocular depth could be an unnecessary architectural bottleneck during camera-lidar fusion. In this work, we introduce a novel fusion method that bypasses monocular depth estimation altogether and instead selects and fuses camera and lidar features in a bird's-eye-view grid using a simple attention mechanism. We show that our model can modulate its use of camera features based on the availability of lidar features and that it yields better 3D object detection on the nuScenes dataset than baselines relying on monocular depth estimation.
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# リモートセンシング変更キャプションのための画素レベル変化検出擬似ラベル学習

Pixel-Level Change Detection Pseudo-Label Learning for Remote Sensing Change Captioning ( http://arxiv.org/abs/2312.15311v2 )

ライセンス: Link先を確認
Chenyang Liu, Keyan Chen, Zipeng Qi, Haotian Zhang, Zhengxia Zou, Zhenwei Shi, (参考訳) 既存のリモートセンシング画像変化キャプション(RSICC)は、単純なシーンではうまく機能するが、複雑なシーンでは性能が劣る。 この制限は主に、モデルが変化を識別し、発見する制限された視覚能力に起因している。 変化検出(CD)タスクとRSICCタスクの関連性を認め,言語による画像の違いを説明する上で,ピクセルレベルのCDが重要であると信じている。 現在のRSICCデータセットには、容易に利用可能なピクセルレベルのCDラベルがない。 この欠陥に対処するために、既存のCDデータセットでトレーニングされたモデルを活用し、CD擬似ラベルを導出する。 擬似ラベルで制御された補助CD分岐を用いた革新的なネットワークを提案する。 さらに、CDブランチによって抽出された特徴情報を融合するために、意味融合拡張(SFA)モジュールを提案する。 実験により,本手法が最先端の性能を達成し,学習用画素レベルのCD擬似ラベルがキャプションの変更に大きく寄与することが確認された。 私たちのコードは、https://github.com/Chen-Yang-Liu/Pix4Capで利用可能になります。

The existing methods for Remote Sensing Image Change Captioning (RSICC) perform well in simple scenes but exhibit poorer performance in complex scenes. This limitation is primarily attributed to the model's constrained visual ability to distinguish and locate changes. Acknowledging the inherent correlation between change detection (CD) and RSICC tasks, we believe pixel-level CD is significant for describing the differences between images through language. Regrettably, the current RSICC dataset lacks readily available pixel-level CD labels. To address this deficiency, we leverage a model trained on existing CD datasets to derive CD pseudo-labels. We propose an innovative network with an auxiliary CD branch, supervised by pseudo-labels. Furthermore, a semantic fusion augment (SFA) module is proposed to fuse the feature information extracted by the CD branch, thereby facilitating the nuanced description of changes. Experiments demonstrate that our method achieves state-of-the-art performance and validate that learning pixel-level CD pseudo-labels significantly contributes to change captioning. Our code will be available at: https://github.com/Chen-Yang-Liu/Pix4Cap
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# シュレーディンガー方程式の確率ベクトル表現とLeggett-Garg型実験

Probability vector representation of the Schrödinger equation and Leggett-Garg type experiments ( http://arxiv.org/abs/2312.16281v2 )

ライセンス: Link先を確認
Masahiro Hotta, Sebastian Murk, (参考訳) Leggett-Garg の不等式は、マクロ的現実主義 $\textit{per se}$ と非侵襲的可測性(noninvasive measurability)の原理に基づくシステムの時間的相関に縛られる。 従来の定式化は、異なる瞬間に測定された可観測物のアンサンブル平均積に依存している。 しかし、物理的に関係のある全ての特徴を正確に理解し、捉えるための完全な記述は、非可換観測物に関連する確率分布の研究を必要とする。 本稿では、Schr\\odinger方程式の確率ベクトル表現を通して、一般の$N$レベルの量子システムの力学を記述するためのスキームを提案し、非可換可観測物の確率分布に対する時間的無符号(NSIT)の正確な概念を定義する。 これは、非古典的行動に責任がある干渉を特定する体系的な方法を提供する。 さらに、任意の一般確率状態に対するNSIT違反を定量化するための干渉証人対策を導入する。 単一量子系では、測定中に発生する観測物の乱れとNSIT違反の関連性を確立する重要な関係性を示す。 手動による決定が不可能な大規模N$システムでは、NSIT変換またはNSIT違反として状態の分類を機械学習アルゴリズムによって行うことができる。 本稿では、擬似ランダムに生成された学習データセットを、対応する分類が $\textit{a priori}$ である状態から構成し、教師あり学習により分類器関数を作成できるアルゴリズムの証明・基本実装を提案する。

Leggett-Garg inequalities place bounds on the temporal correlations of a system based on the principles of macroscopic realism $\textit{per se}$ and noninvasive measurability. Their conventional formulation relies on the ensemble-averaged products of observables measured at different instants of time. However, a complete description that enables a precise understanding and captures all physically relevant features requires the study of probability distributions associated with noncommuting observables. In this article, we propose a scheme to describe the dynamics of generic $N$-level quantum systems ("qudits") via a probability vector representation of the Schr\"odinger equation and define a precise notion of no-signaling in time (NSIT) for the probability distributions of noncommuting observables. This provides a systematic way of identifying the interferences responsible for nonclassical behavior. In addition, we introduce an interference witness measure to quantify violations of NSIT for arbitrary general probabilistic states. For single-qubit systems, we pinpoint the pivotal relation that establishes a connection between the disturbance of observables incurred during a measurement and the resulting NSIT violation. For large-$N$-systems where a manual determination is infeasible, the classification of states as either NSIT-conforming or NSIT-violating may be performed by a machine learning algorithm. We present a proof-of-principle implementation of such an algorithm in which the classifier function is prepared via supervised learning using pseudo-randomly generated training data sets comprised of states whose corresponding classifications are known $\textit{a priori}$.
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# 合成データを用いたロボット衣服マニピュレーションのための学習キーポイント

Learning Keypoints for Robotic Cloth Manipulation using Synthetic Data ( http://arxiv.org/abs/2401.01734v2 )

ライセンス: Link先を確認
Thomas Lips, Victor-Louis De Gusseme, Francis wyffels, (参考訳) 補助ロボットは、洗濯、折りたたみ、鉄の衣服を作れるべきである。 しかし, 衣服の変形性, 自己閉塞性などにより, 布を操るロボットシステムの構築は困難である。 合成データは、一般化を改善するための有望な方向であるが、sim-to-realギャップは、その有効性を制限する。 ロボットの折り畳みなどの布操作作業における合成データの利用を促進するために, ほぼ平らな布品のキーポイント検出器を訓練するための合成データパイプラインを提案する。 その性能を評価するために,実世界のデータセットも収集した。 我々は、Tシャツ、タオル、ショートパンツの両方の検出器を訓練し、平均精度は64%、平均キーポイント距離は18ピクセルである。 実世界のデータの微調整により、パフォーマンスは74% mAP、平均距離は9ピクセルに向上する。 さらに、キーポイント検出器の故障モードを記述し、異なるアプローチを用いて布メッシュや材料を得る。 また、残りのsim-to-realギャップを定量化し、このギャップをさらに小さくするためには、布質資産の健全性をさらに改善する必要があると論じる。 コード、データセット、トレーニングされたモデルが利用可能

Assistive robots should be able to wash, fold or iron clothes. However, due to the variety, deformability and self-occlusions of clothes, creating robot systems for cloth manipulation is challenging. Synthetic data is a promising direction to improve generalization, but the sim-to-real gap limits its effectiveness. To advance the use of synthetic data for cloth manipulation tasks such as robotic folding, we present a synthetic data pipeline to train keypoint detectors for almost-flattened cloth items. To evaluate its performance, we have also collected a real-world dataset. We train detectors for both T-shirts, towels and shorts and obtain an average precision of 64% and an average keypoint distance of 18 pixels. Fine-tuning on real-world data improves performance to 74% mAP and an average distance of only 9 pixels. Furthermore, we describe failure modes of the keypoint detectors and compare different approaches to obtain cloth meshes and materials. We also quantify the remaining sim-to-real gap and argue that further improvements to the fidelity of cloth assets will be required to further reduce this gap. The code, dataset and trained models are available
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# マルチリンガルのピンチによる多言語指導チューニング

Multilingual Instruction Tuning With Just a Pinch of Multilinguality ( http://arxiv.org/abs/2401.01854v4 )

ライセンス: Link先を確認
Uri Shaham, Jonathan Herzig, Roee Aharoni, Idan Szpektor, Reut Tsarfaty, Matan Eyal, (参考訳) 命令調整型大規模言語モデル(LLM)がグローバルに普及するにつれ、複数の言語で命令に従う能力はますます重要になっている。 本研究では,多言語LLMの命令チューニングにおける多言語性が,事前学習コーパスからの言語間の命令追従に与える影響について検討する。 まず、多くの言語が単言語チューニングから他の言語に命令追従機能を移行していることを示します。 さらに、英語のチューニングセットに統合された40の多言語例のみが、チューニング中の目視言語と目視言語の両方において、多言語命令追従を大幅に改善していることが判明した。 一般に,多言語混在のモデルでは,各言語における10倍の学習例のトレーニングにもかかわらず,単言語混在モデルと比較して,複数の言語で同等あるいは優れた性能を示すことが観察された。 最後に、たった2-4言語でも命令チューニングセットの多様化が言語間一般化を著しく改善することを発見した。 この結果から,多言語命令調整モデルの構築は,ごく少数の多言語命令応答で行うことが可能であることが示唆された。

As instruction-tuned large language models (LLMs) gain global adoption, their ability to follow instructions in multiple languages becomes increasingly crucial. In this work, we investigate how multilinguality during instruction tuning of a multilingual LLM affects instruction-following across languages from the pre-training corpus. We first show that many languages transfer some instruction-following capabilities to other languages from even monolingual tuning. Furthermore, we find that only 40 multilingual examples integrated in an English tuning set substantially improve multilingual instruction-following, both in seen and unseen languages during tuning. In general, we observe that models tuned on multilingual mixtures exhibit comparable or superior performance in multiple languages compared to monolingually tuned models, despite training on 10x fewer examples in those languages. Finally, we find that diversifying the instruction tuning set with even just 2-4 languages significantly improves cross-lingual generalization. Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instruction-responses.
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# 散逸型ボゾン系における極限サイクルの実現

Realizing limit cycles in dissipative bosonic systems ( http://arxiv.org/abs/2401.05332v2 )

ライセンス: Link先を確認
Jim Skulte, Phatthamon Kongkhambut, Hans Keßler, Andreas Hemmerich, Ludwig Mathey, Jayson G. Cosme, (参考訳) 本稿では,リニアボソニックモードを消散非線形ボソニックモードに結合することにより,リミットサイクル(LC)発振を発生させる一般的なメカニズムを提案する。 安定性行列を解析することにより,超臨界ホップ分岐によりLCが生じることを示す。 LCsの存在は, 効果的な非線形相互作用の兆候とは無関係であることがわかった。 LC相は、多体系で現れる場合、連続時間結晶(CTC)に分類される。 ボソニックモデルは、原子空洞系で実現された量子化された光モードと相互作用する3レベルシステムで実現することができる。 このようなプラットフォームを用いて、我々は、魅力的な光ポンプ格子を持つ原子空洞系において、初めてLCを実験的に観察し、理論的予測を確認した。

We propose a general mechanism for generating limit cycle (LC) oscillations by coupling a linear bosonic mode to a dissipative nonlinear bosonic mode. By analyzing the stability matrix, we show that LCs arise due to a supercritical Hopf bifurcation. We find that the existence of LCs is independent of the sign of the effective nonlinear interaction. The LC phase can be classified as a continuous time crystal (CTC), if it emerges in a many-body system. The bosonic model can be realised in three-level systems interacting with a quantised light mode as realised in atom-cavity systems. Using such a platform, we experimentally observe LCs for the first time in an atom-cavity system with attractive optical pump lattice, thereby confirming our theoretical predictions.
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# POMDP戦略の説明可能かつ優れた表現法を学習する

Learning Explainable and Better Performing Representations of POMDP Strategies ( http://arxiv.org/abs/2401.07656v3 )

ライセンス: Link先を確認
Alexander Bork, Debraj Chakraborty, Kush Grover, Jan Kretinsky, Stefanie Mohr, (参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)の戦略は、通常メモリを必要とする。 このメモリを表現する方法のひとつにautomaticaがある。 L*-アルゴリズムの修正を用いて戦略のオートマトン表現を学習する手法を提案する。 戦略の表表表現と比較すると、結果のオートマトンは劇的に小さくなり、より説明しやすい。 さらに、学習過程において、我々のヒューリスティックスは戦略のパフォーマンスも改善する可能性がある。 オートマトンをPOMDPから直接合成して解決するアプローチとは対照的に,我々のアプローチは比較にならないほどスケーラブルである。

Strategies for partially observable Markov decision processes (POMDP) typically require memory. One way to represent this memory is via automata. We present a method to learn an automaton representation of a strategy using a modification of the L*-algorithm. Compared to the tabular representation of a strategy, the resulting automaton is dramatically smaller and thus also more explainable. Moreover, in the learning process, our heuristics may even improve the strategy's performance. In contrast to approaches that synthesize an automaton directly from the POMDP thereby solving it, our approach is incomparably more scalable.
翻訳日:2024-05-22 18:51:19 公開日:2024-05-21
# 量子ソフトウェア開発プロジェクトの成功を予測する新しい遺伝的アルゴリズムモデル

Agile Meets Quantum: A Novel Genetic Algorithm Model for Predicting the Success of Quantum Software Development Project ( http://arxiv.org/abs/2401.08151v2 )

ライセンス: Link先を確認
Arif Ali Khan, Muhammad Azeem Akbar, Valtteri Lahtinen, Marko Paavola, Mahmood Niazi, Mohammed Naif Alatawi, Shoayee Dlaim Alotaibi, (参考訳) コンテキスト: 量子ソフトウェアシステムは、量子ビット(Qubits)と量子ゲート(Qgates)を使用して、ソフトウェア工学における新しい領域を表します。 この研究は、量子ソフトウェアプロジェクトにおける従来のアジャイルアプローチの採用を阻害し、アジャイル量子ソフトウェア成功予測モデル(AQSSPM)を開発する上での課題の主要な原因を調査します。 方法論: まず、weは、前回の研究では議論された挑戦的な要因の19の要因を特定しました。 第二に、これらの原因について専門家の意見を集めるために調査が行われ、NAi ve Bayes Classifier (NBC) と Logistic Regression (LR) を応用してAQSSPM結果を開発した: GAをNBCで利用することで、プロジェクトの成功確率は53.17%から99.68%に改善され、コストは0.463%から0.403%に削減された。 同様に、LRを持つGAは、成功率55.52%から98.99%に上昇し、100回のイテラティオンの後、コストは0.496%から0.409%に低下した。 その結果, 両者の相関は強い(rs=0.955)が, 有意差は認められなかった(t=1.195, p=0.240>0.05)。 結論: AQSSPMは、特定のプロジェクトのコスト要因を考慮して、アジャイル量子プロジェクトを効率的かつうまく実装するための重要な焦点領域を強調している。

Context: Quantum software systems represent a new realm in software engineering, utilizing quantum bits (Qubits) and quantum gates (Qgates) to solve the complex problems more efficiently than classical counterparts . Agile software development approaches are considered to address many inherent challenges in quantum software development, but their effective integration remains unexplored Objective: This study investigates key causes of challenges that could hinders the adoption of traditional agile approaches in quantum software projects and develop an Agile Quantum Software Project Success Prediction Model (AQSSPM). Methodology: Firstly, w e identified 19 causes of challenging factors discussed in our previous study, which are potentially impacting agile quantum project success. Secondly, a survey was conducted to collect expert opinions on these causes and applied Genetic Algorithm (GA) with Na i ve Bayes Classifier (NBC) and Logistic Regression (LR) to develop the AQSSPM Results: Utilizing GA with NBC, project success probability improved from 53.17% to 99.68%, with cost reductions from 0.463% to 0.403%. Similarly, GA with LR increased success rates from 55.52% to 98.99%, and costs decreased from 0.496% to 0.409% after 100 iterati ons. Both methods result showed a strong positive correlation (rs=0.955) in causes ranking, with no significant difference between them (t=1.195, p=0.240>0.05). Conclusion: The AQSSPM highlights critical focus areas for efficiently and successfully implementing agile quantum projects considering the cost factor of a particular project
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# ディープエンサンブルシェイプキャリブレーション:オンライン広告におけるマルチフィールドポストホックキャリブレーション

Deep Ensemble Shape Calibration: Multi-Field Post-hoc Calibration in Online Advertising ( http://arxiv.org/abs/2401.09507v2 )

ライセンス: Link先を確認
Shuai Yang, Hao Yang, Zhuang Zou, Linhe Xu, Shuo Yuan, Yifan Zeng, (参考訳) eコマース広告のシナリオでは、Click-Through Rate(CTR)とConversion Rate(CVR)に基づいて真の確率(キャリブレーションされた見積)を推定することが重要である。 従来の研究では、キャリブレーション問題に対処するためのソリューションが数多く導入されている。 これらの方法は通常、バリデーションセットを使用してキャラブレータのトレーニングを行い、その後、オンライン推論中に元の推定値を修正するためにこれらのキャラブレータを適用します。 しかし、eコマース広告のシナリオを分けるのは、マルチフィールドキャリブレーションの課題だ。 マルチフィールドキャリブレーションは各フィールドでキャリブレーションを行う必要がある。 マルチフィールドキャリブレーションを実現するためには,強力なデータ利用能力が必要である。 単一のフィールド値(ユーザIDやアイテムIDなど)に対するpCTR指定範囲は比較的小さいため、キャリブレータの訓練が困難になる。 しかし,既存の手法ではこれらの問題を効果的に解決することは困難である。 これらの問題を解決するために,Deep Ensemble Shape Calibration (DESC) と呼ばれる新しい手法を提案する。 ビジネス理解と解釈可能性の観点から,マルチフィールドキャリブレーションを値キャリブレーションと形状キャリブレーションに分解する。 本稿では,これらの基本キャリブレーション関数を組み合わせることで,関数表現機能とデータ利用性を両立させる,革新的な基底キャリブレーション関数を提案する。 重要な進歩は、様々な分野や値の異なる推定誤差分布に最適なキャリブレータを割り当てることができるアロケータの開発である。 パブリックデータセットとインダストリアルデータセットの両方において、大幅な改善を実現しています。 オンライン実験では、CVRの+2.5%増加とGMVの+4.0%増加を観察する(Gross Merchandise Volume)。 私たちのコードは、https://github.com/HaoYang0123/DESC.comで利用可能です。

In the e-commerce advertising scenario, estimating the true probabilities (known as a calibrated estimate) on Click-Through Rate (CTR) and Conversion Rate (CVR) is critical. Previous research has introduced numerous solutions for addressing the calibration problem. These methods typically involve the training of calibrators using a validation set and subsequently applying these calibrators to correct the original estimated values during online inference. However, what sets e-commerce advertising scenarios apart is the challenge of multi-field calibration. Multi-field calibration requires achieving calibration in each field. In order to achieve multi-field calibration, it is necessary to have a strong data utilization ability. Because the quantity of pCTR specified range for a single field-value (such as user ID and item ID) sample is relatively small, this makes the calibrator more difficult to train. However, existing methods have difficulty effectively addressing these issues. To solve these problems, we propose a new method named Deep Ensemble Shape Calibration (DESC). In terms of business understanding and interpretability, we decompose multi-field calibration into value calibration and shape calibration. We introduce innovative basis calibration functions, which enhance both function expression capabilities and data utilization by combining these basis calibration functions. A significant advancement lies in the development of an allocator capable of allocating the most suitable calibrators to different estimation error distributions within diverse fields and values. We achieve significant improvements in both public and industrial datasets. In online experiments, we observe a +2.5% increase in CVR and +4.0% in GMV (Gross Merchandise Volume). Our code is now available at: https://github.com/HaoYang0123/DESC.
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# 混合密度ネットワークに基づくナノフォトニクスの移動学習支援逆モデリング

Transfer learning-assisted inverse modeling in nanophotonics based on mixture density networks ( http://arxiv.org/abs/2401.12254v2 )

ライセンス: Link先を確認
Liang Cheng, Prashant Singh, Francesco Ferranti, (参考訳) ナノフォトニクス構造のシミュレーションは電磁解法に依存しており、その挙動を理解する上で重要な役割を担っている。 しかし、これらの解法は計算コストがかなり高く、最適化や非現実的な設計タスクに応用されることが多い。 この課題に対処するために、フォトニックデバイスの正確かつ効率的なモデリングと設計のために機械学習技術が研究されている。 特にディープニューラルネットワークはこの分野で大きな注目を集めている。 前方モデルと逆モデルの両方を作成するのに使用できる。 逆モデリングアプローチは、フォワードモデルとオプティマイザを結合する必要性を回避し、最適な設計パラメータの予測を直接実行する。 本稿では,移動学習により強化された混合密度ネットワークモデルに基づいて,ナノフォトニック構造の逆モデリング手法を提案する。 混合密度ネットワークは、ガウス分布としての重要性を含む複数の可能な解を同時に予測することができる。 しかし、混合密度ネットワークモデルには複数の課題が存在する。 重要な課題は、同時解の可能な数に対する上限を事前に指定する必要があることである。 また、別の課題として、モデルパラメータを共同で最適化する必要があることがあり、計算コストがかかる可能性がある。 さらに、全てのパラメータを同時に最適化することは数値的に不安定であり、退化予測につながる可能性がある。 提案手法は,光応答を入力とする設計ソリューションの予測能力を高い精度で保ちながら,伝達学習に基づく手法を用いてこれらの制限を克服することができる。 また,次元低減ステップについても検討した。 提案手法を数値計算により検証した。

The simulation of nanophotonic structures relies on electromagnetic solvers, which play a crucial role in understanding their behavior. However, these solvers often come with a significant computational cost, making their application in design tasks, such as optimization, impractical. To address this challenge, machine learning techniques have been explored for accurate and efficient modeling and design of photonic devices. Deep neural networks, in particular, have gained considerable attention in this field. They can be used to create both forward and inverse models. An inverse modeling approach avoids the need for coupling a forward model with an optimizer and directly performs the prediction of the optimal design parameters values. In this paper, we propose an inverse modeling method for nanophotonic structures, based on a mixture density network model enhanced by transfer learning. Mixture density networks can predict multiple possible solutions at a time including their respective importance as Gaussian distributions. However, multiple challenges exist for mixture density network models. An important challenge is that an upper bound on the number of possible simultaneous solutions needs to be specified in advance. Also, another challenge is that the model parameters must be jointly optimized, which can result computationally expensive. Moreover, optimizing all parameters simultaneously can be numerically unstable and can lead to degenerate predictions. The proposed approach allows overcoming these limitations using transfer learning-based techniques, while preserving a high accuracy in the prediction capability of the design solutions given an optical response as an input. A dimensionality reduction step is also explored. Numerical results validate the proposed method.
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# 暗黙のニューラルネットワークによる残差量子化

Residual Quantization with Implicit Neural Codebooks ( http://arxiv.org/abs/2401.14732v2 )

ライセンス: Link先を確認
Iris A. M. Huijben, Matthijs Douze, Matthew Muckley, Ruud J. G. van Sloun, Jakob Verbeek, (参考訳) ベクトル量子化はデータ圧縮とベクトル探索の基本的な操作である。 精度を高めるために、複数のコードブックにまたがるコードワードを用いて、複数のベクトルを表現している。 残留量子化(Residual Quantization、RQ)は、前ステップの誤差を反復的に定量化する方法である。 エラー分布は以前選択されたコードワードに依存するが、この依存関係は量子化ステップごとに固定されたコードブックを使用するため、従来のRQでは考慮されていない。 本稿では,前ステップからのベクトルの近似に依存する,ステップ毎の特別なコードブックを構成するニューラルネットワークRQ変異体QINCoを提案する。 実験によると、QINCoはいくつかのデータセットとコードサイズに対して、最先端のメソッドよりも大きなマージンでパフォーマンスを示している。 例えば、QINCoは12バイトのコードを使用して、BigANN1MとDeep1Mデータセットの16バイトを使用して、最先端のUNQよりも近隣の検索精度の向上を実現している。

Vector quantization is a fundamental operation for data compression and vector search. To obtain high accuracy, multi-codebook methods represent each vector using codewords across several codebooks. Residual quantization (RQ) is one such method, which iteratively quantizes the error of the previous step. While the error distribution is dependent on previously-selected codewords, this dependency is not accounted for in conventional RQ as it uses a fixed codebook per quantization step. In this paper, we propose QINCo, a neural RQ variant that constructs specialized codebooks per step that depend on the approximation of the vector from previous steps. Experiments show that QINCo outperforms state-of-the-art methods by a large margin on several datasets and code sizes. For example, QINCo achieves better nearest-neighbor search accuracy using 12-byte codes than the state-of-the-art UNQ using 16 bytes on the BigANN1M and Deep1M datasets.
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# アジャイルは安全: 衝突のない高速な足の移動を学習する

Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion ( http://arxiv.org/abs/2401.17583v3 )

ライセンス: Link先を確認
Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu, Guanya Shi, (参考訳) 散らかった環境をナビゲートするレッグロボットは、効率的なタスク実行のために共同でアジャイルであり、障害物や人間との衝突を避けるために安全でなければならない。 既存の研究は、安全を確保するために保守的なコントローラ(1.0 m/s)を開発するか、潜在的に致命的な衝突を考慮せずにアジリティに注力する。 本稿では,四足歩行ロボットにおけるアジャイルと衝突のない移動を可能にする学習ベースの制御フレームワークであるAgile But Safe(ABS)を紹介する。 ABSは障害の中でアジャイルモータースキルを実行するためのアジャイルポリシと、障害を防止するためのリカバリポリシと、高速かつ衝突のないナビゲーションを共同で実現する。 ABSのポリシースイッチは、学習された制御理論的リーチ・アビド値ネットワークによって制御され、リカバリポリシーを目的関数としてガイドし、ロボットをクローズドループで保護する。 トレーニングプロセスには、アジャイルポリシ、リーチアビドバリューネットワーク、リカバリポリシ、エクセプション表現ネットワークなど、すべてシミュレーションで学ぶことが含まれる。 これらの訓練されたモジュールは、オンボードのセンシングと計算によって現実世界に直接展開することができ、静的障害物と動的障害物の両方を持つ屋内および屋外に閉じ込められた空間において、高速で衝突のないナビゲーションをもたらす。

Legged robots navigating cluttered environments must be jointly agile for efficient task execution and safe to avoid collisions with obstacles or humans. Existing studies either develop conservative controllers (< 1.0 m/s) to ensure safety, or focus on agility without considering potentially fatal collisions. This paper introduces Agile But Safe (ABS), a learning-based control framework that enables agile and collision-free locomotion for quadrupedal robots. ABS involves an agile policy to execute agile motor skills amidst obstacles and a recovery policy to prevent failures, collaboratively achieving high-speed and collision-free navigation. The policy switch in ABS is governed by a learned control-theoretic reach-avoid value network, which also guides the recovery policy as an objective function, thereby safeguarding the robot in a closed loop. The training process involves the learning of the agile policy, the reach-avoid value network, the recovery policy, and an exteroception representation network, all in simulation. These trained modules can be directly deployed in the real world with onboard sensing and computation, leading to high-speed and collision-free navigation in confined indoor and outdoor spaces with both static and dynamic obstacles.
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# 大規模言語モデルのプロンプト駆動型保護について

On Prompt-Driven Safeguarding for Large Language Models ( http://arxiv.org/abs/2401.18018v3 )

ライセンス: Link先を確認
Chujie Zheng, Fan Yin, Hao Zhou, Fandong Meng, Jie Zhou, Kai-Wei Chang, Minlie Huang, Nanyun Peng, (参考訳) モデル入力を安全プロンプトで予測することは、有害な意図を持つクエリに対して大きな言語モデル(LLM)を保護するための一般的なプラクティスである。 しかしながら、安全プロンプトの基盤となる動作機構はまだ解明されておらず、自動最適化によるLCMの安全性向上の可能性を制限している。 本研究では, LLMの動作(すなわち, ユーザクエリの遵守や拒否)が, モデル表現の観点からの安全性向上の影響について検討する。 表現空間では、入力クエリは通常、安全プロンプトによって「高い拒絶」方向に移動され、クエリが無害である場合でも、モデルが補助の提供を拒否する傾向が高くなる。 一方, LLM は安全性を損なうことなく, 有害かつ無害なクエリを識別できる。 これらの知見に触発されて,DRO(Directed Representation Optimization)と呼ばれる安全性向上のための手法を提案する。 安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。 ドメイン外およびジェイルブレイクベンチマークの8つのLLMによる実験により、DROはモデルの性能を損なうことなく、人造安全プロンプトの安全性能を著しく向上することが示された。

Prepending model inputs with safety prompts is a common practice for safeguarding large language models (LLMs) against queries with harmful intents. However, the underlying working mechanisms of safety prompts have not been unraveled yet, restricting the possibility of automatically optimizing them to improve LLM safety. In this work, we investigate how LLMs' behavior (i.e., complying with or refusing user queries) is affected by safety prompts from the perspective of model representation. We find that in the representation space, the input queries are typically moved by safety prompts in a "higher-refusal" direction, in which models become more prone to refusing to provide assistance, even when the queries are harmless. On the other hand, LLMs are naturally capable of distinguishing harmful and harmless queries without safety prompts. Inspired by these findings, we propose a method for safety prompt optimization, namely DRO (Directed Representation Optimization). Treating a safety prompt as continuous, trainable embeddings, DRO learns to move the queries' representations along or opposite the refusal direction, depending on their harmfulness. Experiments with eight LLMs on out-of-domain and jailbreak benchmarks demonstrate that DRO remarkably improves the safeguarding performance of human-crafted safety prompts, without compromising the models' general performance.
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# 大規模言語モデルは分子を理解することができるか?

Can Large Language Models Understand Molecules? ( http://arxiv.org/abs/2402.00024v3 )

ライセンス: Link先を確認
Shaghayegh Sadeghi, Alan Bui, Ali Forooghi, Jianguo Lu, Alioune Ngom, (参考訳) 目的: OpenAI の GPT (Generative Pre-trained Transformer) や Meta AI の LLaMA (Large Language Model Meta AI) のような大規模言語モデル (LLM) は,化学情報学の分野,特に化学構造を表現する標準的な方法であるSimplified Molecular Input Line Entry System (SMILES) の理解において,その可能性をますます認識している。 これらのLLMはSMILES文字列をベクトル表現にデコードする機能も備えている。 方法: 下流タスクへのSMILES文字列の埋め込みにおけるSMILESの事前学習モデルと比較して, GPTとLLaMAの性能について検討し, 分子特性予測と薬物・薬物相互作用予測の2つの重要な応用に焦点を当てた。 結果: LLaMAを用いたSMILESの埋め込みは, 分子特性およびDDI予測タスクにおいて, GPTの埋め込みよりも優れていた。 特に、LLaMAベースのSMILES埋め込みは、分子予測タスクにおけるSMILESの事前学習モデルに匹敵する結果を示し、DDI予測タスクの事前学習モデルよりも優れている。 結論: SMILES 埋め込み生成における LLM の性能は, これらのモデルによる分子埋め込みのさらなる研究の可能性を示している。 我々の研究は、LLMと分子埋め込みのギャップを埋め、分子表現場におけるLLMのポテンシャルに関するさらなる研究の動機となることを願っている。 GitHub:https://github.com/sshaghayeghs/LLaMA-VS-GPT

Purpose: Large Language Models (LLMs) like GPT (Generative Pre-trained Transformer) from OpenAI and LLaMA (Large Language Model Meta AI) from Meta AI are increasingly recognized for their potential in the field of cheminformatics, particularly in understanding Simplified Molecular Input Line Entry System (SMILES), a standard method for representing chemical structures. These LLMs also have the ability to decode SMILES strings into vector representations. Method: We investigate the performance of GPT and LLaMA compared to pre-trained models on SMILES in embedding SMILES strings on downstream tasks, focusing on two key applications: molecular property prediction and drug-drug interaction prediction. Results: We find that SMILES embeddings generated using LLaMA outperform those from GPT in both molecular property and DDI prediction tasks. Notably, LLaMA-based SMILES embeddings show results comparable to pre-trained models on SMILES in molecular prediction tasks and outperform the pre-trained models for the DDI prediction tasks. Conclusion: The performance of LLMs in generating SMILES embeddings shows great potential for further investigation of these models for molecular embedding. We hope our study bridges the gap between LLMs and molecular embedding, motivating additional research into the potential of LLMs in the molecular representation field. GitHub: https://github.com/sshaghayeghs/LLaMA-VS-GPT
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# チェーン・オブ・ワット」は、最も弱いリンクと同じくらい強い-推論チェインの検証のためのベンチマーク

A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains ( http://arxiv.org/abs/2402.00559v4 )

ライセンス: Link先を確認
Alon Jacovi, Yonatan Bitton, Bernd Bohnet, Jonathan Herzig, Or Honovich, Michael Tseng, Michael Collins, Roee Aharoni, Mor Geva, (参考訳) ステップバイステップの回答を提供する言語モデル(例:Chain-of-Thought)は、複雑な推論タスクにおいて顕著なアプローチである。 近年の文献では、推論を検証し、その正確性を向上させるための自動手法について論じている。 しかし、このような検証方法の徹底的な評価を可能にするための詳細なステップレベルのデータセットは提供されていないため、この方向の進捗を妨げている。 ReVEAL: Reasoning Verification Evaluationは、オープンドメインの質問応答設定における複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするためのデータセットである。 REVEALには、さまざまなデータセットや最先端の言語モデルを通じて、言語モデルの回答における各推論ステップの関連性、エビデンスパスへの帰結、論理的正当性に関する包括的なラベルが含まれている。 REVEALの評価は、検証者が推論連鎖の検証に苦労していることを示し、特に論理的正当性を検証し矛盾を検出する。 https://reveal-dataset.github.io/で入手できる。

Prompting language models to provide step-by-step answers (e.g., "Chain-of-Thought") is the prominent approach for complex reasoning tasks, where more accurate reasoning chains typically improve downstream task performance. Recent literature discusses automatic methods to verify reasoning to evaluate and improve their correctness. However, no fine-grained step-level datasets are available to enable thorough evaluation of such verification methods, hindering progress in this direction. We introduce REVEAL: Reasoning Verification Evaluation, a dataset to benchmark automatic verifiers of complex Chain-of-Thought reasoning in open-domain question-answering settings. REVEAL includes comprehensive labels for the relevance, attribution to evidence passages, and logical correctness of each reasoning step in a language model's answer, across a variety of datasets and state-of-the-art language models. Evaluation on REVEAL shows that verifiers struggle at verifying reasoning chains - in particular, verifying logical correctness and detecting contradictions. Available at https://reveal-dataset.github.io/ .
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# 連続可変系における非断熱的ホロノミック量子演算

Non-adiabatic holonomic quantum operations in continuous variable systems ( http://arxiv.org/abs/2402.02373v3 )

ライセンス: Link先を確認
Hao-Long Zhang, Yi-Hao Kang, Fan Wu, Zhen-Biao Yang, Shi-Biao Zheng, (参考訳) 物理系で生成する幾何学的位相を利用する量子演算は、その潜在的堅牢性のために好まれる。 非退化固有状態の系がハミルトニアンに支配される断熱的に循環的な進化を行うと、ベリー位相と呼ばれる幾何学的位相が得られる。 非断熱的循環的進化はアハロノフ・アンダン幾何学相を生成する。 アベリア幾何学相の2つのタイプは、位相因子が行列値となり、異なるループに付随する変換が非可換である非アベリアの場合まで拡張される。 アベリア式および非アベリア式(ホロノミック式)の演算は、限定的な(例えば2つの)エネルギーレベルを持つ離散変数系において、量子ビットを形成する。 連続系におけるそれらの発展も研究されているが、主に大きなヒルベルト空間を持つボソニックモード(例えば、猫の状態)は、フォールトトレラント量子計算において潜在的に有利である。 そこで本研究では,猫符号を持つ連続可変系における非断熱的ホロノミック量子論理演算を実現するための実現可能なスキームを提案する。 KPO(Kerr Parametric Oscillator)に適用した単光と2光の駆動を組み合わせた任意の1量子(2量子)ゲートを構築する。 提案手法は, 連続変数系における従来提案されていた量子幾何演算戦略の要件を緩和し, 量子制御に有効な方法を提供する。

Quantum operations by utilizing the underlying geometric phases produced in physical systems are favoured due to its potential robustness. When a system in a non-degenerate eigenstate undergoes an adiabatically cyclic evolution dominated by its Hamiltonian, it will get a geometric phase, referred to as the Berry Phase. While a non-adiabatically cyclic evolution produces an Aharonov-Anandan geometric phase. The two types of Abelian geometric phases are extended to the non-Abelian cases, where the phase factors become matrix-valued and the transformations associated with different loops are non-commutable. Abelian and non-Abelian (holonomic) operations are prevalent in discrete variable systems, whose limited (say, two) energy levels, form the qubit. While their developments in continuous systems have also been investigated, mainly due to that, bosonic modes (in, such as, cat states) with large Hilbert spaces, provide potential advantages in fault-tolerant quantum computation. Here we propose a feasible scheme to realize non-adiabatic holonomic quantum logic operations in continuous variable systems with cat codes. We construct arbitrary single-qubit (two-qubit) gates with the combination of single- and two-photon drivings applied to a Kerr Parametric Oscillator (KPO) (the coupled KPOs). Our scheme relaxes the requirements of the previously proposed quantum geometric operation strategies in continuous variable systems, providing an effective way for quantum control.
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# AONeuS:音響光学式センサフュージョンのためのニューラルネットワークフレームワーク

AONeuS: A Neural Rendering Framework for Acoustic-Optical Sensor Fusion ( http://arxiv.org/abs/2402.03309v2 )

ライセンス: Link先を確認
Mohamad Qadri, Kevin Zhang, Akshay Hinduja, Michael Kaess, Adithya Pediredla, Christopher A. Metzler, (参考訳) 水中の知覚と3次元表面の再構築は、建設、セキュリティ、海洋考古学、環境モニタリングにおける幅広い応用において難しい問題である。 危険な操作条件、脆弱な環境、限られた航法制御は、潜水艇がその移動範囲を制限し、測定を捉えるための基準線を規定することが多い。 3次元シーン再構築の文脈では、より小さなベースラインが再構築をより困難にすることが知られている。 本研究は,高分解能RGB計測と低分解能深度画像ソナー計測を効果的に統合できる物理ベースの多モード音響-光学ニューラルサーフェス再構成フレームワーク(AONeuS)を開発した。 これらの相補的なモダリティを融合させることで,本フレームワークは,高度に制限されたベースライン上での計測から高精度な高解像度3次元表面を再構築することができる。 広範囲なシミュレーションと実験により, AONeuS は最近の RGB とソナーのみの逆微分可能な面再構成法を劇的に上回っていることを示した。 論文の結果を視覚化するWebサイトは、このアドレスにある: https://aoneus.github.io/

Underwater perception and 3D surface reconstruction are challenging problems with broad applications in construction, security, marine archaeology, and environmental monitoring. Treacherous operating conditions, fragile surroundings, and limited navigation control often dictate that submersibles restrict their range of motion and, thus, the baseline over which they can capture measurements. In the context of 3D scene reconstruction, it is well-known that smaller baselines make reconstruction more challenging. Our work develops a physics-based multimodal acoustic-optical neural surface reconstruction framework (AONeuS) capable of effectively integrating high-resolution RGB measurements with low-resolution depth-resolved imaging sonar measurements. By fusing these complementary modalities, our framework can reconstruct accurate high-resolution 3D surfaces from measurements captured over heavily-restricted baselines. Through extensive simulations and in-lab experiments, we demonstrate that AONeuS dramatically outperforms recent RGB-only and sonar-only inverse-differentiable-rendering--based surface reconstruction methods. A website visualizing the results of our paper is located at this address: https://aoneus.github.io/
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# 医用AI画像における見えない透かしの有効性の評価

Assessing the Efficacy of Invisible Watermarks in AI-Generated Medical Images ( http://arxiv.org/abs/2402.03473v3 )

ライセンス: Link先を確認
Xiaodan Xing, Huiyu Zhou, Yingying Fang, Guang Yang, (参考訳) AIが生成する医療画像は、現実世界におけるデータ不足問題に対処する可能性から、人気が高まっている。 しかし、これらの合成画像の正確な識別の問題、特に実写と顕著な写実性を示す場合には、依然として懸念されている。 この課題を軽減するため、DALLEやImagenのような画像生成装置は、合成画像の認証の識別を容易にするためにデジタル透かしを統合している。 これらの透かしは画像のピクセル内に埋め込まれており、検出性を維持しながら人間の目からは見えない。 それにもかかわらず、これらの目に見えない透かしが合成医用画像の有用性に与える影響に関する包括的な調査が欠如している。 本研究では,合成医用画像に目に見えない透かしを取り入れ,下流分類作業の文脈で有効性を評価することを提案する。 我々のゴールは、合成医療画像の検出可能性の向上、倫理基準の強化、データ汚染や潜在的な詐欺に対する保護などにおいて、このような透かしの有効性に関する議論の道を開くことである。

AI-generated medical images are gaining growing popularity due to their potential to address the data scarcity challenge in the real world. However, the issue of accurate identification of these synthetic images, particularly when they exhibit remarkable realism with their real copies, remains a concern. To mitigate this challenge, image generators such as DALLE and Imagen, have integrated digital watermarks aimed at facilitating the discernment of synthetic images' authenticity. These watermarks are embedded within the image pixels and are invisible to the human eye while remains their detectability. Nevertheless, a comprehensive investigation into the potential impact of these invisible watermarks on the utility of synthetic medical images has been lacking. In this study, we propose the incorporation of invisible watermarks into synthetic medical images and seek to evaluate their efficacy in the context of downstream classification tasks. Our goal is to pave the way for discussions on the viability of such watermarks in boosting the detectability of synthetic medical images, fortifying ethical standards, and safeguarding against data pollution and potential scams.
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# 強相互作用するフェシュバッハ分子を閉じ込めた物質波干渉計

Matter-wave interferometers with trapped strongly interacting Feshbach molecules ( http://arxiv.org/abs/2402.05092v2 )

ライセンス: Link先を確認
Chen Li, Qi Liang, Pradyumna Paranjape, RuGway Wu, Jörg Schmiedmayer, (参考訳) 我々は、弱い相互作用から強い相互作用に至るまで、ボース縮合されたフェシュバッハ分子を用いた2種類の物質波干渉計を実装した。 いずれの場合も、インタラクションの効果とそのパフォーマンスへの影響を調査することに注力する。 光学格子中の2つの運動量子状態間の干渉が観測されるラムゼー型干渉計では、粒子間相互作用が状態のエネルギーシフトを引き起こす。 これにより、干渉計周波数が減少し、状態操作に使用される格子パルス中に位相シフトが発生する。 さらに、非均一性はデファス化につながり、衝突効果はコントラストの劣化に寄与する。 ミッチェルソン型干渉計では、物質波が空間的に分裂して導波路に再結合されるが、干渉は重要な相互作用の存在下で観測されるが、コヒーレンスは相互作用強度の増加とともに劣化する。 特に、コヒーレンスも熱雲で観測されており、ミッチェルソン型干渉計の白色光の性質を示している。

We implement two types of matter-wave interferometers using trapped Bose-condensed Feshbach molecules, from weak to strong interactions. In each case, we focus on investigating interaction effects and their implications for the performance. In the Ramsey-type interferometer where interference between the two motional quantum states in an optical lattice is observed, interparticle interactions are found to induce energy shifts in the states. Consequently, this results in a reduction of the interferometer frequency and introduces a phase shift during the lattice pulses used for state manipulation. Furthermore, nonuniformity leads to dephasing and collisional effects contribute to the degradation of contrast. In the Michelson-type interferometer, where matter waves are spatially split and recombined in a waveguide, interference is observed in the presence of significant interaction, however coherence degrades with increasing interaction strength. Notably, coherence is also observed in thermal clouds, indicating the white-light nature of the implemented Michelson-type interferometer.
翻訳日:2024-05-22 18:41:35 公開日:2024-05-21
# 極超平面の識別学習によるブラックボックス力学系の安全フィルタ

Safety Filters for Black-Box Dynamical Systems by Learning Discriminating Hyperplanes ( http://arxiv.org/abs/2402.05279v2 )

ライセンス: Link先を確認
Will Lavanakul, Jason J. Choi, Koushil Sreenath, Claire J. Tomlin, (参考訳) ブラックボックス力学系における安全フィルタの効果的なアプローチとして,学習ベースのアプローチが登場している。 既存の方法は、制御バリア関数(CBF)やハミルトン・ヤコビ(HJ)リーチビリティ値関数のような証明書関数に依存している。 私たちの研究の主な動機は、究極的には、各状態における制御入力制約として安全制約を強制することが重要なことだ、という認識です。 この制約にフォーカスすることで、特定の証明書関数ベースの設計への依存を排除できます。 これを実現するために、各状態における制御入力のハーフスペース制約を形作る識別超平面を定義し、安全のための十分な条件として機能する。 この概念は、従来の安全手法を一般化するだけでなく、特定の証明書関数への依存を排除して、安全フィルタ設計を単純化する。 識別超平面を学習するための2つの戦略を提示する。 (a)ラベル付けのための事前検証された制御不変集合を用いた教師付き学習アプローチ b)そのようなラベルを必要としない強化学習(RL)アプローチ。 我々の手法の主な利点は、従来の安全RLアプローチとは異なり、性能と安全性の分離である。 これにより、新しいタスクを学習するための再利用可能な安全フィルタが提供され、ゼロから再トレーニングする必要がなくなる。 このように、差別化超平面という新しい概念は、既存の証明機能に基づくもしくは安全なRL方法論を包含し拡張し、安全フィルタを設計するためのより一般化可能な方向を提供すると信じている。

Learning-based approaches are emerging as an effective approach for safety filters for black-box dynamical systems. Existing methods have relied on certificate functions like Control Barrier Functions (CBFs) and Hamilton-Jacobi (HJ) reachability value functions. The primary motivation for our work is the recognition that ultimately, enforcing the safety constraint as a control input constraint at each state is what matters. By focusing on this constraint, we can eliminate dependence on any specific certificate function-based design. To achieve this, we define a discriminating hyperplane that shapes the half-space constraint on control input at each state, serving as a sufficient condition for safety. This concept not only generalizes over traditional safety methods but also simplifies safety filter design by eliminating dependence on specific certificate functions. We present two strategies to learn the discriminating hyperplane: (a) a supervised learning approach, using pre-verified control invariant sets for labeling, and (b) a reinforcement learning (RL) approach, which does not require such labels. The main advantage of our method, unlike conventional safe RL approaches, is the separation of performance and safety. This offers a reusable safety filter for learning new tasks, avoiding the need to retrain from scratch. As such, we believe that the new notion of the discriminating hyperplane offers a more generalizable direction towards designing safety filters, encompassing and extending existing certificate-function-based or safe RL methodologies.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# 条件流による不規則時系列の確率予測

Probabilistic Forecasting of Irregular Time Series via Conditional Flows ( http://arxiv.org/abs/2402.06293v2 )

ライセンス: Link先を確認
Vijaya Krishna Yalavarthi, Randolf Scholz, Stefan Born, Lars Schmidt-Thieme, (参考訳) 不規則なサンプル値の多変量時系列の確率的予測は、医療、天文学、気候など多くの分野において重要な問題である。 タスクの最先端手法は、固定形状のパラメトリック分布を仮定して、単一チャネルと単一タイムポイントにおける観測の限界分布のみを推定する。 本研究では,条件付き正規化フローを用いた不規則サンプル時系列の確率予測のための新しいモデルProFITiを提案する。 このモデルは、過去の観測や待ち行列や時間に条件づけられた時系列の将来の値に関する共同分布を、基礎となる分布の固定形状を仮定することなく学習する。 モデル成分として,新しい非可逆三角アテンション層と,非可逆な非線形アクティベーション関数を実線上に導入する。 4つのデータセットに対して広範な実験を行い、提案モデルが以前最高のモデルよりも4ドル高い確率を提供することを示した。

Probabilistic forecasting of irregularly sampled multivariate time series with missing values is an important problem in many fields, including health care, astronomy, and climate. State-of-the-art methods for the task estimate only marginal distributions of observations in single channels and at single timepoints, assuming a fixed-shape parametric distribution. In this work, we propose a novel model, ProFITi, for probabilistic forecasting of irregularly sampled time series with missing values using conditional normalizing flows. The model learns joint distributions over the future values of the time series conditioned on past observations and queried channels and times, without assuming any fixed shape of the underlying distribution. As model components, we introduce a novel invertible triangular attention layer and an invertible non-linear activation function on and onto the whole real line. We conduct extensive experiments on four datasets and demonstrate that the proposed model provides $4$ times higher likelihood over the previously best model.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# 未知の物理制約を用いたベイズ最適化のための境界探索

Boundary Exploration for Bayesian Optimization With Unknown Physical Constraints ( http://arxiv.org/abs/2402.07692v2 )

ライセンス: Link先を確認
Yunsheng Tian, Ane Zuniga, Xinwei Zhang, Johannes P. Dürholt, Payel Das, Jie Chen, Wojciech Matusik, Mina Konaković Luković, (参考訳) ベイズ最適化は、評価数が著しく制限されたブラックボックス関数の最適化に成功している。 しかし、現実世界の多くのアプリケーションでは、物理的またはシステム的な制限があるため、どの設計が実現可能かを事前に知ることは困難または不可能である。 これらの問題は未知の関数を未知の制約で最適化するより難しい問題に繋がる。 本稿では、このようなシナリオにおいて、最適解は通常、設計空間の実現不可能領域と実現不可能領域の境界の上にあり、内部最適化よりもかなり難しいことを観察する。 この観測にインスパイアされたBE-CBOは、実現不可能な設計と実現不可能な設計の境界を効率的に探索する新しいベイズ最適化手法である。 境界を識別するために、複雑な境界を捉えるための標準ガウス過程よりも優れたニューラルネットワークのアンサンブルを用いて制約を学習する。 提案手法は,合成および実世界のベンチマークに関する総合的な実験を通じて,最先端手法に対する優れた性能を示す。 https://github.com/yunshengtian/BE-CBO

Bayesian optimization has been successfully applied to optimize black-box functions where the number of evaluations is severely limited. However, in many real-world applications, it is hard or impossible to know in advance which designs are feasible due to some physical or system limitations. These issues lead to an even more challenging problem of optimizing an unknown function with unknown constraints. In this paper, we observe that in such scenarios optimal solution typically lies on the boundary between feasible and infeasible regions of the design space, making it considerably more difficult than that with interior optima. Inspired by this observation, we propose BE-CBO, a new Bayesian optimization method that efficiently explores the boundary between feasible and infeasible designs. To identify the boundary, we learn the constraints with an ensemble of neural networks that outperform the standard Gaussian Processes for capturing complex boundaries. Our method demonstrates superior performance against state-of-the-art methods through comprehensive experiments on synthetic and real-world benchmarks. Code available at: https://github.com/yunshengtian/BE-CBO
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# 根拠に基づく質問応答のための忠実でロバストなLLMスペシャリストを目指して

Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering ( http://arxiv.org/abs/2402.08277v4 )

ライセンス: Link先を確認
Tobias Schimanski, Jingwei Ni, Mathias Kraus, Elliott Ash, Markus Leippold, (参考訳) 大規模言語モデル(LLM)のより忠実でトレーサブルな回答への進歩は、様々な研究や実践に不可欠である。 この目標を達成するための道の1つは、信頼できる情報源の回答を基礎づけることである。 しかしながら、このエビデンスに基づくQAは、正しいソース(ソースの品質)を引用し、情報源(属性)内の情報を真に表現するという点で、LLMと不十分に機能することが証明されている。 本研究では,より優れたソース品質と応答帰属性を実現するために,LLMを頑健に微調整する方法を体系的に検討する。 具体的には、自動データ品質フィルタを備えたデータ生成パイプラインを導入し、多様な高品質なトレーニングおよびテストデータを大規模に合成する。 さらに、細調整されたスペシャリストモデルの堅牢性を評価するために、4つのテストセットを導入します。 総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。 さらに,提案した品質フィルタによって大幅に改善できるデータ品質が,証拠ベースQAの改善に重要であることを示す。

Advances towards more faithful and traceable answers of Large Language Models (LLMs) are crucial for various research and practical endeavors. One avenue in reaching this goal is basing the answers on reliable sources. However, this Evidence-Based QA has proven to work insufficiently with LLMs in terms of citing the correct sources (source quality) and truthfully representing the information within sources (answer attributability). In this work, we systematically investigate how to robustly fine-tune LLMs for better source quality and answer attributability. Specifically, we introduce a data generation pipeline with automated data quality filters, which can synthesize diversified high-quality training and testing data at scale. We further introduce four test sets to benchmark the robustness of fine-tuned specialist models. Extensive evaluation shows that fine-tuning on synthetic data improves performance on both in- and out-of-distribution. Furthermore, we show that data quality, which can be drastically improved by proposed quality filters, matters more than quantity in improving Evidence-Based QA.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# データポジショニングが非現実的説明に及ぼす影響

The Effect of Data Poisoning on Counterfactual Explanations ( http://arxiv.org/abs/2402.08290v3 )

ライセンス: Link先を確認
André Artelt, Shubham Sharma, Freddy Lecué, Barbara Hammer, (参考訳) 対実的な説明はブラックボックスシステムの予測を解析するための一般的な方法であり、異なる(より好ましい)システム出力を得るために入力を変更する方法に関する実用的な変更を提案することによって、計算的リコースの機会を提供することができる。 しかし、最近の研究は、さまざまなタイプの操作に対する脆弱性を強調している。 この研究は、データ中毒に対する非現実的な説明の脆弱性を研究する。 本研究では,データ中毒を3つのレベル(ローカルに1つのインスタンス,サブグループに1つ,グローバルにすべてのインスタンスに1つ,という3つのレベル)で行うリコースのコストを増大させるために,反ファクト的な説明の文脈で公式に導入し,調査する。 この文脈では、複数の異なるデータ中毒の正しさを特徴付け、証明する。 また、このようなデータ中毒に対して、最先端の反ファクト生成手法やツールボックスが脆弱であることを実証的に実証した。

Counterfactual explanations provide a popular method for analyzing the predictions of black-box systems, and they can offer the opportunity for computational recourse by suggesting actionable changes on how to change the input to obtain a different (i.e.\ more favorable) system output. However, recent work highlighted their vulnerability to different types of manipulations. This work studies the vulnerability of counterfactual explanations to data poisoning. We formally introduce and investigate data poisoning in the context of counterfactual explanations for increasing the cost of recourse on three different levels: locally for a single instance, or a sub-group of instances, or globally for all instances. In this context, we characterize and prove the correctness of several different data poisonings. We also empirically demonstrate that state-of-the-art counterfactual generation methods and toolboxes are vulnerable to such data poisoning.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# Concept-1K: インスタンス増分学習のための新しいベンチマーク

Concept-1K: A Novel Benchmark for Instance Incremental Learning ( http://arxiv.org/abs/2402.08526v2 )

ライセンス: Link先を確認
Junhao Zheng, Shengjie Qiu, Qianli Ma, (参考訳) インクリメンタルラーニング(IL)は、ニューラルネットワークにおける人間レベルのインテリジェンスを実現するために不可欠である。 しかしながら、既存のILシナリオやデータセットは、PLMにおける忘れの評価には適していないため、PLMが破滅的な忘れに苦しむことはないという幻想を与える。 そこで本研究では,インスタンスインクリメンタル・ラーニング(IIL)と呼ばれる挑戦的なILシナリオと,それよりはるかに大きなILステップをサポートするConcept-1Kという新しいデータセットを提案する。 概念1Kの実験から,10億パラメータのPLMは依然として破滅的な忘れ込みに悩まされており,その忘れはモデルスケール,事前学習,バッファサイズの両方に影響されていることが明らかとなった。 さらに、既存のILメソッドと一般的なファインタニング技術であるLoRAは、満足のいく性能を達成できなかった。 本研究は, PLMの破滅的な忘れ方を探究する新たなシナリオを提供し, PLMの忘れ方を軽減するために, より強力な手法を考案する。 データ、コード、スクリプトはhttps://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm.comで公開されている。

Incremental learning (IL) is essential to realize the human-level intelligence in the neural network. However, existing IL scenarios and datasets are unqualified for assessing forgetting in PLMs, giving an illusion that PLMs do not suffer from catastrophic forgetting. To this end, we propose a challenging IL scenario called instance-incremental learning (IIL) and a novel dataset called Concept-1K, which supports an order of magnitude larger IL steps. Based on the experiments on Concept-1K, we reveal that billion-parameter PLMs still suffer from catastrophic forgetting, and the forgetting is affected by both model scale, pretraining, and buffer size. Furthermore, existing IL methods and a popular finetuning technique, LoRA, fail to achieve satisfactory performance. Our study provides a novel scenario for future studies to explore the catastrophic forgetting of PLMs and encourage more powerful techniques to be designed for alleviating the forgetting in PLMs. The data, code and scripts are publicly available at https://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# 因果説明のための2段階摂動試験による必要十分性および十分性に寄与する特徴

Feature Attribution with Necessity and Sufficiency via Dual-stage Perturbation Test for Causal Explanation ( http://arxiv.org/abs/2402.08845v2 )

ライセンス: Link先を確認
Xuexin Chen, Ruichu Cai, Zhengting Huang, Yuxuan Zhu, Julien Horwood, Zhifeng Hao, Zijian Li, Jose Miguel Hernandez-Lobato, (参考訳) 機械学習における説明可能性の問題について検討する。 この問題を解決するために、FAM(Feature Attribution Methods)は摂動テストを通じて各特徴の寄与を測定する。 しかし、このような摂動試験は、摂動後の予測が同じである場合、異なる特徴の寄与を正確に区別するものではない。 本研究は,FAMが様々な特徴のコントリビューションを識別する能力を高めるために,特徴の摂動が特徴の重要度を測る上で必要かつ十分な原因であることを示すPNS(Probability of Necessity and Sufficiency)を活用することを提案する。 当社のアプローチであるFANS(Feature Attribution with Necessity and Sufficiency)は,2段階(実効と介入)の摂動テストを通じてPSNを計算する。 実例では, 実例を再現する手法を用いて, 必要な条件分布を近似する。 FANSは6つのベンチマークで既存の属性法よりも優れていることを示す。 ソースコードは \url{https://github.com/DMIRLAB-Group/FANS} で公開されています。

We investigate the problem of explainability in machine learning. To address this problem, Feature Attribution Methods (FAMs) measure the contribution of each feature through a perturbation test, where the difference in prediction is compared under different perturbations. However, such perturbation tests may not accurately distinguish the contributions of different features, when their change in prediction is the same after perturbation. In order to enhance the ability of FAMs to distinguish different features' contributions in this challenging setting, we propose to utilize the Probability of Necessity and Sufficiency (PNS) that perturbing a feature is a necessary and sufficient cause for the prediction to change as a measure of feature importance. Our approach, Feature Attribution with Necessity and Sufficiency (FANS), computes the PNS via a perturbation test involving two stages (factual and interventional). In practice, to generate counterfactual samples, we use a resampling-based approach on the observed samples to approximate the required conditional distribution. We demonstrate that FANS outperforms existing attribution methods on six benchmarks. Our source code is available at \url{https://github.com/DMIRLAB-Group/FANS}.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# 臨界崩壊と損失分布制御

Criterion Collapse and Loss Distribution Control ( http://arxiv.org/abs/2402.09802v3 )

ライセンス: Link先を確認
Matthew J. Holland, (参考訳) 本研究では,DRO と OCE リスク (CVaR, 傾倒ERM) から,最近の文献(Flooding, SoftAD) で探索された漸近的アルゴリズム(Flooding, SoftAD) の根底にある非単調な基準まで,多岐にわたる学習基準下での誤り確率最小化条件に着目し,ある指標の最適化が他の指標の最適性を示唆する「基準崩壊」の概念を考察する。 我々は,ベルヌーイ分布による損失の文脈における崩壊が,CVaR や DRO の既存の結果よりもはるかに大きいことを示す。

In this work, we consider the notion of "criterion collapse," in which optimization of one metric implies optimality in another, with a particular focus on conditions for collapse into error probability minimizers under a wide variety of learning criteria, ranging from DRO and OCE risks (CVaR, tilted ERM) to non-monotonic criteria underlying recent ascent-descent algorithms explored in the literature (Flooding, SoftAD). We show how collapse in the context of losses with a Bernoulli distribution goes far beyond existing results for CVaR and DRO, then expand our scope to include surrogate losses, showing conditions where monotonic criteria such as tilted ERM cannot avoid collapse, whereas non-monotonic alternatives can.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# 薬物相互作用の予測

Advanced Drug Interaction Event Prediction ( http://arxiv.org/abs/2402.11472v3 )

ライセンス: Link先を確認
Yingying Wang, Yun Xiong, Xixi Wu, Xiangguo Sun, Jiawei Zhang, (参考訳) 薬物と薬物の相互作用の副作用、いわゆるDDI事象を予測することは、薬物使用や副作用のメカニズムの研究を促進するため、ますます価値が高まっている。 既存のモデルは、複数のソース機能を統合する際に個々のイベントクラスの特徴を無視し、高度に不均衡なイベントサンプルを扱う際に、体系的に不公平になる。 さらに、各イベントサブクラスのユニークな属性を抽象化するこれらのモデルの限られた能力は、希少な薬物と薬物の相互作用イベントを限られたサンプルサイズで予測する上で、それらの応用をかなり妨げます。 データセットバイアスの低減とイベントサブクラスの特性の抽象化は、未解決の2つの課題である。 近年,凍結事前学習グラフモデル,すなわち "pre-train, prompt, fine-tune" 戦略による即時チューニングは,数発のタスクで顕著なパフォーマンスを示した。 そこで我々は,これらの課題に対処するためのソリューションとして,DDIPromptを提案する。 具体的には,分子構造と分子間相互作用の重要な側面を捉えつつ,ノード埋め込みにおける暗黙的データセットバイアスを効果的に緩和することを目的とした階層的事前学習作業を提案する。 さらに、異なるイベントタイプから戦略的にデータをサンプリングし、事前学習ノードの特徴を利用した設計サブグラフプロンプトを構築する。 総合的なベンチマーク実験を通じて、イベントクラスを正確に表現するサブグラフプロンプトの有効性を検証し、全体およびサブクラスの予測タスクにおいて模範的な結果を得る。

Predicting drug-drug interaction adverse events, so-called DDI events, is increasingly valuable as it facilitates the study of mechanisms underlying drug use or adverse reactions. Existing models often neglect the distinctive characteristics of individual event classes when integrating multi-source features, which contributes to systematic unfairness when dealing with highly imbalanced event samples. Moreover, the limited capacity of these models to abstract the unique attributes of each event subclass considerably hampers their application in predicting rare drug-drug interaction events with a limited sample size. Reducing dataset bias and abstracting event subclass characteristics are two unresolved challenges. Recently, prompt tuning with frozen pre-trained graph models, namely "pre-train, prompt, fine-tune" strategy, has demonstrated impressive performance in few-shot tasks. Motivated by this, we propose DDIPrompt as a solution to address these aforementioned challenges. Specifically, our proposed approach entails a hierarchical pre-training task that aims to capture crucial aspects of drug molecular structure and intermolecular interactions while effectively mitigating implicit dataset bias within the node embeddings. Furthermore, we construct a prototypical graph by strategically sampling data from distinct event types and design subgraph prompts utilizing pre-trained node features. Through comprehensive benchmark experiments, we validate the efficacy of our subgraph prompts in accurately representing event classes and achieve exemplary results in both overall and subclass prediction tasks.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# クエリウォーピングによるヒューマンビデオ翻訳

Human Video Translation via Query Warping ( http://arxiv.org/abs/2402.12099v2 )

ライセンス: Link先を確認
Haiming Zhu, Yangyang Xu, Shengfeng He, (参考訳) 本稿では,時間的コヒーレントなヒューマンモーションビデオ翻訳のための新しいフレームワークであるQueryWarpを提案する。 時間的一貫性を確保するためにキートークンとバリュートークンのみに依存する既存の拡散ベースのビデオ編集アプローチは、局所的および構造的領域の保存を困難にしている。 対照的に、異なるフレームからクエリトークン間の時間的相関を構築することで、補完的なクエリ先行を考察することを目的としている。 当初我々は、人間の前景の動きを連続的に捉えるために、人物のポーズから外見の流れを抽出した。 その後,拡散モデルの復調過程において,従来のフレームのクエリトークンをワープするために出現フローを用いて,現在のフレームのクエリと整合する。 このクエリワープは、自己アテンション層の出力に明示的な制約を課し、時間的コヒーレントな翻訳を効果的に保証する。 我々は,人間の動画像翻訳タスクについて実験を行い,QueryWarpフレームワークが定性的かつ定量的に最先端の手法を超越していることを示す。

In this paper, we present QueryWarp, a novel framework for temporally coherent human motion video translation. Existing diffusion-based video editing approaches that rely solely on key and value tokens to ensure temporal consistency, which scarifies the preservation of local and structural regions. In contrast, we aim to consider complementary query priors by constructing the temporal correlations among query tokens from different frames. Initially, we extract appearance flows from source poses to capture continuous human foreground motion. Subsequently, during the denoising process of the diffusion model, we employ appearance flows to warp the previous frame's query token, aligning it with the current frame's query. This query warping imposes explicit constraints on the outputs of self-attention layers, effectively guaranteeing temporally coherent translation. We perform experiments on various human motion video translation tasks, and the results demonstrate that our QueryWarp framework surpasses state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# HyperMoE: エキスパート間の移行を通じて、エキスパートの混合性を改善する

HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts ( http://arxiv.org/abs/2402.12656v3 )

ライセンス: Link先を確認
Hao Zhao, Zihan Qiu, Huijia Wu, Zili Wang, Zhaofeng He, Jie Fu, (参考訳) 言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。 この成功にもかかわらず、既存のほとんどの手法は、スペシャリティとエキスパート知識の可用性のバランスをとるための課題に直面している。 この矛盾を緩和するため、Hypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。 このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。 選択されていない専門家の情報に基づいて生成される特定のモジュールは補足情報であり、選択されていない専門家の知識を選択範囲を維持しながら使用することができる。 複数のデータセットやバックボーンにまたがる包括的な経験的評価は、HyperMoEが、専門家数に関する同じ条件下で、既存のMoEメソッドを著しく上回っていることを証明しています。

The Mixture of Experts (MoE) for language models has been proven effective in augmenting the capacity of models by dynamically routing each input token to a specific subset of experts for processing. Despite the success, most existing methods face a challenge for balance between sparsity and the availability of expert knowledge: enhancing performance through increased use of expert knowledge often results in diminishing sparsity during expert selection. To mitigate this contradiction, we propose HyperMoE, a novel MoE framework built upon Hypernetworks. This framework integrates the computational processes of MoE with the concept of knowledge transferring in multi-task learning. Specific modules generated based on the information of unselected experts serve as supplementary information, which allows the knowledge of experts not selected to be used while maintaining selection sparsity. Our comprehensive empirical evaluations across multiple datasets and backbones establish that HyperMoE significantly outperforms existing MoE methods under identical conditions concerning the number of experts.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# トポロジに基づく境界締め付けによるメッセージパッシングニューラルネットワークの検証

Verifying message-passing neural networks via topology-based bounds tightening ( http://arxiv.org/abs/2402.13937v2 )

ライセンス: Link先を確認
Christopher Hojny, Shiqiang Zhang, Juan S. Campos, Ruth Misener, (参考訳) グラフニューラルネットワーク(GNN)は攻撃に対して脆弱であることが多いため、いつそれを信頼できるかを知る必要がある。 我々は、Rectified Linear Unit(ReLU)アクティベーション関数を用いて、メッセージパスニューラルネットワーク(MPNN)の堅牢な証明を提供するための、計算学的に効果的なアプローチを開発する。 私たちの研究は混合整数最適化に基づいているので、例えば、様々なサブプロブレムをエンコードします。 (i)エッジの追加と削除の両方。 (二)国際予算及び地方予算 (三)トポロジカルな摂動と特徴的変化 私たちの重要な技術であるトポロジベースのバウンダリ締め付けは、グラフ構造を使ってバウンダリを締め付けます。 また,変数境界の締め付けによる最適化制約を動的に変更するために,アグレッシブ境界の締め付け実験を行った。 これらの戦略の有効性を示すために,オープンソースブランチ・アンド・カット・ソルバSCIPの拡張を実装した。 ノード分類とグラフ分類の両方の問題を検証し、エッジの追加と削除の両方を行うトポロジ的攻撃について検討する。

Since graph neural networks (GNNs) are often vulnerable to attack, we need to know when we can trust them. We develop a computationally effective approach towards providing robust certificates for message-passing neural networks (MPNNs) using a Rectified Linear Unit (ReLU) activation function. Because our work builds on mixed-integer optimization, it encodes a wide variety of subproblems, for example it admits (i) both adding and removing edges, (ii) both global and local budgets, and (iii) both topological perturbations and feature modifications. Our key technology, topology-based bounds tightening, uses graph structure to tighten bounds. We also experiment with aggressive bounds tightening to dynamically change the optimization constraints by tightening variable bounds. To demonstrate the effectiveness of these strategies, we implement an extension to the open-source branch-and-cut solver SCIP. We test on both node and graph classification problems and consider topological attacks that both add and remove edges.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# ESE: Espresso Sentence Embeddings

ESE: Espresso Sentence Embeddings ( http://arxiv.org/abs/2402.14776v2 )

ライセンス: Link先を確認
Xianming Li, Zongxi Li, Jing Li, Haoran Xie, Qing Li, (参考訳) 高品質な文埋め込みは、意味的テキスト類似性(STS)や検索拡張生成(RAG)など、多くの自然言語処理(NLP)タスクにおいて基本的なものである。 それにもかかわらず、既存のほとんどのメソッドは、様々なアプリケーションにまたがる多様なリソースに対応するスケーラビリティに欠けるフルレイヤ言語モデルからの固定長の埋め込みを活用している。 このギャップをみると、2つの学習プロセスを持つ新しい文埋め込みモデル $\mathrm{Espresso}$ $\mathrm{Sentence}$ $\mathrm{Embeddings}$ (ESE) を提案する。 まず、学習から表現までのプロセスは、より健全な表現を下位層にエンコードする。 第二に、学習から圧縮までのプロセスは、主成分分析(PCA)を用いて、重要な特徴を初期次元にコンパクト化する。 このように、ESEは前者のプロセスと後者のプロセスによる埋め込みサイズを介してモデル深さをスケールすることができる。 STS と RAG に関する大規模な実験により,ESE はモデル深度と埋め込みサイズを低減した高品質な埋め込みを効果的に生成し,埋め込み推論効率を向上させることが示唆された。

High-quality sentence embeddings are fundamental in many natural language processing (NLP) tasks, such as semantic textual similarity (STS) and retrieval-augmented generation (RAG). Nevertheless, most existing methods leverage fixed-length embeddings from full-layer language models, which lack the scalability to accommodate the diverse available resources across various applications. Viewing this gap, we propose a novel sentence embedding model $\mathrm{Espresso}$ $\mathrm{Sentence}$ $\mathrm{Embeddings}$ (ESE) with two learning processes. First, the learn-to-express process encodes more salient representations to lower layers. Second, the learn-to-compress process compacts essential features into the initial dimensions using Principal Component Analysis (PCA). This way, ESE can scale model depth via the former process and embedding size via the latter. Extensive experiments on STS and RAG suggest that ESE can effectively produce high-quality embeddings with less model depth and embedding size, enhancing embedding inference efficiency.
翻訳日:2024-05-22 18:31:52 公開日:2024-05-21
# m2mKD:モジュールからモジュールへの知識蒸留

m2mKD: Module-to-Module Knowledge Distillation for Modular Transformers ( http://arxiv.org/abs/2402.16918v2 )

ライセンス: Link先を確認
Ka Man Lo, Yiming Liang, Wenyu Du, Yuantao Fan, Zili Wang, Wenhao Huang, Lei Ma, Jie Fu, (参考訳) モジュラニューラルアーキテクチャは、その強力な一般化と新しいドメインへの効率的な適応によって注目を集めている。 しかし、これらのモデルのトレーニングは、本質的な疎結合に起因する最適化の難しさにより、課題を生んでいる。 知識蒸留のような技術を通じてモノリシックなモデルから知識を活用することは、訓練を促進し、多様な知識の統合を可能にする。 それでも、従来の知識蒸留手法はモジュラーモデルに適合せず、ユニークなアーキテクチャと膨大なパラメータ数に苦しむ。 これらの課題に乗じて,モジュール間知識伝達のためのモジュール間知識蒸留(m2mKD)を提案する。 m2mKDは、事前訓練されたモノリシックモデルの教師モジュールと、モジュールモデルの学生モジュールをそれぞれ共有メタモデルと組み合わせ、教師モジュールの振る舞いを模倣するように学生モジュールを奨励する。 ニューラルネットワーク(NAC)とVision Mixture-of-Experts(V-MoE)の2つのモジュール型ニューラルネットワーク上でm2mKDを評価する。 m2mKDをNACに適用すると、Tiny-ImageNetのID精度(最大5.6%)とTiny-ImageNet-RのOOD堅牢性(最大4.2%)が大幅に向上する。 さらに、m2mKDでトレーニングされたV-MoE-Baseモデルは、ImageNet-1kのエンドツーエンドトレーニングよりも3.5%高い精度を実現している。 コードはhttps://github.com/kamanphoebe/m2mKDで入手できる。

Modular neural architectures are gaining attention for their powerful generalization and efficient adaptation to new domains. However, training these models poses challenges due to optimization difficulties arising from intrinsic sparse connectivity. Leveraging knowledge from monolithic models through techniques like knowledge distillation can facilitate training and enable integration of diverse knowledge. Nevertheless, conventional knowledge distillation approaches are not tailored to modular models and struggle with unique architectures and enormous parameter counts. Motivated by these challenges, we propose module-to-module knowledge distillation (m2mKD) for transferring knowledge between modules. m2mKD combines teacher modules of a pretrained monolithic model and student modules of a modular model with a shared meta model respectively to encourage the student module to mimic the behaviour of the teacher module. We evaluate m2mKD on two modular neural architectures: Neural Attentive Circuits (NACs) and Vision Mixture-of-Experts (V-MoE). Applying m2mKD to NACs yields significant improvements in IID accuracy on Tiny-ImageNet (up to 5.6%) and OOD robustness on Tiny-ImageNet-R (up to 4.2%). Additionally, the V-MoE-Base model trained with m2mKD achieves 3.5% higher accuracy than end-to-end training on ImageNet-1k. Code is available at https://github.com/kamanphoebe/m2mKD.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# 信頼度を考慮したマルチフィールドモデル校正

Confidence-Aware Multi-Field Model Calibration ( http://arxiv.org/abs/2402.17655v2 )

ライセンス: Link先を確認
Yuang Zhao, Chuhan Wu, Qinglin Jia, Hong Zhu, Jia Yan, Libin Zong, Linxuan Zhang, Zhenhua Dong, Muyu Zhang, (参考訳) クリックやコンバージョンなどのユーザフィードバックの確率を正確に予測することは、広告のランク付けや入札に不可欠である。 しかし、データ分布の急激なシフトと本質的なモデルバイアスにより、予測される確率と真の可能性の間には、望ましくないミスマッチがしばしば存在する。 キャリブレーションは、モデル予測の後処理によってこの問題に対処することを目的としており、フィールド認識キャリブレーションは、異なる特徴フィールド値のモデル出力を調整することで、きめ細かい広告要求を満たすことができる。 残念ながら、特定のフィールド値に対応する観測サンプルは、確実な校正を行うために深刻な制限を受けることができ、バイアス増幅とオンラインの混乱をもたらす可能性がある。 本稿では,サンプル統計から得られた信頼度に基づいて,キャリブレーション強度を適応的に調整する,信頼性を考慮したマルチフィールドキャリブレーション手法を提案する。 また、複数のフィールドを結合モデルのキャリブレーションに利用し、1つのフィールドにおけるデータ空間の影響を軽減することが重要である。 大規模なオフラインおよびオンライン実験は、広告性能の向上と予測偏差の低減において、我々の手法の優位性を示している。

Accurately predicting the probabilities of user feedback, such as clicks and conversions, is critical for advertisement ranking and bidding. However, there often exist unwanted mismatches between predicted probabilities and true likelihoods due to the rapid shift of data distributions and intrinsic model biases. Calibration aims to address this issue by post-processing model predictions, and field-aware calibration can adjust model output on different feature field values to satisfy fine-grained advertising demands. Unfortunately, the observed samples corresponding to certain field values can be seriously limited to make confident calibrations, which may yield bias amplification and online disturbance. In this paper, we propose a confidence-aware multi-field calibration method, which adaptively adjusts the calibration intensity based on confidence levels derived from sample statistics. It also utilizes multiple fields for joint model calibration according to their importance to mitigate the impact of data sparsity on a single field. Extensive offline and online experiments show the superiority of our method in boosting advertising performance and reducing prediction deviations.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# 教師なしデータ選択のためのロバストガイダンス:ドメイン特化機械翻訳のための名前付きエンティティのキャプチャ

Robust Guidance for Unsupervised Data Selection: Capturing Perplexing Named Entities for Domain-Specific Machine Translation ( http://arxiv.org/abs/2402.19267v2 )

ライセンス: Link先を確認
Seunghyun Ji, Hagai Raja Sinulingga, Darongsae Kwon, (参考訳) 低リソースのデータは、ニューラルマシン翻訳にとって重要な課題である。 多くの場合、低リソース環境は、ドメインエキスパートの必要性や言語エキスパートの欠如によって、高コストによって引き起こされる。 したがって、教師なし設定内で最も訓練効率のよいデータを特定することは、実践的な戦略として現れる。 近年の研究では、そのボリュームに基づいて「適切に複雑なデータ」を選択し、教師なしデータ選択に強い直感を与えることにより、そのような有効データを識別できることが示唆されている。 しかし、データ領域によって「適切な難易度」が異なる可能性があるため、教師なしデータ選択の基準の設定は依然として課題であることがわかった。 本稿では、翻訳された名前付きエンティティの最大推論エントロピーを選択の指標として活用する、新しい教師なしデータ選択手法「Capturing Perplexing Named Entities」を提案する。 韓国・英語専門ドメイン並列コーパス」を用いてテストしたところ、既存の手法とは対照的に、異なるドメイン間でのトレーニング効率データを特定するための堅牢なガイダンスとして機能していた。

Low-resourced data presents a significant challenge for neural machine translation. In most cases, the low-resourced environment is caused by high costs due to the need for domain experts or the lack of language experts. Therefore, identifying the most training-efficient data within an unsupervised setting emerges as a practical strategy. Recent research suggests that such effective data can be identified by selecting 'appropriately complex data' based on its volume, providing strong intuition for unsupervised data selection. However, we have discovered that establishing criteria for unsupervised data selection remains a challenge, as the 'appropriate level of difficulty' may vary depending on the data domain. We introduce a novel unsupervised data selection method named 'Capturing Perplexing Named Entities,' which leverages the maximum inference entropy in translated named entities as a metric for selection. When tested with the 'Korean-English Parallel Corpus of Specialized Domains,' our method served as robust guidance for identifying training-efficient data across different domains, in contrast to existing methods.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# 不正確なアンラーニングは、プライバシの悪用を避けるために、より慎重な評価を必要とする

Inexact Unlearning Needs More Careful Evaluations to Avoid a False Sense of Privacy ( http://arxiv.org/abs/2403.01218v3 )

ライセンス: Link先を確認
Jamie Hayes, Ilia Shumailov, Eleni Triantafillou, Amr Khalifa, Nicolas Papernot, (参考訳) モデルトレーニングのコストが高いため、アンラーニングのテクニックを開発することがますます望ましい。 これらのテクニックは、モデルをスクラッチから再トレーニングすることなく、トレーニング例の影響を取り除くことを目指している。 直感的には、モデルが学習不能になったら、モデルと対話する敵は、学習されていないサンプルがモデルのトレーニングセットに含まれているかどうかを判断できなくなる。 プライバシーに関する文献では、これはメンバーシップ推論として知られている。 本研究では,メンバーシップ推論攻撃(MIA)の非学習環境への適応について論じる。 既存のU-MIAを,すべての例で同一攻撃者がインスタンス化される「集団U-MIA」と,各例で専用攻撃者がインスタンス化される「サンプルU-MIA」に分類する。 攻撃対象の各事例に対して,攻撃対象のメンバシップ予測を調整した後者のカテゴリは,極めて強いことを示す。 実際,本研究の結果から,未学習文学におけるU-MIAは,視覚モデルと言語モデルの両方において,既存の未学習技術がもたらすプライバシー保護を過大評価していることがわかった。 調査の結果,U-MIAのサンプルごとの脆弱性は多岐にわたることが明らかとなった。 実際、いくつかのアンラーニングアルゴリズムは、他の例のためにそれを増やすことを犠牲にして、学びたいと願うすべての例に対して、脆弱性を減らします。 特に、未学習の結果として、残りのトレーニング例に対するプライバシ保護が悪化する可能性があることが分かりました。 また、既存の未学習スキームを用いて全てのサンプルを平等に保護することの難しさについても論じる。 異なる事例に対する未学習の停止基準を調整しようとするナイーブな試みは、これらの問題を緩和することができないことを実証する。

The high cost of model training makes it increasingly desirable to develop techniques for unlearning. These techniques seek to remove the influence of a training example without having to retrain the model from scratch. Intuitively, once a model has unlearned, an adversary that interacts with the model should no longer be able to tell whether the unlearned example was included in the model's training set or not. In the privacy literature, this is known as membership inference. In this work, we discuss adaptations of Membership Inference Attacks (MIAs) to the setting of unlearning (leading to their "U-MIA" counterparts). We propose a categorization of existing U-MIAs into "population U-MIAs", where the same attacker is instantiated for all examples, and "per-example U-MIAs", where a dedicated attacker is instantiated for each example. We show that the latter category, wherein the attacker tailors its membership prediction to each example under attack, is significantly stronger. Indeed, our results show that the commonly used U-MIAs in the unlearning literature overestimate the privacy protection afforded by existing unlearning techniques on both vision and language models. Our investigation reveals a large variance in the vulnerability of different examples to per-example U-MIAs. In fact, several unlearning algorithms lead to a reduced vulnerability for some, but not all, examples that we wish to unlearn, at the expense of increasing it for other examples. Notably, we find that the privacy protection for the remaining training examples may worsen as a consequence of unlearning. We also discuss the fundamental difficulty of equally protecting all examples using existing unlearning schemes, due to the different rates at which examples are unlearned. We demonstrate that naive attempts at tailoring unlearning stopping criteria to different examples fail to alleviate these issues.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# コスト効率の良いマルチインスタンス対実説明のための2段階アルゴリズム

A Two-Stage Algorithm for Cost-Efficient Multi-instance Counterfactual Explanations ( http://arxiv.org/abs/2403.01221v2 )

ライセンス: Link先を確認
André Artelt, Andreas Gregoriades, (参考訳) ブラックボックスシステムを分析する最も一般的な手法は、システム入力に対するコスト効率と実用的な変更を推奨し、所望のシステム出力を得るためである。 既存のカウンターファクトの手法のほとんどは単一のインスタンスを説明するが、顧客の満足度などいくつかの現実の問題は、複数のインスタンス(例えば顧客)を同時に満たすことのできる単一のカウンターファクトの識別を必要とする。 この制限に対処するため,本研究では,インスタンス群を見つけるための柔軟な2段階のアルゴリズムを提案し,コスト効率の高いマルチインスタンスの対実的説明を計算する。 本稿では,提案アルゴリズムとその性能を,比較評価により評価する。

Counterfactual explanations constitute among the most popular methods for analyzing black-box systems since they can recommend cost-efficient and actionable changes to the input of a system to obtain the desired system output. While most of the existing counterfactual methods explain a single instance, several real-world problems, such as customer satisfaction, require the identification of a single counterfactual that can satisfy multiple instances (e.g. customers) simultaneously. To address this limitation, in this work, we propose a flexible two-stage algorithm for finding groups of instances and computing cost-efficient multi-instance counterfactual explanations. The paper presents the algorithm and its performance against popular alternatives through a comparative evaluation.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# ネットワーク推論と影響推定のためのスケーラブルな連続時間拡散フレームワーク

Scalable Continuous-time Diffusion Framework for Network Inference and Influence Estimation ( http://arxiv.org/abs/2403.02867v2 )

ライセンス: Link先を確認
Keke Huang, Ruize Gao, Bogdan Cautis, Xiaokui Xiao, (参考訳) 近年,連続時間情報拡散の研究は,多くの応用分野において重要な研究領域となっている。 拡散トレース(カスケード)のみがアクセス可能である場合、カスケードに基づくネットワーク推定と影響推定は2つの重要な問題である。 残念ながら、既存の手法では数千以上のノードを持つネットワークを推論および処理する能力に制限があり、スケーラビリティの問題に悩まされている。 本稿では,拡散過程を連続時間力学系とみなし,連続時間拡散モデルを確立する。 その後、モデルをスケーラブルで効果的なフレームワーク(FIM)にインスタンス化し、利用可能なカスケードからの拡散伝搬を近似し、基盤となるネットワーク構造を推定する。 さらに,ネットワーク推論におけるFIMの近似誤差の解析を行った。 影響推定のためのスケーラビリティを実現するため,高度なサンプリング手法を考案し,効率を大幅に向上させる。 また,近似誤差が影響評価に与える影響を理論的に定量化する。 ネットワーク推定および影響推定におけるFIMの有効性と優れた拡張性を示す実験結果を得た。

The study of continuous-time information diffusion has been an important area of research for many applications in recent years. When only the diffusion traces (cascades) are accessible, cascade-based network inference and influence estimation are two essential problems to explore. Alas, existing methods exhibit limited capability to infer and process networks with more than a few thousand nodes, suffering from scalability issues. In this paper, we view the diffusion process as a continuous-time dynamical system, based on which we establish a continuous-time diffusion model. Subsequently, we instantiate the model to a scalable and effective framework (FIM) to approximate the diffusion propagation from available cascades, thereby inferring the underlying network structure. Furthermore, we undertake an analysis of the approximation error of FIM for network inference. To achieve the desired scalability for influence estimation, we devise an advanced sampling technique and significantly boost the efficiency. We also quantify the effect of the approximation error on influence estimation theoretically. Experimental results showcase the effectiveness and superior scalability of FIM on network inference and influence estimation.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# イメージが現実的になる理由?

What makes an image realistic? ( http://arxiv.org/abs/2403.04493v4 )

ライセンス: Link先を確認
Lucas Theis, (参考訳) 過去10年で、画像、テキスト、オーディオ、ビデオなど、現実的なデータを生成する能力が大幅に進歩しました。 ここでは,非現実的なデータから現実的なデータを確実に検出できる関数を設計する,リアリズムの定量化という,密接に関連する問題について議論する。 この問題は、機械学習の流行と最近の生成AIのブレークスルーにもかかわらず、解決が著しく難しく、まだ理解されていないことが判明した。 アルゴリズム情報理論からの洞察に基づいて、なぜこの問題が難しいのか、なぜ良い生成モデルだけでは解決できないのか、良い解決策がどのようなものになるのかを論じる。 特に、敵の批判者が敵の訓練を必要としないのとは違って、普遍的な批判の概念を導入する。 普遍的批評家はすぐには実践的ではないが、実践的な実践を導くためのノーススターや、現実主義を捉えようとする既存の試みを分析するツールとしても機能する。

The last decade has seen tremendous progress in our ability to generate realistic-looking data, be it images, text, audio, or video. Here, we discuss the closely related problem of quantifying realism, that is, designing functions that can reliably tell realistic data from unrealistic data. This problem turns out to be significantly harder to solve and remains poorly understood, despite its prevalence in machine learning and recent breakthroughs in generative AI. Drawing on insights from algorithmic information theory, we discuss why this problem is challenging, why a good generative model alone is insufficient to solve it, and what a good solution would look like. In particular, we introduce the notion of a universal critic, which unlike adversarial critics does not require adversarial training. While universal critics are not immediately practical, they can serve both as a North Star for guiding practical implementations and as a tool for analyzing existing attempts to capture realism.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# 合成一般化によるロボットマニピュレーションのための効率的なデータ収集

Efficient Data Collection for Robotic Manipulation via Compositional Generalization ( http://arxiv.org/abs/2403.05110v2 )

ライセンス: Link先を確認
Jensen Gao, Annie Xie, Ted Xiao, Chelsea Finn, Dorsa Sadigh, (参考訳) データ収集は、ロボット操作においてますます重要な問題となっているが、より広範な一般化を促進するために、効果的にデータを収集する方法についての理解が乏しい。 大規模ロボットデータ収集に関する最近の研究は、典型的には、さまざまなシナリオをカバーするために、データ収集中の多くの環境要因(例えば、オブジェクトタイプ、テーブルテクスチャ)が異なる。 しかし、データに基づいてトレーニングされたポリシーの構成能力は明確に説明されていない。 もしロボットのポリシーがデータから環境要因を合成して、見知らぬ要因の組み合わせに遭遇した場合に成功させることができれば、構成が対処する状況のデータを収集するのを避けるために、これを活用できる。 この可能性を検討するため、シミュレーションと実際のロボットの両方において、データ収集戦略を比較し、視覚模倣学習ポリシーが環境要因を構成することができるかどうかを評価する。 ポリシーは構成を示すが、実際のロボットでは、事前のロボットデータセットを活用することが重要である。 我々はこれらの洞察を用いて、データ収集の同じ作業量に対して、単純なアプローチよりも優れた一般化をもたらすことができる構成を活用するドメイン内データ収集戦略を提案する。 さらに、このような戦略からデータに基づいて訓練された真のロボット政策が、環境要因の見当たらない組み合わせを含む全く新しい環境に移行した場合、77.5%の成功率を達成する一方で、環境変動を考慮せずに収集されたデータを用いて訓練されたポリシーは、成功率を2.5%に抑えることができないことを実証した。 ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。

Data collection has become an increasingly important problem in robotic manipulation, yet there still lacks much understanding of how to effectively collect data to facilitate broad generalization. Recent works on large-scale robotic data collection typically vary many environmental factors of variation (e.g., object types, table textures) during data collection, to cover a diverse range of scenarios. However, they do not explicitly account for the possible compositional abilities of policies trained on the data. If robot policies can compose environmental factors from their data to succeed when encountering unseen factor combinations, we can exploit this to avoid collecting data for situations that composition would address. To investigate this possibility, we conduct thorough empirical studies both in simulation and on a real robot that compare data collection strategies and assess whether visual imitation learning policies can compose environmental factors. We find that policies do exhibit composition, although leveraging prior robotic datasets is critical for this on a real robot. We use these insights to propose better in-domain data collection strategies that exploit composition, which can induce better generalization than naive approaches for the same amount of effort during data collection. We further demonstrate that a real robot policy trained on data from such a strategy achieves a success rate of 77.5% when transferred to entirely new environments that encompass unseen combinations of environmental factors, whereas policies trained using data collected without accounting for environmental variation fail to transfer effectively, with a success rate of only 2.5%. We provide videos at http://iliad.stanford.edu/robot-data-comp/.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# GSEdit:ガウススティングによる3Dオブジェクトの効率的なテキストガイド編集

GSEdit: Efficient Text-Guided Editing of 3D Objects via Gaussian Splatting ( http://arxiv.org/abs/2403.05154v2 )

ライセンス: Link先を確認
Francesco Palandra, Andrea Sanchietti, Daniele Baieri, Emanuele Rodolà, (参考訳) 本稿では,Gaussian Splattingモデルに基づくテキスト誘導型3Dオブジェクト編集パイプラインであるGSEditを紹介する。 本手法では, 3Dオブジェクトの形状や外観の編集を, 消費者ハードウェア上で数分で行うことなく行うことができる。 本研究では,3次元シーンの表現にガウススプラッティングを活用することでこの問題に対処し,事前学習した画像ベース拡散モデルを用いて,画像の監督を段階的に変化させながらモデルを最適化する。 入力対象は3次元三角形メッシュとして与えられるか、あるいはドリームガウスのような生成モデルからガウスとして直接提供される。 GSEditは、異なる視点で一貫性を確保し、元のオブジェクトの情報の整合性を維持する。 従来提案されていたNeRFライクなMLPモデルと比べ,GSEditはその効率性に際し,3D編集作業の高速化を図っている。 編集プロセスは、SDS損失の適用によって洗練され、編集が正確かつ正確であることを保証する。 包括的評価により,GSEditはテキストのコヒーレンスと詳細を保ちながら,与えられたテキストの指示に従ってオブジェクトの形状や外観を効果的に変化させることを示した。

We present GSEdit, a pipeline for text-guided 3D object editing based on Gaussian Splatting models. Our method enables the editing of the style and appearance of 3D objects without altering their main details, all in a matter of minutes on consumer hardware. We tackle the problem by leveraging Gaussian splatting to represent 3D scenes, and we optimize the model while progressively varying the image supervision by means of a pretrained image-based diffusion model. The input object may be given as a 3D triangular mesh, or directly provided as Gaussians from a generative model such as DreamGaussian. GSEdit ensures consistency across different viewpoints, maintaining the integrity of the original object's information. Compared to previously proposed methods relying on NeRF-like MLP models, GSEdit stands out for its efficiency, making 3D editing tasks much faster. Our editing process is refined via the application of the SDS loss, ensuring that our edits are both precise and accurate. Our comprehensive evaluation demonstrates that GSEdit effectively alters object shape and appearance following the given textual instructions while preserving their coherence and detail.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# セマンティックセグメンテーションのための周波数適応型拡張畳み込み

Frequency-Adaptive Dilated Convolution for Semantic Segmentation ( http://arxiv.org/abs/2403.05369v6 )

ライセンス: Link先を確認
Linwei Chen, Lin Gu, Ying Fu, (参考訳) 連続する要素間のギャップを挿入することによって受容場を広げる拡張畳み込みは、コンピュータビジョンにおいて広く用いられている。 本研究では,スペクトル分析の観点から,拡張畳み込みの個々の位相を改善するための3つの戦略を提案する。 グローバルディレーションレートをハイパーパラメータとして固定する従来の慣行とは別に,局所周波数成分に基づいて動的にディレーションレートを調整する周波数適応型ディレイト・コンボリューション(FADC)を導入する。 その後、有効帯域幅と受信フィールドサイズを直接拡張する2つのプラグインモジュールを設計する。 Adaptive Kernel (AdaKern) モジュールは、畳み込み重みを低周波成分と高周波成分に分解し、チャネル単位でこれらの成分間の比を動的に調整する。 畳み込み重みの高周波部分を増やすことで、AdaKernはより多くの高周波成分を捕捉し、有効帯域幅を改善する。 周波数選択(FreqSelect)モジュールは、空間的に不変な再重み付けによって特徴表現における高周波数成分と低周波数成分を最適にバランスさせる。 背景の高周波数を抑え、FADCにより大きな拡張学習を奨励し、拡張されたスコープに対する受容野を増大させる。 セグメンテーションと物体検出に関する広範囲な実験は、我々のアプローチの有効性を一貫して検証している。 コードはhttps://github.com/Linwei-Chen/FADCで公開されている。

Dilated convolution, which expands the receptive field by inserting gaps between its consecutive elements, is widely employed in computer vision. In this study, we propose three strategies to improve individual phases of dilated convolution from the view of spectrum analysis. Departing from the conventional practice of fixing a global dilation rate as a hyperparameter, we introduce Frequency-Adaptive Dilated Convolution (FADC), which dynamically adjusts dilation rates spatially based on local frequency components. Subsequently, we design two plug-in modules to directly enhance effective bandwidth and receptive field size. The Adaptive Kernel (AdaKern) module decomposes convolution weights into low-frequency and high-frequency components, dynamically adjusting the ratio between these components on a per-channel basis. By increasing the high-frequency part of convolution weights, AdaKern captures more high-frequency components, thereby improving effective bandwidth. The Frequency Selection (FreqSelect) module optimally balances high- and low-frequency components in feature representations through spatially variant reweighting. It suppresses high frequencies in the background to encourage FADC to learn a larger dilation, thereby increasing the receptive field for an expanded scope. Extensive experiments on segmentation and object detection consistently validate the efficacy of our approach. The code is publicly available at https://github.com/Linwei-Chen/FADC.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# 多項式グラフフィルタの最適化:新しい適応クリロフ部分空間アプローチ

Optimizing Polynomial Graph Filters: A Novel Adaptive Krylov Subspace Approach ( http://arxiv.org/abs/2403.07954v2 )

ライセンス: Link先を確認
Keke Huang, Wencai Cao, Hoang Ta, Xiaokui Xiao, Pietro Liò, (参考訳) スペクトルグラフフィルタとして知られるグラフニューラルネットワーク(GNN)は、Webネットワークで幅広いアプリケーションを見つける。 固有分解を回避すべく, 多項式グラフフィルタを近似グラフフィルタに提案し, 様々な多項式基底をフィルタトレーニングに利用した。 しかし、最適化のための統一的な視点から様々な多項式グラフフィルタを探索する研究は存在しない。 本稿では、まず多項式グラフフィルタと、同じ次数の最適フィルタを同じ次数のクリロフ部分空間に統一し、理論的に等価な表現力を与える。 次に、統一クリロフ部分空間の観点から多項式の漸近収束性について検討し、異なるヘテロフィリー次数を持つグラフにおけるそれらの限定適応性を明らかにする。 これらの事実にインスパイアされた我々は、様々なヘテロフィリーグラフに適応するように、グラフスペクトル上で証明可能な制御性を持つ多項式基底を最適化する、新しい適応クリロフ部分空間アプローチを設計する。 次に,適応Krylov部分空間の基底を利用する最適化多項式グラフフィルタAdaptKryを提案する。 一方、複素グラフのスペクトル特性の多様性を考慮して、追加の訓練コストを伴わずに複数の適応クリロフ基底を活用することにより、AdaptKryを拡張する。 その結果、拡張AdaptKryはグラフの複雑な特性を捉え、それら固有の複雑さに関する洞察を提供することができる。 我々は、一連の実世界のデータセットにまたがって広範な実験を行う。 実験により、AdaptKryの優れたフィルタリング能力と適応Krylov基底の最適化された有効性が示された。

Graph Neural Networks (GNNs), known as spectral graph filters, find a wide range of applications in web networks. To bypass eigendecomposition, polynomial graph filters are proposed to approximate graph filters by leveraging various polynomial bases for filter training. However, no existing studies have explored the diverse polynomial graph filters from a unified perspective for optimization. In this paper, we first unify polynomial graph filters, as well as the optimal filters of identical degrees into the Krylov subspace of the same order, thus providing equivalent expressive power theoretically. Next, we investigate the asymptotic convergence property of polynomials from the unified Krylov subspace perspective, revealing their limited adaptability in graphs with varying heterophily degrees. Inspired by those facts, we design a novel adaptive Krylov subspace approach to optimize polynomial bases with provable controllability over the graph spectrum so as to adapt various heterophily graphs. Subsequently, we propose AdaptKry, an optimized polynomial graph filter utilizing bases from the adaptive Krylov subspaces. Meanwhile, in light of the diverse spectral properties of complex graphs, we extend AdaptKry by leveraging multiple adaptive Krylov bases without incurring extra training costs. As a consequence, extended AdaptKry is able to capture the intricate characteristics of graphs and provide insights into their inherent complexity. We conduct extensive experiments across a series of real-world datasets. The experimental results demonstrate the superior filtering capability of AdaptKry, as well as the optimized efficacy of the adaptive Krylov basis.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# 創発的エージェント・ソサイエティにおける社会的ノルムの出現--原理と建築

Emergence of Social Norms in Generative Agent Societies: Principles and Architecture ( http://arxiv.org/abs/2403.08251v3 )

ライセンス: Link先を確認
Siyue Ren, Zhiyao Cui, Ruiqi Song, Zhen Wang, Shuyue Hu, (参考訳) 社会的規範は、行動規範の理解と定着に向けてエージェントを導く上で重要な役割を担い、マルチエージェントシステム(MAS)における社会的対立を減らす。 しかし、現在のLLMベースの(あるいは生成的な)MASには、規範的な能力がない。 本稿では,生成型MASにおける社会的規範の出現を促進するために,CRSECという新しいアーキテクチャを提案する。 私たちのアーキテクチャは、創造と表現、スプレッド、評価、コンプライアンスの4つのモジュールで構成されています。 これは、創発的プロセスのいくつかの重要な側面を1つにまとめる。 (i)社会規範の発祥地 (ii) 形式的にどのように表現されるか 三 エージェントのコミュニケーション及び観察の方法 四 衛生検査で検査し、長期にわたって合成する方法、及び (v)エージェントの計画と行動にどのように組み込まれているか。 Smallville Sandboxゲーム環境に導入した我々の実験は、我々の建築が社会規範を確立し、生成的MAS内での社会的衝突を減らす能力を示すものである。 評価対象者30名を対象に実施した人的評価の結果,その有効性を確認した。 私たちのプロジェクトは、https://github.com/sxswz213/CRSEC.com/sxswz213/CRSEC.comのリンクからアクセスできます。

Social norms play a crucial role in guiding agents towards understanding and adhering to standards of behavior, thus reducing social conflicts within multi-agent systems (MASs). However, current LLM-based (or generative) MASs lack the capability to be normative. In this paper, we propose a novel architecture, named CRSEC, to empower the emergence of social norms within generative MASs. Our architecture consists of four modules: Creation & Representation, Spreading, Evaluation, and Compliance. This addresses several important aspects of the emergent processes all in one: (i) where social norms come from, (ii) how they are formally represented, (iii) how they spread through agents' communications and observations, (iv) how they are examined with a sanity check and synthesized in the long term, and (v) how they are incorporated into agents' planning and actions. Our experiments deployed in the Smallville sandbox game environment demonstrate the capability of our architecture to establish social norms and reduce social conflicts within generative MASs. The positive outcomes of our human evaluation, conducted with 30 evaluators, further affirm the effectiveness of our approach. Our project can be accessed via the following link: https://github.com/sxswz213/CRSEC.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# Skipformer:効率的な音声認識のためのスキップ・アンド・リカバリ戦略

Skipformer: A Skip-and-Recover Strategy for Efficient Speech Recognition ( http://arxiv.org/abs/2403.08258v2 )

ライセンス: Link先を確認
Wenjing Zhu, Sining Sun, Changhao Shan, Peng Fan, Qing Yang, (参考訳) コンフォーマーに基づくアテンションモデルは、音声認識タスクの事実上のバックボーンモデルとなっている。 通常、CTCまたはRNN-Tモデルの入力シーケンスと出力シーケンスを整列するためにブランクシンボルが導入される。 残念ながら、長い入力長は、注意機構によって計算予算とメモリ消費を2次的にオーバーロードする。 本研究では,Skipformer という名前の "Skip-and-Recover" Conformer アーキテクチャを提案する。 Skipformerは中間のCTC出力を基準として、フレームを3つのグループに分割する。 重要なグループは次のコンバータブロックにフィードし、その出力は最後のエンコーダ出力として元の時間順序でスキップグループと結合する。 実験の結果,Aishell-1で31倍,Librispeech corpusで22倍の入力シーケンス長が得られた。 一方、このモデルでは、最近のベースラインモデルよりも認識精度が向上し、推論速度が向上する。 私たちのコードはオープンソースで、オンラインで利用可能です。

Conformer-based attention models have become the de facto backbone model for Automatic Speech Recognition tasks. A blank symbol is usually introduced to align the input and output sequences for CTC or RNN-T models. Unfortunately, the long input length overloads computational budget and memory consumption quadratically by attention mechanism. In this work, we propose a "Skip-and-Recover" Conformer architecture, named Skipformer, to squeeze sequence input length dynamically and inhomogeneously. Skipformer uses an intermediate CTC output as criteria to split frames into three groups: crucial, skipping and ignoring. The crucial group feeds into next conformer blocks and its output joint with skipping group by original temporal order as the final encoder output. Experiments show that our model reduces the input sequence length by 31 times on Aishell-1 and 22 times on Librispeech corpus. Meanwhile, the model can achieve better recognition accuracy and faster inference speed than recent baseline models. Our code is open-sourced and available online.
翻訳日:2024-05-22 18:22:08 公開日:2024-05-21
# E2E-MFD:End-to-End同期マルチモーダル核融合検出に向けて

E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection ( http://arxiv.org/abs/2403.09323v2 )

ライセンス: Link先を確認
Jiaqing Zhang, Mingxiang Cao, Xue Yang, Weiying Xie, Jie Lei, Daixun Li, Wenbo Huang, Yunsong Li, (参考訳) マルチモーダル画像融合と物体検出は自動運転に不可欠である。 現在の手法ではテクスチャの詳細と意味情報の融合が進んでいるが、それらの複雑なトレーニングプロセスは幅広い応用を妨げる。 この課題に対処するために,マルチモーダル核融合検出のための新しいエンドツーエンドアルゴリズムであるE2E-MFDを導入する。 E2E-MFDはプロセスの合理化を図り、単一のトレーニングフェーズで高いパフォーマンスを達成する。 個々のタスクに結びついた最適以下のソリューションを避けるために、コンポーネント間で同期的なジョイント最適化を採用している。 さらに、共有パラメータの勾配行列に包括的な最適化戦略を実装し、最適核融合検出構成への収束を確保する。 複数の公開データセットに対する大規模なテストでは、E2E-MFDの優れた機能を明らかにし、画像融合だけでなく、水平オブジェクト検出データセットM3FDとオブジェクト指向オブジェクト検出データセットDroneVehicleに対する3.9%と2.0%のmAP50の増加といった印象的な検出結果も示す。

Multimodal image fusion and object detection are crucial for autonomous driving. While current methods have advanced the fusion of texture details and semantic information, their complex training processes hinder broader applications. Addressing this challenge, we introduce E2E-MFD, a novel end-to-end algorithm for multimodal fusion detection. E2E-MFD streamlines the process, achieving high performance with a single training phase. It employs synchronous joint optimization across components to avoid suboptimal solutions tied to individual tasks. Furthermore, it implements a comprehensive optimization strategy in the gradient matrix for shared parameters, ensuring convergence to an optimal fusion detection configuration. Our extensive testing on multiple public datasets reveals E2E-MFD's superior capabilities, showcasing not only visually appealing image fusion but also impressive detection outcomes, such as a 3.9% and 2.0% mAP50 increase on horizontal object detection dataset M3FD and oriented object detection dataset DroneVehicle, respectively, compared to state-of-the-art approaches.
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# ガウススプラッティングによるビュー一貫性3次元編集

View-Consistent 3D Editing with Gaussian Splatting ( http://arxiv.org/abs/2403.11868v5 )

ライセンス: Link先を確認
Yuxuan Wang, Xuanyu Yi, Zike Wu, Na Zhao, Long Chen, Hanwang Zhang, (参考訳) 3D Gaussian Splatting (3DGS)の出現は、3D編集に革命をもたらし、効率よく高忠実なレンダリングを提供し、正確な局所的な操作を可能にした。 現在、拡散ベースの2D編集モデルを用いて、マルチビューレンダリング画像を修正し、3DGSモデルの編集をガイドしている。 しかし、このアプローチは多視点不整合の重要な問題に直面しており、誘導画像はビュー間で大きな相違を示し、モード崩壊と3DGSの視覚的アーティファクトをもたらす。 この目的のために、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークであるView-Consistent Editing (VcEdit)を導入する。 VcEditには、Cross-attention Consistency ModuleとEditing Consistency Moduleという2つの革新的な一貫性モジュールがある。 これらの一貫性モジュールを反復的なパターンに組み込むことで、VcEditは多視点不整合の問題を解決し、様々な場面で高品質な3DGS編集を容易にする。 コードとビデオの結果は http://yuxuanw.me/vcedit/ で再リースされる。

The advent of 3D Gaussian Splatting (3DGS) has revolutionized 3D editing, offering efficient, high-fidelity rendering and enabling precise local manipulations. Currently, diffusion-based 2D editing models are harnessed to modify multi-view rendered images, which then guide the editing of 3DGS models. However, this approach faces a critical issue of multi-view inconsistency, where the guidance images exhibit significant discrepancies across views, leading to mode collapse and visual artifacts of 3DGS. To this end, we introduce View-consistent Editing (VcEdit), a novel framework that seamlessly incorporates 3DGS into image editing processes, ensuring multi-view consistency in edited guidance images and effectively mitigating mode collapse issues. VcEdit employs two innovative consistency modules: the Cross-attention Consistency Module and the Editing Consistency Module, both designed to reduce inconsistencies in edited images. By incorporating these consistency modules into an iterative pattern, VcEdit proficiently resolves the issue of multi-view inconsistency, facilitating high-quality 3DGS editing across a diverse range of scenes. Further code and video results are re- leased at http://yuxuanw.me/vcedit/.
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# マルチモーダルレコメンデーションのためのアライニングとトレーニングフレームワーク

An Aligning and Training Framework for Multimodal Recommendations ( http://arxiv.org/abs/2403.12384v3 )

ライセンス: Link先を確認
Yifan Liu, Kangning Zhang, Xiangyuan Ren, Yanhua Huang, Jiarui Jin, Yingjie Qin, Ruilong Su, Ruiwen Xu, Weinan Zhang, (参考訳) マルチメディアアプリケーションの開発において、ユーザとアイテムの相互作用を超えてリッチなコンテキストを活用できるため、マルチモーダルレコメンデーションが不可欠である。 既存の手法は主にID特徴の学習に使われているが、マルチモーダルコンテンツ特徴とID特徴の間には意味的なギャップがある。 補助情報としてマルチモーダル情報を直接使用すると、アイテムやユーザの表現の誤調整につながる。 本稿では,まず,マルチモーダルレコメンデーションにおけるミスアライメント問題を体系的に検討し,AlignRecというソリューションを提案する。 AlignRecでは、推奨目的をコンテンツ内のアライメント、コンテンツとカテゴリID間のアライメント、ユーザとアイテム間のアライメントという3つのアライメントに分解する。 各アライメントは、異なる目的関数によって特徴づけられる。 AlignRecを効果的に訓練するために、まず最初にアライメントを事前訓練し、統一されたマルチモーダル特徴を得ることから始め、次に次の2つのアライメントを一緒に訓練することを提案する。 各マルチモーダルフィーチャがトレーニングに役立つかどうかを分析することが不可欠であるため、中間性能を評価するために3つの新しいメトリクスクラスを設計する。 実世界の3つのデータセットに関する広範な実験は、9つのベースラインと比較して、AlignRecの優位性を一貫して検証している。 また、我々のフレームワークによって生成されたマルチモーダル機能は、現在使われているものよりも優れていることがわかっています。

With the development of multimedia applications, multimodal recommendations play an essential role, as they can leverage rich contexts beyond user and item interactions. Existing methods mainly use them to help learn ID features; however, there exist semantic gaps among multimodal content features and ID features. Directly using multimodal information as an auxiliary would lead to misalignment in items' and users' representations. In this paper, we first systematically investigate the misalignment issue in multimodal recommendations, and propose a solution named AlignRec. In AlignRec, the recommendation objective is decomposed into three alignments, namely alignment within contents, alignment between content and categorical ID, and alignment between users and items. Each alignment is characterized by a distinct objective function. To effectively train AlignRec, we propose starting from pre-training the first alignment to obtain unified multimodal features and subsequently training the following two alignments together. As it is essential to analyze whether each multimodal feature helps in training, we design three new classes of metrics to evaluate intermediate performance. Our extensive experiments on three real-world datasets consistently verify the superiority of AlignRec compared to nine baselines. We also find that the multimodal features generated by our framework are better than currently used ones, which are to be open-sourced.
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# AdaptSFL:資源制約エッジネットワークにおける適応的分割学習

AdaptSFL: Adaptive Split Federated Learning in Resource-constrained Edge Networks ( http://arxiv.org/abs/2403.13101v2 )

ライセンス: Link先を確認
Zheng Lin, Guanqiao Qu, Wei Wei, Xianhao Chen, Kin K. Leung, (参考訳) ディープニューラルネットワークの複雑さの増大は、リソース制限されたエッジデバイスにそれらを民主化する上で、大きな障壁となる。 この課題に対処するため、分割フェデレーション学習(SFL)は、エッジデバイス間の並列トレーニングを可能にしながら、モデルのパーティショニングを通じて、プライマリトレーニングワークロードをサーバにフロードすることで、有望なソリューションとして登場した。 しかし、システム最適化は資源制約付きシステムにおけるSFLの性能に大きく影響するが、問題は未解決のままである。 本稿では、モデル分割(MS)とクライアント側モデル集約(MA)が学習性能に与える影響を定量化するSFLの収束解析を行い、理論的基礎となる。 そこで我々は,資源制約付きエッジコンピューティングシステムの下でSFLを高速化する新しいリソース適応型SFLフレームワークであるAdaptSFLを提案する。 具体的には、AdaptSFLはクライアント側MAとMSを適応的に制御し、通信計算のレイテンシとトレーニング収束のバランスをとる。 提案するAdaptSFLフレームワークは,ベンチマークよりも目標精度を達成するのに要する時間を大幅に削減し,提案手法の有効性を実証する。

The increasing complexity of deep neural networks poses significant barriers to democratizing them to resource-limited edge devices. To address this challenge, split federated learning (SFL) has emerged as a promising solution by of floading the primary training workload to a server via model partitioning while enabling parallel training among edge devices. However, although system optimization substantially influences the performance of SFL under resource-constrained systems, the problem remains largely uncharted. In this paper, we provide a convergence analysis of SFL which quantifies the impact of model splitting (MS) and client-side model aggregation (MA) on the learning performance, serving as a theoretical foundation. Then, we propose AdaptSFL, a novel resource-adaptive SFL framework, to expedite SFL under resource-constrained edge computing systems. Specifically, AdaptSFL adaptively controls client-side MA and MS to balance communication-computing latency and training convergence. Extensive simulations across various datasets validate that our proposed AdaptSFL framework takes considerably less time to achieve a target accuracy than benchmarks, demonstrating the effectiveness of the proposed strategies.
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# 自動制御システムにおける敵攻撃と防御:総合ベンチマーク

Adversarial Attacks and Defenses in Automated Control Systems: A Comprehensive Benchmark ( http://arxiv.org/abs/2403.13502v3 )

ライセンス: Link先を確認
Vitaliy Pozdnyakov, Aleksandr Kovalenko, Ilya Makarov, Mikhail Drobyshevskiy, Kirill Lukyanov, (参考訳) 機械学習をACS(Automated Control Systems)に統合することで、産業プロセス管理における意思決定が促進される。 業界におけるこれらの技術の普及の限界の1つは、敵の攻撃に対するニューラルネットワークの脆弱性である。 本研究では、テネシー・イーストマン・プロセス・データセットを用いて、ACSにおける障害診断のためのディープラーニングモデルをデプロイする際の脅威について検討する。 3つのニューラルネットワークを異なるアーキテクチャで評価することにより、6種類の敵攻撃を行い、5つの異なる防御方法を探索する。 本研究は, 対戦型サンプルに対するモデルの強い脆弱性と, 防衛戦略の有効性を明らかにするものである。 また,複数の防御手法を組み合わせた新しい保護手法を提案し,その有効性を実証する。 本研究は,ACS内での機械学習の安全性,産業プロセスにおける堅牢な故障診断の確保に関するいくつかの知見に寄与する。

Integrating machine learning into Automated Control Systems (ACS) enhances decision-making in industrial process management. One of the limitations to the widespread adoption of these technologies in industry is the vulnerability of neural networks to adversarial attacks. This study explores the threats in deploying deep learning models for fault diagnosis in ACS using the Tennessee Eastman Process dataset. By evaluating three neural networks with different architectures, we subject them to six types of adversarial attacks and explore five different defense methods. Our results highlight the strong vulnerability of models to adversarial samples and the varying effectiveness of defense strategies. We also propose a novel protection approach by combining multiple defense methods and demonstrate it's efficacy. This research contributes several insights into securing machine learning within ACS, ensuring robust fault diagnosis in industrial processes.
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# 船の視界:船画像超解像のための拡散モデル

Ship in Sight: Diffusion Models for Ship-Image Super Resolution ( http://arxiv.org/abs/2403.18370v2 )

ライセンス: Link先を確認
Luigi Sigillo, Riccardo Fosco Gramaccioni, Alessandro Nicolosi, Danilo Comminiello, (参考訳) 近年, 画像生成分野における顕著な進歩は, 画像生成サブタスクにおいて, インペイント, デノナイジング, スーパーレゾリューションなど, 高品質な結果の需要が増大していることに起因している。 低解像度画像の品質を高めるための超解像技術の適用を探求するために、大きな努力が注がれている。 そこで本研究では,沿岸・港湾監視において重要な船舶画像の超解像問題について深く検討する。 本稿では,テキスト・ツー・イメージ拡散モデルへの関心の高まりにともなう機会について検討する。 特に,超解像生成時の船舶の重要詳細を最良に保存するために,授業中にテキストコンディショニングを利用する拡散モデルに基づくアーキテクチャを提案する。 このタスクの特異性とオフザシェルフデータの不足のため、オンラインの船画像から抽出された大きなラベル付き船のデータセットも紹介する。 提案手法は,複数の実験によって実証されたように,従来の超解法に使用される他の深層学習モデルよりも頑健な結果が得られる。 さらに、本モデルが、分類やオブジェクト検出などの下流タスクにどのような効果をもたらすかを考察し、現実のシナリオにおける実践的実装を強調した。 実験の結果,様々なタスクに対する最先端手法に対するフレームワークの柔軟性,信頼性,印象的な性能が示された。 コードは、https://github.com/LuigiSigillo/ShipinSight で入手できる。

In recent years, remarkable advancements have been achieved in the field of image generation, primarily driven by the escalating demand for high-quality outcomes across various image generation subtasks, such as inpainting, denoising, and super resolution. A major effort is devoted to exploring the application of super-resolution techniques to enhance the quality of low-resolution images. In this context, our method explores in depth the problem of ship image super resolution, which is crucial for coastal and port surveillance. We investigate the opportunity given by the growing interest in text-to-image diffusion models, taking advantage of the prior knowledge that such foundation models have already learned. In particular, we present a diffusion-model-based architecture that leverages text conditioning during training while being class-aware, to best preserve the crucial details of the ships during the generation of the super-resoluted image. Since the specificity of this task and the scarcity availability of off-the-shelf data, we also introduce a large labeled ship dataset scraped from online ship images, mostly from ShipSpotting\footnote{\url{www.shipspotting.com}} website. Our method achieves more robust results than other deep learning models previously employed for super resolution, as proven by the multiple experiments performed. Moreover, we investigate how this model can benefit downstream tasks, such as classification and object detection, thus emphasizing practical implementation in a real-world scenario. Experimental results show flexibility, reliability, and impressive performance of the proposed framework over state-of-the-art methods for different tasks. The code is available at: https://github.com/LuigiSigillo/ShipinSight .
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# AIによる画像品質評価にテキストプロンプトを導入する

Bringing Textual Prompt to AI-Generated Image Quality Assessment ( http://arxiv.org/abs/2403.18714v2 )

ライセンス: Link先を確認
Bowen Qu, Haohui Li, Wei Gao, (参考訳) AI生成画像(AGI)は本質的にマルチモーダルな性質を持つ。 自然シナリオにおける従来の画像品質評価(IQA)とは異なり、AGIs品質評価(AGIQA)は画像とテキストの対応を考慮に入れている。 これは、ユニモーダルIQA法を混乱させる基底真理スコアに結合される。 そこで本研究では,AGIQAのマルチモーダルフレームワークであるIP-IQA(AGIs Quality Assessment via Image and Prompt)を導入する。 具体的には、AGIとそれに対応するテキストプロンプトの理解を深めるために、Image2Promptという新しいインクリメンタル事前学習タスクを提案する。 また、新規な特別な[QA]トークンとともに、効果的で効率的なイメージプロンプト融合モジュールも適用した。 どちらもプラグアンドプレイで、画像とそれに対応するプロンプトの協調に役立ちます。 実験により,我々のIP-IQAがAGIQA-1kおよびAGIQA-3kデータセットの最先端化を実現していることが示された。 コードはhttps://github.com/Coobiw/IP-IQA.comで入手できる。

AI-Generated Images (AGIs) have inherent multimodal nature. Unlike traditional image quality assessment (IQA) on natural scenarios, AGIs quality assessment (AGIQA) takes the correspondence of image and its textual prompt into consideration. This is coupled in the ground truth score, which confuses the unimodal IQA methods. To solve this problem, we introduce IP-IQA (AGIs Quality Assessment via Image and Prompt), a multimodal framework for AGIQA via corresponding image and prompt incorporation. Specifically, we propose a novel incremental pretraining task named Image2Prompt for better understanding of AGIs and their corresponding textual prompts. An effective and efficient image-prompt fusion module, along with a novel special [QA] token, are also applied. Both are plug-and-play and beneficial for the cooperation of image and its corresponding prompt. Experiments demonstrate that our IP-IQA achieves the state-of-the-art on AGIQA-1k and AGIQA-3k datasets. Code will be available at https://github.com/Coobiw/IP-IQA.
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# Transformer-Lite: 携帯電話GPU上での大規模言語モデルの高効率展開

Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs ( http://arxiv.org/abs/2403.20041v2 )

ライセンス: Link先を確認
Luchang Li, Sheng Qian, Jie Lu, Lunxi Yuan, Rui Wang, Qin Xie, (参考訳) 大規模言語モデル(LLM)は、インテリジェントアシスタント、テキスト要約、翻訳、携帯電話でのマルチモダリティといったタスクに広く使われている。 しかし、現在のデバイス上でのLCMデプロイメントの手法は推論速度を遅く保ち、ユーザエクスペリエンスを損なう。 デバイスGPU上でのLLMの高効率展開を容易にするため,我々は4つの最適化手法を提案する。 (a)動的形状モデル推論を支援する記号表現に基づくアプローチ b) 推測速度を向上し、通話遅延を低減するための演算子最適化及び実行優先設定 (c)M0E4と呼ばれるFP4量子化法により、復号化オーバーヘッドを低減する。 (d)LLM推論後にKVキャッシュをコピーする必要がないサブテンソルベースの手法。 さらに,これらの手法をモバイル推論エンジンであるTransformer-Liteに実装し,Qualcomm と MTK の両プロセッサに互換性を持たせた。 2Bから14Bまでの異なるアーキテクチャとパラメータを持つLLMを用いてTransformer-Liteの性能を評価した。 具体的には,ChatGLM2 6Bでは121トークン/s,ChatGLM2 6Bでは14トークン/s,Gemma 2Bでは330トークン/s,Gemma 2Bでは30トークン/sのプリフィルとデコードを実現した。 CPUベースのFastLLMやGPUベースのMLC-LLMと比較して、エンジンはプリフィル速度で10倍以上のスピードアップ、デコード速度で2~3倍のスピードアップを実現しています。

The Large Language Model (LLM) is widely employed for tasks such as intelligent assistants, text summarization, translation, and multi-modality on mobile phones. However, the current methods for on-device LLM deployment maintain slow inference speed, which causes poor user experience. To facilitate high-efficiency LLM deployment on device GPUs, we propose four optimization techniques: (a) a symbolic expression-based approach to support dynamic shape model inference; (b) operator optimizations and execution priority setting to enhance inference speed and reduce phone lagging; (c) an FP4 quantization method termed M0E4 to reduce dequantization overhead; (d) a sub-tensor-based technique to eliminate the need for copying KV cache after LLM inference. Furthermore, we implement these methods in our mobile inference engine, Transformer-Lite, which is compatible with both Qualcomm and MTK processors. We evaluated Transformer-Lite's performance using LLMs with varied architectures and parameters ranging from 2B to 14B. Specifically, we achieved prefill and decoding speeds of 121 token/s and 14 token/s for ChatGLM2 6B, and 330 token/s and 30 token/s for smaller Gemma 2B, respectively. Compared with CPU-based FastLLM and GPU-based MLC-LLM, our engine attains over 10x speedup for the prefill speed and 2~3x speedup for the decoding speed.
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# TTD:CLIPで画像テキストのアライメントを強化して単一タグバイアスを軽減する

TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias ( http://arxiv.org/abs/2404.00384v2 )

ライセンス: Link先を確認
Sanghyun Jo, Soohyun Ryu, Sungyub Kim, Eunho Yang, Kyungsu Kim, (参考訳) 現代のCLIPモデルにおいて,単一タグバイアスを示す重要なバイアスを同定する。 このバイアスは、画像とテキストの関係において1つの特定のタグを優先するCLIPのテキスト埋め込みから生まれた、他の関連するタグを無視しながら、特異タグ(ワード)に不均等な焦点として現れている。 テキストを個々のタグに分解する場合、CLIPのイメージ埋め込みと高い関連性を持つのは1つのタグのみである。 本稿では,この課題に対処するため,新しい2段階の微調整手法であるText-Tag Self-Distillation(TTD)を提案する。 TTDはまず、最も近いピクセルとの類似性に基づいてテキストから画像関連タグを抽出する。 このアプローチは、追加の監視を必要とせずに、イメージテキストペアのみを使用して、CLIPベースのモデルのバイアスのないイメージテキストアライメントを保証する。 本手法は,マルチタグ分類とセグメンテーションタスクにおけるモデルに依存しない改善を実証し,外部リソースに依存する競合手法を克服する。 コードはhttps://github.com/shjo-april/TTD.comで公開されている。

We identify a critical bias in contemporary CLIP-based models, which we denote as single tag bias. This bias manifests as a disproportionate focus on a singular tag (word) while neglecting other pertinent tags, stemming from CLIP's text embeddings that prioritize one specific tag in image-text relationships. When deconstructing text into individual tags, only one tag tends to have high relevancy with CLIP's image embedding, leading to biased tag relevancy. In this paper, we introduce a novel two-step fine-tuning approach, Text-Tag Self-Distillation (TTD), to address this challenge. TTD first extracts image-relevant tags from text based on their similarity to the nearest pixels then employs a self-distillation strategy to align combined masks with the text-derived mask. This approach ensures the unbiased image-text alignment of the CLIP-based models using only image-text pairs without necessitating additional supervision. Our technique demonstrates model-agnostic improvements in multi-tag classification and segmentation tasks, surpassing competing methods that rely on external resources. The code is available at https://github.com/shjo-april/TTD.
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# 安全で責任性の高い大規模言語モデル開発

Safe and Responsible Large Language Model Development ( http://arxiv.org/abs/2404.01399v2 )

ライセンス: Link先を確認
Shaina Raza, Oluwanifemi Bamgbose, Shardul Ghuge, Deepak John Reji, (参考訳) LLM(Large Language Models)に関連する安全性とリスクに関する懸念が高まる中、効果的な緩和戦略を設計するための衝動は、これまで以上に強要されてきた。 本稿では, LLM生成コンテンツの安全性を高めるために, 安全性と応答性を考慮した大規模言語モデル (\textbf{SR}$_{\text{LLM}}$ ) を提案する。 まず, LLM応答の安全性リスクを分類するために, 安全リスク分類法を提案する。 その後、専門家のアノテーションの使用や、この分類に共鳴するレビューなど、LLMアライメントのための高品質な指示を効果的に収集する。 我々は、潜在的な安全でないコンテンツを検出し、良質な代替物を生成するように設計された LLM である \textbf{SR}$_{\text{LLM}}$ を提示する。 パラメータ効率のよい微調整機構を利用して、モデルをより使いやすく適応できるようにする。 このモデルの有効性を評価する手法は、最先端の手法とともに、その評価に対する多面的アプローチを示す。 5つのベンチマークデータセットと2つのプロプライエタリデータセットの厳格なテストを通じて、安全でないコンテンツの生成が著しく減少するのを観察した。 本稿では,提案手法の詳細,微調整手法,安全性評価をコミュニティに提示する。 GitHubの関連データとコードへのリンクは、 \url{ https://github.com/shainarazavi/Safe-Responsible-LLM} で公開されている。

In light of the increasing concerns regarding the safety and risks associated with Large Language Models (LLMs), the imperative to design effective mitigation strategies has never been more pressing. This paper introduces a Safety and Responsible Large Language Model (\textbf{SR}$_{\text{LLM}}$ ), an approach designed to enhance the safety of LLM-generated content. Initially, we propose a safety risk taxonomy to categorize the safety risks found in LLM responses. Subsequently, we effectively collect high-quality instructions for LLM alignment, including the use of experts annotations and review that resonate with this taxonomy. We present \textbf{SR}$_{\text{LLM}}$, an LLM that is specifically designed to detect potential unsafe content and generate benign alternatives. We leverage parameter-efficient fine-tuning mechanisms to make the model more usable and adaptable. The methods for evaluating the effectiveness of this model, along with state-of-the-art methods, present a multifaceted approach towards their assessment. Through rigorous testing across five benchmark datasets and two proprietary datasets, we observed a marked decrease in the generation of unsafe content. We present the details of our approach, the fine-tuning methodologies, and safety evaluation to the community. A GitHub link with associated data and code is publicly available at \url{ https://github.com/shainarazavi/Safe-Responsible-LLM}
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# 境界付き古典的コミュニケーションを許容する自己検証グラフ状態

Self-Testing Graph States Permitting Bounded Classical Communication ( http://arxiv.org/abs/2404.03496v2 )

ライセンス: Link先を確認
Uta Isabella Meyer, Ivan Šupić, Frédéric Grosshans, Damian Markham, (参考訳) 自己検査は、他の量子状態から局所的な変換まで、非局所性を示す量子状態と相関を識別する。 強い非局所性のため、すべてのグラフ状態が標準設定で自己テスト可能であることが知られている。 近年、グラフ状態は、基礎となるグラフ上の境界付き古典的通信が許される場合でも非局所的相関を示すことが示されており、古典的および量子コンピューティングの回路深度分離の証明に応用されている。 本研究では,有界古典通信の枠組みにおける自己テストを開発し,あるグラフ状態が通信可能であっても堅牢に自己テスト可能であることを示す。 特に、円グラフ状態とハニカムクラスタ状態(後者は測定に基づく量子計算のための普遍的な資源として知られている)に対する明示的な自己テストを提供する。 コミュニケーションは一般にグラフ状態の自己テストを妨げるため、通信シナリオにおいて非局所的相関を示す大きなグラフ状態から、任意のグラフ状態を堅牢に自己テストする手順を提供する。

Self-testing identifies quantum states and correlations that exhibit nonlocality, distinguishing them, up to local transformations, from other quantum states. Due to their strong nonlocality, it is known that all graph states can be self-tested in the standard setting - where parties are not allowed to communicate. Recently it has been shown that graph states display nonlocal correlations even when bounded classical communication on the underlying graph is permitted, a feature that has found applications in proving a circuit-depth separation between classical and quantum computing. In this work, we develop self testing in the framework of bounded classical communication, and we show that certain graph states can be robustly self-tested even allowing for communication. In particular, we provide an explicit self-test for the circular graph state and the honeycomb cluster state - the latter known to be a universal resource for measurement based quantum computation. Since communication generally obstructs self-testing of graph states, we further provide a procedure to robustly self-test any graph state from larger ones that exhibit nonlocal correlations in the communication scenario.
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# 畳み込みニューラルネットワークの効率性について

On the Efficiency of Convolutional Neural Networks ( http://arxiv.org/abs/2404.03617v2 )

ライセンス: Link先を確認
Andrew Lavin, (参考訳) 2012年のAlexNetのブレークスルー以降、畳み込みニューラルネットワーク(convnet)は、非常に強力なビジョンモデルへと成長してきた。 深層学習の研究者たちは、10年前には不可能だった精度で視覚タスクを実行するために、コンブネットを使用してきた。 コブネットが使用する膨大な計算と相まって、ディープラーニングの研究者も効率性に興味を持つようになった。 しかし、効率的なコンブネットを配備した技術者は、操作が少なかったにもかかわらず、すぐに前世代よりも遅いことに気付いた。 多くはより高速に走る古いモデルに回帰した。 そのため、研究者は、探索の目的を算術的な複雑さからレイテンシーに切り替え、より良い性能を持つ新しいモデルの波を作り出した。 パラドックス的には、これらのモデルはより多くの操作も使用した。 研究者や技術者の間では、算術複雑性の関連性に関して懐疑論が高まった。 レイテンシと算術の複雑さは相容れないという一般的な見方とは対照的に、単純な公式は計算効率によって関連付けられる。 この洞察により、レイテンシを決定する別の要因を共同最適化することが可能になりました。 我々は,最も精度の高いconv2d層の縮退を観測した。-複雑度トレードオフは,メモリ資源も大きく,計算効率も低い。 そこで我々は,ブロック融合アルゴリズムを考案し,残余ブロックのすべての層を単一カーネルに実装し,時間的局所性を生成し,通信を回避し,ワークスペースのサイズを小さくする。 ブロック融合カーネルを用いたConvFirstモデルは,ベースラインモデルやカーネルよりも演算複雑性が低く,計算効率も高く,ConvNeXtの約4倍の速さで動作している。 また、効率ギャッププロットやウォーターライン解析など、新しいツールも作成しました。 コンブネット効率に対する我々の統一的なアプローチは、より低コストでより精度の高いモデルとカーネルの新しい時代を思い描いている。

Since the breakthrough performance of AlexNet in 2012, convolutional neural networks (convnets) have grown into extremely powerful vision models. Deep learning researchers have used convnets to perform vision tasks with accuracy that was unachievable a decade ago. Confronted with the immense computation that convnets use, deep learning researchers also became interested in efficiency. However, the engineers who deployed efficient convnets soon realized that they were slower than the previous generation, despite using fewer operations. Many reverted to older models that ran faster. Hence researchers switched the objective of their search from arithmetic complexity to latency and produced a new wave of models that performed better. Paradoxically, these models also used more operations. Skepticism grew among researchers and engineers alike about the relevance of arithmetic complexity. Contrary to the prevailing view that latency and arithmetic complexity are irreconcilable, a simple formula relates both through computational efficiency. This insight enabled us to co-optimize the separate factors that determine latency. We observed that the degenerate conv2d layers that produce the best accuracy--complexity trade-off also use significant memory resources and have low computational efficiency. We devised block fusion algorithms to implement all the layers of a residual block in a single kernel, thereby creating temporal locality, avoiding communication, and reducing workspace size. Our ConvFirst model with block-fusion kernels has less arithmetic complexity and greater computational efficiency than baseline models and kernels, and ran approximately four times as fast as ConvNeXt. We also created novel tools, including efficiency gap plots and waterline analysis. Our unified approach to convnet efficiency envisions a new era of models and kernels that achieve greater accuracy at lower cost.
翻訳日:2024-05-22 18:12:24 公開日:2024-05-21
# 2状態量子系の厳密な人口動態のための新しい位相空間表現法と三角窓関数との関係

A Novel Class of Phase Space Representations for the Exact Population Dynamics of Two-State Quantum Systems and the Relation to Triangle Window Functions ( http://arxiv.org/abs/2404.04868v3 )

ライセンス: Link先を確認
Xiangsong Cheng, Xin He, Jian Liu, (参考訳) 2状態系の同型性は、古典的な相似性を持たない最も単純な最も単純な量子系の力学的あるいは統計的挙動を理解することにヒューリスティックである。 J. Chem で開発された制約位相空間を用いる。 Phys 2016年: 145, 204105; 2019年: 151, 024105, J. Phys。 Chem Lett! 2021, 12, 2496-2501, 非共変位相空間関数, 時間依存重み関数, 時間依存正規化因子は、2状態量子系の正確な人口動態の位相空間表現の新しいクラスを構築する。 制約位相空間上の軌道の運動方程式は、時間依存的なシュリンガー方程式に同型である。 集団力学の積分表現に対する各軌道の寄与は常に正の半定値である。 また、J. Chem のヒューリスティックな経験モデルとして提案されている三角形窓関数のアプローチも証明した。 Phys 2016年、145, 144108は、新しいクラスの特別な場合と関連付けられ、2状態量子系の正確な人口動態の同型表現をもたらす。

Isomorphism of the two-state system is heuristic in understanding the dynamical or statistical behavior of the simplest yet most quantum system that has no classical counterpart. We use the constraint phase space developed in J. Chem. Phys. 2016, 145, 204105; 2019, 151, 024105 and J. Phys. Chem. Lett. 2021, 12, 2496-2501, non-covariant phase space functions, time-dependent weight functions, and time-dependent normalization factors to construct a novel class of phase space representations of the exact population dynamics of the two-state quantum system. The equations of motion of the trajectory on constraint phase space are isomorphic to the time-dependent Schr\"odinger equation. The contribution of each trajectory to the integral expression for the population dynamics is always positive semi-definite. We also prove that the triangle window function approach, albeit proposed as a heuristic empirical model in J. Chem. Phys. 2016, 145, 144108, is related to a special case of the novel class and leads to an isomorphic representation of the exact population dynamics of the two-state quantum system.
翻訳日:2024-05-22 18:02:40 公開日:2024-05-21
# カーネルステイン差分法による最小最適適合性試験

Minimax Optimal Goodness-of-Fit Testing with Kernel Stein Discrepancy ( http://arxiv.org/abs/2404.08278v2 )

ライセンス: Link先を確認
Omar Hagrass, Bharath Sriperumbudur, Krishnakumar Balasubramanian, (参考訳) 我々は、カーネル化されたStein discrepancy (KSD) を用いて、一般領域における適合性テストの極小最適性について検討する。 KSDフレームワークは、適合性テストのための柔軟なアプローチを提供し、強い分布仮定を避け、ユークリッド空間を超えて多様なデータ構造を収容し、計算効率を維持しながら参照分布の部分的知識のみに依存する。 我々は、文献における多くの既存のKSDテストを含む一般フレームワークとKSDの演算論的表現を確立し、ドメインによって異なる。 分離計量として$\chi^2$-divergence を考えると、KSDの特性と限界を明らかにし、その非最適性をある代替空間の下で示し、一般領域上で定義される。 非最適性のこの問題に対処するため、スペクトル正則化器を組み込んだ修正された最小限の最適試験を提案し、標準KSDテストの欠点を克服する。 本研究は,Steinカーネル上での弱いモーメント条件の下で確立され,カーネルベースの仮説テストの解析において,先行研究で要求される境界カーネル仮定を緩和する。 さらに,未知のパラメータに適応することで,対数係数まで最小限の最適性を達成できる適応テストを導入する。 数値実験により, 提案した試験の非正規化試験と比較して, 種々の領域における優れた性能を示す。

We explore the minimax optimality of goodness-of-fit tests on general domains using the kernelized Stein discrepancy (KSD). The KSD framework offers a flexible approach for goodness-of-fit testing, avoiding strong distributional assumptions, accommodating diverse data structures beyond Euclidean spaces, and relying only on partial knowledge of the reference distribution, while maintaining computational efficiency. We establish a general framework and an operator-theoretic representation of the KSD, encompassing many existing KSD tests in the literature, which vary depending on the domain. We reveal the characteristics and limitations of KSD and demonstrate its non-optimality under a certain alternative space, defined over general domains when considering $\chi^2$-divergence as the separation metric. To address this issue of non-optimality, we propose a modified, minimax optimal test by incorporating a spectral regularizer, thereby overcoming the shortcomings of standard KSD tests. Our results are established under a weak moment condition on the Stein kernel, which relaxes the bounded kernel assumption required by prior work in the analysis of kernel-based hypothesis testing. Additionally, we introduce an adaptive test capable of achieving minimax optimality up to a logarithmic factor by adapting to unknown parameters. Through numerical experiments, we illustrate the superior performance of our proposed tests across various domains compared to their unregularized counterparts.
翻訳日:2024-05-22 18:02:40 公開日:2024-05-21
# 大きな言語モデルは間違いから進化し続けることができる

Large Language Model Can Continue Evolving From Mistakes ( http://arxiv.org/abs/2404.08707v3 )

ライセンス: Link先を確認
Haokun Zhao, Haixia Han, Jie Shi, Chengyu Du, Jiaqing Liang, Yanghua Xiao, (参考訳) 世界の知識が進化し、新しいタスクパラダイムが出現するにつれて、Large Language Models (LLM) は知識不足と時代遅れの情報のために、新しい要求を満たすのに不足することが多い。 継続的な学習(CL)はLLMを最新に保つ上で不可欠であり、これらの欠陥に対処する。 しかし、従来のCLアプローチはタスク幅の汎用性とタスク深度の特異性とのバランスをとるのに苦労し、しばしば効率的なデータ収集戦略を欠いているため、モデルの最も重要なニーズに対処することなく、トレーニングコストを増大させる。 学習スキルの「過ちを和らげる」ことにインスパイアされ,CEM(Continuous Evolving from Mistakes)法を提案する。 この反復的アプローチは、LLMを継続的に評価し、誤りに基づいて知識不足を識別し、複数のソースから関連データを収集し、目標とする方法でトレーニングを補完する。 モデルによる補足的知識の利用を強化し,忘れることを防止するため,CPT(Continuousal Pretraining)データとCIT(Continuous instruction tuning)データを統合する3つのデータセット構築戦略を開発した。 CEM法の有効性を実証し, 最良シナリオにおけるLCM精度を最大17%向上させる実験を行った。 さらに、さらなる実験により、CEMと他の破滅的な忘れる緩和戦略を組み合わせる可能性を確認し、多ラウンド反復最適化を可能にした。

As world knowledge evolves and new task paradigms emerge, Large Language Models (LLMs) often fall short of meeting new demands due to knowledge deficiencies and outdated information. Continual Learning (CL) is crucial for keeping LLMs up-to-date and addressing these deficiencies. However, traditional CL approaches struggle to balance task-width generality with task-depth specificity and often lack efficient data collection strategies, leading to increased training costs without addressing the model's most critical needs. Inspired by the `summarizing mistakes' learning skill, we propose the Continue Evolving from Mistakes (CEM) method. This iterative approach continually evaluates LLMs to identify knowledge deficiencies based on their mistakes, collecting relevant data from multiple sources to supplement training in a targeted manner. To enhance the model's utilization of supplemental knowledge and prevent forgetting, we developed three dataset construction strategies that integrate various types of continual pretraining (CPT) data and continual instruction tuning (CIT) data. Extensive experiments demonstrate the efficacy of the CEM method, achieving up to a 17% improvement in LLM accuracy in the best scenarios. Additionally, further experiments confirm the potential of combining CEM with other catastrophic forgetting mitigation strategies, enabling multi-round iterative optimization.
翻訳日:2024-05-22 18:02:40 公開日:2024-05-21
# リアルアライメントのための参照モデルを学ぶ

Learn Your Reference Model for Real Good Alignment ( http://arxiv.org/abs/2404.09656v2 )

ライセンス: Link先を確認
Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov, (参考訳) アライメント問題の複雑さは、既存の手法が不安定であると考えられるという事実に起因している。 Reinforcement Learning from Human Feedback (RLHF)は、トレーニングされたポリシーと初期教師付き微調整ポリシー(SFT)とのKLのばらつきを最小化し、報酬モデル(RM)のドメイン外サンプルの生成を避けることでこの問題に対処する。 近年、オンラインからオフラインへの移行、RLHFの目標の修正、報酬モデル(DPO、IPO、KTO)の削除など、多くの方法が登場している。 報酬モデルとそれがもたらした課題を排除したにもかかわらず、これらのアルゴリズムはSFTに対する訓練されたポリシーの密接さという点で制限されている。 本稿では、オフライン最適化手法におけるこの暗黙の制限が、最適以下の結果をもたらすことを論じる。 そこで本研究では,信頼領域(TR-DPO,TR-IPO,TR-KTO)と呼ばれる新たな手法を提案する。 この簡単な更新アプローチでは、従来の言語モデルアライメントのパラダイムが、Anthropic-HHとReddit TL;DRデータセット上で有効であることを示す。 最も注目すべきは、Reddit TL;DRタスクで事前訓練されたPythia 6.9Bモデルを使ってTRメソッドとベースラインを並べて自動比較する場合、勝利率の違いはDPOが8.4%、IPOが14.3%、KTOが15%に達することである。 最後に,コヒーレンス,正当性,有用性,無害性などの基準に基づくモデル応答の評価により,提案手法が既存手法より有意に優れていることを示す。

The complexity of the alignment problem stems from the fact that existing methods are considered unstable. Reinforcement Learning from Human Feedback (RLHF) addresses this issue by minimizing the KL divergence between the trained policy and the initial supervised fine-tuned policy (SFT) to avoid generating out-of-domain samples for the reward model (RM). Recently, many methods have emerged that shift from online to offline optimization, reformulating the RLHF objective and removing the reward model (DPO, IPO, KTO). Despite eliminating the reward model and the challenges it posed, these algorithms are still constrained in terms of closeness of the trained policy to the SFT one. In our paper, we argue that this implicit limitation in the offline optimization methods leads to suboptimal results. To address this issue, we propose a class of new methods called Trust Region (TR-DPO, TR-IPO, TR-KTO), which update the reference policy during training. With this straightforward update approach, we demonstrate the effectiveness of the new paradigm of language model alignment against the classical one on the Anthropic-HH and Reddit TL;DR datasets. Most notably, when automatically comparing TR methods and baselines side by side using pretrained Pythia 6.9B models on the Reddit TL;DR task, the difference in win rates reaches 8.4% for DPO, 14.3% for IPO, and 15% for KTO. Finally, by assessing model response ratings grounded on criteria such as coherence, correctness, helpfulness, and harmlessness, we demonstrate that our proposed methods significantly outperform existing techniques.
翻訳日:2024-05-22 18:02:40 公開日:2024-05-21
# LetsGo: LiDAR支援型ガウスプリミティブによる大規模ガベージモデリングとレンダリング

LetsGo: Large-Scale Garage Modeling and Rendering via LiDAR-Assisted Gaussian Primitives ( http://arxiv.org/abs/2404.09748v2 )

ライセンス: Link先を確認
Jiadi Cui, Junming Cao, Fuqiang Zhao, Zhipeng He, Yifan Chen, Yuhui Zhong, Lan Xu, Yujiao Shi, Yingliang Zhang, Jingyi Yu, (参考訳) 大きなガレージは、単調な色、繰り返しパターン、反射面、透明な車両ガラスなど、ユニークな課題を生んでいる。 カメラポーズ推定のための従来のSfM(Strucical Structure from Motion)手法は、通信構造が貧弱なため、これらの環境では失敗することが多い。 これらの課題に対処するため、大規模ガレージモデリングとレンダリングのためのLiDAR支援ガウススプレイティングフレームワークであるLetsGoを紹介した。 我々は,IMU,LiDAR,魚眼カメラを備えたハンドヘルドスキャナPolarを開発し,正確なデータ取得を容易にする。 このPolarデバイスを用いて、GarageWorldデータセットを提示する。このデータセットは、様々な幾何学構造を持つ8つの拡張ガレージシーンで構成されており、さらなる研究のために公開される予定である。 提案手法により,Polaデバイスで収集したLiDAR点群は,ガレージシーンのモデリングとレンダリングのための3次元ガウススプラッティングアルゴリズムのスイートを大幅に強化することを示した。 レンダリング画像中の浮動小片を効果的に除去する新しい深度正規化器を提案する。 さらに,レベル・オブ・ディテール(LOD)レンダリング用に設計された多次元ガウス表現を提案する。 これには、個々のレベルに対する適応的なスケーリング要因と、異なる解像度でガウスを最適化するランダム解像度レベルのトレーニングスキームが含まれる。 この表現は、Webベースのレンダラーを介して、軽量デバイス上で大規模なガレージシーンの効率的なレンダリングを可能にする。 GarageWorldデータセットとScanNet++とKITTI-360での実験結果から,レンダリング品質と資源効率の点で,本手法の優位性を実証した。

Large garages are ubiquitous yet intricate scenes that present unique challenges due to their monotonous colors, repetitive patterns, reflective surfaces, and transparent vehicle glass. Conventional Structure from Motion (SfM) methods for camera pose estimation and 3D reconstruction often fail in these environments due to poor correspondence construction. To address these challenges, we introduce LetsGo, a LiDAR-assisted Gaussian splatting framework for large-scale garage modeling and rendering. We develop a handheld scanner, Polar, equipped with IMU, LiDAR, and a fisheye camera, to facilitate accurate data acquisition. Using this Polar device, we present the GarageWorld dataset, consisting of eight expansive garage scenes with diverse geometric structures, which will be made publicly available for further research. Our approach demonstrates that LiDAR point clouds collected by the Polar device significantly enhance a suite of 3D Gaussian splatting algorithms for garage scene modeling and rendering. We introduce a novel depth regularizer that effectively eliminates floating artifacts in rendered images. Additionally, we propose a multi-resolution 3D Gaussian representation designed for Level-of-Detail (LOD) rendering. This includes adapted scaling factors for individual levels and a random-resolution-level training scheme to optimize the Gaussians across different resolutions. This representation enables efficient rendering of large-scale garage scenes on lightweight devices via a web-based renderer. Experimental results on our GarageWorld dataset, as well as on ScanNet++ and KITTI-360, demonstrate the superiority of our method in terms of rendering quality and resource efficiency.
翻訳日:2024-05-22 18:02:40 公開日:2024-05-21
# 量子ジャンプの理論

A Theory of Quantum Jumps ( http://arxiv.org/abs/2404.10460v3 )

ライセンス: Link先を確認
Jürg Fröhlich, Zhou Gang, Alessandro Pizzo, (参考訳) ETHの原理(量子力学へのアプローチ)を用いて、量子化された電磁場に結合した原子の理想化されたモデルにおける蛍光と「量子ジャンプ」現象を研究する。 原子の軌道運動が無視され光の速度が無限大になる制限状態において、個々の原子の状態の有効時間進化を記述する明示的な非線形確率微分方程式を導出する。 これらの方程式は、ブラウン運動のウィナー測度の量子力学的類似である量子ジャンプを持つ状態軌道の測度をもたらす。 この結果は、いくつかの単純なモデルの文脈における基本原理から、顕微鏡システムの量子力学的記述における基本ランダム性の導出に関係している。

Using the principles of the ETH - Approach to Quantum Mechanics we study fluorescence and the phenomenon of ``quantum jumps'' in idealized models of atoms coupled to the quantized electromagnetic field. In a limiting regime where the orbital motion of the atoms is neglected and the velocity of light tends to infinity we derive explicit non-linear stochastic differential equations describing the effective time evolution of states of individual atoms. These equations give rise to a measure on state-trajectories with quantum jumps which is a quantum-mechanical analogue of the Wiener measure of Brownian motion. Our results amount to a derivation of the fundamental randomness in the quantum-mechanical description of microscopic systems from basic principles in the context of some simple models.
翻訳日:2024-05-22 18:02:40 公開日:2024-05-21
# アクティブ量子蒸留

Active Quantum Distillation ( http://arxiv.org/abs/2404.11175v2 )

ライセンス: Link先を確認
Muchun Yang, D. L. Zhou, (参考訳) 量子蒸留は、コヒーレント系力学によってサブシステムのフォン・ノイマンエントロピーを減少させる現代の技術である。 本稿では,フォン・ノイマンのエントロピーを極力低くしたサブシステムを得るために,バンバンのテーマを用いてシステムのコヒーレントダイナミクスを積極的に制御する能動的量子蒸留プロトコルを提案する。 双分割ボソニック系に対しては、粒子の保存を伴う任意のユニタリ変換の下で、サブシステムのエントロピーの低い境界の解析的表現を導出する。 下界はボース・ハッバードモデル上の数値シミュレーションによって検証され、そこではコヒーレント進化はハミルトニアンの1つの相互作用項をチューニングすることによって制御される。 我々のプロトコルは、全二部類状態よりも低い1つのサブシステムのエントロピーを減少させ、ボソンの数を増やしたり、サブシステム内のボソンを蒸留するだけに利用できる。

Quantum distillation is a modern technology to decrease the von Neumann entropy of a subsystem by coherent system dynamics. Here we propose an active quantum distillation protocol, in which a bang-bang theme is applied to actively control the coherent dynamics of our system in order to obtain a subsystem with the von Neumann entropy as low as possible. For a bipartite Bosonic system, we derive the analytical expression of lower bound of the entropy of subsystem under any unitary transformation with conservation of particles. The lower bound is validated by numerical simulations on the Bose-Hubbard model, where the coherent evolution is controlled by tuning one interaction term of the Hamiltonian. Our protocol can be used to decrease the entropy of one subsystem lower than the total bipartite state and increase the number of Bosons or only distill out very few Bosons in the subsystem.
翻訳日:2024-05-22 18:02:40 公開日:2024-05-21
# 視覚的質問応答における様々な方法の探索

Exploring Diverse Methods in Visual Question Answering ( http://arxiv.org/abs/2404.13565v2 )

ライセンス: Link先を確認
Panfeng Li, Qikai Yang, Xieming Geng, Wenjing Zhou, Zhicheng Ding, Yi Nian, (参考訳) 本研究では,GAN(Generative Adversarial Networks),オートエンコーダ,アテンション機構を用いた視覚質問応答(VQA)の改善手法について検討する。 バランスの取れたVQAデータセットを利用して、3つの異なる戦略を調査する。 第一に、GANベースのアプローチは、イメージと質問入力に条件付き回答の埋め込みを生成することを目的としており、より複雑なタスクに苦労する可能性を示している。 第二に、オートエンコーダに基づく技術は、質問や画像の最適な埋め込みを学習することに集中し、複雑な質問に対するより良い能力のために、GANと同等の結果を得る。 最後に、マルチモーダルコンパクトバイリニアプーリング(MCB)、アドレス言語先行とアテンションモデリングを組み込んだアテンションメカニズムが、複雑性とパフォーマンスのトレードオフとともに実現されている。 本研究は、VQAにおける課題と機会を浮き彫りにして、代替的なGANの定式化や注意機構など、今後の研究の道筋を提案する。

This study explores innovative methods for improving Visual Question Answering (VQA) using Generative Adversarial Networks (GANs), autoencoders, and attention mechanisms. Leveraging a balanced VQA dataset, we investigate three distinct strategies. Firstly, GAN-based approaches aim to generate answer embeddings conditioned on image and question inputs, showing potential but struggling with more complex tasks. Secondly, autoencoder-based techniques focus on learning optimal embeddings for questions and images, achieving comparable results with GAN due to better ability on complex questions. Lastly, attention mechanisms, incorporating Multimodal Compact Bilinear pooling (MCB), address language priors and attention modeling, albeit with a complexity-performance trade-off. This study underscores the challenges and opportunities in VQA and suggests avenues for future research, including alternative GAN formulations and attentional mechanisms.
翻訳日:2024-05-22 18:02:40 公開日:2024-05-21
# 相互情報を用いた自己監督的アライメント:優先ラベルなしで原則に従うことを学ぶ

Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels ( http://arxiv.org/abs/2404.14313v2 )

ライセンス: Link先を確認
Jan-Philipp Fränken, Eric Zelikman, Rafael Rafailov, Kanishk Gandhi, Tobias Gerstenberg, Noah D. Goodman, (参考訳) 言語モデル(LM)を促す場合、ユーザは、有害な言語や偏見のある言語を避けながら、洞察力のあるコンテンツを生成するなど、さまざまなタスクにわたる行動原則のセットに従うことをしばしば期待する。 このような原則(すなわち、構成)をモデルに組み込むことは、資源集約的で技術的に困難であり、一般に人間の好みラベルや例を必要とする。 SAMIは事前訓練された言語モデル(好みラベルやデモを必要とせずに)を微調整し、データセットから与えられたクエリと自己生成応答の条件付き相互情報を増大させる反復アルゴリズムである。 シングルターンダイアログと要約では、SAMI訓練ミストラル7bが66%から77%の勝利率で最初の事前学習モデルを上回っている。 厳密に言えば、シングルターンダイアログで55%から57%の勝利率で、命令を微調整したベースライン(mistral-7b-instruct)を上回ります。 SAMIには原則を書くモデルが必要です。 原理を書くための強いモデルへの依存を避けるため、弱い命令精細モデル(mistral-7b-instruct)によって書かれた構成を用いて、強い事前訓練されたモデル(mixtral-8x7b)を整列し、要約において65%の勝利率を達成する。 最後に,SAMIが多種多様な要約原理(例えば,「サマリーは科学的である」)に一般化し,より強力なモデル(ラマ3-70b)にスケールし,学習で最大68%,基本モデルと比較して保留原理で最大67%の勝利率を達成することを確かめる。 この結果から,事前学習したLMは,好みラベルやデモ,人間の監視を使わずに,構成に従うことができることがわかった。

When prompting a language model (LM), users often expect the model to adhere to a set of behavioral principles across diverse tasks, such as producing insightful content while avoiding harmful or biased language. Instilling such principles (i.e., a constitution) into a model is resource-intensive, technically challenging, and generally requires human preference labels or examples. We introduce SAMI, an iterative algorithm that finetunes a pretrained language model (without requiring preference labels or demonstrations) to increase the conditional mutual information between constitutions and self-generated responses given queries from a dataset. On single-turn dialogue and summarization, a SAMI-trained mistral-7b outperforms the initial pretrained model, with win rates between 66% and 77%. Strikingly, it also surpasses an instruction-finetuned baseline (mistral-7b-instruct) with win rates between 55% and 57% on single-turn dialogue. SAMI requires a model that writes the principles. To avoid dependence on strong models for writing principles, we align a strong pretrained model (mixtral-8x7b) using constitutions written by a weak instruction-finetuned model (mistral-7b-instruct), achieving a 65% win rate on summarization. Finally, we investigate whether SAMI generalizes to diverse summarization principles (e.g., "summaries should be scientific") and scales to stronger models (llama3-70b), finding that it achieves win rates of up to 68% for learned and 67% for held-out principles compared to the base model. Our results show that a pretrained LM can learn to follow constitutions without using preference labels, demonstrations, or human oversight.
翻訳日:2024-05-22 18:02:40 公開日:2024-05-21
# 時間に適応する:なぜ自然は多様なニューロン群を進化させたのか

Adapting to time: why nature evolved a diverse set of neurons ( http://arxiv.org/abs/2404.14325v2 )

ライセンス: Link先を確認
Karim G. Habashy, Benjamin D. Evans, Dan F. M. Goodman, Jeffrey S. Bowers, (参考訳) 脳は、時間情報の処理に影響を及ぼす様々な形態、生理的特性、豊かなダイナミクスを持つ多様なニューロン群を進化させてきた。 対照的に、ほとんどのニューラルネットワークモデルは、空間的パラメータ(重みと偏り)の点でのみ異なる均一な単位の集合を含んでいる。 神経機能に対する時間的パラメータの重要性を調べるために,パラメータのサブセットが一定に保たれた時間的複雑性のタスクに対して,スパイクニューラルネットワークを訓練した。 厳密なリソース制約のある環境では、全てのテスト条件を解くために導電遅延を適用することが不可欠であり、実際、重みを一定に保った時間パラメータ(遅延と時間定数)のみを用いてこれらのタスクを解くことができる。 私たちが研究した最も複雑な時空間的タスクでは、適応可能なバーストパラメータが不可欠であることが分かりました。 より一般的には、時間的パラメータと空間的パラメータの両方を適応させることは、生物学的脳とニューロモルフィックコンピューティングシステムの両方にとって重要な特徴であるノイズに対するネットワークロバスト性を高める。 まとめると、我々の研究は、ニューラルネットワークのコストが低くて時間的に構造化されたタスクを解く上で、リッチで適応可能なダイナミクスがいかに重要であるかを強調した。

Brains have evolved a diverse set of neurons with varying morphologies, physiological properties and rich dynamics that impact their processing of temporal information. By contrast, most neural network models include a homogeneous set of units that only vary in terms of their spatial parameters (weights and biases). To investigate the importance of temporal parameters to neural function, we trained spiking neural networks on tasks of varying temporal complexity, with different subsets of parameters held constant. We find that in a tightly resource constrained setting, adapting conduction delays is essential to solve all test conditions, and indeed that it is possible to solve these tasks using only temporal parameters (delays and time constants) with weights held constant. In the most complex spatio-temporal task we studied, we found that an adaptable bursting parameter was essential. More generally, allowing for adaptation of both temporal and spatial parameters increases network robustness to noise, an important feature for both biological brains and neuromorphic computing systems. In summary, our findings highlight how rich and adaptable dynamics are key to solving temporally structured tasks at a low neural resource cost, which may be part of the reason why biological neurons vary so dramatically in their physiological properties.
翻訳日:2024-05-22 18:02:40 公開日:2024-05-21
# Web開発におけるLLM: LLM生成PHPコードの評価と脆弱性と制限

LLMs in Web Development: Evaluating LLM-Generated PHP Code Unveiling Vulnerabilities and Limitations ( http://arxiv.org/abs/2404.14459v2 )

ライセンス: Link先を確認
Rebeka Tóth, Tamas Bisztray, László Erdodi, (参考訳) 本研究では,大規模言語モデルが生成するWebアプリケーションのセキュリティを評価し,2500 GPT-4生成PHP Webサイトを分析した。 これらはDockerコンテナにデプロイされ、Burp Suiteのアクティブスキャン、静的解析、手動によるレビューのハイブリッドアプローチを使用して、脆弱性のテストが行われた。 我々は,GPT-4の生成したPHPコードにセキュアファイルのアップロード,SQLインジェクション,ストアドXSS,リフレクションXSSを識別することに焦点を当てた。 この分析は、潜在的なセキュリティリスクと、そのようなコードを現実世界のシナリオにデプロイすることの意味を強調している。 分析の結果、脆弱なパラメータが2,440個見つかった。 Burp's Scanによると、サイトの11.56%はすぐに妥協できる。 静的スキャンの結果が加わったため、26%はWebインタラクションを通じて悪用できる脆弱性を少なくとも1つ持っていた。 ファイルアップロード機能のような特定のコーディングシナリオは、その時間の78%が安全ではないため、ソフトウェアの安全性とセキュリティに対する重大なリスクが強調されている。 さらなる研究を支援するため、ソースコードと各サンプルの詳細な脆弱性記録を公開しました。 この研究は、生成型AI技術がソフトウェア開発に使用される場合、徹底的なテストと評価の必要性を強調している。

This study evaluates the security of web application code generated by Large Language Models, analyzing 2,500 GPT-4 generated PHP websites. These were deployed in Docker containers and tested for vulnerabilities using a hybrid approach of Burp Suite active scanning, static analysis, and manual review. Our investigation focuses on identifying Insecure File Upload, SQL Injection, Stored XSS, and Reflected XSS in GPT-4 generated PHP code. This analysis highlights potential security risks and the implications of deploying such code in real-world scenarios. Overall, our analysis found 2,440 vulnerable parameters. According to Burp's Scan, 11.56% of the sites can be straight out compromised. Adding static scan results, 26% had at least one vulnerability that can be exploited through web interaction. Certain coding scenarios, like file upload functionality, are insecure 78% of the time, underscoring significant risks to software safety and security. To support further research, we have made the source codes and a detailed vulnerability record for each sample publicly available. This study emphasizes the crucial need for thorough testing and evaluation if generative AI technologies are used in software development.
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# ピーク回路サンプリングによる検証可能な量子優位性について

On verifiable quantum advantage with peaked circuit sampling ( http://arxiv.org/abs/2404.14493v2 )

ライセンス: Link先を確認
Scott Aaronson, Yuxuan Zhang, (参考訳) 提案から10年以上、量子コンピュータを使ってハードディストリビューションをサンプリングするというアイデアは、量子の優位性を示す重要な道のりを歩み続けている。 検証には、システムサイズで古典的な計算指数、$n$が必要と思われる。 この難しさを克服するために、我々はランダムな「ピーク回路」、すなわち計算ベース状態に高濃度の出力を持つ量子回路を用いた量子優位実験の新たな候補を提案する。 当然、重出力文字列は古典的な検証に使用できる。 本研究では,ピーク回路の明示的モデルについて解析的,数値的に検討し,一様ランダムゲートの$\tau_r$層を最大化に最適化した$\tau_p$層で拡張する。 そのような回路から1/\text{poly}(n)$のピーク値を得るには、圧倒的な確率で$\tau_{p} = \Omega((\tau_r/n)^{0.19})$が必要である。 しかし、このモデルでは非自明なピーク性も可能であり、指数関数的に量子ビットの数で崩壊するが、ランダム量子回路の出力がハールランダム状態として扱われる近似によって説明できる以上のものが存在する。 このことは、これらのピーク回路が将来の検証可能な量子優位実験の可能性を示唆している。 我々の研究は、ランダムピーク回路を効率的に生成する方法や、古典多項式時間における完全ランダム回路と区別できるかどうかなど、多くのオープンな疑問を提起する。

Over a decade after its proposal, the idea of using quantum computers to sample hard distributions has remained a key path to demonstrating quantum advantage. Yet a severe drawback remains: verification seems to require classical computation exponential in the system size, $n$. As an attempt to overcome this difficulty, we propose a new candidate for quantum advantage experiments with otherwise random "peaked circuits", i.e., quantum circuits whose outputs have high concentrations on a computational basis state. Naturally, the heavy output string can be used for classical verification. In this work, we analytically and numerically study an explicit model of peaked circuits, in which $\tau_r$ layers of uniformly random gates are augmented by $\tau_p$ layers of gates that are optimized to maximize peakedness. We show that getting $1/\text{poly}(n)$ peakedness from such circuits requires $\tau_{p} = \Omega((\tau_r/n)^{0.19})$ with overwhelming probability. However, we also give numerical evidence that nontrivial peakedness is possible in this model -- decaying exponentially with the number of qubits, but more than can be explained by any approximation where the output of a random quantum circuit is treated as a Haar-random state. This suggests that these peaked circuits have the potential for future verifiable quantum advantage experiments. Our work raises numerous open questions about random peaked circuits, including how to generate them efficiently, and whether they can be distinguished from fully random circuits in classical polynomial time.
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# コード生成を超えて - ソフトウェアエンジニアリングの実践におけるChatGPT利用の観察的研究

Beyond Code Generation: An Observational Study of ChatGPT Usage in Software Engineering Practice ( http://arxiv.org/abs/2404.14901v2 )

ライセンス: Link先を確認
Ranim Khojah, Mazen Mohamad, Philipp Leitner, Francisco Gomes de Oliveira Neto, (参考訳) 大規模言語モデル(LLM)は、ソフトウェア工学を含むテキスト生成に依存した事実上あらゆるユースケースのサポートツールとして、学術や一般において頻繁に議論されている。 現在、業界エンジニア向けのChatGPTのようなLLMベースのツールの実用性について、多くの議論があるが、実証的な証拠はほとんどない。 我々は、ChatGPTを仕事で1週間使用した24人のプロソフトウェアエンジニアの観察研究を行い、チャットボットとの対話や全体的な経験(出口調査で捉えたように)を質的に分析する。 ChatGPTが使えるソフトウェアアーティファクト(例えばコード)を生成することを期待してはいないが、実践者はChatGPTを使ってタスクの解決方法やトピックについてより抽象的な言葉で学ぶことが多い。 理論的枠組みも提案する。 i) 相互作用の目的, (ii)内部要因(例えば、利用者の性格)、 三 外部要因(例:企業方針)を合わせて経験(有用性及び信頼の面で)を形成すること。 我々は,我々のフレームワークを将来の研究で活用して,ソフトウェア工学の実践者によるLLM利用に関する学術的な議論をさらに進めるとともに,この領域における将来の実証的なLLM研究の設計の基準点として機能することを期待している。

Large Language Models (LLMs) are frequently discussed in academia and the general public as support tools for virtually any use case that relies on the production of text, including software engineering. Currently there is much debate, but little empirical evidence, regarding the practical usefulness of LLM-based tools such as ChatGPT for engineers in industry. We conduct an observational study of 24 professional software engineers who have been using ChatGPT over a period of one week in their jobs, and qualitatively analyse their dialogues with the chatbot as well as their overall experience (as captured by an exit survey). We find that, rather than expecting ChatGPT to generate ready-to-use software artifacts (e.g., code), practitioners more often use ChatGPT to receive guidance on how to solve their tasks or learn about a topic in more abstract terms. We also propose a theoretical framework for how (i) purpose of the interaction, (ii) internal factors (e.g., the user's personality), and (iii) external factors (e.g., company policy) together shape the experience (in terms of perceived usefulness and trust). We envision that our framework can be used by future research to further the academic discussion on LLM usage by software engineering practitioners, and to serve as a reference point for the design of future empirical LLM research in this domain.
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# LLMの不確かさ推定と定量化: 簡単な監視手法

Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach ( http://arxiv.org/abs/2404.15993v2 )

ライセンス: Link先を確認
Linyu Liu, Yu Pan, Xiaocheng Li, Guanting Chen, (参考訳) 本稿では,LLMにおける不確実性推定と校正の問題について検討する。 まず LLM の不確実性推定問題を定式化し,ラベル付きデータセットを利用して LLM の応答の不確かさを推定する教師付きアプローチを提案する。 定式化に基づいて,LLM の不確実性推定と標準ML モデルとの差を説明し,LLM の隠れニューロンが不確実性情報を含んでいる理由を説明する。 提案手法は, 各種タスク間の不確実性評価を高めるために隠れアクティベーションを利用する利点を示し, アウト・オブ・ディストリビューション・セッティングにおけるロバストな転送可能性を示す。 我々は不確実性推定タスクを不確実性校正タスクと区別し、より良い不確実性推定モードがより良い校正性能をもたらすことを示す。 さらに,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。

In this paper, we study the problem of uncertainty estimation and calibration for LLMs. We first formulate the uncertainty estimation problem for LLMs and then propose a supervised approach that takes advantage of the labeled datasets and estimates the uncertainty of the LLMs' responses. Based on the formulation, we illustrate the difference between the uncertainty estimation for LLMs and that for standard ML models and explain why the hidden neurons of the LLMs may contain uncertainty information. Our designed approach demonstrates the benefits of utilizing hidden activations to enhance uncertainty estimation across various tasks and shows robust transferability in out-of-distribution settings. We distinguish the uncertainty estimation task from the uncertainty calibration task and show that a better uncertainty estimation mode leads to a better calibration performance. Furthermore, our method is easy to implement and adaptable to different levels of model accessibility including black box, grey box, and white box.
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# RetinaRegNet:網膜画像登録のためのVersatileアプローチ

RetinaRegNet: A Versatile Approach for Retinal Image Registration ( http://arxiv.org/abs/2404.16017v2 )

ライセンス: Link先を確認
Vishal Balaji Sivaraman, Muhammad Imran, Qingyue Wei, Preethika Muralidharan, Michelle R. Tamplin, Isabella M . Grumbach, Randy H. Kardon, Jui-Kai Wang, Yuyin Zhou, Wei Shao, (参考訳) 本稿では,網膜画像登録タスクにおける最先端性能を実現するRetinaRegNetモデルを提案する。 RetinaRegNetは網膜画像のトレーニングを必要としない。 拡散モデルから派生した画像特徴を用いて、2つの網膜画像間の点対応を確立することから始まる。 このプロセスでは、SIFTアルゴリズムとランダム点サンプリングを併用して、移動画像から特徴点を選択する。 各選択された特徴点について、その点における特徴ベクトルと固定画像中の全ての画素の特徴ベクトルとの類似性を評価することにより、2D相関マップを算出する。 相関マップにおける最も類似度の高い画素は、移動画像の特徴点に対応する。 推定点対応における外れ値を取り除くために、まず逆整合制約を適用し、次に変換に基づく外れ値検出器を適用した。 この手法は、広く使われているランダムサンプルコンセンサス(RANSAC)のアウリア検出器をかなりの差で上回った。 大きな変形に対処するために、我々は2段階の画像登録フレームワークを利用した。 第1段階ではホモグラフィ変換を用い,第2段階ではより正確な3階多項式変換を用いた。 このモデルの有効性は、カラーファンドス画像、フルオレセイン血管造影画像、レーザースペックルフロー画像の3つの網膜画像データセットで実証された。 RetinaRegNetは、現在の最先端メソッドを3つのデータセットすべてで上回った。 特に画像対を大きな変位とスケール変形で登録するのに有効であった。 この革新は網膜画像解析における様々な応用を約束する。 私たちのコードはhttps://github.com/mirthAI/RetinaRegNetで公開されています。

We introduce the RetinaRegNet model, which can achieve state-of-the-art performance across various retinal image registration tasks. RetinaRegNet does not require training on any retinal images. It begins by establishing point correspondences between two retinal images using image features derived from diffusion models. This process involves the selection of feature points from the moving image using the SIFT algorithm alongside random point sampling. For each selected feature point, a 2D correlation map is computed by assessing the similarity between the feature vector at that point and the feature vectors of all pixels in the fixed image. The pixel with the highest similarity score in the correlation map corresponds to the feature point in the moving image. To remove outliers in the estimated point correspondences, we first applied an inverse consistency constraint, followed by a transformation-based outlier detector. This method proved to outperform the widely used random sample consensus (RANSAC) outlier detector by a significant margin. To handle large deformations, we utilized a two-stage image registration framework. A homography transformation was used in the first stage and a more accurate third-order polynomial transformation was used in the second stage. The model's effectiveness was demonstrated across three retinal image datasets: color fundus images, fluorescein angiography images, and laser speckle flowgraphy images. RetinaRegNet outperformed current state-of-the-art methods in all three datasets. It was especially effective for registering image pairs with large displacement and scaling deformations. This innovation holds promise for various applications in retinal image analysis. Our code is publicly available at https://github.com/mirthAI/RetinaRegNet .
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# 屋外教師なし3次元物体検出のためのコモンセンスプロトタイプ

Commonsense Prototype for Outdoor Unsupervised 3D Object Detection ( http://arxiv.org/abs/2404.16493v2 )

ライセンス: Link先を確認
Hai Wu, Shijia Zhao, Xun Huang, Chenglu Wen, Xin Li, Cheng Wang, (参考訳) 教師なし3次元オブジェクト検出の一般的なアプローチは、クラスタベースの擬似ラベル生成と反復的自己学習プロセスに従う。 しかし、この課題はLiDARスキャンのばらつきによって発生し、誤った大きさと位置の擬似ラベルが発生し、サブパー検出性能が低下する。 そこで本研究では,非教師付き3次元物体検出のためのCommonsense Prototype-based Detector(CDD)を提案する。 CPDは、コモンセンス直観に基づいて、高品質なバウンディングボックスと高密度点を特徴とするコモンセンスプロトタイプ(CProto)を最初に構築する。 その後、CPDはCProtoの前のサイズを利用して低品質の擬似ラベルを洗練する。 さらに、CPDは、CProtoからの幾何学的知識により、スパーススキャン対象の検出精度を高める。 CPDは、Waymo Open Dataset(WOD)、PandaSet、KITTIのデータセット上で、最先端の教師なし3D検出器を大きなマージンで上回る。 さらに、CPDをWODでトレーニングし、KITTIでテストすることで、CPDは90.85%と81.01%の3D平均精度を、それぞれ緩やかな車種と中程度の車種で達成できる。 これらの成果は完全教師付き検出器に近づき,本手法の意義を浮き彫りにした。 コードはhttps://github.com/hailanyi/CPD.comで入手できる。

The prevalent approaches of unsupervised 3D object detection follow cluster-based pseudo-label generation and iterative self-training processes. However, the challenge arises due to the sparsity of LiDAR scans, which leads to pseudo-labels with erroneous size and position, resulting in subpar detection performance. To tackle this problem, this paper introduces a Commonsense Prototype-based Detector, termed CPD, for unsupervised 3D object detection. CPD first constructs Commonsense Prototype (CProto) characterized by high-quality bounding box and dense points, based on commonsense intuition. Subsequently, CPD refines the low-quality pseudo-labels by leveraging the size prior from CProto. Furthermore, CPD enhances the detection accuracy of sparsely scanned objects by the geometric knowledge from CProto. CPD outperforms state-of-the-art unsupervised 3D detectors on Waymo Open Dataset (WOD), PandaSet, and KITTI datasets by a large margin. Besides, by training CPD on WOD and testing on KITTI, CPD attains 90.85% and 81.01% 3D Average Precision on easy and moderate car classes, respectively. These achievements position CPD in close proximity to fully supervised detectors, highlighting the significance of our method. The code will be available at https://github.com/hailanyi/CPD.
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# RSCaMa:状態空間モデルによるリモートセンシング画像変更キャプション

RSCaMa: Remote Sensing Image Change Captioning with State Space Model ( http://arxiv.org/abs/2404.18895v3 )

ライセンス: Link先を確認
Chenyang Liu, Keyan Chen, Bowen Chen, Haotian Zhang, Zhengxia Zou, Zhenwei Shi, (参考訳) Remote Sensing Image Change Captioning (RSICC) は、変更対象のカテゴリ、位置、変化対象のダイナミックス(例えば、追加または削除)を含む、言語における多時間リモートセンシングイメージ間の表面的変化を記述することを目的としている。 これは、時間的特徴の空間的および時間的モデリングに挑戦する。 従来の手法では空間変化の知覚が進んでいたが, 共同空間時間モデルでは依然として弱点が残っている。 そこで本稿では,複数のCaMa層を通した効率的な結合時空間モデリングを実現する新しいRSCaMaモデルを提案する。 空間の効率的なモデリングを実現するため,大域的受容場と線形複雑度を持つ最近流行のMamba(状態空間モデル)をRSICCタスクに導入し,従来のCNNおよびTransformerベースの手法の制約を克服した空間差認識SSM(SD-SSM)を提案する。 SD-SSMは、空間変化を鋭くキャプチャするモデルの能力を高める。 効率的な時間的モデリングでは,マンバの時間的走査特性とRSICCの時間的特性の相関を考慮し,時間的相互に時間的特徴を走査し,時間的理解と情報相互作用を高めるための時間的トラバースSSM(TT-SSM)を提案する。 RSICC タスクにおける RSCaMa の優れた性能と Mamba の可能性について実験により検証した。 さらに,Mamba,GPTスタイルデコーダ,Transformerデコーダの3つの異なる言語デコーダを体系的に比較し,将来のRSICC研究に有用な洞察を提供する。 コードは \emph{\url{https://github.com/Chen-Yang-Liu/RSCaMa}} で入手できる。

Remote Sensing Image Change Captioning (RSICC) aims to describe surface changes between multi-temporal remote sensing images in language, including the changed object categories, locations, and dynamics of changing objects (e.g., added or disappeared). This poses challenges to spatial and temporal modeling of bi-temporal features. Despite previous methods progressing in the spatial change perception, there are still weaknesses in joint spatial-temporal modeling. To address this, in this paper, we propose a novel RSCaMa model, which achieves efficient joint spatial-temporal modeling through multiple CaMa layers, enabling iterative refinement of bi-temporal features. To achieve efficient spatial modeling, we introduce the recently popular Mamba (a state space model) with a global receptive field and linear complexity into the RSICC task and propose the Spatial Difference-aware SSM (SD-SSM), overcoming limitations of previous CNN- and Transformer-based methods in the receptive field and computational complexity. SD-SSM enhances the model's ability to capture spatial changes sharply. In terms of efficient temporal modeling, considering the potential correlation between the temporal scanning characteristics of Mamba and the temporality of the RSICC, we propose the Temporal-Traversing SSM (TT-SSM), which scans bi-temporal features in a temporal cross-wise manner, enhancing the model's temporal understanding and information interaction. Experiments validate the effectiveness of the efficient joint spatial-temporal modeling and demonstrate the outstanding performance of RSCaMa and the potential of the Mamba in the RSICC task. Additionally, we systematically compare three different language decoders, including Mamba, GPT-style decoder, and Transformer decoder, providing valuable insights for future RSICC research. The code will be available at \emph{\url{https://github.com/Chen-Yang-Liu/RSCaMa}}
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# 任意非線形性を持つベイズニューラルネットワークのわずかなサンプル変動推定

Few-sample Variational Inference of Bayesian Neural Networks with Arbitrary Nonlinearities ( http://arxiv.org/abs/2405.02063v2 )

ライセンス: Link先を確認
David J. Schodt, (参考訳) ベイズニューラルネットワーク(BNN)は、従来のニューラルネットワークを拡張して、出力に関連する不確実性を提供する。 BNNの前方通過では、モンテカルロが学習後部のネットワーク重みをサンプリングするか、あるいはネットワークを介して統計モーメントを解析的に伝播することによって予測(とその不確実性)を行う。 フレキシブルではあるが、モンテカルロサンプリングは計算コストが高く、資源制約や大規模ネットワークでは実現不可能または実用的ではない。 モーメント伝搬はBNN推論の計算コストを改善することができるが、任意の非線形性を持つネットワークでは困難あるいは不可能であり、そのようなスキームで許容されるネットワーク層のセットを制限することができる。 本研究は, 任意の非線形性による統計モーメントの伝播を, 3つの決定論的サンプルのみを用いて簡易かつ効果的に行うことを示し, ネットワーク層に制限を加えることなく, 少数のBNNの変分推定を可能にする。 さらに,本手法を用いて,BNNの出力ノードに物理インフォームド事前情報を注入する非線形アクティベーション機能を示す。

Bayesian Neural Networks (BNNs) extend traditional neural networks to provide uncertainties associated with their outputs. On the forward pass through a BNN, predictions (and their uncertainties) are made either by Monte Carlo sampling network weights from the learned posterior or by analytically propagating statistical moments through the network. Though flexible, Monte Carlo sampling is computationally expensive and can be infeasible or impractical under resource constraints or for large networks. While moment propagation can ameliorate the computational costs of BNN inference, it can be difficult or impossible for networks with arbitrary nonlinearities, thereby restricting the possible set of network layers permitted with such a scheme. In this work, we demonstrate a simple yet effective approach for propagating statistical moments through arbitrary nonlinearities with only 3 deterministic samples, enabling few-sample variational inference of BNNs without restricting the set of network layers used. Furthermore, we leverage this approach to demonstrate a novel nonlinear activation function that we use to inject physics-informed prior information into output nodes of a BNN.
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# ラベルノイズに対するロバストな等角予測スコア

A Conformal Prediction Score that is Robust to Label Noise ( http://arxiv.org/abs/2405.02648v2 )

ライセンス: Link先を確認
Coby Penso, Jacob Goldberger, (参考訳) コンフォーマル予測(CP)は、このセット内に正しいクラスが存在するという事前定義された確率を持つ小さな予測セットを構築することで、ネットワークの不確実性を定量化する。 本研究では,雑音ラベル付き検証セットに基づくCP校正問題に取り組む。 ラベルノイズに頑健なコンフォメーションスコアを導入する。 ノイズラベル付きデータとノイズレベルを用いて、ノイズフリーコンフォメーションスコアを推定する。 テストフェーズでは、ノイズフリースコアを使用して予測セットを形成する。 提案アルゴリズムをいくつかの標準医用画像分類データセットに適用した。 提案手法は,必要なカバレッジを維持しつつ,予測セットの平均サイズの観点から,現在の手法よりも大きなマージンで優れていることを示す。

Conformal Prediction (CP) quantifies network uncertainty by building a small prediction set with a pre-defined probability that the correct class is within this set. In this study we tackle the problem of CP calibration based on a validation set with noisy labels. We introduce a conformal score that is robust to label noise. The noise-free conformal score is estimated using the noisy labeled data and the noise level. In the test phase the noise-free score is used to form the prediction set. We applied the proposed algorithm to several standard medical imaging classification datasets. We show that our method outperforms current methods by a large margin, in terms of the average size of the prediction set, while maintaining the required coverage.
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# 部分指紋の同時同定とポスアライメント

Joint Identity Verification and Pose Alignment for Partial Fingerprints ( http://arxiv.org/abs/2405.03959v3 )

ライセンス: Link先を確認
Xiongjun Guan, Zhiyu Pan, Jianjiang Feng, Jie Zhou, (参考訳) 現在、ポータブル電子機器はますます人気が高まっている。 軽量な考慮のために、指紋認識モジュールは通常、限られたサイズのセンサーを使用する。 しかし、部分的な指紋は、特に指圧姿勢や画像品質の違いがある場合に、適合する特徴がほとんどないため、部分的な指紋認証は困難である。 既存のほとんどの手法では、指紋位置の正当性検証を独立したタスクとみなし、それらの間の結合関係を無視している - 相対的なポーズ推定は通常、アンカーとしてペア化された特徴に依存しており、認証精度はより正確なポーズアライメントによって改善される傾向にある。 本稿では,その相互関係を利用して相互に改善することを目的として,部分指紋ペアの協調識別とポーズアライメントのための新しい枠組みを提案する。 これを実現するために,マルチタスクCNN-Transformerハイブリッドネットワークを提案し,特徴抽出能力を高めるための事前学習タスクを設計する。 複数の公開データセット (NIST SD14, FVC 2002 DB1A & DB3A, FVC 2004 DB1A & DB2A, FVC 2006 DB1A) および社内データセットを用いた実験により, 本手法は指紋部分認証と相対ポーズ推定の両方において, 従来手法よりも効率的でありながら, 最先端性能を実現していることが示された。

Currently, portable electronic devices are becoming more and more popular. For lightweight considerations, their fingerprint recognition modules usually use limited-size sensors. However, partial fingerprints have few matchable features, especially when there are differences in finger pressing posture or image quality, which makes partial fingerprint verification challenging. Most existing methods regard fingerprint position rectification and identity verification as independent tasks, ignoring the coupling relationship between them -- relative pose estimation typically relies on paired features as anchors, and authentication accuracy tends to improve with more precise pose alignment. In this paper, we propose a novel framework for joint identity verification and pose alignment of partial fingerprint pairs, aiming to leverage their inherent correlation to improve each other. To achieve this, we present a multi-task CNN (Convolutional Neural Network)-Transformer hybrid network, and design a pre-training task to enhance the feature extraction capability. Experiments on multiple public datasets (NIST SD14, FVC2002 DB1A & DB3A, FVC2004 DB1A & DB2A, FVC2006 DB1A) and an in-house dataset show that our method achieves state-of-the-art performance in both partial fingerprint verification and relative pose estimation, while being more efficient than previous methods.
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# モノのインターネットのためのブロックチェーン - 基本、アプリケーション、課題

Blockchains for Internet of Things: Fundamentals, Applications, and Challenges ( http://arxiv.org/abs/2405.04803v3 )

ライセンス: Link先を確認
Yusen Wu, Ye Hu, Mingzhe Chen, Yelena Yesha, Mérouane Debbah, (参考訳) IoT(Internet of Things)サービスは、推論、自律性、制御のために、さまざまなデータのストレージ、送信、分析を必要とする。 ブロックチェーンは、分散化とセキュリティの固有の特性を持ち、コンセンサスベースのデータ共有を通じて、これらのデバイスに効率的なデータベースソリューションを提供する。 しかしながら、すべてのブロックチェーンシステムが特定のIoTアプリケーションに適している訳ではなく、プライバシの懸念から除外された方がメリットがある、という認識が不可欠です。 例えば、パブリックブロックチェーンは機密データを格納するのに適していない。 本稿では,IoTアプリケーションの拡張に適した3つのブロックチェーンについて,詳細なレビューを行う。 最初は3つのブロックチェーンシステムの基盤的な側面を掘り下げて、その強み、制限、実装ニーズを強調しました。 さらに、異なるブロックチェーンにおけるセキュリティ問題についても論じる。 その後、エッジAI、通信、ヘルスケアの3つの重要なIoT領域でブロックチェーンのアプリケーションを調査する。 さまざまなブロックチェーンをIoTに統合する上で、潜在的な課題と今後の方向性について述べています。 最終的に、この論文はブロックチェーンとIoTエコシステムのシナジーに関する包括的な視点を提供することを目的としており、関連する機会と複雑さを強調している。

Internet of Things (IoT) services necessitate the storage, transmission, and analysis of diverse data for inference, autonomy, and control. Blockchains, with their inherent properties of decentralization and security, offer efficient database solutions for these devices through consensus-based data sharing. However, it's essential to recognize that not every blockchain system is suitable for specific IoT applications, and some might be more beneficial when excluded with privacy concerns. For example, public blockchains are not suitable for storing sensitive data. This paper presents a detailed review of three distinct blockchains tailored for enhancing IoT applications. We initially delve into the foundational aspects of three blockchain systems, highlighting their strengths, limitations, and implementation needs. Additionally, we discuss the security issues in different blockchains. Subsequently, we explore the blockchain's application in three pivotal IoT areas: edge AI, communications, and healthcare. We underscore potential challenges and the future directions for integrating different blockchains in IoT. Ultimately, this paper aims to offer a comprehensive perspective on the synergies between blockchains and the IoT ecosystem, highlighting the opportunities and complexities involved.
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# 非アクティブなユーザ推薦のためのソーシャルグラフの学習

Learning Social Graph for Inactive User Recommendation ( http://arxiv.org/abs/2405.05288v2 )

ライセンス: Link先を確認
Nian Liu, Shen Fan, Ting Bai, Peng Wang, Mingwei Sun, Yanhu Mo, Xiaoxiao Xu, Hong Liu, Chuan Shi, (参考訳) 社会関係は、データ空間の問題を軽減するためのレコメンデーションシステムに広く取り入れられている。 しかし, 交流項目が限られている不活発なユーザにとって, 粗末な品質と不十分な量のため, 生の社会関係は必ずしもレコメンデーションの恩恵を受けない。 本稿では,特に不活性ユーザを対象に,ソーシャルレコメンデーションのための最適なソーシャルグラフ構造を学習する,LSIR (\textbf{L}earning \textbf{S}ocial Graph for \textbf{I}nactive User \textbf{R}ecommendation) という新しいソーシャルレコメンデーション手法を提案する。 LSIRは、ユーザとアイテムの埋め込みを再帰的に集約して、アイテムとユーザ機能を協調的にエンコードする。 次に,グラフ構造学習(GSL)を用いて生のユーザ・ユーザ・ソーシャルグラフを改良し,ノイズの多いエッジを除去し,拡張された埋め込みに基づいて新たなエッジを追加する。 一方、モデルトレーニング中に非アクティブユーザを模倣する上で、アクティブユーザを誘導する模倣学習が実施され、非アクティブユーザのための新しいエッジの構築が向上する。 実世界のデータセットに対する大規模な実験により、LSIRはNDCGで最大129.58\%の大幅な改善を実現している。 私たちのコードは~\url{https://github.com/liun-online/LSIR}で利用可能です。

Social relations have been widely incorporated into recommender systems to alleviate data sparsity problem. However, raw social relations don't always benefit recommendation due to their inferior quality and insufficient quantity, especially for inactive users, whose interacted items are limited. In this paper, we propose a novel social recommendation method called LSIR (\textbf{L}earning \textbf{S}ocial Graph for \textbf{I}nactive User \textbf{R}ecommendation) that learns an optimal social graph structure for social recommendation, especially for inactive users. LSIR recursively aggregates user and item embeddings to collaboratively encode item and user features. Then, graph structure learning (GSL) is employed to refine the raw user-user social graph, by removing noisy edges and adding new edges based on the enhanced embeddings. Meanwhile, mimic learning is implemented to guide active users in mimicking inactive users during model training, which improves the construction of new edges for inactive users. Extensive experiments on real-world datasets demonstrate that LSIR achieves significant improvements of up to 129.58\% on NDCG in inactive user recommendation. Our code is available at~\url{https://github.com/liun-online/LSIR}.
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# 表面コードパッチ間のCNOTにおける誤りのキャラクタリゼーション

Characterization of errors in a CNOT between surface code patches ( http://arxiv.org/abs/2405.05337v2 )

ライセンス: Link先を確認
Bálint Domokos, Áron Márton, János K. Asbóth, (参考訳) 現在の実験では、誤り訂正量子ビット上の小さな量子回路を既に実現しているため、これらのフォールトトレラント回路の論理的エラーチャネルに対する物理誤差の影響を十分に理解することが重要である。 本稿では,2つの表面コードパッチ間の格子サージェリーに基づくCNOT操作について,現象的誤差モデルを用いて検討する。 i) CNOTの基本構成ブロックである2量子論理パウリ測度に対して、各パッチのサイズ(コード距離)である$d$に等しい安定化器測定ラウンドの数を最適化する。 物理的なエラーや読み出しエラーの頻度や、コードパッチの分離によって、最適な数値が$d$より大きいか小さいかが分かる。 (II)格子サージェリーベースのCNOTの2ビット論理的誤りチャネルを完全に特徴づける。 我々は、CNOTプロトコルの対称性を見つけ、論理的エラーチャネルの対称性をもたらす。 また、論理レベルでのXとZの誤差の相関は、最小ウェイト復号法で抑制される。

As current experiments already realize small quantum circuits on error corrected qubits, it is important to fully understand the effect of physical errors on the logical error channels of these fault-tolerant circuits. Here, we investigate a lattice-surgery-based CNOT operation between two surface code patches under phenomenological error models. (i) For two-qubit logical Pauli measurements -- the elementary building block of the CNOT -- we optimize the number of stabilizer measurement rounds, usually taken equal to $d$, the size (code distance) of each patch. We find that the optimal number can be greater or smaller than $d$, depending on the rate of physical and readout errors, and the separation between the code patches. (ii) We fully characterize the two-qubit logical error channel of the lattice-surgery-based CNOT. We find a symmetry of the CNOT protocol, that results in a symmetry of the logical error channel. We also find that correlations between X and Z errors on the logical level are suppressed under minimum weight decoding.
翻訳日:2024-05-22 17:52:56 公開日:2024-05-21
# Vidur: LLM推論のための大規模シミュレーションフレームワーク

Vidur: A Large-Scale Simulation Framework For LLM Inference ( http://arxiv.org/abs/2405.05465v2 )

ライセンス: Link先を確認
Amey Agrawal, Nitin Kedia, Jayashree Mohan, Ashish Panwar, Nipun Kwatra, Bhargav Gulavani, Ramachandran Ramjee, Alexey Tumanov, (参考訳) 大規模言語モデル(LLM)のデプロイの最適化は、並列化戦略やバッチ技術、スケジューリングポリシといったシステムノブによって形成される大きな設定スペースを探索しながら、LLM実装に対してアプリケーションのワークロードを実験的に実行する必要があるため、今日ではコストがかかる。 この課題に対処するために,LLM推論性能のための大規模かつ高忠実で容易に拡張可能なシミュレーションフレームワークであるVidurを提案する。 Vidurは、実験的なプロファイリングと予測モデリングを組み合わせたLLM演算子のパフォーマンスをモデル化し、レイテンシやスループットなどのいくつかの指標を推定することにより、異なるワークロードに対するエンドツーエンドの推論性能を評価する。 いくつかのLSM上でのVidurの忠実さを検証し、その範囲で9%未満の誤差で推論遅延を推定することを示した。 さらに,LLMデプロイメントの最適化を支援する構成検索ツールであるVidur-Searchを紹介する。 Vidur-SearchはVidurを使用して、アプリケーションパフォーマンスの制約を満たす最もコスト効率の良いデプロイメント構成を自動的に識別する。 例えば、Vidur-Searchは、CPUマシン上で1時間でLLaMA2-70Bをデプロイするのに最適な設定を見つける。 Vidurのソースコードはhttps://github.com/microsoft/vidur.comで入手できる。

Optimizing the deployment of Large language models (LLMs) is expensive today since it requires experimentally running an application workload against an LLM implementation while exploring large configuration space formed by system knobs such as parallelization strategies, batching techniques, and scheduling policies. To address this challenge, we present Vidur - a large-scale, high-fidelity, easily-extensible simulation framework for LLM inference performance. Vidur models the performance of LLM operators using a combination of experimental profiling and predictive modeling, and evaluates the end-to-end inference performance for different workloads by estimating several metrics of interest such as latency and throughput. We validate the fidelity of Vidur on several LLMs and show that it estimates inference latency with less than 9% error across the range. Further, we present Vidur-Search, a configuration search tool that helps optimize LLM deployment. Vidur-Search uses Vidur to automatically identify the most cost-effective deployment configuration that meets application performance constraints. For example, Vidur-Search finds the best deployment configuration for LLaMA2-70B in one hour on a CPU machine, in contrast to a deployment-based exploration which would require 42K GPU hours - costing ~218K dollars. Source code for Vidur is available at https://github.com/microsoft/vidur.
翻訳日:2024-05-22 17:43:12 公開日:2024-05-21
# 競合動力学の展開--日中LLMの比較評価

Unveiling the Competitive Dynamics: A Comparative Evaluation of American and Chinese LLMs ( http://arxiv.org/abs/2405.06713v2 )

ライセンス: Link先を確認
Zhenhui Jiang, Jiaxin Li, Yang Liu, (参考訳) 大規模言語モデル(LLM)の経済発展、革新、社会発展、国家安全保障における戦略的重要性は、ChatGPTの出現以来、ますます認識されている。 本研究は、英語と中国語の両文脈において、アメリカと中国のLLMを総合的に比較評価する。 我々は、自然言語の習熟度、専門知識、安全と責任を包括的に評価する枠組みを提案し、様々な運用課題とシナリオの下で、米国と中国から16の著名なモデルを体系的に評価した。 GPT 4-Turboは英語の文脈では最前線にあり、Ernie-Bot 4は中国語の文脈では際立っている。 この研究はまた、言語的および文化的にニュアンスド・モデル開発の必要性を強調しながら、言語やタスク間でのLLMパフォーマンスの格差を強調している。 米国と中国のLLMの補完的強みは、LLM技術の進歩における中米協力の価値を示している。 この研究は、現在のLLMコンペティションの展望を示し、LLMの戦略的投資と開発に関する政策立案者やビジネスに貴重な洞察を提供する。 今後の作業は、このフレームワークを拡張して、新興のLLMマルチモーダル機能とビジネスアプリケーションアセスメントを含む予定である。

The strategic significance of Large Language Models (LLMs) in economic expansion, innovation, societal development, and national security has been increasingly recognized since the advent of ChatGPT. This study provides a comprehensive comparative evaluation of American and Chinese LLMs in both English and Chinese contexts. We proposed a comprehensive evaluation framework that encompasses natural language proficiency, disciplinary expertise, and safety and responsibility, and systematically assessed 16 prominent models from the US and China under various operational tasks and scenarios. Our key findings show that GPT 4-Turbo is at the forefront in English contexts, whereas Ernie-Bot 4 stands out in Chinese contexts. The study also highlights disparities in LLM performance across languages and tasks, stressing the necessity for linguistically and culturally nuanced model development. The complementary strengths of American and Chinese LLMs point to the value of Sino-US collaboration in advancing LLM technology. The research presents the current LLM competition landscape and offers valuable insights for policymakers and businesses regarding strategic LLM investments and development. Future work will expand on this framework to include emerging LLM multimodal capabilities and business application assessments.
翻訳日:2024-05-22 17:43:12 公開日:2024-05-21
# 量子力学の非線形拡張の幾何学的解釈

Geometric Interpretation of a nonlinear extension of Quantum Mechanics ( http://arxiv.org/abs/2405.07289v2 )

ライセンス: Link先を確認
Alan Chodos, Fred Cooper, (参考訳) 我々は最近、通常の線形量子力学問題のハミルトニアンの固有値と固有関数の観点から正確に解ける性質を持つ特定の非線形量子力学の一般化を導入した。 本稿では,波動関数の2つの成分が時空の2つの異なる漸近領域におけるハミルトニアンHによって記述された系を表すことを示唆し,非線型項が重力効果をもたらすと考えられることを示す。

We recently introduced a particular nonlinear generalization of quantum mechanics which has the property that it is exactly solvable in terms of the eigenvalues and eigenfunctions of the Hamiltonian of the usual linear quantum mechanics problem. In this paper we suggest that the two components of the wave function represent the system described by the Hamiltonian H in two different asymptotic regions of spacetime and we show that the non-linear terms can be viewed as giving rise to gravitational effects.
翻訳日:2024-05-22 17:43:12 公開日:2024-05-21
# 多量子クリフォード-シクロトミック回路の精密合成

Exact Synthesis of Multiqutrit Clifford-Cyclotomic Circuits ( http://arxiv.org/abs/2405.08136v3 )

ライセンス: Link先を確認
Andrew N. Glaudell, Neil J. Ross, John van de Wetering, Lia Yeh, (参考訳) Toffoli+Hadamard, Clifford+$T$ あるいはより一般的には、Clifford-cyclotomic gate set はちょうど環 $\mathbb{Z}[1/2,\zeta_k]$ のエントリを持つユニタリ行列である。 本稿では,四重項の類似対応性を確立する。 古典的なクォートゲートを$X$, $CX$, and Toffoli に拡張し、ハダードゲートを $H$ とシングルクォートゲートを $T_k=\mathrm{diag}(1,\omega_k, \omega_k^2)$ とすることで、次数3^k$ の多重クォートゲート集合を定義する。 このゲートセットは、$k=1$のとき、qutrit Toffoli+Hadamardゲートセット、$k>1$のとき、qutrit Clifford+$T_k$ゲートセットと等価である。 すると、3^n\times 3^n$ のユニタリ行列 $U$ が、位数 $3^k$ のクリフォード-シクロトミックゲート集合上の$n$-qutrit 回路で表せることを証明し、$U$ の成分が環 $\mathbb{Z}[1/3,\omega_k]$ にある場合に限る。

It is known that the unitary matrices that can be exactly represented by a multiqubit circuit over the Toffoli+Hadamard, Clifford+$T$, or, more generally, Clifford-cyclotomic gate set are precisely the unitary matrices with entries in the ring $\mathbb{Z}[1/2,\zeta_k]$, where $k$ is a positive integer that depends on the gate set and $\zeta_k$ is a primitive $2^k$-th root of unity. In this paper, we establish the analogous correspondence for qutrits. We define the multiqutrit Clifford-cyclotomic gate set of order $3^k$ by extending the classical qutrit gates $X$, $CX$, and Toffoli with the Hadamard gate $H$ and the single-qutrit gate $T_k=\mathrm{diag}(1,\omega_k, \omega_k^2)$, where $\omega_k$ is a primitive $3^k$-th root of unity. This gate set is equivalent to the qutrit Toffoli+Hadamard gate set when $k=1$, and to the qutrit Clifford+$T_k$ gate set when $k>1$. We then prove that a $3^n\times 3^n$ unitary matrix $U$ can be represented by an $n$-qutrit circuit over the Clifford-cyclotomic gate set of order $3^k$ if and only if the entries of $U$ lie in the ring $\mathbb{Z}[1/3,\omega_k]$.
翻訳日:2024-05-22 17:43:12 公開日:2024-05-21
# 未知を擁護できるか? ニューラルネットワークモニタリングのための閾値選択に関する実証的研究

Can we Defend Against the Unknown? An Empirical Study About Threshold Selection for Neural Network Monitoring ( http://arxiv.org/abs/2405.08654v2 )

ライセンス: Link先を確認
Khoi Tran Dang, Kevin Delmas, Jérémie Guiochet, Joris Guérin, (参考訳) クリティカルシステムにおけるニューラルネットワークの利用の増加に伴い、推論中に安全でない予測を拒否するためには、ランタイム監視が不可欠である。 安全と安全でない予測の分布の分離性を最大化する拒絶スコアを確立するために様々な技術が出現している。 これらの手法の有効性は、主にレシーバーの動作特性曲線の下の領域のような閾値に依存しない測定値を用いて評価される。 しかし、実世界のアプリケーションでは、効果的なモニターはこれらのスコアを意味のあるバイナリ決定に変換するための適切なしきい値を特定する必要がある。 しきい値最適化の重要さにもかかわらず、この問題はほとんど注目されていない。 この問題にはいくつかの研究が触れているが、一般的には、実行時のデータ配信がトレーニングの配布を反映していると仮定する。 本稿では,様々な画像データセットに関する厳密な実験について述べる。 1. しきい値調整時に利用できない、予期せぬ脅威に対処するモニターの有効性。 2) 総合的な脅威をしきい値最適化手法に組み込むことで, モニターの堅牢性を高めることができるか。

With the increasing use of neural networks in critical systems, runtime monitoring becomes essential to reject unsafe predictions during inference. Various techniques have emerged to establish rejection scores that maximize the separability between the distributions of safe and unsafe predictions. The efficacy of these approaches is mostly evaluated using threshold-agnostic metrics, such as the area under the receiver operating characteristic curve. However, in real-world applications, an effective monitor also requires identifying a good threshold to transform these scores into meaningful binary decisions. Despite the pivotal importance of threshold optimization, this problem has received little attention. A few studies touch upon this question, but they typically assume that the runtime data distribution mirrors the training distribution, which is a strong assumption as monitors are supposed to safeguard a system against potentially unforeseen threats. In this work, we present rigorous experiments on various image datasets to investigate: 1. The effectiveness of monitors in handling unforeseen threats, which are not available during threshold adjustments. 2. Whether integrating generic threats into the threshold optimization scheme can enhance the robustness of monitors.
翻訳日:2024-05-22 17:43:12 公開日:2024-05-21
# ロバストネス評価を再考する:学習型四足歩行制御器の逆攻撃

Rethinking Robustness Assessment: Adversarial Attacks on Learning-based Quadrupedal Locomotion Controllers ( http://arxiv.org/abs/2405.12424v1 )

ライセンス: Link先を確認
Fan Shi, Chong Zhang, Takahiro Miki, Joonho Lee, Marco Hutter, Stelian Coros, (参考訳) 脚の移動は、機械学習技術の進歩、特に深層強化学習(RL)により、近年顕著に成功している。 ニューラルネットワークを利用するコントローラは、センサーノイズや外部摂動を含む実世界の不確実性に対して、経験的かつ質的な堅牢性を示している。 しかし、これらのロコモーションコントローラの脆弱性を公式に調査することは依然として困難である。 この困難は、高次元、時間的に連続した空間内の長い尾の分布に脆弱性をピンポイントする必要性から生じる。 定量的検証に向けた第一歩として,学習された移動制御器の弱点を特定するために,逐次的敵攻撃を利用する計算手法を提案する。 我々の研究は、最先端のロバストコントローラーでさえ、十分に設計された低マグニチュード逆数列の下では著しく失敗することを示した。 シミュレーション実験や実際のロボット実験を通じて、我々のアプローチの有効性を検証するとともに、生成した結果が、元のポリシーを堅牢化し、これらのブラックボックスポリシーの安全性に関する貴重な洞察を提供するためにどのように使用できるかを説明する。

Legged locomotion has recently achieved remarkable success with the progress of machine learning techniques, especially deep reinforcement learning (RL). Controllers employing neural networks have demonstrated empirical and qualitative robustness against real-world uncertainties, including sensor noise and external perturbations. However, formally investigating the vulnerabilities of these locomotion controllers remains a challenge. This difficulty arises from the requirement to pinpoint vulnerabilities across a long-tailed distribution within a high-dimensional, temporally sequential space. As a first step towards quantitative verification, we propose a computational method that leverages sequential adversarial attacks to identify weaknesses in learned locomotion controllers. Our research demonstrates that, even state-of-the-art robust controllers can fail significantly under well-designed, low-magnitude adversarial sequence. Through experiments in simulation and on the real robot, we validate our approach's effectiveness, and we illustrate how the results it generates can be used to robustify the original policy and offer valuable insights into the safety of these black-box policies.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# No-Regret M${}^{\natural}$-Concave関数最大化:確率帯域アルゴリズムとNP-Hardness of Adversarial Full-Information Setting

No-Regret M${}^{\natural}$-Concave Function Maximization: Stochastic Bandit Algorithms and NP-Hardness of Adversarial Full-Information Setting ( http://arxiv.org/abs/2405.12439v1 )

ライセンス: Link先を確認
Taihei Oki, Shinsaku Sakaue, (参考訳) M${}^{\natural}$-concave関数、すなわち超代用評価関数は、離散数学や経済学を含む多くの分野において基本的な役割を果たす。 実際、M${}^{\natural}$-concave関数の完全知識は、しばしば事前利用不可能であり、いくつかのフィードバックに基づいてのみ対話的に最適化することができる。 このような状況に触発されたオンラインM${}^{\natural}$-concave関数の最大化問題について研究し、Murota and Shioura (1999) によって研究された問題のインタラクティブバージョンである。 確率的帯域設定については、$O(T^{-1/2})$-simple regret および$O(T^{2/3})$-regret algorithm under $T$ times to unbiased noisy value oracles of M${}^{\natural}$-concave function。 これらの結果を証明するための鍵は、M${}^{\natural}$-concave関数の最大化における局所誤差に対するグリーディアルゴリズムの堅牢性である。 確率的設定に対してこれらの肯定的な結果が得られる一方で、我々の研究の主な成果は対向的設定において不可能である。 完全な情報フィードバックがあっても、任意の定数$c > 0$に対して$O(T^{1-c})$ regretを達成できないのは、$\mathsf{P} = \mathsf{NP}$でない限りである。 我々の証明は,3つのマトロイドの交叉問題からの低減に基づいている。

M${}^{\natural}$-concave functions, a.k.a. gross substitute valuation functions, play a fundamental role in many fields, including discrete mathematics and economics. In practice, perfect knowledge of M${}^{\natural}$-concave functions is often unavailable a priori, and we can optimize them only interactively based on some feedback. Motivated by such situations, we study online M${}^{\natural}$-concave function maximization problems, which are interactive versions of the problem studied by Murota and Shioura (1999). For the stochastic bandit setting, we present $O(T^{-1/2})$-simple regret and $O(T^{2/3})$-regret algorithms under $T$ times access to unbiased noisy value oracles of M${}^{\natural}$-concave functions. A key to proving these results is the robustness of the greedy algorithm to local errors in M${}^{\natural}$-concave function maximization, which is one of our main technical results. While we obtain those positive results for the stochastic setting, another main result of our work is an impossibility in the adversarial setting. We prove that, even with full-information feedback, no algorithms that run in polynomial time per round can achieve $O(T^{1-c})$ regret for any constant $c > 0$ unless $\mathsf{P} = \mathsf{NP}$. Our proof is based on a reduction from the matroid intersection problem for three matroids, which would be a novel idea in the context of online learning.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# 2次元ボソン液滴に浸漬した数種のフェルミオン不純物の相と動力学

Phases and dynamics of few fermionic impurities immersed in two-dimensional boson droplets ( http://arxiv.org/abs/2405.12466v1 )

ライセンス: Link先を確認
Jose Carlos Pelayo, Thomás Fogarty, Thomas Busch, Simeon I. Mistakidis, (参考訳) 2次元ボゾン量子滴に埋め込まれた数個のスピン偏極フェルミオンからなる混合物の基底状態特性と創発的非平衡ダイナミクスを解明する。 ますます魅力的な液滴-フェルミオン相互作用では、空間的に非局在化されたフェルミオン構成から、フェルミオンが高度に局所化され孤立している状態への遷移が見つかる。 この過程は、液滴によって媒介される誘起フェルミオン-フェルミオン相互作用の隆起を伴う。 さらに、魅力的な液滴-フェルミオン結合を増大させるために、後者のバックアクションを示すフェルミオンの近傍で、液滴密度のゆらぎが発生する。 強い魅力から弱い液滴-フェルミオン結合への相互作用のクエンチは、環や十字形構造のようなフェルミオン密度における複雑な励起パターンの自然発生核形成を示す。 これらは、液滴の中に閉じ込められたフェルミオンの干渉が強化され、フェルミオンに有効なポテンシャルが十分にエミュレートされるからである。 液滴の非無視バックアクションは、実効的なポテンシャル予測が多体波動関数のレベルでは精度が低いという事実で現れている。 本研究は, 単成分液滴モデル以上の物理のパラダイムを提供し, 液滴におけるバックアクションの役割と誘導媒介相互作用の効果を明らかにする。

We unravel the ground state properties and emergent non-equilibrium dynamics of a mixture consisting of a few spin-polarized fermions embedded in a two-dimensional bosonic quantum droplet. For an increasingly attractive droplet-fermion interaction we find a transition from a spatially delocalized fermion configuration to a state where the fermions are highly localized and isolated. This process is accompanied by the rise of induced fermion-fermion interactions mediated by the droplet. Additionally, for increasing attractive droplet-fermion coupling, undulations in the droplet density occur in the vicinity of the fermions manifesting the back-action of the latter. Following interaction quenches from strong attractive to weaker droplet-fermion couplings reveals the spontaneous nucleation of complex excitation patterns in the fermion density such as ring and cross shaped structures. These stem from the enhanced interference of the fermions that remain trapped within the droplet, which emulates, to a good degree, an effective potential for the fermions. The non-negligible back-action of the droplet manifests itself in the fact that the effective potential predictions are less accurate at the level of the many-body wave function. Our results provide a paradigm for physics beyond the reduced single-component droplet model, unveiling the role of back-action in droplets and the effect of induced mediated interactions.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# 普遍多項式基底がスペクトルグラフニューラルネットをいかに引き起こすか:ヘテロフォリー、過度なスムーシング、過度なスカッシング

How Universal Polynomial Bases Enhance Spectral Graph Neural Networks: Heterophily, Over-smoothing, and Over-squashing ( http://arxiv.org/abs/2405.12474v1 )

ライセンス: Link先を確認
Keke Huang, Yu Guang Wang, Ming Li, and Pietro Liò, (参考訳) グラフフィルタとして知られるスペクトルグラフニューラルネットワーク(GNN)は、ヘテロフィリーグラフの出現率を高めている。 最適グラフフィルタはフーリエ変換のラプラシアン固有分解に依存する。 不正な計算を避けるために、多くの多項式フィルタが提案されている。 しかし、これらのフィルタの大多数の多項式は事前に定義されており、異なるグラフにまたがって固定される。 このギャップに対処するために、我々は、所望の多項式基底のスペクトル特性とヘテロフィリー次数の内在的相関を、徹底的な理論的解析によって決定する。 その後、グラフのヘテロフィリー次数を反映する角度を基底ベクトルが相互に形成する新しい適応的ヘテロフィリー基底を開発する。 多項式フィルタに基づくグラフニューラルネットワークであるUniFilterを考案したUniBasisを構成するために,このヘテロフィリ基底をホモフィリ基底と統合する。 GNNの畳み込みと伝播を最適化することで、オーバースムーシングを効果的に制限し、オーバースキャッシングを緩和する。 ヘテロフィリーの度合いの異なる実世界および合成データセットの多種多様な実験を行い、UniFilterの優位性を支持した。 これらの結果は、UniBasisの普遍性を示すだけでなく、グラフ説明の習熟度も強調する。

Spectral Graph Neural Networks (GNNs), alternatively known as graph filters, have gained increasing prevalence for heterophily graphs. Optimal graph filters rely on Laplacian eigendecomposition for Fourier transform. In an attempt to avert prohibitive computations, numerous polynomial filters have been proposed. However, polynomials in the majority of these filters are predefined and remain fixed across different graphs, failing to accommodate the varying degrees of heterophily. Addressing this gap, we demystify the intrinsic correlation between the spectral property of desired polynomial bases and the heterophily degrees via thorough theoretical analyses. Subsequently, we develop a novel adaptive heterophily basis wherein the basis vectors mutually form angles reflecting the heterophily degree of the graph. We integrate this heterophily basis with the homophily basis to construct a universal polynomial basis UniBasis, which devises a polynomial filter based graph neural network - UniFilter. It optimizes the convolution and propagation in GNN, thus effectively limiting over-smoothing and alleviating over-squashing. Our extensive experiments, conducted on a diverse range of real-world and synthetic datasets with varying degrees of heterophily, support the superiority of UniFilter. These results not only demonstrate the universality of UniBasis but also highlight its proficiency in graph explanation.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# フェデレーション学習における顧客選択のためのマーベリック対応シェープリー評価

Maverick-Aware Shapley Valuation for Client Selection in Federated Learning ( http://arxiv.org/abs/2405.12590v1 )

ライセンス: Link先を確認
Mengwei Yang, Ismat Jarin, Baturalp Buyukates, Salman Avestimehr, Athina Markopoulou, (参考訳) フェデレートラーニング(FL)は、クライアントがプライベートデータを共有せずに、協力的にモデルをトレーニングすることを可能にする。 実用FLシステムにおける重要な課題の1つはデータ不均一性であり、特に希少なデータを扱うクライアントをMavericksと呼ぶ場合である。 これらのクライアントは1つ以上のデータクラスを排他的に所有し、モデルパフォーマンスは参加なしでは貧弱になる。 したがって、トレーニングを通じてMavericksを活用することが重要です。 本稿では,まず,Mavericks の貢献度を定量的に評価した Maverick-aware Shapley の評価値について検討する。 主な考え方は、クライアントのShapley値(SV)のクラスワイド、すなわちラベルごとの計算である。 次に,各ラウンドで最も貢献するクライアントを知的に選択するFLのMaverick-Shapleyクライアント選択機構であるFedMSを提案する。 ベースラインの広範なリストと比較して、FedMSはより優れたモデル性能とより公平なShapley Rewards分布を達成する。

Federated Learning (FL) allows clients to train a model collaboratively without sharing their private data. One key challenge in practical FL systems is data heterogeneity, particularly in handling clients with rare data, also referred to as Mavericks. These clients own one or more data classes exclusively, and the model performance becomes poor without their participation. Thus, utilizing Mavericks throughout training is crucial. In this paper, we first design a Maverick-aware Shapley valuation that fairly evaluates the contribution of Mavericks. The main idea is to compute the clients' Shapley values (SV) class-wise, i.e., per label. Next, we propose FedMS, a Maverick-Shapley client selection mechanism for FL that intelligently selects the clients that contribute the most in each round, by employing our Maverick-aware SV-based contribution score. We show that, compared to an extensive list of baselines, FedMS achieves better model performance and fairer Shapley Rewards distribution.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# 繊維強化複合積層板のひび割れ欠陥の経時的変位特性に関する実験的研究

Experimental investigation of trans-scale displacement responses of wrinkle defects in fiber reinforced composite laminates ( http://arxiv.org/abs/2405.12676v1 )

ライセンス: Link先を確認
Li Ma, Shoulong Wang, Changchen Liu, Ange Wen, Kaidi Ying, Jing Guo, (参考訳) ウインドタービンブレードやフィラメントウーンド複合圧力容器といった産業製品分野では、ひもの欠陥が広く見られた。 ニワトリの波長の大きさは、数ミリから100ミリ以上まで様々である。 輪郭欠陥の配置と応答の測定は、輪郭欠陥を含む構造を評価する上で非常に重要である。 均質化法に基づいてメソメカニカルモデリングを行い、グレードドクリンクルの有効剛性を得る。 有限要素シミュレーションは, ナノスケールからミリスケールまでの最大変位幅の平面外変位の過渡応答を予測する。 このような超大規模効果は、変位応答を観測するために異なる測定方法を必要とする。 ここでは, 変位の大きさに応じて, シャーログラフィー (Speckle Pattern Shearing Interferometry) と fringe projection Profilometry (FPP) 法を用いて検討した。 FPP法では, 平面外変位を求めるために変位抽出アルゴリズムが提案された。 シアログラフィーとFPPの測定感度と精度を比較し, 産業用非破壊試験の定量的基準を提供する。

Wrinkle defects were found widely exist in the field of industrial products, i.e. wind turbine blades and filament-wound composite pressure vessels. The magnitude of wrinkle wavelength varies from several millimeters to over one hundred millimeters. Locating the wrinkle defects and measuring their responses are very important to the assessment of the structures that containing wrinkle defects. A meso-mechanical modeling is presented based on the homogenization method to obtain the effective stiffness of a graded wrinkle. The finite element simulation predicts the trans-scale response of out-of-plane displacement of wrinkled laminates, where the maximum displacement ranges from nanoscale to millimeter scale. Such trans-scale effect requires different measurement approaches to observe the displacement responses. Here we employed Shearography (Speckle Pattern Shearing Interferometry) and fringe projection profilometry (FPP) method respectively according to the different magnitude of displacement. In FPP method, a displacement extraction algorithm was presented to obtain the out-of-plane displacement. The measurement sensitivity and accuracy of Shearography and FPP are compared, which provides a quantitative reference for industrial non-destructive test.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# 集束パルスによる薄膜キャビティ中の狭いX線遷移の励起

Excitation of narrow x-ray transitions in thin-film cavities by focused pulses ( http://arxiv.org/abs/2405.12780v1 )

ライセンス: Link先を確認
Dominik Lentrodt, Christoph H. Keitel, Jörg Evers, (参考訳) 短焦点X線パルスによる硬X線エネルギーの狭い遷移の励起を計算する手法を開発した。 特に, パルス伝播に対する薄膜キャビティの効果は, 2次元フーリエ変換のみの数値評価を必要とする半解析アルゴリズムによって評価される。 本稿では,アルゴリズムの信頼性を確認するために,様々な制限事例について検討する。 応用として, 空洞構造に集束したX線パルスが, これまでの理論的研究や衝突ビームを用いた実験でどのように利用されたかを示す。

A method to compute the excitation of narrow transitions at hard x-ray energies by short focused x-ray pulses is developed. In particular, the effect of thin-film cavities on the pulse propagation is incorporated via a semi-analytical algorithm requiring the numerical evaluation of only one two- dimensional Fourier transform. We investigate various limiting cases to confirm the reliability of the algorithm. As an application, we show how a focused x-ray pulse propagates in cavity structures utilized in previous theoretical studies and experiments with collimated beams.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# 自然光を用いた多光子量子イメージング

Multiphoton Quantum Imaging using Natural Light ( http://arxiv.org/abs/2405.12794v1 )

ライセンス: Link先を確認
Fatemeh Mostafavi, Mingyuan Hong, Riley B. Dawkins, Jannatul Ferdous, Rui-Bo Jin, Roberto de J. Leon-Montiel, Chenglong You, Omar S. Magana-Loaiza, (参考訳) 背景雑音が撮像光子の非古典的な信号よりも強い現実的な環境に対して、量子イメージングのスキームは脆弱であると考えられている。 残念ながら、この問題を軽減するためにより明るい量子光源を作るのは不可能である。 ここでは、自然光の利用に依存する量子イメージング手法を開発することにより、このパラダイム的制限を克服する。 これは、遠方物体に散乱した熱電界の光子数に対して条件検出を行うことにより達成される。 具体的には,検出した熱光子の量子的特徴を抽出し,信号対雑音比を改良した量子画像を生成する。 この手法は、量子画像のコントラストに顕著な指数関数的拡張を示す。 驚くべきことに、この測定方式は、光場の真空ゆらぎから画像を生成することができる。 これは光子数分解機能を持つ単画素カメラの実装によって実験的に実証される。 このように、我々の計画が量子イメージングの分野において新しいパラダイムを開くと信じている。 また、頑丈な量子技術を開発するために、自然光源と非古典的な検出スキームを組み合わせる可能性も明らかにしている。

It is thought that schemes for quantum imaging are fragile against realistic environments in which the background noise is often stronger than the nonclassical signal of the imaging photons. Unfortunately, it is unfeasible to produce brighter quantum light sources to alleviate this problem. Here, we overcome this paradigmatic limitation by developing a quantum imaging scheme that relies on the use of natural sources of light. This is achieved by performing conditional detection on the photon number of the thermal light field scattered by a remote object. Specifically, the conditional measurements in our scheme enable us to extract quantum features of the detected thermal photons to produce quantum images with improved signal-to-noise ratios. This technique shows a remarkable exponential enhancement in the contrast of quantum images. Surprisingly, this measurement scheme enables the possibility of producing images from the vacuum fluctuations of the light field. This is experimentally demonstrated through the implementation of a single-pixel camera with photon-number-resolving capabilities. As such, we believe that our scheme opens a new paradigm in the field of quantum imaging. It also unveils the potential of combining natural light sources with nonclassical detection schemes for the development of robust quantum technologies.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# 不均一データからのプレート曲げの確率的推論:Kirchhoff-Love理論による物理インフォームドガウス過程

Stochastic Inference of Plate Bending from Heterogeneous Data: Physics-informed Gaussian Processes via Kirchhoff-Love Theory ( http://arxiv.org/abs/2405.12802v1 )

ライセンス: Link先を確認
Igor Kavrakov, Gledson Rodrigo Tondo, Guido Morgenthal, (参考訳) 機械学習の進歩と構造モニタリングデータの豊富さは、機械モデルと確率モデルの統合を刺激し、構造の状態を特定し、その物理的パラメータと応答の不確かさを定量化している。 本稿では,古典的Kirchhoff-Loveプレートの物理インフォームドガウス過程(GP)による推論手法を提案する。 プレート制御方程式の線形微分演算子を用いて, GPを偏向前に配置し, 共分散関数を導出することにより, 確率モデルを多出力GPとして定式化する。 騒音測定からマルコフ連鎖モンテカルロ (MCMC) を用いて, 曲げ剛性, ハイパーパラメータ, プレート応答の後方をベイズ的に推定した。 正弦波荷重を受ける単純な支持板と均一荷重を受ける固定板の2つの例で適用性を示す。 提案手法を用いて, 各種センサタイプと品質の測定値を統合することにより, プレート剛性と物理量に対する確率的推定を行う方法について検討した。 提案手法の潜在的な応用は、プレート状構造の構造的健康モニタリングと不確実性定量化である。

Advancements in machine learning and an abundance of structural monitoring data have inspired the integration of mechanical models with probabilistic models to identify a structure's state and quantify the uncertainty of its physical parameters and response. In this paper, we propose an inference methodology for classical Kirchhoff-Love plates via physics-informed Gaussian Processes (GP). A probabilistic model is formulated as a multi-output GP by placing a GP prior on the deflection and deriving the covariance function using the linear differential operators of the plate governing equations. The posteriors of the flexural rigidity, hyperparameters, and plate response are inferred in a Bayesian manner using Markov chain Monte Carlo (MCMC) sampling from noisy measurements. We demonstrate the applicability with two examples: a simply supported plate subjected to a sinusoidal load and a fixed plate subjected to a uniform load. The results illustrate how the proposed methodology can be employed to perform stochastic inference for plate rigidity and physical quantities by integrating measurements from various sensor types and qualities. Potential applications of the presented methodology are in structural health monitoring and uncertainty quantification of plate-like structures.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# 量子赤外分光法による有機気の開孔検出

Open-Path Detection of Organic Vapors via Quantum Infrared Spectroscopy ( http://arxiv.org/abs/2405.12822v1 )

ライセンス: Link先を確認
Simon Neves, Adimulya Kartiyasa, Shayantani Ghosh, Geoffrey Gaulier, Luca La Volpe, Jean-Pierre Wolf, (参考訳) 近年、量子フーリエ変換赤外分光法(QFTIR)が、スペクトルの中赤外領域における従来の分光法に代わるものとして提案されている。 このように、誘導コヒーレンスとスペクトルの絡み合いを利用して、実用的な有機ガス検出の視点を提供する。 しかし、QFTIR分光計を国内や現地での使用に近づけるための研究はほとんど行われなかった。 本研究ではまず, 大気中における複数の干渉性有機ガスの開路検出にこのような分光計を用いる。 QFTIR分光計を用いて,アセトン,メタノール,エタノールの混合物の正確な同定を行った。 我々は、吸収長を増加させるために1.7mの腕を持つ非線形マイケルソン干渉計と、微分光吸収分光法による分析技術を組み合わせることで、このブレークスルーを達成した。 環境空気中の異なるガスの濃度の進化は、時間を通して測定された。 これらの結果は、有機ガス検出器としてのQFTIR分光器の最初の使用例であり、実際的な状況において、これらの検出器の開発に向けた重要なマイルストーンとなっている。

In recent years, quantum Fourier transform infrared (QFTIR) spectroscopy was proposed as an alternative to conventional spectroscopy in the mid-infrared region of the spectrum. In this way, harnessing induced coherence and spectral entanglement offers perspectives for practical organic gasses detection. Still, little research was conducted in order to bring QFTIR spectrometers closer to domestic or in-field usage. In this work, we first use such a spectrometer for open-path detection of multiple interfering organic gasses in ambient air. The accurate identification of mixtures of acetone, methanol and ethanol vapors is demonstrated with a QFTIR spectrometer. We achieved this breakthrough by using a nonlinear Michelson interferometer with 1.7m-long arms in order to increase the absorption length, coupled with analysis techniques from differential optical absorption spectroscopy. The evolution of different gasses' concentrations in ambient air was measured through time. These results constitute the first use-case of a QFTIR spectrometer as a detector of organic gasses, and thus represent an important milestone towards the development of such detectors in practical situations.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# 量子非同一平均推定:効率的なアルゴリズムと基本限界

Quantum Non-Identical Mean Estimation: Efficient Algorithms and Fundamental Limits ( http://arxiv.org/abs/2405.12838v1 )

ライセンス: Link先を確認
Jiachen Hu, Tongyang Li, Xinzhao Wang, Yecheng Xue, Chenyi Zhang, Han Zhong, (参考訳) 非同一分散サンプルに対するクエリアクセスの平均推定のための量子アルゴリズムと下位境界を体系的に検討する。 一方、有界または準ガウス確率変数の2次量子スピードアップを持つ量子平均推定器を与える。 一方、一般に量子アルゴリズムは、平均$\mu$を推定するために必要な古典的なサンプルの数に対して二次的なスピードアップを達成することは不可能であり、そこではサンプルは平均$\mu$に近い確率変数から来る。 技術的には、我々の量子アルゴリズムは有界および準ガウス確率変数をベルヌーイの場合に還元し、直接振幅推定が非同一クエリアクセスでは機能しないという課題を克服するために計算不能なトリックを使用する。 我々の量子クエリローバウンドは、非同一のオークルを並列のオークルでシミュレートし、また非同一のオークルを用いた逆法によっても確立される。 どちらの結果も、量子クエリの低い境界を、一般には独立な関心を持つ非同一のオラクルで証明する方法を舗装している。

We systematically investigate quantum algorithms and lower bounds for mean estimation given query access to non-identically distributed samples. On the one hand, we give quantum mean estimators with quadratic quantum speed-up given samples from different bounded or sub-Gaussian random variables. On the other hand, we prove that, in general, it is impossible for any quantum algorithm to achieve quadratic speed-up over the number of classical samples needed to estimate the mean $\mu$, where the samples come from different random variables with mean close to $\mu$. Technically, our quantum algorithms reduce bounded and sub-Gaussian random variables to the Bernoulli case, and use an uncomputation trick to overcome the challenge that direct amplitude estimation does not work with non-identical query access. Our quantum query lower bounds are established by simulating non-identical oracles by parallel oracles, and also by an adversarial method with non-identical oracles. Both results pave the way for proving quantum query lower bounds with non-identical oracles in general, which may be of independent interest.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# モメンタムを保ち続ける:ユークリッドのグラディエント・フローを超えて保存法則

Keep the Momentum: Conservation Laws beyond Euclidean Gradient Flows ( http://arxiv.org/abs/2405.12888v1 )

ライセンス: Link先を確認
Sibylle Marcotte, Rémi Gribonval, Gabriel Peyré, (参考訳) 保存法則はユークリッド勾配流のダイナミックス、特に線形またはReLUニューラルネットワークトレーニングにおいて確立されている。 しかし、非ユークリッド測地と運動量に基づく力学の存在と原理はほとんど不明である。 本稿では,この一般的な環境における「全」保全法則を特徴付ける。 勾配流の場合とは対照的に、運動量に基づく力学の保存則が時間的依存を示すことが証明される。 さらに、勾配流から運動量力学へ遷移する際の「保存損失」もよく観察する。 具体的には, 線形ネットワークにおいて, 十分に過パラメータ化された状態を除いて, 勾配流の場合よりも少ない運動量保存法則を同定することができる。 ReLUネットワークでは、保存法は残っていない。 この現象は非ユークリッド計量にも現れ、例えば非負行列因子化(NMF)で用いられる: すべての保存則は勾配流の文脈で決定できるが、運動量の場合では持続しない。

Conservation laws are well-established in the context of Euclidean gradient flow dynamics, notably for linear or ReLU neural network training. Yet, their existence and principles for non-Euclidean geometries and momentum-based dynamics remain largely unknown. In this paper, we characterize "all" conservation laws in this general setting. In stark contrast to the case of gradient flows, we prove that the conservation laws for momentum-based dynamics exhibit temporal dependence. Additionally, we often observe a "conservation loss" when transitioning from gradient flow to momentum dynamics. Specifically, for linear networks, our framework allows us to identify all momentum conservation laws, which are less numerous than in the gradient flow case except in sufficiently over-parameterized regimes. With ReLU networks, no conservation law remains. This phenomenon also manifests in non-Euclidean metrics, used e.g. for Nonnegative Matrix Factorization (NMF): all conservation laws can be determined in the gradient flow context, yet none persists in the momentum case.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# 量子コンピュータにおける離散部分群のブロック符号化

Block Encodings of Discrete Subgroups on Quantum Computer ( http://arxiv.org/abs/2405.12890v1 )

ライセンス: Link先を確認
Henry Lamm, Ying-Ying Li, Jing Shu, Yi-Lin Wang, Bin Xu, (参考訳) 本稿では,離散部分群を量子コンピュータ上の量子ビットにマッピングするブロック符号化手法を提案する。 この方法は一般的な離散群に適用でき、例えば $\mathbb{BI}$ of $SU(2)$ や $\mathbb{V}$ of $SU(3)$ のような結晶的な部分群を含む。 プリミティブゲート - 反転ゲート、グループ乗算ゲート、トレースゲート、およびグループフーリエゲート - の構成について詳述し、このエンコーディング手法を$\mathbb{BT}$と$\mathbb{BI}$group に利用した。 また,グルーオン粘度を抽出するための資源推定を行った。 $\mathbb{BT}$と$\mathbb{BI}$の反転ゲートは、それぞれ$40^{+5}_{-4}\%$と$4^{+5}_{-3}\%$と見積もられた$\texttt{Baiwang}$量子コンピュータ上でベンチマークされる。

We introduce a block encoding method for mapping discrete subgroups to qubits on a quantum computer. This method is applicable to general discrete groups, including crystal-like subgroups such as $\mathbb{BI}$ of $SU(2)$ and $\mathbb{V}$ of $SU(3)$. We detail the construction of primitive gates -- the inversion gate, the group multiplication gate, the trace gate, and the group Fourier gate -- utilizing this encoding method for $\mathbb{BT}$ and for the first time $\mathbb{BI}$ group. We also provide resource estimations to extract the gluon viscosity. The inversion gates for $\mathbb{BT}$ and $\mathbb{BI}$ are benchmarked on the $\texttt{Baiwang}$ quantum computer with estimated fidelities of $40^{+5}_{-4}\%$ and $4^{+5}_{-3}\%$ respectively.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# マルチドメインレコメンデーションのための検索可能なドメイン感性特徴記憶

Retrievable Domain-Sensitive Feature Memory for Multi-Domain Recommendation ( http://arxiv.org/abs/2405.12892v1 )

ライセンス: Link先を確認
Yuang Zhao, Zhaocheng Du, Qinglin Jia, Linxuan Zhang, Zhenhua Dong, Ruiming Tang, (参考訳) オンライン広告におけるビジネス規模の増加とドメイン数の増加に伴い、マルチドメイン広告レコメンデーションは業界の主要なソリューションとなっている。 マルチドメインレコメンデーションの中核は、ドメイン間の共通点と区別を効果的にモデル化することである。 既存の作業は、暗黙のマルチドメインモデリングのためのモデルアーキテクチャの設計に特化しています。 本稿では、分布とモデル予測への影響の両方において、様々な領域に有意な差異のある特徴に焦点を当てる。 ドメイン識別のキャリアとして機能し、マルチドメインモデリングにおいて重要な機能である。 実験により、既存のマルチドメインモデリング手法はドメインに敏感な特徴を無視する可能性を示し、ドメインの区別の学習が不十分であることを示す。 これを回避するため,ドメイン依存型特徴帰属法を提案し,特徴集合とドメインの区別を最もよく反映する特徴を特定する。 さらに、ドメイン依存機能からドメイン固有情報を抽出し、モデルが検索して統合するメモリアーキテクチャを設計し、ドメイン区別の認識を高める。 大規模なオフラインおよびオンライン実験は、ドメインの区別を捕捉し、マルチドメインレコメンデーション性能を向上させる上で、我々の方法が優れていることを示す。

With the increase in the business scale and number of domains in online advertising, multi-domain ad recommendation has become a mainstream solution in the industry. The core of multi-domain recommendation is effectively modeling the commonalities and distinctions among domains. Existing works are dedicated to designing model architectures for implicit multi-domain modeling while overlooking an in-depth investigation from a more fundamental perspective of feature distributions. This paper focuses on features with significant differences across various domains in both distributions and effects on model predictions. We refer to these features as domain-sensitive features, which serve as carriers of domain distinctions and are crucial for multi-domain modeling. Experiments demonstrate that existing multi-domain modeling methods may neglect domain-sensitive features, indicating insufficient learning of domain distinctions. To avoid this neglect, we propose a domain-sensitive feature attribution method to identify features that best reflect domain distinctions from the feature set. Further, we design a memory architecture that extracts domain-specific information from domain-sensitive features for the model to retrieve and integrate, thereby enhancing the awareness of domain distinctions. Extensive offline and online experiments demonstrate the superiority of our method in capturing domain distinctions and improving multi-domain recommendation performance.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# Tutorly:LLMによるプログラミングビデオの学習環境への転換

Tutorly: Turning Programming Videos Into Apprenticeship Learning Environments with LLMs ( http://arxiv.org/abs/2405.12946v1 )

ライセンス: Link先を確認
Wengxi Li, Roy Pea, Nick Haber, Hari Subramonyam, (参考訳) チュートリアルやストリームキャストを含むオンラインプログラミングビデオは広く普及しており、豊富な専門家の知識を含んでいる。 しかし,これらの資源を効果的に活用して学習目標を達成することは困難である。 直接学習とは異なり、ビデオコンテンツは個別の学習ペース、パーソナライズされたフィードバック、サポートとモニタリングに必要なインタラクティブなエンゲージメントに基づく調整されたガイダンスが欠けている。 我々の研究は、プログラミングビデオを認知的見習いのフレームワークを使って1対1の学習体験に変換する。 TutorlyはJupyterLab Pluginとして開発され,(1)パーソナライズされた学習目標の設定,(2)会話型LLMベースのメンターエージェントによる学習活動,(3)メンターの動きを操縦する学生モデルに基づく指導とフィードバックが可能である。 ストリームキャストから探索データ分析を学習した16名の被験者を対象にした調査では、テスト後のアンケートに基づいて、Tutorlyは61.9%から76.6%に改善した。 Tutorlyは、LLMと学習者モデリングを用いて、プログラミングビデオ学習体験を強化する可能性を実証している。

Online programming videos, including tutorials and streamcasts, are widely popular and contain a wealth of expert knowledge. However, effectively utilizing these resources to achieve targeted learning goals can be challenging. Unlike direct tutoring, video content lacks tailored guidance based on individual learning paces, personalized feedback, and interactive engagement necessary for support and monitoring. Our work transforms programming videos into one-on-one tutoring experiences using the cognitive apprenticeship framework. Tutorly, developed as a JupyterLab Plugin, allows learners to (1) set personalized learning goals, (2) engage in learning-by-doing through a conversational LLM-based mentor agent, (3) receive guidance and feedback based on a student model that steers the mentor moves. In a within-subject study with 16 participants learning exploratory data analysis from a streamcast, Tutorly significantly improved their performance from 61.9% to 76.6% based on a post-test questionnaire. Tutorly demonstrates the potential for enhancing programming video learning experiences with LLM and learner modeling.
翻訳日:2024-05-22 17:33:24 公開日:2024-05-21
# Deep Blur Multi-Model (DeepBlurMM) - 病理画像解析における画像ぼかしの深層学習モデル性能への影響を緩和するための戦略

Deep Blur Multi-Model (DeepBlurMM) - a strategy to mitigate the impact of image blur on deep learning model performance in histopathology image analysis ( http://arxiv.org/abs/2405.09298v2 )

ライセンス: Link先を確認
Yujie Xiang, Bojing Liu, Mattias Rantalainen, (参考訳) 病理組織像全体(WSI)のAIによる解析は、計算病理学の中心である。 しかし、WSIの未シャープ領域を含む画質は、モデルの性能に影響を与えます。 本研究では,ぼかしの影響について検討し,非シャープ画像領域の負の影響を軽減するためのマルチモデルアプローチを提案する。 そこで本研究では,900以上のH&E陽性乳癌の画像タイルにガウスブラーを付加したモデル性能の評価を行った。 ブラーの影響を低減するために,ガウスブラーの変動量で訓練された複数のモデルを用いて,そのブラーレベルに基づいてタイルを予測する,新しいマルチモデル手法(DeepBlurMM)を提案する。 組織学的グレードを主な例として用いて, 軽度にぼやけたタイルで訓練したモデルでは, 中程度のぼやけたタイルが存在する場合, ベースモデルよりも性能が向上することがわかった。 DeepBlurMMは、全てのタイルに適度なぼかし(AUC:0.764 vs. 0.710)、タイルにまたがる低、適度で高いぼかし(AUC:0.821 vs. 0.789)の存在下でベースモデルより優れていた。 WSIの衝撃予測性能におけるアンシャープ画像タイル DeepBlurMMはいくつかの条件下で予測性能を改善し、研究と臨床の両方で品質を向上させる可能性がある。

AI-based analysis of histopathology whole slide images (WSIs) is central in computational pathology. However, image quality, including unsharp areas of WSIs, impacts model performance. We investigate the impact of blur and propose a multi-model approach to mitigate negative impact of unsharp image areas. In this study, we use a simulation approach, evaluating model performance under varying levels of added Gaussian blur to image tiles from >900 H&E-stained breast cancer WSIs. To reduce impact of blur, we propose a novel multi-model approach (DeepBlurMM) where multiple models trained on data with variable amounts of Gaussian blur are used to predict tiles based on their blur levels. Using histological grade as a principal example, we found that models trained with mildly blurred tiles improved performance over the base model when moderate-high blur was present. DeepBlurMM outperformed the base model in presence of moderate blur across all tiles (AUC:0.764 vs. 0.710), and in presence of a mix of low, moderate, and high blur across tiles (AUC:0.821 vs. 0.789). Unsharp image tiles in WSIs impact prediction performance. DeepBlurMM improved prediction performance under some conditions and has the potential to increase quality in both research and clinical applications.
翻訳日:2024-05-22 17:23:38 公開日:2024-05-21
# 安定LPV系に対する有限サンプル一般化

A finite-sample generalization bound for stable LPV systems ( http://arxiv.org/abs/2405.10054v3 )

ライセンス: Link先を確認
Daniel Racz, Martin Gonzalez, Mihaly Petreczky, Andras Benczur, Balint Daroczy, (参考訳) データから力学系を学習する際の主要な理論的課題の1つは、一般化誤差、すなわち、期待される予測誤差と、ある有限標本で測定された経験的予測誤差との差について上限を与えることである。 機械学習において、そのような境界の一般的なクラスは、いわゆる確率近似境界(英語版)(Probably Aough Correct、PAC)である。 本稿では,安定な連続時間線形パラメータ変動(LPV)システムに対するPACバウンダリを導出する。 我々の境界は、選択されたLPV系のH2ノルムに依存するが、信号が考慮される時間間隔に依存しない。

One of the main theoretical challenges in learning dynamical systems from data is providing upper bounds on the generalization error, that is, the difference between the expected prediction error and the empirical prediction error measured on some finite sample. In machine learning, a popular class of such bounds are the so-called Probably Approximately Correct (PAC) bounds. In this paper, we derive a PAC bound for stable continuous-time linear parameter-varying (LPV) systems. Our bound depends on the H2 norm of the chosen class of the LPV systems, but does not depend on the time interval for which the signals are considered.
翻訳日:2024-05-22 17:23:38 公開日:2024-05-21
# 言語処理に基づくニュース自動生成とFact-Checkingシステム

Automatic News Generation and Fact-Checking System Based on Language Processing ( http://arxiv.org/abs/2405.10492v2 )

ライセンス: Link先を確認
Xirui Peng, Qiming Xu, Zheng Feng, Haopeng Zhao, Lianghao Tan, Yan Zhou, Zecheng Zhang, Chenwei Gong, Yingqiao Zheng, (参考訳) 本稿では,ニュースコンテンツの信頼性と信頼性を確保しつつ,ニュース制作の効率性と品質を向上させることを目的とした,言語処理に基づく自動ニュース生成と事実確認システムについて検討する。 自然言語処理(NLP)とディープラーニング技術の急速な発展により、自動ニュース生成システムは、大量のデータから重要な情報を抽出し、十分に構造化された流動的なニュース記事を生成することができる。 一方、ファクトチェック技術を統合することにより、偽ニュースの拡散を効果的に防止し、ニュースの正確性と信頼性を向上させることができる。 本研究は,テキスト生成や情報抽出,知識グラフの適用など,自動ニュース生成やファクトチェックに関わる重要な技術について詳述し,これらの技術の有効性を実験を通じて検証する。 さらに,自動ニュース生成システムとファクトチェックシステムの今後の開発方向性について論じ,さらなる統合と技術革新の重要性を強調した。 これらのシステムは, 継続的な技術最適化と実用化により, 将来ニュース産業においてますます重要な役割を担い, より効率的で信頼性の高いニュースサービスを提供していくことが示唆された。

This paper explores an automatic news generation and fact-checking system based on language processing, aimed at enhancing the efficiency and quality of news production while ensuring the authenticity and reliability of the news content. With the rapid development of Natural Language Processing (NLP) and deep learning technologies, automatic news generation systems are capable of extracting key information from massive data and generating well-structured, fluent news articles. Meanwhile, by integrating fact-checking technology, the system can effectively prevent the spread of false news and improve the accuracy and credibility of news. This study details the key technologies involved in automatic news generation and factchecking, including text generation, information extraction, and the application of knowledge graphs, and validates the effectiveness of these technologies through experiments. Additionally, the paper discusses the future development directions of automatic news generation and fact-checking systems, emphasizing the importance of further integration and innovation of technologies. The results show that with continuous technological optimization and practical application, these systems will play an increasingly important role in the future news industry, providing more efficient and reliable news services.
翻訳日:2024-05-22 17:23:37 公開日:2024-05-21
# SPOR:データ・テキスト・ジェネレーションにおける構成一般化のための総合的・実践的評価手法

SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation ( http://arxiv.org/abs/2405.10650v3 )

ライセンス: Link先を確認
Ziyao Xu, Houfeng Wang, (参考訳) 構成一般化は言語モデルの重要な能力であり、多くの異なる表現を持つ。 データ・トゥ・テキスト生成では、この能力に関するこれまでの研究は、Systematicityと呼ばれる単一のマニフェストに限られており、実用的なアプリケーションシナリオを完全にカバーできない大規模言語モデル(LLM)の考慮が欠如している。 本研究では,データ・テキスト生成における合成一般化のための総合的・実践的な評価手法であるSPORを提案する。 SPORには、宣言の4つの側面(体系性、生産性、秩序不変性、規則学習性)が含まれており、既存のデータセットに基づいた追加のマニュアルアノテーションなしで高品質な評価を可能にする。 2つの異なるデータセット上でSPORを実証し、LLMを含む既存の言語モデルを評価する。 評価の様々な面においてモデルが不足していることが分かり、さらなる改善が必要である。 本研究は、データ・テキスト・ジェネレーションにおける合成一般化の異なる表現に関する総合的な研究の必要性を示し、評価のための枠組みを提供する。

Compositional generalization is an important ability of language models and has many different manifestations. For data-to-text generation, previous research on this ability is limited to a single manifestation called Systematicity and lacks consideration of large language models (LLMs), which cannot fully cover practical application scenarios. In this work, we propose SPOR, a comprehensive and practical evaluation method for compositional generalization in data-to-text generation. SPOR includes four aspects of manifestations (Systematicity, Productivity, Order invariance, and Rule learnability) and allows high-quality evaluation without additional manual annotations based on existing datasets. We demonstrate SPOR on two different datasets and evaluate some existing language models including LLMs. We find that the models are deficient in various aspects of the evaluation and need further improvement. Our work shows the necessity for comprehensive research on different manifestations of compositional generalization in data-to-text generation and provides a framework for evaluation.
翻訳日:2024-05-22 17:23:37 公開日:2024-05-21
# HARIS: 参照画像セグメンテーションのための人間的な注意

HARIS: Human-Like Attention for Reference Image Segmentation ( http://arxiv.org/abs/2405.10707v2 )

ライセンス: Link先を確認
Mengxi Zhang, Heqing Lian, Yiming Liu, Jie Chen, (参考訳) Referring Image segmentation (RIS) は、言語表現に対応する特定の領域を特定することを目的としている。 既存の方法は、異なるモダリティの機能を \emph{bottom-up} の方法で組み込む。 この設計では、不要な画像テキストペアが得られ、不正確なセグメンテーションマスクにつながる可能性がある。 本稿では,Human-Like Attention機構を導入し,パラメータ効率の良い微細チューニング(PEFT)フレームワークを用いた参照画像分割手法HARISを提案する。 具体的に言うと、Human-Like Attentionはマルチモーダル機能から \emph{feedback} シグナルを受け取り、ネットワークを特定のオブジェクトに集中させ、無関係な画像とテキストのペアを破棄する。 さらに,事前学習したエンコーダのゼロショット能力を維持するために,PEFTフレームワークを導入する。 3つのRISベンチマークとPhraseCutデータセットの大規模な実験により,本手法が最先端性能とゼロショット能力を実現することを示す。

Referring image segmentation (RIS) aims to locate the particular region corresponding to the language expression. Existing methods incorporate features from different modalities in a \emph{bottom-up} manner. This design may get some unnecessary image-text pairs, which leads to an inaccurate segmentation mask. In this paper, we propose a referring image segmentation method called HARIS, which introduces the Human-Like Attention mechanism and uses the parameter-efficient fine-tuning (PEFT) framework. To be specific, the Human-Like Attention gets a \emph{feedback} signal from multi-modal features, which makes the network center on the specific objects and discard the irrelevant image-text pairs. Besides, we introduce the PEFT framework to preserve the zero-shot ability of pre-trained encoders. Extensive experiments on three widely used RIS benchmarks and the PhraseCut dataset demonstrate that our method achieves state-of-the-art performance and great zero-shot ability.
翻訳日:2024-05-22 17:23:37 公開日:2024-05-21
# 量子メモリ応用のための欠陥核スピンレジスタ制御の高スループット評価

High-throughput assessment of defect-nuclear spin register controllability for quantum memory applications ( http://arxiv.org/abs/2405.10778v2 )

ライセンス: Link先を確認
Filippos Dakis, Evangelia Takou, Edwin Barnes, Sophia E. Economou, (参考訳) 量子メモリは、セキュアな通信、高度な量子センシング、分散量子コンピューティングを含む量子ネットワークや量子情報処理におけるタスクの促進に重要な役割を果たしている。 欠陥電子スピンと結合した大きな核スピンレジスタのキャラクタリゼーションの進歩は重要であるが、メモリ量子ビットの選択には多くの課題が伴うため、依然として困難である。 絡み合うゲートの忠実度を評価するための数値シミュレーションは障害に遭遇し、研究を小さなレジスタに制限する一方、実験は時間がかかり、よく理解されたサンプルに限られる。 本稿では,核スピンレジスタに結合した欠陥システムの制御性を系統的に評価する効率的な手法を提案する。 SiCの欠陥とランダムに選択された2種の核スピン群($^{13}$Cおよび$^{29}$Si)の絡み合いリンクの生成について検討した。 エンタングリングゲート動作の性能を定量化し、レジスタのサイズと不要核スピンの存在を考慮し、達成可能なゲート忠実度を示す。 標的核数と浴槽核数によっては,一部の制御シーケンスが他より優れていることが判明した。 この効率的なアプローチは、実験と工学の両方のためのガイドであり、量子メモリに適した欠陥システムの高速な探索を容易にする。

Quantum memories play a key role in facilitating tasks within quantum networks and quantum information processing, including secure communications, advanced quantum sensing, and distributed quantum computing. Progress in characterizing large nuclear spin registers coupled to defect electronic spins has been significant, but selecting memory qubits remains challenging due to the multitude of possible assignments. Numerical simulations for evaluating entangling gate fidelities encounter obstacles, restricting research to small registers, while experimental investigations are time-consuming and often limited to well-understood samples. Here we present an efficient methodology for systematically assessing the controllability of defect systems coupled to nuclear spin registers. We showcase the approach by investigating the generation of entanglement links between defects in SiC and randomly selected sets of nuclear spins within the two-species ($^{13}$C and $^{29}$Si) nuclear register. We quantify the performance of entangling gate operations and present the achievable gate fidelities, considering both the size of the register and the presence of unwanted nuclear spins. We find that some control sequences perform better than others depending on the number of target versus bath nuclei. This efficient approach is a guide for both experimental investigation and engineering, facilitating the high-throughput exploration of suitable defect systems for quantum memories.
翻訳日:2024-05-22 17:23:37 公開日:2024-05-21
# ECR-Chain: Reasoning Chainsを通じて、生成言語モデルを改善して感情・因果関係を改善する

ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains ( http://arxiv.org/abs/2405.10860v2 )

ライセンス: Link先を確認
Zhaopei Huang, Jinming Zhao, Qin Jin, (参考訳) 感情生成の過程を理解することは、感情の背後にある原因を分析するのに不可欠である。 CEE(Causal Emotion Entailment)は、ターゲット発話で表される感情を刺激する会話における因果発話を特定することを目的としている。 しかし、CEEにおける現在の研究は主に、感情生成過程の探索を無視して、会話における意味的および感情的相互作用をモデル化することに焦点を当てている。 これにより、モデルが感情の深い理解を妨げ、説明可能な予測を生成する能力を制限する。 本研究は、認知的評価理論における「刺激・評価・感情」の感情生成過程に着想を得て、会話中の対象の感情表現から刺激を推測するために、ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。 具体的には、まず、ChatGPT に数発のプロンプトで ECR-Chain を導入し、CEE タスクの性能を大幅に改善する。 ECR-Chain セットの構築において ChatGPT を利用する自動構築プロセスを提案する。これにより,教師付きトレーニングによる小型モデルの推論能力を高め,最先端の CEE 性能を実現する上で Vicuna-7B モデルを支援することができる。 さらに,これらの生成言語モデルを用いて,感情による推論を説明可能な方法で効果的に行うことができる。 私たちのコード、データ、詳細はhttps://github.com/hzp3517/ECR-Chain.orgにある。

Understanding the process of emotion generation is crucial for analyzing the causes behind emotions. Causal Emotion Entailment (CEE), an emotion-understanding task, aims to identify the causal utterances in a conversation that stimulate the emotions expressed in a target utterance. However, current works in CEE mainly focus on modeling semantic and emotional interactions in conversations, neglecting the exploration of the emotion-generation process. This hinders the models from deeply understanding emotions, restricting their ability to produce explainable predictions. In this work, inspired by the emotion generation process of "stimulus-appraisal-emotion" in the cognitive appraisal theory, we introduce a step-by-step reasoning method, Emotion-Cause Reasoning Chain (ECR-Chain), to infer the stimulus from the target emotional expressions in conversations. Specifically, we first introduce the ECR-Chain to ChatGPT via few-shot prompting, which significantly improves its performance on the CEE task. We further propose an automated construction process to utilize ChatGPT in building an ECR-Chain set, which can enhance the reasoning abilities of smaller models through supervised training and assist the Vicuna-7B model in achieving state-of-the-art CEE performance. Moreover, our methods can enable these generative language models to effectively perform emotion-cause reasoning in an explainable manner. Our code, data and more details are at https://github.com/hzp3517/ECR-Chain.
翻訳日:2024-05-22 17:23:37 公開日:2024-05-21
# 生成文書検索のためのボトルネック最小インデックス作成

Bottleneck-Minimal Indexing for Generative Document Retrieval ( http://arxiv.org/abs/2405.10974v2 )

ライセンス: Link先を確認
Xin Du, Lixin Xiu, Kumiko Tanaka-Ishii, (参考訳) 本稿では,情報理論を用いて生成文書検索(GDR)を再検討し,文書の$x \in X$を$t \in T$でインデックスし,ニューラルネットワークの自己回帰モデルを用いてクエリを$Q$から$T$にマッピングする。 GDRは、ドキュメントからクエリへの情報送信を$X$から$Q$とみなすことができる。 シャノンの速度歪み理論を適用することで、インデクシングの最適性は相互情報の観点から分析することができ、インデックスの$T$ は GDR において {\displaystyle {\em bottleneck} とみなすことができる。 この観点からGDRを再構成した後、我々はGDRの根底にあるボトルネックを実証的に定量化する。 最後に,NQ320K と MARCO のデータセットを用いて,提案したボトルネック最小インデックス法を,従来のインデックス法と比較して評価し,それらの手法よりも優れていることを示す。

We apply an information-theoretic perspective to reconsider generative document retrieval (GDR), in which a document $x \in X$ is indexed by $t \in T$, and a neural autoregressive model is trained to map queries $Q$ to $T$. GDR can be considered to involve information transmission from documents $X$ to queries $Q$, with the requirement to transmit more bits via the indexes $T$. By applying Shannon's rate-distortion theory, the optimality of indexing can be analyzed in terms of the mutual information, and the design of the indexes $T$ can then be regarded as a {\em bottleneck} in GDR. After reformulating GDR from this perspective, we empirically quantify the bottleneck underlying GDR. Finally, using the NQ320K and MARCO datasets, we evaluate our proposed bottleneck-minimal indexing method in comparison with various previous indexing methods, and we show that it outperforms those methods.
翻訳日:2024-05-22 17:23:37 公開日:2024-05-21
# MovieLensの信奉データ:オンラインレコメンダシステムのためのプレChoiceデータ収集

The MovieLens Beliefs Dataset: Collecting Pre-Choice Data for Online Recommender Systems ( http://arxiv.org/abs/2405.11053v2 )

ライセンス: Link先を確認
Guy Aridor, Duarte Goncalves, Ruoyan Kong, Daniel Kluver, Joseph Konstan, (参考訳) レコメンデーションシステムをデザインする上でますます重要な側面は、リコメンデーションが消費者の選択にどのように影響するかを検討することである。 本稿では,未経験項目に対するユーザの信念を収集する手法を導入することでこの問題に対処する。 この手法をMovieLensプラットフォームに実装し,ユーザ評価,信条,レコメンデーションを組み合わせたリッチデータセットを構築した。 このようなデータ収集の課題には、応答における選択バイアスや、製品空間の限定的なカバレッジなどが含まれる。 このユニークなリソースにより、研究者はユーザーの振る舞いを深く掘り下げ、不在のレコメンデーションを分析し、レコメンデーションの有効性を計測し、ユーザー信条データを活用するアルゴリズムのプロトタイプを作成することができ、最終的にはより影響力のあるレコメンデーションシステムに繋がる。 データセットはhttps://grouplens.org/datasets/movielens/ml_belief_2024/で見ることができる。

An increasingly important aspect of designing recommender systems involves considering how recommendations will influence consumer choices. This paper addresses this issue by introducing a method for collecting user beliefs about un-experienced items - a critical predictor of choice behavior. We implemented this method on the MovieLens platform, resulting in a rich dataset that combines user ratings, beliefs, and observed recommendations. We document challenges to such data collection, including selection bias in response and limited coverage of the product space. This unique resource empowers researchers to delve deeper into user behavior and analyze user choices absent recommendations, measure the effectiveness of recommendations, and prototype algorithms that leverage user belief data, ultimately leading to more impactful recommender systems. The dataset can be found at https://grouplens.org/datasets/movielens/ml_belief_2024/.
翻訳日:2024-05-22 17:23:37 公開日:2024-05-21
# 抽出会議要約のための談話構造の導入

Leveraging Discourse Structure for Extractive Meeting Summarization ( http://arxiv.org/abs/2405.11055v2 )

ライセンス: Link先を確認
Virgile Rennard, Guokan Shang, Michalis Vazirgiannis, Julie Hunter, (参考訳) 談話構造を利用した会議の抽出要約システムを導入し、複雑な多人数討論からより詳細な情報を識別する。 会議における発話の内容間の意味関係を表現するために,談話グラフを用いて,GNNに基づくノード分類モデルを訓練し,最も重要な発話を選択する。 AMIおよびICSIを用いた実験結果から,本手法が既存のテキストベースおよびグラフベース抽出要約システムを上回ることが確認された。 さらに、談話構造と関係型に関するアブレーション研究を行い、談話分析理論を利用した今後のNLP応用の洞察を提供する。

We introduce an extractive summarization system for meetings that leverages discourse structure to better identify salient information from complex multi-party discussions. Using discourse graphs to represent semantic relations between the contents of utterances in a meeting, we train a GNN-based node classification model to select the most important utterances, which are then combined to create an extractive summary. Experimental results on AMI and ICSI demonstrate that our approach surpasses existing text-based and graph-based extractive summarization systems, as measured by both classification and summarization metrics. Additionally, we conduct ablation studies on discourse structure and relation type to provide insights for future NLP applications leveraging discourse analysis theory.
翻訳日:2024-05-22 17:23:37 公開日:2024-05-21
# クラウドソーシングによるインターネットアクセスネットワーク性能測定のための空間モデル

Spatial Models for Crowdsourced Internet Access Network Performance Measurements ( http://arxiv.org/abs/2405.11138v2 )

ライセンス: Link先を確認
Taveesh Sharma, Paul Schmitt, Francesco Bronzino, Nick Feamster, Nicole Marwell, (参考訳) アクセスネットワークインフラに多大な投資をしているにもかかわらず、高品質なインターネット接続への普遍的なアクセスは依然として課題である。 政策立案者は、地理的領域にわたるアクセスネットワーク性能の分布を評価するために、大規模でクラウドソースの計測データセットを利用することが多い。 これらの決定は一般的に、インターネットのパフォーマンスが、ジップコード、国勢調査区域、コミュニティエリアなど、事前に定義された社会的境界内に均一に分散されているという前提に基づいている。 しかし、この仮定は、(1)クラウドソーシングによる測定では、地理的に一様でないサンプリング密度を示すことが多く、(2)事前に定義された社会的境界は、インターネットインフラの実際の境界と一致しない、という2つの理由から有効ではない。 本稿では,インターネットのパフォーマンスを空間的プロセスとしてモデル化する。 本研究では,(1) 地理的領域におけるインターネット性能の集約,(2) 様々なサンプリング境界選択を持つオーバーレイ補間マップ,(3) 類似の性能特性を持つ領域を特定するための空間クラスタ境界ユニットなど,一連の統計手法を適用し,評価する。 我々は,Ookla Speedtestの17ヶ月のクラウドソースデータセットを用いて,これらの有効性を評価した。 様々な空間スケールで複数の先行補間法を評価する。 さらに、データセットのより小さな実現のために、結果のバウンダリ間の類似性について検討する。 以上の結果から,本手法の組み合わせは,実測値よりも集計値に依存した従来の手法に比べて56%の類似点が得られることが示唆された。 我々の研究は、インターネットアクセス格差の理解と対処において、より高度な戦略に対する緊急の要求を強調している。

Despite significant investments in access network infrastructure, universal access to high-quality Internet connectivity remains a challenge. Policymakers often rely on large-scale, crowdsourced measurement datasets to assess the distribution of access network performance across geographic areas. These decisions typically rest on the assumption that Internet performance is uniformly distributed within predefined social boundaries, such as zip codes, census tracts, or community areas. However, this assumption may not be valid for two reasons: (1) crowdsourced measurements often exhibit non-uniform sampling densities within geographic areas; and (2) predefined social boundaries may not align with the actual boundaries of Internet infrastructure. In this paper, we model Internet performance as a spatial process. We apply and evaluate a series of statistical techniques to: (1) aggregate Internet performance over a geographic region; (2) overlay interpolated maps with various sampling boundary choices; and (3) spatially cluster boundary units to identify areas with similar performance characteristics. We evaluated the effectiveness of these using a 17-month-long crowdsourced dataset from Ookla Speedtest. We evaluate several leading interpolation methods at varying spatial scales. Further, we examine the similarity between the resulting boundaries for smaller realizations of the dataset. Our findings suggest that our combination of techniques achieves a 56% gain in similarity score over traditional methods that rely on aggregates over raw measurement values for performance summarization. Our work highlights an urgent need for more sophisticated strategies in understanding and addressing Internet access disparities.
翻訳日:2024-05-22 17:23:37 公開日:2024-05-21
# プレーンコードでJavaオブジェクトをシリアライズする

Serializing Java Objects in Plain Code ( http://arxiv.org/abs/2405.11294v2 )

ライセンス: Link先を確認
Julian Wachter, Deepika Tiwari, Martin Monperrus, Benoit Baudry, (参考訳) マネージド言語では、オブジェクトのシリアライズは通常、ProtobufのようなbespokeバイナリフォーマットやXMLやJSONのようなマークアップ言語で行われます。 これらのフォーマットの最大の制限は可読性である。 人間開発者はバイナリコードを読めず、ほとんどの場合、XMLやJSONの構文に悩まされる。 これは、オブジェクトがテストケースのようなソースコードに埋め込まれて読み込まれるように意図された場合の大きな問題である。 この問題に対処するため、我々はプレーンコードシリアライズを提案する。 私たちの中核的な考え方は、実行時に観察されたオブジェクトをプログラミング言語のネイティブ構文でシリアライズすることです。 このビジョンをJavaのコンテキストで実現し,JavaオブジェクトをJavaソースコードにシリアライズするプロトタイプを実演する。 その結果、ソースは実行時に見るオブジェクトを忠実に再構築する。 プロトタイプはProDJと呼ばれ、公開されています。 我々はProDJを用いて、4つのオープンソースJavaアプリケーション実行中に観測された174,699個のオブジェクトをプレーンコードでシリアライズする実験を行った。 性能測定の結果, 性能への影響は明らかでない。

In managed languages, serialization of objects is typically done in bespoke binary formats such as Protobuf, or markup languages such as XML or JSON. The major limitation of these formats is readability. Human developers cannot read binary code, and in most cases, suffer from the syntax of XML or JSON. This is a major issue when objects are meant to be embedded and read in source code, such as in test cases. To address this problem, we propose plain-code serialization. Our core idea is to serialize objects observed at runtime in the native syntax of a programming language. We realize this vision in the context of Java, and demonstrate a prototype which serializes Java objects to Java source code. The resulting source faithfully reconstructs the objects seen at runtime. Our prototype is called ProDJ and is publicly available. We experiment with ProDJ to successfully plain-code serialize 174,699 objects observed during the execution of 4 open-source Java applications. Our performance measurement shows that the performance impact is not noticeable.
翻訳日:2024-05-22 17:23:37 公開日:2024-05-21
# マルチタスクコントラスト学習の有効利用によるコンテンツ理解の改善

Improved Content Understanding With Effective Use of Multi-task Contrastive Learning ( http://arxiv.org/abs/2405.11344v2 )

ライセンス: Link先を確認
Akanksha Bindal, Sudarshan Ramanujam, Dave Golland, TJ Hazen, Tina Jiang, Fengyu Zhang, Peng Yan, (参考訳) LinkedInのコアコンテンツレコメンデーションモデルを強化する上で、重要な課題はセマンティック理解機能の改善である。 本稿では,様々な領域において有望な手法であるマルチタスク学習を活用することで,この問題に対処する。 多様なセマンティックラベリングタスクから得られたデータとマルチタスクのコントラスト学習を用いて、事前学習されたトランスフォーマーベースのLLMを微調整する。 我々は前向きな移行を観察し、各タスクのトレーニングを独立して行う場合と比較して、すべてのタスクにおいて優れたパフォーマンスをもたらす。 我々のモデルはゼロショット学習のベースラインを上回り、多言語サポートの改善を提供し、より広範なアプリケーションの可能性を強調している。 当社のモデルが生成した特殊なコンテンツ埋め込みは,Linkedinデータセットとタスク上でOpenAIが提供する汎用的な埋め込みよりも優れています。 この作業は、LLMを特定のアプリケーションにカスタマイズし、微調整するLinkedInの垂直チームにとって、堅牢な基盤を提供する。 私たちの仕事は、現場を構築するための洞察とベストプラクティスを提供します。

In enhancing LinkedIn core content recommendation models, a significant challenge lies in improving their semantic understanding capabilities. This paper addresses the problem by leveraging multi-task learning, a method that has shown promise in various domains. We fine-tune a pre-trained, transformer-based LLM using multi-task contrastive learning with data from a diverse set of semantic labeling tasks. We observe positive transfer, leading to superior performance across all tasks when compared to training independently on each. Our model outperforms the baseline on zero shot learning and offers improved multilingual support, highlighting its potential for broader application. The specialized content embeddings produced by our model outperform generalized embeddings offered by OpenAI on Linkedin dataset and tasks. This work provides a robust foundation for vertical teams across LinkedIn to customize and fine-tune the LLM to their specific applications. Our work offers insights and best practices for the field to build on.
翻訳日:2024-05-22 17:23:37 公開日:2024-05-21
# EMI/EMCシミュレーションのためのkan-based Physics-informed Neural Networksの検討

Investigating KAN-Based Physics-Informed Neural Networks for EMI/EMC Simulations ( http://arxiv.org/abs/2405.11383v2 )

ライセンス: Link先を確認
Kun Qian, Mohamed Kheir, (参考訳) 本研究の目的は,特にKAN(KolmogorovArnold Networks)における物理インフォームドニューラルネットワーク(PINN)を用いた電磁干渉(EMI)シミュレーションの実現可能性を検討することである。 これは、一般的なEM問題の定式化と、それをAI駆動のソリューションで解く方法を導入し、長大で複雑なフルウェーブの数値シミュレーションに代えて導入する。 この研究は、エネルギー消費の少ないグリーンEMIシミュレーションワークフローのための新たな地平を開く可能性がある。

The main objective of this paper is to investigate the feasibility of employing Physics-Informed Neural Networks (PINNs) techniques, in particular KolmogorovArnold Networks (KANs), for facilitating Electromagnetic Interference (EMI) simulations. It introduces some common EM problem formulations and how they can be solved using AI-driven solutions instead of lengthy and complex full-wave numerical simulations. This research may open new horizons for green EMI simulation workflows with less energy consumption and feasible computational capacity.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# 暗空洞内気相における化学反応の促進条件

Conditions for enhancement of chemical reactions in gas phase inside a dark cavity ( http://arxiv.org/abs/2405.11387v2 )

ライセンス: Link先を確認
Nimrod Moiseyev, (参考訳) A+B \to [\textit{activated complex}]^\# \to C+D$のような化学反応を、暗い空洞における量子電気力学(QED)モードとのカップリングを通じてガス相で促進する。 主な結果は、暗い空洞による反応速度の増大は非対称反応(反応物とは異なる生成物)のためである。 量子力学(NHQM)の非エルミート形式を利用した理論的導出は、ダークキャビティによって強化される適切なタイプの反応を選択するための条件とガイドラインを提供する。 それでも、そのような実験の時間依存シミュレーションは標準(エルミート)散乱理論を用いて行うことができる(ただし、NHQMによって導かれる条件を含む)。 この研究は、新しいタイプの研究の門を開き、この魅力的な比較的新しい研究分野における理論と実験の間のギャップを埋めるのに役立つと信じています。 例えば、$O+D_2\to [ODD]^{\#} \to OD+D$ および $H+ArCl \to [ArHCl]^{\#} \to H+Ar+Cl$ の非対称反応速度は、暗空空洞によって向上できることを示した。 対照的に、メタン中の水素交換の対称反応に対する暗い空洞効果は無視できない。

Enhancing chemical reactions, such as $A+B \to [\textit{activated complex}]^\# \to C+D$, in gas phase through its coupling to quantum-electrodynamics (QED) modes in a dark cavity is investigated. The main result is that the enhancement of the reaction rate by a dark cavity is for asymmetric reactions (products different from reactants.) Notice that in addition to the cavity been dark, the reactants are in their ground electronic and vibrational states, i.e., it is indeed dark. Theoretical derivation, utilizing the non-Hermitian formalism of quantum mechanics (NHQM), provides conditions and guidelines for selecting the proper type of reactions that can be enhanced by a dark cavity. Nevertheless, the time-dependent simulations of such experiments can be carried out using the standard (Hermitian) scattering theory (but including the conditions derived via NHQM). We believe that this work opens a gate to new types of studies and hopefully helps to close the gap between theory and experiments in this fascinating, relatively new field of research. As an example, we demonstrate that the asymmetric reaction rates of $O+D_2\to [ODD]^{\#} \to OD+D$ and $H+ArCl \to [ArHCl]^{\#} \to H+Ar+Cl$ can be enhanced by a dark cavity. Contrary, the dark cavity effect on the symmetric reaction of hydrogen exchange in methane will be negligible.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# GANによるフェデレーション学習システムに対するデータ中毒攻撃とその対策

A GAN-Based Data Poisoning Attack Against Federated Learning Systems and Its Countermeasure ( http://arxiv.org/abs/2405.11440v2 )

ライセンス: Link先を確認
Wei Sun, Bo Gao, Ke Xiong, Yuwei Wang, (参考訳) 分散機械学習パラダイムとして、フェデレートラーニング(FL)は、個人所有のデータセット上で協調的に実行されるが、直接的なデータアクセスは行われない。 元々の意図は、データのプライバシに関する懸念を緩和することにあるが、FL内の"可利用だが見えない"データは、新たなセキュリティ脅威をもたらす可能性がある。 FLシステムに対するデータ中毒攻撃を最初に試みたが、統計異常を引き起こす可能性が高く、完全には成功しない。 真に「見えない」攻撃の可能性を解き、より抑止的な脅威モデルを構築するために、VagGANと呼ばれる新しいデータ中毒モデルが提案されている。 VagueGANは、需要に応じて有毒データの品質を操作できるため、攻撃の有効性とステルスネスのトレードオフを可能にする。 さらに,GAN出力の整合性を見出した上で,GANを注入したデータやモデルを特定するために,MCD(Model Consistency-Based Defense)という費用対効果が提案されている。 複数のデータセットに対する大規模な実験により、我々の攻撃方法は概してステルス性が高く、複雑性の低いFL性能の劣化に有効であることが示唆された。 また,本手法は,GAN中毒データやモデルを特定する上で,より有能であることを示す。 ソースコードは \href{https://github.com/SSssWEIssSS/VagueGAN-Data-Poisoning-Attack-and-Its-Countermeasure}{https://github.com/SSssWEIssSS/VagueGAN-Data-Poisoning-Attack-and-Its-Countermeasure} で公開されている。

As a distributed machine learning paradigm, federated learning (FL) is collaboratively carried out on privately owned datasets but without direct data access. Although the original intention is to allay data privacy concerns, "available but not visible" data in FL potentially brings new security threats, particularly poisoning attacks that target such "not visible" local data. Initial attempts have been made to conduct data poisoning attacks against FL systems, but cannot be fully successful due to their high chance of causing statistical anomalies. To unleash the potential for truly "invisible" attacks and build a more deterrent threat model, in this paper, a new data poisoning attack model named VagueGAN is proposed, which can generate seemingly legitimate but noisy poisoned data by untraditionally taking advantage of generative adversarial network (GAN) variants. Capable of manipulating the quality of poisoned data on demand, VagueGAN enables to trade-off attack effectiveness and stealthiness. Furthermore, a cost-effective countermeasure named Model Consistency-Based Defense (MCD) is proposed to identify GAN-poisoned data or models after finding out the consistency of GAN outputs. Extensive experiments on multiple datasets indicate that our attack method is generally much more stealthy as well as more effective in degrading FL performance with low complexity. Our defense method is also shown to be more competent in identifying GAN-poisoned data or models. The source codes are publicly available at \href{https://github.com/SSssWEIssSS/VagueGAN-Data-Poisoning-Attack-and-Its-Countermeasure}{https://github.com/SSssWEIssSS/VagueGAN-Data-Poisoning-Attack-and-Its-Countermeasure}.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# LLMによる実世界のコード翻訳に向けて:Rustへの翻訳について

Towards Translating Real-World Code with LLMs: A Study of Translating to Rust ( http://arxiv.org/abs/2405.11514v2 )

ライセンス: Link先を確認
Hasan Ferit Eniser, Hanliang Zhang, Cristina David, Meng Wang, Maria Christakis, Brandon Paulsen, Joey Dodds, Daniel Kroening, (参考訳) 大きな言語モデル(LLM)は、あるプログラミング言語で書かれたコードを他の言語に翻訳するタスクであるコード翻訳の約束を示す。 しかし、LLMの現実世界のコードを翻訳する効果はほとんど研究されていない。 本研究では,5つの最先端LLM,GPT4,Claude 3,Claude 2.1,Gemini Pro,Mixtralの能力を評価することにより,RustへのLLMベースの翻訳に関する最初の実質的研究を行う。 実世界のオープンソースプロジェクトから抽出したコードについて検討する。 そこで本研究では,Rust翻訳が元のソースコードと同等のI/Oであるかどうかを確認するために差分ファジィを利用するエンドツーエンドのコード翻訳ツールであるFLOURINEを開発し,既存のテストケースの必要性を排除した。 調査の一環として,LSMが最初に成功した翻訳を生成できる能力と,以前に生成されたバグの修正能力の両方を評価した。 元のプログラムと翻訳プログラムがI/O同値でない場合、逆例によるLLMへのフィードバックを含む一連の自動フィードバック戦略を適用する。 我々の結果は、最も成功したLLMがベンチマークの47%を翻訳できることを示し、また、改善のための次のステップについての洞察を提供する。

Large language models (LLMs) show promise in code translation - the task of translating code written in one programming language to another language - due to their ability to write code in most programming languages. However, LLM's effectiveness on translating real-world code remains largely unstudied. In this work, we perform the first substantial study on LLM-based translation to Rust by assessing the ability of five state-of-the-art LLMs, GPT4, Claude 3, Claude 2.1, Gemini Pro, and Mixtral. We conduct our study on code extracted from real-world open source projects. To enable our study, we develop FLOURINE, an end-to-end code translation tool that uses differential fuzzing to check if a Rust translation is I/O equivalent to the original source program, eliminating the need for pre-existing test cases. As part of our investigation, we assess both the LLM's ability to produce an initially successful translation, as well as their capacity to fix a previously generated buggy one. If the original and the translated programs are not I/O equivalent, we apply a set of automated feedback strategies, including feedback to the LLM with counterexamples. Our results show that the most successful LLM can translate 47% of our benchmarks, and also provides insights into next steps for improvements.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# DOLLmC: 大規模言語モデルのカスタマイズのためのDevOps

DOLLmC: DevOps for Large Language model Customization ( http://arxiv.org/abs/2405.11581v2 )

ライセンス: Link先を確認
Panos Fitsilis, Vyron Damasiotis, Vasileios Kyriatzis, Paraskevi Tsoutsa, (参考訳) LLM(Large Language Models)の様々な産業への迅速な統合は、革命的な機会とユニークな課題の両方を提示する。 この研究は、LLMカスタマイズの特定の要求を満たすためにDevOpsプラクティスをどのように適応すべきかを探求する、スケーラブルで効率的なLLMカスタマイズフレームワークを確立することを目的としている。 オントロジ、ナレッジマップ、エンジニアリングをDevOpsパイプラインに統合することで、継続的学習、シームレスなデプロイメント、厳密なバージョン管理を強化する堅牢なフレームワークを提案します。 この手法は、農業分野のためのドメイン固有のチャットボットの開発を通じて実証され、異種データを利用して実行可能な洞察を提供する。 提案手法はDOLLmCと呼ばれ、LCMのカスタマイズの直接的な課題に対処するだけでなく、スケーラビリティと運用効率も促進する。 しかしながら、方法論の主な制限は、広範囲なテスト、検証、異なるドメインにまたがる広範な採用の必要性にある。

The rapid integration of Large Language Models (LLMs) into various industries presents both revolutionary opportunities and unique challenges. This research aims to establish a scalable and efficient framework for LLM customization, exploring how DevOps practices should be adapted to meet the specific demands of LLM customization. By integrating ontologies, knowledge maps, and prompt engineering into the DevOps pipeline, we propose a robust framework that enhances continuous learning, seamless deployment, and rigorous version control of LLMs. This methodology is demonstrated through the development of a domain-specific chatbot for the agricultural sector, utilizing heterogeneous data to deliver actionable insights. The proposed methodology, so called DOLLmC, not only addresses the immediate challenges of LLM customization but also promotes scalability and operational efficiency. However, the methodology's primary limitation lies in the need for extensive testing, validation, and broader adoption across different domains.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# 知識の対比によるデコーディング:LLMの編集要素への信頼を高める

Decoding by Contrasting Knowledge: Enhancing LLMs' Confidence on Edited Facts ( http://arxiv.org/abs/2405.11613v2 )

ライセンス: Link先を確認
Baolong Bi, Shenghua Liu, Lingrui Mei, Yiwei Wang, Pengliang Ji, Xueqi Cheng, (参考訳) 大規模言語モデル(LLM)における知識は、急速に時代遅れになる可能性がある。 インコンテキスト編集(ICE)は現在、知識編集(KE)において最も効果的な方法であるが、LCMのブラックボックスモデリングに制約されているため、解釈性に欠ける。 本研究の目的は,トークン単位の分布に対する文脈内知識の影響を分析することで,KEにおけるICEの優れた性能を解明することである。 新たな知識のロジットが著しく向上したにもかかわらず、その性能はいまだに頑健な知識によって妨げられている。 スタブボーン知識(Stubborn knowledge)は、事前訓練中に過剰な信頼を得た事実であり、効果的に編集することが困難である。 この問題に対処し、ICEの性能をさらに向上するために、$\textbf{De}$coding by $\textbf{C}$ontrasting $\textbf{K}$nowledge (DeCK) という新しいアプローチを提案する。 DeCKは、ICEによってガイドされた新しく編集された知識と、未編集のパラメトリックな知識から得られたログを対比することにより、次のトークンの分布を導出する。 我々の実験は、DeCKが編集事実におけるLLMの信頼性を高めることを一貫して示している。 例えば、MQuAKE上でのLLaMA3-8Bインストラクタの性能を最大219%向上させ、スタブボーン知識の編集においてICEを強化する能力を示す。 我々の研究は、LLMの効果的なKE手法と説明可能なKE手法の両方を開発するための道を開いた。 (ソースコードはhttps://deck-llm.meirtz.com)。

The knowledge within large language models (LLMs) may become outdated quickly. While in-context editing (ICE) is currently the most effective method for knowledge editing (KE), it is constrained by the black-box modeling of LLMs and thus lacks interpretability. Our work aims to elucidate the superior performance of ICE on the KE by analyzing the impacts of in-context new knowledge on token-wise distributions. We observe that despite a significant boost in logits of the new knowledge, the performance of is still hindered by stubborn knowledge. Stubborn knowledge refers to as facts that have gained excessive confidence during pretraining, making it hard to edit effectively. To address this issue and further enhance the performance of ICE, we propose a novel approach termed $\textbf{De}$coding by $\textbf{C}$ontrasting $\textbf{K}$nowledge (DeCK). DeCK derives the distribution of the next token by contrasting the logits obtained from the newly edited knowledge guided by ICE with those from the unedited parametric knowledge. Our experiments consistently demonstrate that DeCK enhances the confidence of LLMs in edited facts. For instance, it improves the performance of LLaMA3-8B-instruct on MQuAKE by up to 219%, demonstrating its capability to strengthen ICE in the editing of stubborn knowledge. Our work paves the way to develop the both effective and accountable KE methods for LLMs. (The source code is available at: https://deck-llm.meirtz.com)
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# Hummer: 限定的な競合的推論データセットを目指して

Hummer: Towards Limited Competitive Preference Dataset ( http://arxiv.org/abs/2405.11647v2 )

ライセンス: Link先を確認
Li Jiang, Yusen Wu, Junwu Xiong, Jingqing Ruan, Yichuan Ding, Qingpei Guo, Zujie Wen, Jun Zhou, Xiaotie Deng, (参考訳) 優先データセットは、人間の好みを事前訓練された言語モデルに組み込むのに不可欠であり、ヒューマンフィードバックからの強化学習の成功に重要な役割を果たす。 しかし、これらのデータセットは矛盾するアライメントの目的を示すことが多く、ジェイルブレイク攻撃に対する脆弱性の増加や、下流のタスクを適用して特定のアライメントの目的を、他人に悪影響を及ぼすことなく優先順位付けする際の課題に繋がる。 本研究では,選好データセット内の競合の度合いを定量化するために,新しい統計量であるアライメント・ディメンション・コンフリクトを導入する。 次に,その微粒な変種である \texttt{Hummer-F} を,縮小コンフリクトなアライメント目的を持つイノベーティブなペアワイズ選好データセットとして提示する。 texttt{Hummer}はUltraFeedbackに基づいて構築されており、GPT-4からのAIフィードバックによって強化されている。 さらに,HummerRMとHummerRM-Fという,多様なアライメント目的を効果的にバランスさせるハイブリッドサンプリング手法を開発した。 このサンプリング方法は、HummerRMをドメイン固有のさらなる微調整と攻撃に対する脆弱性の低減のための理想的なモデルとして位置づける。

Preference datasets are essential for incorporating human preferences into pre-trained language models, playing a key role in the success of Reinforcement Learning from Human Feedback. However, these datasets often demonstrate conflicting alignment objectives, leading to increased vulnerability to jailbreak attacks and challenges in adapting downstream tasks to prioritize specific alignment objectives without negatively impacting others. In this work, we introduce a novel statistical metric, Alignment Dimension Conflict, to quantify the degree of conflict within preference datasets. We then present \texttt{Hummer} and its fine-grained variant, \texttt{Hummer-F}, as innovative pairwise preference datasets with reduced-conflict alignment objectives. \texttt{Hummer} is built based on UltraFeedback and is enhanced by AI feedback from GPT-4, marking as the first preference dataset aimed at reducing the competition between alignment objectives. Furthermore, we develop reward models, HummerRM and HummerRM-F, which employ a hybrid sampling approach to balance diverse alignment objectives effectively. This sampling method positions HummerRM as an ideal model for domain-specific further fine-tuning and reducing vulnerabilities to attacks.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# 解釈可能な機械学習は病気の予後を高める:COVID-19と今後の応用

Interpretable Machine Learning Enhances Disease Prognosis: Applications on COVID-19 and Onward ( http://arxiv.org/abs/2405.11672v2 )

ライセンス: Link先を確認
Jinzhi Shen, Ke Ma, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックを受けて、解釈可能な機械学習技術の統合は大きな注目を集め、情報的な臨床的意思決定に不可欠な透明で理解可能な洞察を提供してきた。 本論文は,呼吸器疾患の予後予測における解釈可能な機械学習の応用,特に新型コロナウイルスとその今後の研究・臨床実践への意義を考察する。 我々は、既存の臨床領域の知識を組み込むだけでなく、データから新たな情報を探索する学習能力を持つ各種機械学習モデルについてレビューした。 これらのモデルと経験は、現在の危機の管理を助けるだけでなく、将来の病気の流行に対応するための約束も持つ。 解釈可能な機械学習を活用することで、医療システムは、その準備と応答能力を高め、患者の成果を改善し、今後数年間の呼吸器疾患の影響を軽減することができる。

In response to the COVID-19 pandemic, the integration of interpretable machine learning techniques has garnered significant attention, offering transparent and understandable insights crucial for informed clinical decision making. This literature review delves into the applications of interpretable machine learning in predicting the prognosis of respiratory diseases, particularly focusing on COVID-19 and its implications for future research and clinical practice. We reviewed various machine learning models that are not only capable of incorporating existing clinical domain knowledge but also have the learning capability to explore new information from the data. These models and experiences not only aid in managing the current crisis but also hold promise for addressing future disease outbreaks. By harnessing interpretable machine learning, healthcare systems can enhance their preparedness and response capabilities, thereby improving patient outcomes and mitigating the impact of respiratory diseases in the years to come.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# AMMeBa:メディアベースの誤報の大規模調査とデータセット

AMMeBa: A Large-Scale Survey and Dataset of Media-Based Misinformation In-The-Wild ( http://arxiv.org/abs/2405.11697v2 )

ライセンス: Link先を確認
Nicholas Dufour, Arkanath Pathak, Pouya Samangouei, Nikki Hariri, Shashi Deshetti, Andrew Dudfield, Christopher Guess, Pablo Hernández Escayola, Bobby Tran, Mevan Babakar, Christoph Bregler, (参考訳) オンライン誤報の流行と害は、インターネットプラットフォーム、機関、社会全体に対する長年にわたる懸念である。 時間が経つにつれ、オンラインで共有される情報はメディアが重くなり、誤報はこれらの新しいモダリティに容易に適応するようになった。 現実的なオーディオ、画像、ビデオ、人間のようなテキストを合成するための、広くアクセス可能な方法を提供する、生成AIベースのツールの台頭は、これらの懸念を増幅した。 大衆の関心や重要な報道にもかかわらず、メディアベースの誤報の頻度とモダリティに関する定量的情報は乏しいままである。 本稿では,CraimReviewマークアップを用いた公開可能なファクトチェックの大規模なサンプルから評価したクレームに基づいて,オンラインメディアベースの誤情報に注釈を付けるために,人間のレーダを用いた2年間の研究結果を示す。 本稿では,画像の側面を捉え,誤情報請求における画像の役割に関係した操作を行うイメージタイプポロジーを提案する。 これらのタイプの分布を時間とともに可視化する。 偽情報主張における生成的AIベースのコンテンツの増加を示すとともに,その共通性は比較的最近の現象であり,報道報道後の顕著な出来事である。 また、歴史的、特にコンテキスト操作において支配的な"単純な"手法を示し、2023年11月のデータ収集の終了時点でも多数を占め続けています。 このデータセットであるAMMeBa(Annotated Misinformation, Media-Based)は、公開されており、現実的な環境で緩和方法を評価する手段としても、オンライン誤情報のタイプとモダリティのファースト・オブ・ザ・キンド・センサスとしても機能したいと思っています。

The prevalence and harms of online misinformation is a perennial concern for internet platforms, institutions and society at large. Over time, information shared online has become more media-heavy and misinformation has readily adapted to these new modalities. The rise of generative AI-based tools, which provide widely-accessible methods for synthesizing realistic audio, images, video and human-like text, have amplified these concerns. Despite intense public interest and significant press coverage, quantitative information on the prevalence and modality of media-based misinformation remains scarce. Here, we present the results of a two-year study using human raters to annotate online media-based misinformation, mostly focusing on images, based on claims assessed in a large sample of publicly-accessible fact checks with the ClaimReview markup. We present an image typology, designed to capture aspects of the image and manipulation relevant to the image's role in the misinformation claim. We visualize the distribution of these types over time. We show the rise of generative AI-based content in misinformation claims, and that its commonality is a relatively recent phenomenon, occurring significantly after heavy press coverage. We also show "simple" methods dominated historically, particularly context manipulations, and continued to hold a majority as of the end of data collection in November 2023. The dataset, Annotated Misinformation, Media-Based (AMMeBa), is publicly-available, and we hope that these data will serve as both a means of evaluating mitigation methods in a realistic setting and as a first-of-its-kind census of the types and modalities of online misinformation.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# RoNLIを応用したカルトグラフィーに基づく新しいカリキュラム学習法:ルーマニア初の自然言語推論コーパス

A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus ( http://arxiv.org/abs/2405.11877v2 )

ライセンス: Link先を確認
Eduard Poesina, Cornelia Caragea, Radu Tudor Ionescu, (参考訳) 自然言語推論(英: Natural Language Inference, NLI)は、自然言語理解の代名詞として研究されている話題である。 対話エージェントの構築やテキスト分類、機械翻訳、その他のNLPタスクの改善には関連性があるものの、我々の知る限り、ルーマニア語のNLIコーパスは公開されていない。 この目的のために, 遠隔監視により得られた58Kの訓練文対と, 正確なラベルを手動で注釈付けした6Kの検証とテスト文対からなるルーマニア初のNLIコーパス(RoNLI)を導入する。 我々は、単語埋め込みに基づく浅いモデルからトランスフォーマーベースのニューラルネットワークまで、遠隔学習に基づく複数の機械学習手法で実験を行い、競争力のあるベースラインを確立する。 さらに、データ地図に基づく新しいカリキュラム学習戦略を採用することにより、最良のモデルを改善する。 ベースラインを再現するデータセットとコードは、https://github.com/Eduard6421/RONLI.orgで公開されています。

Natural language inference (NLI), the task of recognizing the entailment relationship in sentence pairs, is an actively studied topic serving as a proxy for natural language understanding. Despite the relevance of the task in building conversational agents and improving text classification, machine translation and other NLP tasks, to the best of our knowledge, there is no publicly available NLI corpus for the Romanian language. To this end, we introduce the first Romanian NLI corpus (RoNLI) comprising 58K training sentence pairs, which are obtained via distant supervision, and 6K validation and test sentence pairs, which are manually annotated with the correct labels. We conduct experiments with multiple machine learning methods based on distant learning, ranging from shallow models based on word embeddings to transformer-based neural networks, to establish a set of competitive baselines. Furthermore, we improve on the best model by employing a new curriculum learning strategy based on data cartography. Our dataset and code to reproduce the baselines are available at https://github.com/Eduard6421/RONLI.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# 鉛直的フェデレーション学習 ハイブリッドローカル事前学習

Vertical Federated Learning Hybrid Local Pre-training ( http://arxiv.org/abs/2405.11884v2 )

ライセンス: Link先を確認
Wenguo Li, Xinling Guo, Xu Jiao, Tiancheng Huang, Xiaoran Yan, Yao Yang, (参考訳) 現実世界の応用範囲の広い垂直的フェデレートラーニング(VFL)は、アカデミックと産業の両方で多くの注目を集めている。 企業は、モデルの予測スキルを高めるために、さまざまな部門から同じユーザのより価値のある機能を活用しようとしている。 VFLはこの要求に対処し、個々のパーティが生データを公開しないことを同時に保証します。 しかしながら、従来のVFLは、より多くの関係者が関与してサイズが縮小し、データ不足と不整合データの無駄が生じるような整合したサンプルのみを活用するため、ボトルネックに直面している。 この問題に対処するために,新しいVFL Hybrid Local Pre-training (VFLHLP) アプローチを提案する。 VFLHLPはまず、参加者のローカルデータに基づいて、ローカルネットワークを事前訓練する。 そして、これらの事前学習ネットワークを利用してラベル付きパーティーのサブモデルを調整するか、下流のフェデレーション学習中に他のパーティーの表現学習を強化することで、フェデレーション付きモデルの性能を高める。 実世界の広告データセットの実験結果から,本手法がベースライン手法よりも大きなマージンで最高の性能を達成することを示す。 アブレーション研究は、VFLHLPにおける各テクニックの全体的な性能への貢献をさらに示している。

Vertical Federated Learning (VFL), which has a broad range of real-world applications, has received much attention in both academia and industry. Enterprises aspire to exploit more valuable features of the same users from diverse departments to boost their model prediction skills. VFL addresses this demand and concurrently secures individual parties from exposing their raw data. However, conventional VFL encounters a bottleneck as it only leverages aligned samples, whose size shrinks with more parties involved, resulting in data scarcity and the waste of unaligned data. To address this problem, we propose a novel VFL Hybrid Local Pre-training (VFLHLP) approach. VFLHLP first pre-trains local networks on the local data of participating parties. Then it utilizes these pre-trained networks to adjust the sub-model for the labeled party or enhance representation learning for other parties during downstream federated learning on aligned data, boosting the performance of federated models. The experimental results on real-world advertising datasets, demonstrate that our approach achieves the best performance over baseline methods by large margins. The ablation study further illustrates the contribution of each technique in VFLHLP to its overall performance.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# CSTA:ビデオ要約のためのCNNに基づく時空間アテンション

CSTA: CNN-based Spatiotemporal Attention for Video Summarization ( http://arxiv.org/abs/2405.11905v2 )

ライセンス: Link先を確認
Jaewon Son, Jaehun Park, Kwangsu Kim, (参考訳) ビデオ要約は、ビデオの簡潔な表現を生成し、本質的な内容とキーモーメントをキャプチャし、全体的な長さを短縮することを目的としている。 いくつかの手法では長期依存を扱うために注意機構を採用しているが、フレームに固有の視覚的意義を捉えるのに失敗することが多い。 この制限に対処するために,CNN ベースの SpatioTemporal Attention (CSTA) 手法を提案する。 提案手法は,CNNによるフレーム内およびフレーム内関係の理解と,画像内の絶対位置を学習する能力を活用して,映像中の重要な属性を見つけることに依存する。 空間的重要性を重視した追加モジュールを設計することで、従来の作業の効率向上とは対照的に、CSTAでは、CNNをスライディングウィンドウとして使用するため、計算オーバーヘッドを最小限に抑える必要がある。 2つのベンチマークデータセット(SumMeとTVSum)の大規模な実験により,提案手法は従来の手法に比べてMACが少なく,最先端の性能を実現していることが示された。 コードはhttps://github.com/thswodnjs3/CSTAで公開されている。

Video summarization aims to generate a concise representation of a video, capturing its essential content and key moments while reducing its overall length. Although several methods employ attention mechanisms to handle long-term dependencies, they often fail to capture the visual significance inherent in frames. To address this limitation, we propose a CNN-based SpatioTemporal Attention (CSTA) method that stacks each feature of frames from a single video to form image-like frame representations and applies 2D CNN to these frame features. Our methodology relies on CNN to comprehend the inter and intra-frame relations and to find crucial attributes in videos by exploiting its ability to learn absolute positions within images. In contrast to previous work compromising efficiency by designing additional modules to focus on spatial importance, CSTA requires minimal computational overhead as it uses CNN as a sliding window. Extensive experiments on two benchmark datasets (SumMe and TVSum) demonstrate that our proposed approach achieves state-of-the-art performance with fewer MACs compared to previous methods. Codes are available at https://github.com/thswodnjs3/CSTA.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# Ensemble and Mixture-of-Experts DeepONets for Operator Learning

Ensemble and Mixture-of-Experts DeepONets For Operator Learning ( http://arxiv.org/abs/2405.11907v2 )

ライセンス: Link先を確認
Ramansh Sharma, Varun Shankar, (参考訳) 演算子学習のための新しいディープ演算子ネットワーク(DeepONet)アーキテクチャであるアンサンブルDeepONetを提案する。 このトランク濃縮により、様々な演算子学習問題に対する表現性と一般化能力が向上する。 また,演算子学習問題における空間的局所性やモデル空間性を促進するために,PoU近似を用いた空間的混合(MoE)DeepONetトランクネットワークアーキテクチャを提案する。 我々はまず、アンサンブルとPoU-MoE DeepONetsの両方が普遍近似器であることを証明した。 次に、標準トランク、PoU-MoEトランク、および/または適切な直交分解(POD)トランクのトランクアンサンブルを含むDeepONetsが、標準DeepONetsおよびPOD-DeepONetsよりも2~4倍低い相対的な$\ell_2$エラーを、2次元および3次元の偏微分方程式(PDE)を含む新しい演算子学習問題において達成できることを実証した。 新しいPoU-MoEの定式化は、任意のニューラルネットワークアーキテクチャに空間的局所性とモデル空間を組み込む自然な方法を提供する一方、新たなアンサンブルであるDeepONetは、演算子学習のための科学機械学習アーキテクチャに基礎を組み込むための強力で一般的なフレームワークを提供する。

We present a novel deep operator network (DeepONet) architecture for operator learning, the ensemble DeepONet, that allows for enriching the trunk network of a single DeepONet with multiple distinct trunk networks. This trunk enrichment allows for greater expressivity and generalization capabilities over a range of operator learning problems. We also present a spatial mixture-of-experts (MoE) DeepONet trunk network architecture that utilizes a partition-of-unity (PoU) approximation to promote spatial locality and model sparsity in the operator learning problem. We first prove that both the ensemble and PoU-MoE DeepONets are universal approximators. We then demonstrate that ensemble DeepONets containing a trunk ensemble of a standard trunk, the PoU-MoE trunk, and/or a proper orthogonal decomposition (POD) trunk can achieve 2-4x lower relative $\ell_2$ errors than standard DeepONets and POD-DeepONets on both standard and challenging new operator learning problems involving partial differential equations (PDEs) in two and three dimensions. Our new PoU-MoE formulation provides a natural way to incorporate spatial locality and model sparsity into any neural network architecture, while our new ensemble DeepONet provides a powerful and general framework for incorporating basis enrichment in scientific machine learning architectures for operator learning.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-21
# システム通信トレースからのメッセージフローの推測

Inferring Message Flows From System Communication Traces ( http://arxiv.org/abs/2405.12426v1 )

ライセンス: Link先を確認
Bardia Nadimi, Hao Zheng, (参考訳) 本稿では,システム実行中にコンポーネント間で交換されたメッセージをキャプチャするシステム・オン・チップ(SoC)設計の通信トレースから,メッセージフロー仕様を自動的に推測する手法を提案する。 推論されたメッセージフローは、様々なシステム機能を実現するシステム設計におけるコンポーネントの通信と協調を特徴付け、これらはSoCの検証とデバッグに不可欠である。 提案手法は,人間設計者に対する手作業による開発やメンテナンスの負担を軽減する。 また, 提案手法では, 前の作業でよく使われる仕様サイズではなく, マイニングされた仕様の質を評価するために, 新たな精度基準である「emph{acceptance ratio}」を用いており, より正確な仕様をマイニングすることができる。 さらに,メッセージフローマイニングの精度を高め,マイニングプロセスの高速化を図るために,本質的な因果関係の概念を導入する。 提案手法の有効性を,GEM5における複数のシステムモデルの実行から生成した合成トレースとトレースの両方で評価した。 どちらの場合も,提案手法は従来の手法に比べて精度が優れている。 また,本論文では,いくつかの実用事例について述べる。

This paper proposes a novel method for automatically inferring message flow specifications from the communication traces of a system-on-chip (SoC) design that captures messages exchanged among the components during a system execution. The inferred message flows characterize the communication and coordination of components in a system design for realizing various system functions, and they are essential for SoC validation and debugging. The proposed method relieves the burden of manual development and maintenance of such specifications on human designers. Our method also uses a new accuracy metric, \emph{acceptance ratio}, to evaluate the quality of the mined specifications instead of the specification size often used in the previous work, enabling more accurate specifications to be mined. Furthermore, this paper introduces the concept of essential causalities to enhance the accuracy of the message flow mining and accelerate the mining process. The effectiveness of the proposed method is evaluated on both synthetic traces and traces generated from executing several system models in GEM5. In both cases, the proposed method achieves superior accuracies compared to a previous approach. Additionally, this paper includes some practical use cases.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# 低消費電力通信のための屋内無線チャネル推定のための深層学習手法

Deep learning approaches to indoor wireless channel estimation for low-power communication ( http://arxiv.org/abs/2405.12427v1 )

ライセンス: Link先を確認
Samrah Arif, Muhammad Arif Khan, Sabih Ur Rehman, (参考訳) IoT(Internet of Things)インフラストラクチャが急速に発展する中で,信頼性の高い無線通信の実現が課題となっている。 IoTデバイスは、共通の信号干渉と変動するチャネル条件を持つ多様な環境で動作する。 正確なチャネル推定は、送信戦略を現在の状況に適応させ、信頼性の高い通信を保証するのに役立つ。 Least Squares (LS) や Minimum Mean Squared Error (MMSE) といった従来の手法は、IoTネットワークに典型的な多様な複雑な環境に適応するのに苦労することが多い。 本稿では, 受波信号強度指標(RSSI)測定値に着目し, チャネル推定能力を高めるための深層学習(DL)の可能性について検討する。 本稿では,LP-IoT通信における高精度チャネル推定にRSSIを利用する,FCNNを用いた2つの低電力チャネル推定モデルを提案する。 我々のモデルAは平均二乗誤差(MSE)の99.02%の顕著な減少を示し、モデルBは現在の研究で設定されたベンチマークと比較して90.03%のMSEの減少を示す。 さらに、我々のモデルAと他のDLベースの手法の比較研究は、我々の推定モデルにおいて大きな効率性を示している。

In the rapidly growing development of the Internet of Things (IoT) infrastructure, achieving reliable wireless communication is a challenge. IoT devices operate in diverse environments with common signal interference and fluctuating channel conditions. Accurate channel estimation helps adapt the transmission strategies to current conditions, ensuring reliable communication. Traditional methods, such as Least Squares (LS) and Minimum Mean Squared Error (MMSE) estimation techniques, often struggle to adapt to the diverse and complex environments typical of IoT networks. This research article delves into the potential of Deep Learning (DL) to enhance channel estimation, focusing on the Received Signal Strength Indicator (RSSI) metric - a critical yet challenging aspect due to its susceptibility to noise and environmental factors. This paper presents two Fully Connected Neural Networks (FCNNs)-based Low Power (LP-IoT) channel estimation models, leveraging RSSI for accurate channel estimation in LP-IoT communication. Our Model A exhibits a remarkable 99.02% reduction in Mean Squared Error (MSE), and Model B demonstrates a notable 90.03% MSE reduction compared to the benchmarks set by current studies. Additionally, the comparative studies of our model A with other DL-based techniques show significant efficiency in our estimation models.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# APIの有無で不完全なユーザクエリをサポートするLLM+Reasoning+Planning

LLM+Reasoning+Planning for supporting incomplete user queries in presence of APIs ( http://arxiv.org/abs/2405.12433v1 )

ライセンス: Link先を確認
Sudhir Agarwal, Anu Sreepathy, David H. Alonso, Prarit Lamba, (参考訳) 近年のLLM(Large Language Models)は、様々なエンドユーザタスクに自然言語インタフェースを提供することを目的とした、多数のLLMベースのアプローチの開発につながっている。 これらのエンドユーザータスクは、通常、特定のAPIセットを編成することで達成できる。 実際には、自然言語のタスク要求(ユーザクエリ)は不完全であることが多い。 LLMは自然言語処理(NLP)タスクに優れていますが、欠落した情報やAPIのオーケストレーションに苦慮することが多いのです。 提案手法の背景にある重要な考え方は、論理的推論と古典的AI計画とLLMを併用して、これらのクエリに欠けている情報の識別や収集を含むユーザのクエリを正確に答えることである。 我々のアプローチでは、LLMとASP(Answer Set Programming)ソルバを使用して、ASPの中間表現を介して、ユーザクエリを計画ドメイン定義言語(PDDL)の表現に変換する。 不足情報を収集するための特別なAPI"get_info_api"を導入します。 すべてのAPIをPDDLアクションとしてモデル化し、API間のデータフローをサポートします。 このアプローチでは、古典的なAIプランナを使用して、API呼び出し(get_info_api呼び出しを含む)のオーケストレーションを生成して、ユーザクエリに回答します。 提案手法は, 完全かつ不完全な単一目標を含むデータセットと, マルチゴールクエリがAPI間でデータフローを必要とする場合のマルチゴールクエリにおいて, 95%以上の成功率を達成し, 純粋なLCMベースのアプローチを著しく上回ることを示す。

Recent availability of Large Language Models (LLMs) has led to the development of numerous LLM-based approaches aimed at providing natural language interfaces for various end-user tasks. These end-user tasks in turn can typically be accomplished by orchestrating a given set of APIs. In practice, natural language task requests (user queries) are often incomplete, i.e., they may not contain all the information required by the APIs. While LLMs excel at natural language processing (NLP) tasks, they frequently hallucinate on missing information or struggle with orchestrating the APIs. The key idea behind our proposed approach is to leverage logical reasoning and classical AI planning along with an LLM for accurately answering user queries including identification and gathering of any missing information in these queries. Our approach uses an LLM and ASP (Answer Set Programming) solver to translate a user query to a representation in Planning Domain Definition Language (PDDL) via an intermediate representation in ASP. We introduce a special API "get_info_api" for gathering missing information. We model all the APIs as PDDL actions in a way that supports dataflow between the APIs. Our approach then uses a classical AI planner to generate an orchestration of API calls (including calls to get_info_api) to answer the user query. Our evaluation results show that our approach significantly outperforms a pure LLM based approach by achieving over 95\% success rate in most cases on a dataset containing complete and incomplete single goal and multi-goal queries where the multi-goal queries may or may not require dataflow among the APIs.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# シナリオ誘導型自然言語推論用適応器による単語迷路の解消

Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference ( http://arxiv.org/abs/2405.12434v1 )

ライセンス: Link先を確認
Yonghao Liu, Mengyu Li, Di Liang, Ximing Li, Fausto Giunchiglia, Lan Huang, Xiaoyue Feng, Renchu Guan, (参考訳) 自然言語推論(英: Natural Language Inference、NLI)は、自然言語処理において、2つの文(典型的には前提と仮説と呼ばれる)の関係を決定することを含む重要なタスクである。 しかし、従来のNLIモデルは、独立した文に固有の意味情報のみに依存しており、関連する状況の視覚情報がないため、言語のあいまいさとあいまいさにより、文の意味を完全に理解できない。 この課題に対処するために,大規模な事前学習型言語知識とNLIタスクの関連視覚情報とを同時に統合する,革新的なScenaFuseアダプタを提案する。 具体的には、まず、事前学習されたモデルの注意機構に視覚を組み込むイメージ・文間相互作用モジュールを設計し、2つのモダリティを包括的に相互作用させる。 さらに,画像からの視覚情報と文からの意味情報を適応的に統合する画像文融合モジュールを提案する。 関連する視覚情報を導入し,言語知識を活用することによって,言語と視覚のギャップを埋め,NLIタスクにおける理解と推論能力の向上につながる。 大規模なベンチマーク実験により,シナリオ誘導型アプローチであるScenaFuseがNLI性能を継続的に向上することが示された。

Natural Language Inference (NLI) is a crucial task in natural language processing that involves determining the relationship between two sentences, typically referred to as the premise and the hypothesis. However, traditional NLI models solely rely on the semantic information inherent in independent sentences and lack relevant situational visual information, which can hinder a complete understanding of the intended meaning of the sentences due to the ambiguity and vagueness of language. To address this challenge, we propose an innovative ScenaFuse adapter that simultaneously integrates large-scale pre-trained linguistic knowledge and relevant visual information for NLI tasks. Specifically, we first design an image-sentence interaction module to incorporate visuals into the attention mechanism of the pre-trained model, allowing the two modalities to interact comprehensively. Furthermore, we introduce an image-sentence fusion module that can adaptively integrate visual information from images and semantic information from sentences. By incorporating relevant visual information and leveraging linguistic knowledge, our approach bridges the gap between language and vision, leading to improved understanding and inference capabilities in NLI tasks. Extensive benchmark experiments demonstrate that our proposed ScenaFuse, a scenario-guided approach, consistently boosts NLI performance.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# CoCoマトリックス:知的エージェントとの共筆における認知的貢献の分類

CoCo Matrix: Taxonomy of Cognitive Contributions in Co-writing with Intelligent Agents ( http://arxiv.org/abs/2405.12438v1 )

ライセンス: Link先を確認
Ruyuan Wan, Simret Gebreegziabhe, Toby Jia-Jun Li, Karla Badillo-Urquiola, (参考訳) 近年,知的エージェントの採用に対する関心が高まっている。 従来の研究は、製品が一貫性があり、洗練されているかどうかに関わらず、製品の品質を評価することを強調していた。 知的書記システムとの協調作業の認識方法を理解するため,フローワーとヘイズの認知プロセス理論に適応し,エントロピーと情報ゲインの2次元分類法であるCoCo Matrixを提案する。 分類学では、4つの四分詞を定義し、34の体系を定めている。 我々の研究は、低エントロピーと高情報ゲインシステムが未探索でありながら、エージェントの分岐計画と人間の集中翻訳の恩恵を受けるタスクを書く上で、将来有望な方向性を提供することを示した。 CoCo Matrixは、異なる筆記体系を分類するだけでなく、人間とエージェントの共筆における認知プロセスの理解を深めます。 書き込みプロセスの最小限の変更を分析することで、CoCo Matrixはライターのメンタルモデルのプロキシとして機能し、ライターの貢献を反映することができる。 この反射は情報ゲインとエントロピーの測定値によって促進され、使用する筆記システムによらず洞察を与える。

In recent years, there has been a growing interest in employing intelligent agents in writing. Previous work emphasizes the evaluation of the quality of end product-whether it was coherent and polished, overlooking the journey that led to the product, which is an invaluable dimension of the creative process. To understand how to recognize human efforts in co-writing with intelligent writing systems, we adapt Flower and Hayes' cognitive process theory of writing and propose CoCo Matrix, a two-dimensional taxonomy of entropy and information gain, to depict the new human-agent co-writing model. We define four quadrants and situate thirty-four published systems within the taxonomy. Our research found that low entropy and high information gain systems are under-explored, yet offer promising future directions in writing tasks that benefit from the agent's divergent planning and the human's focused translation. CoCo Matrix, not only categorizes different writing systems but also deepens our understanding of the cognitive processes in human-agent co-writing. By analyzing minimal changes in the writing process, CoCo Matrix serves as a proxy for the writer's mental model, allowing writers to reflect on their contributions. This reflection is facilitated through the measured metrics of information gain and entropy, which provide insights irrespective of the writing system used.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# 概念推薦のための大規模言語モデルを用いた構造学習と知識認識

Learning Structure and Knowledge Aware Representation with Large Language Models for Concept Recommendation ( http://arxiv.org/abs/2405.12442v1 )

ライセンス: Link先を確認
Qingyao Li, Wei Xia, Kounianhua Du, Qiji Zhang, Weinan Zhang, Ruiming Tang, Yong Yu, (参考訳) 概念推薦は,学習者が自身の知識状態と人間の知識システムに基づいて学習する次の概念を提案することを目的としている。 知識状態は知識追跡モデルを用いて予測できるが、従来の手法では人間の知識システムをこれらの教育モデルの設計プロセスに効果的に統合していない。 急速に発展するLarge Language Models (LLM) の時代、多くの分野がLLMを使ってテキストを生成し、エンコードし、外部知識を導入してきた。 しかし、LLMをコンセプトレコメンデーションに統合することは、2つの緊急課題を提示する。 1)人間の知識システムを効果的に取り入れた概念のためのテキスト構築法 2) 概念推薦のための非平滑異方性テキストエンコーディングを効果的に適用する方法 本稿では,概念推薦(SKarREC)のための構造認識表現学習フレームワークを提案する。 我々は,LLMの事実知識と,知識グラフから得られた概念間の先行関係と継承関係を利用して,概念のテキスト表現を構築する。 さらに、異方性テキスト埋め込みを概念推薦タスクに適応させるグラフベースのアダプタを提案する。 このアダプタは知識グラフ上のコントラスト学習を通じて事前学習され、スムーズで構造に見合った概念表現が得られる。 そして、リコメンデーションタスクを通じて微調整を行い、構造と知識を意識した概念表現を効果的に構築するテキスト・ツー・ナレッジ・ツー・レコメンデーション適応パイプラインを形成する。 提案手法は, 従来のアダプタよりも, コンセプトレコメンデーションにおけるテキストエンコーディングの変換に適している。 実世界のデータセットに関する大規模な実験は、提案手法の有効性を実証している。

Concept recommendation aims to suggest the next concept for learners to study based on their knowledge states and the human knowledge system. While knowledge states can be predicted using knowledge tracing models, previous approaches have not effectively integrated the human knowledge system into the process of designing these educational models. In the era of rapidly evolving Large Language Models (LLMs), many fields have begun using LLMs to generate and encode text, introducing external knowledge. However, integrating LLMs into concept recommendation presents two urgent challenges: 1) How to construct text for concepts that effectively incorporate the human knowledge system? 2) How to adapt non-smooth, anisotropic text encodings effectively for concept recommendation? In this paper, we propose a novel Structure and Knowledge Aware Representation learning framework for concept Recommendation (SKarREC). We leverage factual knowledge from LLMs as well as the precedence and succession relationships between concepts obtained from the knowledge graph to construct textual representations of concepts. Furthermore, we propose a graph-based adapter to adapt anisotropic text embeddings to the concept recommendation task. This adapter is pre-trained through contrastive learning on the knowledge graph to get a smooth and structure-aware concept representation. Then, it's fine-tuned through the recommendation task, forming a text-to-knowledge-to-recommendation adaptation pipeline, which effectively constructs a structure and knowledge-aware concept representation. Our method does a better job than previous adapters in transforming text encodings for application in concept recommendation. Extensive experiments on real-world datasets demonstrate the effectiveness of the proposed approach.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# FFCL: 後部プロパゲーションのないエッジにおける皮質ループ, トレーニング, 推論を備えた前方ネット

FFCL: Forward-Forward Net with Cortical Loops, Training and Inference on Edge Without Backpropagation ( http://arxiv.org/abs/2405.12443v1 )

ライセンス: Link先を確認
Ali Karkehabadi, Houman Homayoun, Avesta Sasan, (参考訳) Forward-Forward Learning (FFL)アルゴリズムは、最近提案された、メモリ集約的なバックプロパゲーションを必要としないニューラルネットワークのトレーニングソリューションである。 トレーニング中、ラベルは入力データに付随し、正または負の入力として分類する。 各レイヤは、これらの入力に対する応答を独立して学習する。 本研究では、以下の貢献によりFFLを強化する。 1)ラベルの分離と層間機能転送によるラベル処理を最適化し,学習性能を向上させる。 2)ラベル統合を改訂することにより,推論プロセスを強化し,計算複雑性を低減し,性能を向上させる。 3)脳の皮質ループに類似したフィードバックループを導入し,脳内の情報回路を介し,より初期のニューロンに戻すことで,従来の階層からの複雑な特徴と低レベルの特徴を組み合わせ,学習効率を向上させる。

The Forward-Forward Learning (FFL) algorithm is a recently proposed solution for training neural networks without needing memory-intensive backpropagation. During training, labels accompany input data, classifying them as positive or negative inputs. Each layer learns its response to these inputs independently. In this study, we enhance the FFL with the following contributions: 1) We optimize label processing by segregating label and feature forwarding between layers, enhancing learning performance. 2) By revising label integration, we enhance the inference process, reduce computational complexity, and improve performance. 3) We introduce feedback loops akin to cortical loops in the brain, where information cycles through and returns to earlier neurons, enabling layers to combine complex features from previous layers with lower-level features, enhancing learning efficiency.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# EPL: 深層顔認識のための経験的プロトタイプ学習

EPL: Empirical Prototype Learning for Deep Face Recognition ( http://arxiv.org/abs/2405.12447v1 )

ライセンス: Link先を確認
Weijia Fan, Jiajun Wen, Xi Jia, Linlin Shen, Jiancan Zhou, Qiufu Li, (参考訳) 特徴抽出モデルの最後の線形層における係数行列の行ベクトルを各クラスのプロトタイプとする顔認識において,プロトタイプ学習が広く用いられている。 モデルトレーニングにおける顔サンプルの特徴勾配を用いてプロトタイプを更新すると、ハードサンプルによってクラス中心から引き離される傾向があり、全体のモデル性能が低下する。 本稿では,各クラスにおけるサンプル機能の期待値としてプロトタイプを明示的に定義し,データセットに既存のサンプルを用いて経験的プロトタイプを設計する。 次に,サンプル特徴と経験的プロトタイプとの類似性に基づいて,モデルトレーニング中にこれらの経験的プロトタイプを適応的に更新する戦略を考案する。 さらに,サンプル特徴に対する適応的マージンパラメータを用いた経験的プロトタイプ学習(EPL)手法を提案する。 EPLは、通常のサンプルにより大きなマージンを割り当て、ハードサンプルに小さなマージンを割り当て、学習された経験的プロトタイプは、通常のサンプルが支配するクラスセンターをよりよく反映し、最終的に学習を通じて経験的プロトタイプに向かってハードサンプルをプルする。 MFR, IJB-C, LFW, CFP-FP, AgeDB, MegaFaceの広範な実験により, EPLの有効性が示された。 私たちのコードは$\href{https://github.com/WakingHours-GitHub/EPL}{https://github.com/WakingHours-GitHub/EPL}$で利用可能です。

Prototype learning is widely used in face recognition, which takes the row vectors of coefficient matrix in the last linear layer of the feature extraction model as the prototypes for each class. When the prototypes are updated using the facial sample feature gradients in the model training, they are prone to being pulled away from the class center by the hard samples, resulting in decreased overall model performance. In this paper, we explicitly define prototypes as the expectations of sample features in each class and design the empirical prototypes using the existing samples in the dataset. We then devise a strategy to adaptively update these empirical prototypes during the model training based on the similarity between the sample features and the empirical prototypes. Furthermore, we propose an empirical prototype learning (EPL) method, which utilizes an adaptive margin parameter with respect to sample features. EPL assigns larger margins to the normal samples and smaller margins to the hard samples, allowing the learned empirical prototypes to better reflect the class center dominated by the normal samples and finally pull the hard samples towards the empirical prototypes through the learning. The extensive experiments on MFR, IJB-C, LFW, CFP-FP, AgeDB, and MegaFace demonstrate the effectiveness of EPL. Our code is available at $\href{https://github.com/WakingHours-GitHub/EPL}{https://github.com/WakingHours-GitHub/EPL}$.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# PathOCL: GPT-4を用いたOCL生成のためのパスベースプロンプト拡張

PathOCL: Path-Based Prompt Augmentation for OCL Generation with GPT-4 ( http://arxiv.org/abs/2405.12450v1 )

ライセンス: Link先を確認
Seif Abukhalaf, Mohammad Hamdaqa, Foutse Khomh, (参考訳) GitHub CopilotのようなAIによるプログラミングアシスタントの急速な進歩は、ソフトウェアアプリケーションの開発を促進している。 これらのアシスタントは、言語理解と生成に関連する幅広いタスクをサポートする基礎モデル(FM)である大きな言語モデル(LLM)に依存している。 LLMは、Object Constraint Language (OCL)のような形式言語を使ってUMLモデルの仕様を表現する能力を示した。 しかし、プロンプトのコンテキストサイズは、LLMが処理できるトークンの数によって制限される。 この制限はUMLクラスモデルのサイズが大きくなるにつれて重要になる。 本研究では,OCL生成を促進するために設計された新しいパスベースのプロンプト拡張技術であるPathOCLを紹介する。 PathOCLはLLMの制限、特にトークン処理の制限、そして大きなUMLクラスモデルによってもたらされる課題に対処します。 PathOCLはチャンキングの概念に基づいており、英語仕様に関連するUMLクラスのサブセットでプロンプトを選択的に拡張する。 以上の結果から,完全UMLクラスモデル(UML-Augmentation)と比較して,PassOCLはGPT-4モデルを用いて高い有効かつ正しいOCL制約を生成することがわかった。 さらに、PathOCLを用いて作成される平均プロンプトサイズはUMLクラスモデルのサイズをスケールする際に著しく減少する。

The rapid progress of AI-powered programming assistants, such as GitHub Copilot, has facilitated the development of software applications. These assistants rely on large language models (LLMs), which are foundation models (FMs) that support a wide range of tasks related to understanding and generating language. LLMs have demonstrated their ability to express UML model specifications using formal languages like the Object Constraint Language (OCL). However, the context size of the prompt is limited by the number of tokens an LLM can process. This limitation becomes significant as the size of UML class models increases. In this study, we introduce PathOCL, a novel path-based prompt augmentation technique designed to facilitate OCL generation. PathOCL addresses the limitations of LLMs, specifically their token processing limit and the challenges posed by large UML class models. PathOCL is based on the concept of chunking, which selectively augments the prompts with a subset of UML classes relevant to the English specification. Our findings demonstrate that PathOCL, compared to augmenting the complete UML class model (UML-Augmentation), generates a higher number of valid and correct OCL constraints using the GPT-4 model. Moreover, the average prompt size crafted using PathOCL significantly decreases when scaling the size of the UML class models.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# プロンプト強化時空間グラフ転送学習

Prompt-Enhanced Spatio-Temporal Graph Transfer Learning ( http://arxiv.org/abs/2405.12452v1 )

ライセンス: Link先を確認
Junfeng Hu, Xu Liu, Zhencheng Fan, Yifang Yin, Shili Xiang, Savitha Ramasamy, Roger Zimmermann, (参考訳) 時空間グラフニューラルネットワークは、予測やクリグといった都市コンピューティングタスクの複雑な依存関係を捕捉する効果を実証している。 しかし、その性能は特定のタスクを訓練するための広範なデータに依存しており、必要に応じて新しい都市ドメインへの適応性が制限されている。 ドメイン間の知識を活用してこの問題を解決するために移動学習が提案されているが、統合されたフレームワークが存在しないため、時空間グラフ転送学習法ではクロスタスクの一般化が過小評価されている。 このギャップを埋めるため,データスカース領域における多種多様なタスクに適応可能な,高速なトランスファー学習フレームワークであるスポース・テンポラルグラフ・プロンプト(STGP)を提案する。 具体的には、まず異なるタスクを単一のテンプレートに統合し、このテンプレートと整合するタスクに依存しないネットワークアーキテクチャを導入します。 このアプローチにより、タスク間で共有される時空間依存関係のキャプチャが可能になる。 さらに、学習可能なプロンプトを用いて、2段階のプロンプトパイプラインでドメインとタスクの転送を実現し、各段階におけるドメインの知識とタスク固有のプロパティを効果的にキャプチャする。 大規模な実験により、STGPは3つの下流タスクにおいて、顕著なマージンによる予測、リグ、外挿において最先端のベースラインを上回っていることが示された。

Spatio-temporal graph neural networks have demonstrated efficacy in capturing complex dependencies for urban computing tasks such as forecasting and kriging. However, their performance is constrained by the reliance on extensive data for training on specific tasks, which limits their adaptability to new urban domains with varied demands. Although transfer learning has been proposed to address this problem by leveraging knowledge across domains, cross-task generalization remains underexplored in spatio-temporal graph transfer learning methods due to the absence of a unified framework. To bridge this gap, we propose Spatio-Temporal Graph Prompting (STGP), a prompt-enhanced transfer learning framework capable of adapting to diverse tasks in data-scarce domains. Specifically, we first unify different tasks into a single template and introduce a task-agnostic network architecture that aligns with this template. This approach enables the capture of spatio-temporal dependencies shared across tasks. Furthermore, we employ learnable prompts to achieve domain and task transfer in a two-stage prompting pipeline, enabling the prompts to effectively capture domain knowledge and task-specific properties at each stage. Extensive experiments demonstrate that STGP outperforms state-of-the-art baselines in three downstream tasks forecasting, kriging, and extrapolation by a notable margin.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# マルチモーダル学習システムにおける相互情報分析

Mutual Information Analysis in Multimodal Learning Systems ( http://arxiv.org/abs/2405.12456v1 )

ライセンス: Link先を確認
Hadi Hadizadeh, S. Faegheh Yeganli, Bahador Rashidi, Ivan V. Bajić, (参考訳) 近年、マルチモーダルな信号処理と分析の応用が著しく増加しており、主にマルチモーダルなデータセットが利用可能になり、マルチモーダルな学習システムが急速に進歩している。 有名な例としては、自動運転車、オーディオ視覚生成システム、視覚言語システムなどがある。 このようなシステムは、テキスト、音声、画像、ビデオ、LiDARなどの複数の信号モダリティを統合し、様々なタスクを実行する。 このようなシステムを理解する上で重要な問題は、様々なモダリティとそれがタスクパフォーマンスに与える影響の関係である。 本稿では,相互情報(MI)の概念を用いてこの問題について考察する。 エントロピーモデリングと推定の最近の進歩を生かして,マルチモーダル学習システムにおけるモダリティ間のMIを推定するInfoMeterと呼ばれるシステムを開発した。 次にInfoMeterを用いて、自律運転のための大規模データセット上でのマルチモーダル3次元物体検出システムの解析を行う。 本システムを用いた実験により,モダリティ間のMIの低下が検出精度の向上に有用であることが示唆された。 この新たな洞察により、将来のマルチモーダル学習システムの開発が促進される可能性がある。

In recent years, there has been a significant increase in applications of multimodal signal processing and analysis, largely driven by the increased availability of multimodal datasets and the rapid progress in multimodal learning systems. Well-known examples include autonomous vehicles, audiovisual generative systems, vision-language systems, and so on. Such systems integrate multiple signal modalities: text, speech, images, video, LiDAR, etc., to perform various tasks. A key issue for understanding such systems is the relationship between various modalities and how it impacts task performance. In this paper, we employ the concept of mutual information (MI) to gain insight into this issue. Taking advantage of the recent progress in entropy modeling and estimation, we develop a system called InfoMeter to estimate MI between modalities in a multimodal learning system. We then apply InfoMeter to analyze a multimodal 3D object detection system over a large-scale dataset for autonomous driving. Our experiments on this system suggest that a lower MI between modalities is beneficial for detection accuracy. This new insight may facilitate improvements in the development of future multimodal learning systems.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# 公共セクタAIの研究:AI設計と利用に関する権力関係のネットワークの判断

Studying Up Public Sector AI: How Networks of Power Relations Shape Agency Decisions Around AI Design and Use ( http://arxiv.org/abs/2405.12458v1 )

ライセンス: Link先を確認
Anna Kawakami, Amanda Coston, Hoda Heidari, Kenneth Holstein, Haiyi Zhu, (参考訳) 公共セクターは、ソーシャルサービスのような高度なドメインで新しいAIツールを急速に導入するにつれて、これらのツールを採用するための決定が実際にどのように行われるかを理解することが重要になる。 我々は、人文科学の実践から、権力の立場にある者の「研究」に借用し、AIツールがその機関で果たす役割について決定する権限と責任を持つ人々を中心に、公共セクターAIの研究を再調整する。 半構造化されたインタビューと16機関の意思決定者による設計活動を通じて、これらの機関内の他のアクター(例えば、最前線の労働者や機関のリーダー)と、上記(法制度や契約企業)と以下(影響のあるコミュニティ)との相互作用と仮定によって、AI設計と採用に関する決定がどのように影響するかを検討する。 こうした権力関係のネットワークを集中させることで、我々の発見は、インフラ、法律、社会的要因が、AI設計と採用に関する決定に幅広い利害関係者が関与することへの障壁と無関心をいかに生み出すかに光を当てた。 機関の意思決定者は、彼らと他の利害関係者(例えば、最前線の労働者や影響のあるコミュニティメンバー)の認識した知識とパワーの差を克服するために、公共セクターAIに関わるステークホルダーへのより実践的な支援を望んだ。 これらの知見に基づいて、公共セクターの文脈における参加型AIアプローチの実現に関する今後の研究と政策について論じる。

As public sector agencies rapidly introduce new AI tools in high-stakes domains like social services, it becomes critical to understand how decisions to adopt these tools are made in practice. We borrow from the anthropological practice to ``study up'' those in positions of power, and reorient our study of public sector AI around those who have the power and responsibility to make decisions about the role that AI tools will play in their agency. Through semi-structured interviews and design activities with 16 agency decision-makers, we examine how decisions about AI design and adoption are influenced by their interactions with and assumptions about other actors within these agencies (e.g., frontline workers and agency leaders), as well as those above (legal systems and contracted companies), and below (impacted communities). By centering these networks of power relations, our findings shed light on how infrastructural, legal, and social factors create barriers and disincentives to the involvement of a broader range of stakeholders in decisions about AI design and adoption. Agency decision-makers desired more practical support for stakeholder involvement around public sector AI to help overcome the knowledge and power differentials they perceived between them and other stakeholders (e.g., frontline workers and impacted community members). Building on these findings, we discuss implications for future research and policy around actualizing participatory AI approaches in public sector contexts.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# PLM4Traj:事前学習言語モデルを用いた軌道からの移動パターンと走行目的の認識

PLM4Traj: Cognizing Movement Patterns and Travel Purposes from Trajectories with Pre-trained Language Models ( http://arxiv.org/abs/2405.12459v1 )

ライセンス: Link先を確認
Zeyu Zhou, Yan Lin, Haomin Wen, Shengnan Guo, Jilin Hu, Youfang Lin, Huaiyu Wan, (参考訳) 時空間軌跡は時空間データマイニングにおいて重要な役割を担っている。 高い精度を確保しつつ、異なるタスクに適応できる汎用的な軌道学習アプローチを開発することが重要である。 これにより、軌道に埋め込まれた移動パターンや移動目的を効果的に抽出する必要がある。 しかし、利用可能なトラジェクトリデータセットのサイズと品質に制限があるため、このタスクは難しい。 一方、PLM(Pre-trained Language Model)は、大規模で高品質なコーパスデータセットをトレーニングすることで、様々なタスクに適応することに成功した。 トラジェクトリと文の類似性を考えると、多目的かつ効果的なトラジェクトリ学習法の開発を促進するためにPLMを活用する可能性がある。 しかしながら、バニラPLMは、軌跡に存在するユニークな時空間的特徴を扱うように調整されておらず、移動パターンや移動目的を抽出する能力が欠如している。 これらの障害を克服するために, PLMを効果的に利用して軌道をモデル化する PLM4Traj モデルを提案する。 PLM4Trajは、PLMの強みを活用して、バニラPLMの制約に対処しつつ、多目的な軌道学習アプローチを作成する。 まず、PLM4Trajは、PLMが軌跡の時空間的特徴を処理し、移動パターンと移動目的を抽出することを可能にする新しい軌道意味埋め込み器を組み込んでいる。 第二に、PLM4Trajは移動パターンと旅行目的をPLMに統合する新しい軌道プロンプトを導入し、モデルが様々なタスクに適応できるようにする。 2つの実世界のデータセットと2つの代表的なタスクで実施された大規模な実験は、PLM4Trajがその設計目標を達成できたことを示している。 コードはhttps://github.com/Zeru19/PLM4Trajで入手できる。

Spatio-temporal trajectories play a vital role in various spatio-temporal data mining tasks. Developing a versatile trajectory learning approach that can adapt to different tasks while ensuring high accuracy is crucial. This requires effectively extracting movement patterns and travel purposes embedded in trajectories. However, this task is challenging due to limitations in the size and quality of available trajectory datasets. On the other hand, pre-trained language models (PLMs) have shown great success in adapting to different tasks by training on large-scale, high-quality corpus datasets. Given the similarities between trajectories and sentences, there is potential in leveraging PLMs to enhance the development of a versatile and effective trajectory learning method. Nevertheless, vanilla PLMs are not tailored to handle the unique spatio-temporal features present in trajectories and lack the capability to extract movement patterns and travel purposes from them. To overcome these obstacles, we propose a model called PLM4Traj that effectively utilizes PLMs to model trajectories. PLM4Traj leverages the strengths of PLMs to create a versatile trajectory learning approach while addressing the limitations of vanilla PLMs in modeling trajectories. Firstly, PLM4Traj incorporates a novel trajectory semantic embedder that enables PLMs to process spatio-temporal features in trajectories and extract movement patterns and travel purposes from them. Secondly, PLM4Traj introduces a novel trajectory prompt that integrates movement patterns and travel purposes into PLMs, while also allowing the model to adapt to various tasks. Extensive experiments conducted on two real-world datasets and two representative tasks demonstrate that PLM4Traj successfully achieves its design goals. Codes are available at https://github.com/Zeru19/PLM4Traj.
翻訳日:2024-05-22 14:38:05 公開日:2024-05-21
# 物理に基づく人体運動からのシーンレイアウト生成

Physics-based Scene Layout Generation from Human Motion ( http://arxiv.org/abs/2405.12460v1 )

ライセンス: Link先を確認
Jianan Li, Tao Huang, Qingxu Zhu, Tien-Tsin Wong, (参考訳) 映画やビデオゲームの3Dアニメーションでは、リアルな人間とシーンのインタラクションを実現するためのキャプチャーモーションのシーンを作成することが不可欠だ。 キャラクターの動きは、実際の家具や物のないブルースクリーンのスタジオでしばしば撮影されるため、計画された動きとキャプチャされた動きの間には相違があるかもしれない。 これにより、家具や物の選択や位置決めの負担を軽減するために、シーンレイアウトの自動生成が不要になる。 これまでのアプローチでは、物理的な制約が欠如しているため、浸透や浮動のようなアーティファクトは避けられません。 さらに、接触機会を学ぶために特定のデータに強く依存する者もおり、様々な動きに一般化能力を制限する。 本研究では、シーンレイアウト生成を同時に最適化し、物理シミュレータで動く人間をシミュレートする物理に基づくアプローチを提案する。 そこで本手法では, 物理的制約を明示的に導入する。 シーンレイアウトを自動的に復元・生成するために、動作追跡誤差を最小限に抑え、インタラクションに余裕のあるオブジェクトを識別する。 我々は、強化学習を用いて、キャラクタ動作模倣コントローラとシーンレイアウトジェネレータの両方の二重最適化を行う。 最適化を容易にするため,提案した擬似接触ラベルから得られた追従報酬を再構成し,事前ガイダンスを導出する。 提案手法は,SAMPとPROXの動作を用いて評価し,従来のキネマティクス法と比較して,物理的に妥当なシーンレイアウトの再構築を示す。

Creating scenes for captured motions that achieve realistic human-scene interaction is crucial for 3D animation in movies or video games. As character motion is often captured in a blue-screened studio without real furniture or objects in place, there may be a discrepancy between the planned motion and the captured one. This gives rise to the need for automatic scene layout generation to relieve the burdens of selecting and positioning furniture and objects. Previous approaches cannot avoid artifacts like penetration and floating due to the lack of physical constraints. Furthermore, some heavily rely on specific data to learn the contact affordances, restricting the generalization ability to different motions. In this work, we present a physics-based approach that simultaneously optimizes a scene layout generator and simulates a moving human in a physics simulator. To attain plausible and realistic interaction motions, our method explicitly introduces physical constraints. To automatically recover and generate the scene layout, we minimize the motion tracking errors to identify the objects that can afford interaction. We use reinforcement learning to perform a dual-optimization of both the character motion imitation controller and the scene layout generator. To facilitate the optimization, we reshape the tracking rewards and devise pose prior guidance obtained from our estimated pseudo-contact labels. We evaluate our method using motions from SAMP and PROX, and demonstrate physically plausible scene layout reconstruction compared with the previous kinematics-based method.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# WorldAfford: 自然言語のインストラクションに基づくAffordance Grounding

WorldAfford: Affordance Grounding based on Natural Language Instructions ( http://arxiv.org/abs/2405.12461v1 )

ライセンス: Link先を確認
Changmao Chen, Yuren Cong, Zhen Kan, (参考訳) Affordance Groundingは、与えられた指示に従ってシーンイメージ内の操作対象のインタラクション領域をローカライズすることを目的としている。 空き地における重要な課題は、具体化されたエージェントが人間の指示を理解し、どの環境のツールが使えるかを分析し、これらのツールを使って指示を達成するかである。 最近の研究は、手頃な地域をローカライズするための入力命令として、単純なアクションラベルを主にサポートしており、複雑な人間の目的を捉えていない。 さらに、これらのアプローチは一般的に、オブジェクト中心の画像中の1つのオブジェクトのみの空き領域を特定し、オブジェクトコンテキストを無視し、複雑なシーンにおける複数のオブジェクトの空き領域を、実用的な用途のためにローカライズするのに苦労する。 この問題に対処するため,我々は,自然言語命令に基づく新たな手頃なグラウンド化のタスクを初めて導入した。 この新たな課題に対して、我々はWorldAffordという新しいフレームワークを提案する。 我々は, LLMs の余剰知識をより正確かつ論理的に推論するために, 小説 Affordance Reasoning Chain-of-Thought Prompting を設計する。 その後、SAMとCLIPを用いて画像内の空き知識に関連するオブジェクトをローカライズする。 本研究では,空き領域ローカライゼーションモジュールを用いて,対象物の空き領域を同定する。 この新たなタスクをベンチマークし、我々のフレームワークを検証するために、空き基盤データセットLLMaFFを構築した。 我々は、WorldAffordが以前のAGD20KとLLMaFFデータセットの両方で最先端の処理を行っていることを検証するために、広範な実験を行う。 特にWorldAffordは、複数のオブジェクトの空き領域をローカライズすることができ、環境内のオブジェクトが与えられた命令と完全に一致しない場合に代替手段を提供する。

Affordance grounding aims to localize the interaction regions for the manipulated objects in the scene image according to given instructions. A critical challenge in affordance grounding is that the embodied agent should understand human instructions and analyze which tools in the environment can be used, as well as how to use these tools to accomplish the instructions. Most recent works primarily supports simple action labels as input instructions for localizing affordance regions, failing to capture complex human objectives. Moreover, these approaches typically identify affordance regions of only a single object in object-centric images, ignoring the object context and struggling to localize affordance regions of multiple objects in complex scenes for practical applications. To address this concern, for the first time, we introduce a new task of affordance grounding based on natural language instructions, extending it from previously using simple labels for complex human instructions. For this new task, we propose a new framework, WorldAfford. We design a novel Affordance Reasoning Chain-of-Thought Prompting to reason about affordance knowledge from LLMs more precisely and logically. Subsequently, we use SAM and CLIP to localize the objects related to the affordance knowledge in the image. We identify the affordance regions of the objects through an affordance region localization module. To benchmark this new task and validate our framework, an affordance grounding dataset, LLMaFF, is constructed. We conduct extensive experiments to verify that WorldAfford performs state-of-the-art on both the previous AGD20K and the new LLMaFF dataset. In particular, WorldAfford can localize the affordance regions of multiple objects and provide an alternative when objects in the environment cannot fully match the given instruction.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# 長周期時系列予測のための構造化マトリックスを用いたブースティングXフォーマ

Boosting X-formers with Structured Matrix for Long Sequence Time Series Forecasting ( http://arxiv.org/abs/2405.12462v1 )

ライセンス: Link先を確認
Zhicheng Zhang, Yong Wang, Shaoqi Tan, Bowei Xia, Yujie Luo, (参考訳) 長周期時系列予測(LSTF)問題に対するトランスフォーマーベースモデルは、異常な予測精度のために注目されている。 これらのモデルの基礎として、自己認識機構は2次時間の複雑さのため、効率的なトレーニングと推論に挑戦する。 本稿では,Surrogate Attention BlocksとSurrogate FFN Blocksを組み込んだ代替フレームワークを活用し,LSTFにおけるTransformerベースモデルのアーキテクチャ設計を提案する。 このフレームワークは、その正確性を犠牲にすることなく、よく設計されたモデルの効率を高めることを目的としている。 我々はさらに、表現性と訓練性の両方の観点から、自己注意機構に対するサロゲート注意ブロックの等価性を確立する。 5つの時系列タスクにわたる9つのTransformerベースのモデルを含む広範な実験を通して、モデルサイズを46%削減しながら、平均的なパフォーマンス改善を9.45%観察する。

Transformer-based models for long sequence time series forecasting (LSTF) problems have gained significant attention due to their exceptional forecasting precision. As the cornerstone of these models, the self-attention mechanism poses a challenge to efficient training and inference due to its quadratic time complexity. In this article, we propose a novel architectural design for Transformer-based models in LSTF, leveraging a substitution framework that incorporates Surrogate Attention Blocks and Surrogate FFN Blocks. The framework aims to boost any well-designed model's efficiency without sacrificing its accuracy. We further establish the equivalence of the Surrogate Attention Block to the self-attention mechanism in terms of both expressiveness and trainability. Through extensive experiments encompassing nine Transformer-based models across five time series tasks, we observe an average performance improvement of 9.45% while achieving a significant reduction in model size by 46%
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# グラフ構造化マルチマルジナルシュレーディンガー橋としての計算資源利用の確率的学習

Stochastic Learning of Computational Resource Usage as Graph Structured Multimarginal Schrödinger Bridge ( http://arxiv.org/abs/2405.12463v1 )

ライセンス: Link先を確認
Georgiy A. Bondar, Robert Gifford, Linh Thi Xuan Phan, Abhishek Halder, (参考訳) そこで本研究では,Schr\"odinger Bridge問題として,時間変化の確率的資源利用法を提案する。 一般に、CPU命令数や最終レベルのキャッシュ要求数などのリソースが時間的および統計的に相関しているため、データから計算リソースの使い方を学ぶことは困難である。 提案手法は,非パラメトリックな方法で計測されたプロファイルスナップショットから,計算資源利用における連立時間変化確率の学習を可能にする。 この手法は、最も時間的に異なる計算資源の可用性の分布を所望の時間で予測することができる。 シングルコアおよびマルチコアのケースにおいて確率学習のための詳細なアルゴリズムを提供し、収束保証、計算複雑性を議論し、その実用性を2つのケーススタディ(シングルコア非線形モデル予測コントローラと合成マルチコアソフトウェア)で実証する。

We propose to learn the time-varying stochastic computational resource usage of software as a graph structured Schr\"odinger bridge problem. In general, learning the computational resource usage from data is challenging because resources such as the number of CPU instructions and the number of last level cache requests are both time-varying and statistically correlated. Our proposed method enables learning the joint time-varying stochasticity in computational resource usage from the measured profile snapshots in a nonparametric manner. The method can be used to predict the most-likely time-varying distribution of computational resource availability at a desired time. We provide detailed algorithms for stochastic learning in both single and multi-core cases, discuss the convergence guarantees, computational complexities, and demonstrate their practical use in two case studies: a single-core nonlinear model predictive controller, and a synthetic multi-core software.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# 任意の領域上の時空間偏微分方程式に対する有限要素に基づく物理インフォームド演算子学習フレームワーク

A finite element-based physics-informed operator learning framework for spatiotemporal partial differential equations on arbitrary domains ( http://arxiv.org/abs/2405.12465v1 )

ライセンス: Link先を確認
Yusuke Yamazaki, Ali Harandi, Mayu Muramatsu, Alexandre Viardin, Markus Apel, Tim Brepols, Stefanie Reese, Shahed Rezaei, (参考訳) 偏微分方程式(PDE)によって支配される時空間力学を予測できる,有限要素に基づく物理インフォームド演算子学習フレームワークを提案する。 提案フレームワークは、有限要素法(FEM)にヒントを得た損失関数と、暗黙のオイラー時間積分方式を用いる。 過渡的な熱伝導問題は、性能をベンチマークするために考慮される。 提案した演算子学習フレームワークは、現在の時間ステップで温度場を入力として、次の時間ステップで温度場を予測する。 熱方程式の離散化弱定式化は、有限作用素学習(FOL)と呼ばれる損失関数に物理学を組み込むために用いられる。 トレーニング中、ネットワークは、FEM溶液と比較して高い精度で初期温度場の時間的変化を予測することに成功した。 この枠組みは、不均一な熱伝導率と任意の幾何学にも適用可能であることが確認されている。 まず、トレーニングは教師なしの方法で行われ、コストのかかるシミュレーションや実験で準備された大規模なデータセットが不要になる。 代わりに、ガウス乱数過程とフーリエ級数によって生成されたランダムな温度パターンと一定の温度場が組み合わさって起こりうる温度ケースをカバーするためのトレーニングデータとして使用される。 第二に、整形関数と後方差分近似が領域の離散化に利用され、純粋に代数方程式となる。 これにより、重みとバイアスを最適化する際の時間を要する自動微分を回避し、識別エラーを許容しながら、トレーニング効率を高めることができる。 最後に、FEMの補間力のおかげで、任意の幾何学はFOLで扱える。

We propose a novel finite element-based physics-informed operator learning framework that allows for predicting spatiotemporal dynamics governed by partial differential equations (PDEs). The proposed framework employs a loss function inspired by the finite element method (FEM) with the implicit Euler time integration scheme. A transient thermal conduction problem is considered to benchmark the performance. The proposed operator learning framework takes a temperature field at the current time step as input and predicts a temperature field at the next time step. The Galerkin discretized weak formulation of the heat equation is employed to incorporate physics into the loss function, which is coined finite operator learning (FOL). Upon training, the networks successfully predict the temperature evolution over time for any initial temperature field at high accuracy compared to the FEM solution. The framework is also confirmed to be applicable to a heterogeneous thermal conductivity and arbitrary geometry. The advantages of FOL can be summarized as follows: First, the training is performed in an unsupervised manner, avoiding the need for a large data set prepared from costly simulations or experiments. Instead, random temperature patterns generated by the Gaussian random process and the Fourier series, combined with constant temperature fields, are used as training data to cover possible temperature cases. Second, shape functions and backward difference approximation are exploited for the domain discretization, resulting in a purely algebraic equation. This enhances training efficiency, as one avoids time-consuming automatic differentiation when optimizing weights and biases while accepting possible discretization errors. Finally, thanks to the interpolation power of FEM, any arbitrary geometry can be handled with FOL, which is crucial to addressing various engineering application scenarios.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# 適応型ゼロショット状態追跡のための逆データ生成の活用

Leveraging Diverse Data Generation for Adaptable Zero-Shot Dialogue State Tracking ( http://arxiv.org/abs/2405.12468v1 )

ライセンス: Link先を確認
James D. Finch, Boxin Zhao, Jinho D. Choi, (参考訳) 本研究は、合成データ生成技術を用いてトレーニングデータの多様性を増大させることにより、ゼロショット対話状態追跡(DST)の精度を大幅に向上できることを実証する。 現在のDSTトレーニングリソースは、データ収集のコストが高いため、それらがカバーするアプリケーションドメイン数やスロットタイプに大きく制限されているため、新しいドメインへの適応性が制限される。 提案した研究は、合成ゼロショットDSTトレーニングリソースを作成するために、新しい完全自動データ生成アプローチを使用して、この課題を克服する。 DSTデータを生成する従来のアプローチとは異なり、提案されたアプローチは、銀のダイアログ状態アノテーションとスロット記述を備えたダイアログを生成するための全く新しいアプリケーションドメインを生成する。 このアプローチは、前例のない1000以上のドメインをカバーするゼロショットDSTモデルをトレーニングするためのD0Tデータセットを作成するために使用される。 MultiWOZベンチマークで実施された実験では、多様な合成データに対するトレーニングモデルの性能が+6.7%向上し、より大きなモデルと競合する結果が得られた。

This work demonstrates that substantial gains in zero-shot dialogue state tracking (DST) accuracy can be achieved by increasing the diversity of training data using synthetic data generation techniques. Current DST training resources are severely limited in the number of application domains and slot types they cover due to the high costs of data collection, resulting in limited adaptability to new domains. The presented work overcomes this challenge using a novel, fully automatic data generation approach to create synthetic zero-shot DST training resources. Unlike previous approaches for generating DST data, the presented approach generates entirely new application domains to generate dialogues, complete with silver dialogue state annotations and slot descriptions. This approach is used to create the D0T dataset for training zero-shot DST models, which covers an unprecedented 1,000+ domains. Experiments performed on the MultiWOZ benchmark indicate that training models on diverse synthetic data yields a performance improvement of +6.7% Joint Goal Accuracy, achieving results competitive with much larger models.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# 最新のパブリッククラウドで最後のレベルキャッシュサイドチャネル攻撃が可能に(拡張バージョン)

Last-Level Cache Side-Channel Attacks Are Feasible in the Modern Public Cloud (Extended Version) ( http://arxiv.org/abs/2405.12469v1 )

ライセンス: Link先を確認
Zirui Neil Zhao, Adam Morrison, Christopher W. Fletcher, Josep Torrellas, (参考訳) ラストレベルのキャッシュサイドチャネルアタックは、主に高度に制御された、質素なローカル環境で実証されている。 したがって、このような攻撃が本番クラウド環境で可能かどうかは不明である。 クラウドでは、他のテナントのアクティビティやFaaS(Function-as-a-Service)ワークロードからのノイズでサイドチャネルが浸水する。 本稿では,これらの攻撃は,新しい技術を必要とするが,実際に実現可能であることを示す。 パブリックなFaaS Google Cloud Run環境において、脆弱なECDSA実装に対するエンドツーエンドのクロステナントアタックを提示する。 攻撃のすべてのステップを改善するために、いくつかの新しいテクニックを導入します。 まず, L2-driven candidate address filtering と Binary Search を用いたアドレスプルーニングアルゴリズムを導入する。 第二に、被害者のメモリアクセスを高解像度で監視するために、Parallel Probingを導入する。 最後に、信号処理からの電力スペクトル密度を利用して、周波数領域における被害者のターゲットキャッシュを容易に識別する。 これらの機構を用いて, 被害者容器から平均19秒で, 秘密ECDSAnonceビットの81%の正中値を抽出した。

Last-level cache side-channel attacks have been mostly demonstrated in highly-controlled, quiescent local environments. Hence, it is unclear whether such attacks are feasible in a production cloud environment. In the cloud, side channels are flooded with noise from activities of other tenants and, in Function-as-a-Service (FaaS) workloads, the attacker has a very limited time window to mount the attack. In this paper, we show that such attacks are feasible in practice, although they require new techniques. We present an end-to-end, cross-tenant attack on a vulnerable ECDSA implementation in the public FaaS Google Cloud Run environment. We introduce several new techniques to improve every step of the attack. First, to speed-up the generation of eviction sets, we introduce L2-driven candidate address filtering and a Binary Search-based algorithm for address pruning. Second, to monitor victim memory accesses with high time resolution, we introduce Parallel Probing. Finally, we leverage power spectral density from signal processing to easily identify the victim's target cache set in the frequency domain. Overall, using these mechanisms, we extract a median value of 81% of the secret ECDSA nonce bits from a victim container in 19 seconds on average.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# クロスドメインシーケンスレコメンデーションのための部分アライズされた項目表現の学習

Learning Partially Aligned Item Representation for Cross-Domain Sequential Recommendation ( http://arxiv.org/abs/2405.12473v1 )

ライセンス: Link先を確認
Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Zhi Li, Sirui Zhao, Defu Lian, Enhong Chen, (参考訳) クロスドメインシーケンシャルレコメンデーション(CDSR)は、複数のレコメンデーションドメインにわたるユーザのシーケンシャルレコメンデーションの発見と転送を目的としている。 重要な取り組みは行われているが、彼らは主に高度な転送モジュールの開発と、自己教師付き学習技術によるユーザ表現の整合に集中している。 しかし、アイテム表現の整合性の問題に注意が払われており、不整合性のあるアイテム表現は、サブ最適シーケンシャルなモデリングやユーザ表現の整合性につながる可能性がある。 そこで,本論文では,課題表現のシーケンス認識と適応的部分的アライメントを実現するための,モデル非依存のフレームワークである \textbf{C}ross-\textbf{A}lignment for \textbf{C}ross-\textbf{D}omain \textbf{S}equential \textbf{R}ecommendation (\textbf{CA-CDSR})を提案する。 具体的には、まず、協調的な項目相関とシーケンシャルな項目相関を捕捉し、総合的な項目表現生成を容易にするシーケンス認識機能拡張戦略を開発する。 次に、スペクトルの観点から部分表現アライメント問題を調べるための実証的研究を行う。 適応スペクトルフィルタを考案し、部分アライメントを適応的に達成する。 さらに、アライメントされたアイテム表現を異なるシーケンシャルエンコーダに入力してユーザ表現を得ることもできる。 フレームワーク全体は、アニーリング戦略を備えたマルチタスク学習パラダイムで最適化されている。 大規模な実験により、CA-CDSRは最先端のベースラインをかなり上回り、表現空間内のアイテムを効果的に整列させて性能を向上させることができることが示された。

Cross-domain sequential recommendation (CDSR) aims to uncover and transfer users' sequential preferences across multiple recommendation domains. While significant endeavors have been made, they primarily concentrated on developing advanced transfer modules and aligning user representations using self-supervised learning techniques. However, the problem of aligning item representations has received limited attention, and misaligned item representations can potentially lead to sub-optimal sequential modeling and user representation alignment. To this end, we propose a model-agnostic framework called \textbf{C}ross-domain item representation \textbf{A}lignment for \textbf{C}ross-\textbf{D}omain \textbf{S}equential \textbf{R}ecommendation (\textbf{CA-CDSR}), which achieves sequence-aware generation and adaptively partial alignment for item representations. Specifically, we first develop a sequence-aware feature augmentation strategy, which captures both collaborative and sequential item correlations, thus facilitating holistic item representation generation. Next, we conduct an empirical study to investigate the partial representation alignment problem from a spectrum perspective. It motivates us to devise an adaptive spectrum filter, achieving partial alignment adaptively. Furthermore, the aligned item representations can be fed into different sequential encoders to obtain user representations. The entire framework is optimized in a multi-task learning paradigm with an annealing strategy. Extensive experiments have demonstrated that CA-CDSR can surpass state-of-the-art baselines by a significant margin and can effectively align items in representation spaces to enhance performance.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# GASE:車両経路問題の解法のためのエッジフュージョンを用いたグラフ注意サンプリング

GASE: Graph Attention Sampling with Edges Fusion for Solving Vehicle Routing Problems ( http://arxiv.org/abs/2405.12475v1 )

ライセンス: Link先を確認
Zhenwei Wang, Ruibin Bai, Fazlullah Khan, Ender Ozcan, Tiehua Zhang, (参考訳) 学習ベースの手法は、ほぼ最適性能と高速な推論速度のため、車両のルーティング問題を解決するために人気が高まっている。 その中でも、深層強化学習とグラフ表現の組み合わせにより、ノードトポロジー構造とエンコーダ-デコーダスタイルの特徴を抽象化することができる。 このようなアプローチにより、ドメインの専門家が設計した複雑なヒューリスティック演算子を必要とせずに、ルーティング問題をエンドツーエンドで解決することができる。 既存の研究は、ノード埋め込み表現を強化するために、様々なニューラルネットワークモデルによる新しいエンコーディングとデコード構造に注目している。 高度なアプローチが適用されているにも拘わらず、ルーティング問題に固有のグラフ理論的性質について考慮されていないことは顕著である。 さらに, モデル決定の有効性に対するノイズ間相互作用の潜在的影響については, 十分に検討されていない。 このギャップを埋めるため,エッジ・フュージョン・フレームワーク(GASE)を用いた適応グラフ注意サンプリングを提案する。 詳細は、特定の近傍と隣接エッジの選択はマルチヘッドアテンション機構によって導かれ、グラフアテンションサンプリングネットワークにおけるメッセージパッシングとノード埋め込みに直接寄与する。 さらに,適応的アクター批判アルゴリズムにポリシーの改善を加え,トレーニング収束を高速化する。 そして、異なる視点から学習に基づくVRPタスクのベースライン手法に対する総合的な実験を行う。 提案モデルでは,既存の手法を2.08\%-6.23\%で上回り,より強力な一般化能力を示し,ランダムに生成されたインスタンスや実世界のデータセット上で最先端の性能を実現する。

Learning-based methods have become increasingly popular for solving vehicle routing problems due to their near-optimal performance and fast inference speed. Among them, the combination of deep reinforcement learning and graph representation allows for the abstraction of node topology structures and features in an encoder-decoder style. Such an approach makes it possible to solve routing problems end-to-end without needing complicated heuristic operators designed by domain experts. Existing research studies have been focusing on novel encoding and decoding structures via various neural network models to enhance the node embedding representation. Despite the sophisticated approaches applied, there is a noticeable lack of consideration for the graph-theoretic properties inherent to routing problems. Moreover, the potential ramifications of inter-nodal interactions on the decision-making efficacy of the models have not been adequately explored. To bridge this gap, we propose an adaptive Graph Attention Sampling with the Edges Fusion framework (GASE),where nodes' embedding is determined through attention calculation from certain highly correlated neighbourhoods and edges, utilizing a filtered adjacency matrix. In detail, the selections of particular neighbours and adjacency edges are led by a multi-head attention mechanism, contributing directly to the message passing and node embedding in graph attention sampling networks. Furthermore, we incorporate an adaptive actor-critic algorithm with policy improvements to expedite the training convergence. We then conduct comprehensive experiments against baseline methods on learning-based VRP tasks from different perspectives. Our proposed model outperforms the existing methods by 2.08\%-6.23\% and shows stronger generalization ability, achieving state-of-the-art performance on randomly generated instances and real-world datasets.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# キーポイント検出における魚のデータセットのベンチマークと評価基準-養殖養殖における精密魚の形態評価に向けて-

Benchmarking Fish Dataset and Evaluation Metric in Keypoint Detection - Towards Precise Fish Morphological Assessment in Aquaculture Breeding ( http://arxiv.org/abs/2405.12476v1 )

ライセンス: Link先を確認
Weizhen Liu, Jiayu Tan, Guangyu Lan, Ao Li, Dongye Li, Le Zhao, Xiaohui Yuan, Nanqing Dong, (参考訳) 養殖養殖における正確な表現型解析は微妙な形態的表現型の定量化を必要とする。 既存のデータセットは、小さなスケール、限られた種の範囲、魚の体の部分の洗練された複雑な形態的表現型を測定するためのキーポイントの十分なアノテーションといった制限に悩まされている。 このギャップに対処するため、6種の魚種にまたがる23,331の高解像度画像からなる包括的データセットであるFishPhenoKeyを紹介した。 特に、FishPhenoKeyには22の表現型指向アノテーションが含まれており、複雑な形態的表現型をキャプチャすることができる。 また,これらの微妙な形態の微妙な評価により,新しい評価指標であるPMP(Percentage of Measured Phenotype)を提案する。 個々のキーポイント位置の精度を評価するように設計されており、対応するキーポイントを用いて測定された表現型に非常に敏感である。 キーポイント検出精度を向上させるために,キーポイント検出モデルに統合し,生物学的洞察を活用してキーポイントの局所化を洗練できる新しい損失,解剖学的校正正規化(ACR)を提案する。 本研究は,魚の表現型分析における新たな指標を定め,形態的定量化の課題に対処し,持続可能な養殖と遺伝研究のための新たな道を開いた。 データセットとコードはhttps://github.com/WeizhenLiuBioinform/Fish-Phenotype-Detect.comから入手可能です。

Accurate phenotypic analysis in aquaculture breeding necessitates the quantification of subtle morphological phenotypes. Existing datasets suffer from limitations such as small scale, limited species coverage, and inadequate annotation of keypoints for measuring refined and complex morphological phenotypes of fish body parts. To address this gap, we introduce FishPhenoKey, a comprehensive dataset comprising 23,331 high-resolution images spanning six fish species. Notably, FishPhenoKey includes 22 phenotype-oriented annotations, enabling the capture of intricate morphological phenotypes. Motivated by the nuanced evaluation of these subtle morphologies, we also propose a new evaluation metric, Percentage of Measured Phenotype (PMP). It is designed to assess the accuracy of individual keypoint positions and is highly sensitive to the phenotypes measured using the corresponding keypoints. To enhance keypoint detection accuracy, we further propose a novel loss, Anatomically-Calibrated Regularization (ACR), that can be integrated into keypoint detection models, leveraging biological insights to refine keypoint localization. Our contributions set a new benchmark in fish phenotype analysis, addressing the challenges of precise morphological quantification and opening new avenues for research in sustainable aquaculture and genetic studies. Our dataset and code are available at https://github.com/WeizhenLiuBioinform/Fish-Phenotype-Detect.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# 階層的セマンティックグラフを用いた3次元復元におけるガウス制御

Gaussian Control with Hierarchical Semantic Graphs in 3D Human Recovery ( http://arxiv.org/abs/2405.12477v1 )

ライセンス: Link先を確認
Hongsheng Wang, Weiyue Zhang, Sihao Liu, Xinrui Zhou, Shengyu Zhang, Fei Wu, Feng Lin, (参考訳) 3D Gaussian Splatting (3DGS)は、最近3Dの人間の再構築に進歩を遂げているが、主に2Dピクセルレベルの監視に依存しており、異なる部位の幾何学的複雑さとトポロジ的関係を見越している。 このギャップに対処するために,高忠実度3次元再構成を実現するための階層型人ガウス制御(HUGS)フレームワークを導入する。 我々のアプローチは、幾何学的トポロジーの整合性を確保するために、身体部分の明確な意味的先行を活用することにより、身体部分間の複雑な幾何学的およびトポロジ的関連の捕捉を可能にする。 さらに,大域的な人体の特徴から高周波の特徴を引き離し,表面の細部を洗練させる。 広範囲な実験により,本手法は人体再建において優れた性能を示し,特に表面の細部の改善と体部接合部の精密再構築に有効であることが示された。 コードはhttps://wanghongsheng01.github.io/HUGS/で公開されている。

Although 3D Gaussian Splatting (3DGS) has recently made progress in 3D human reconstruction, it primarily relies on 2D pixel-level supervision, overlooking the geometric complexity and topological relationships of different body parts. To address this gap, we introduce the Hierarchical Graph Human Gaussian Control (HUGS) framework for achieving high-fidelity 3D human reconstruction. Our approach involves leveraging explicitly semantic priors of body parts to ensure the consistency of geometric topology, thereby enabling the capture of the complex geometrical and topological associations among body parts. Additionally, we disentangle high-frequency features from global human features to refine surface details in body parts. Extensive experiments demonstrate that our method exhibits superior performance in human body reconstruction, particularly in enhancing surface details and accurately reconstructing body part junctions. Codes are available at https://wanghongsheng01.github.io/HUGS/.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# 回折限界を超える干渉計における測定信号のNthパワーによるコヒーレンス分光

Coherence spectroscopy by the Nth power of the measured signal in an interferometer overcoming the diffraction limit ( http://arxiv.org/abs/2405.12482v1 )

ライセンス: Link先を確認
Byoung S. Ham, (参考訳) コヒーレンス分光法は、科学と工学の様々な応用のために、過去数十年にわたって集中的に研究されてきた。 レイリー基準 (Rayleigh criterion) は、干渉計の分解能限界を定義する。 一方、測定信号のKthパワーによりスリットの回折角が小さくなり、ショットノイズ限界が生じる。 ここでは、N-スリット干渉計における測定信号のKthパワーを、元のシステムの分解能限界を克服するコヒーレンス分光の強化のために研究する。 N-スリット干渉計の個々の強度に対するKthパワーは、ショットノイズ限界を満たす高分解能のために数値的に示される。 その結果、強度のKthパワーはN-スリット干渉計の分解能限界を破り、そこでは外殻分光計や波長計がこの技術の主要な利点となる。 量子センシングにおけるハイゼンベルク限界の分解能は、N-スリット干渉域と同じであるため、提案されたKthパワー技術は量子メートル法における超分解能を破る。

Coherence spectroscopy has been intensively studied over the last several decades for various applications in science and engineering. The Rayleigh criterion defines the resolution limit of an interferometer, where many-wave interference beats the resolution limit of a two-slit system. On the other hand, the diffraction angle in a slit is reduced by the Kth power of the measured signal, resulting in the shot-noise limit. Here, the Kth power of the measured signal in an N-slit interferometer is studied for enhanced coherence spectroscopy to overcome the resolution limit of the original system. The Kth power to the individual intensities of the N-slit interferometer is numerically demonstrated for enhanced resolution satisfying the shot-noise limit. As a result, the Kth power of the intensity beats the resolution limit of the N-slit interferometer, in which the out-of-shelf spectrometer or wavelength meter can be a primary beneficiary of this technique. Due to the same resolution of the Heisenberg limit in quantum sensing as in the N-slit interference fringe, the proposed Kth power technique also beats the superresolution in quantum metrology.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# 時間的問題:ロバストなユーザドウェルタイムインジェクションによる事前学習型ニュースレコメンデーションモデルの強化

Time Matters: Enhancing Pre-trained News Recommendation Models with Robust User Dwell Time Injection ( http://arxiv.org/abs/2405.12486v1 )

ライセンス: Link先を確認
Hao Jiang, Chuanzhen Li, Mingxiao An, (参考訳) 大規模言語モデル (LLM) はテキスト理解に革命をもたらし、より深いニュース理解に LLM を利用する State-of-the-Art (SOTA) ニュースレコメンデーションモデルへと繋がった。 しかし、クリック動作の固有の不確実性のため、ユーザの好みを正確にモデル化することは依然として困難である。 Transformersのマルチヘッドアテンションのようなテクニックは、クリック間のインタラクションをキャプチャすることでこれを緩和しようとしているが、明示的なフィードバック信号の統合には不足している。 User Dwell Timeは強力な指標として登場し、クリックから発する弱い信号を強化する能力を提供する。 それにもかかわらず、実世界の適用性は疑問視され、特に居住時間データ収集は遅延する。 このギャップを埋めるために,本稿では,DweW (Dwell Time Weight) とDweA (Dwell Time Aware) の2つの新規かつ堅牢なDwell Time Injection戦略を提案する。 Dwe}は、より堅牢なユーザ嗜好を構築するために、初期の行動入力と統合して、居住時間の詳細な分析を通じて、有効ユーザクリックの精細化に重点を置いている。 DweAは、居住時間情報を意識してモデルを強化し、ユーザモデリングにおける注意値の自律的調整を容易にする。 この強化により、モデルのユーザの好みを正確に識別する能力が強化される。 実世界のニュースデータセットをMSNのウェブサイトで実験した結果,2つの戦略が推奨性能を大幅に改善し,高品質なニュースを優先することが確認された。 重要なことは、当社のアプローチは、ユーザの居住時間情報に対して堅牢性を示し、居住時間データが完全に欠落している極端な場合においても、高品質なコンテンツを推奨する能力を維持しています。

Large Language Models (LLMs) have revolutionized text comprehension, leading to State-of-the-Art (SOTA) news recommendation models that utilize LLMs for in-depth news understanding. Despite this, accurately modeling user preferences remains challenging due to the inherent uncertainty of click behaviors. Techniques like multi-head attention in Transformers seek to alleviate this by capturing interactions among clicks, yet they fall short in integrating explicit feedback signals. User Dwell Time emerges as a powerful indicator, offering the potential to enhance the weak signals emanating from clicks. Nonetheless, its real-world applicability is questionable, especially when dwell time data collection is subject to delays. To bridge this gap, this paper proposes two novel and robust dwell time injection strategies, namely Dwell time Weight (DweW) and Dwell time Aware (DweA). Dwe} concentrates on refining Effective User Clicks through detailed analysis of dwell time, integrating with initial behavioral inputs to construct a more robust user preference. DweA empowers the model with awareness of dwell time information, thereby facilitating autonomous adjustment of attention values in user modeling. This enhancement sharpens the model's ability to accurately identify user preferences. In our experiment using the real-world news dataset from MSN website, we validated that our two strategies significantly improve recommendation performance, favoring high-quality news. Crucially, our approaches exhibit robustness to user dwell time information, maintaining their ability to recommend high-quality content even in extreme cases where dwell time data is entirely missing.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# 3DSS-マンバ : ハイパースペクトル画像分類のための3次元スペクトル空間マンバ

3DSS-Mamba: 3D-Spectral-Spatial Mamba for Hyperspectral Image Classification ( http://arxiv.org/abs/2405.12487v1 )

ライセンス: Link先を確認
Yan He, Bing Tu, Bo Liu, Jun Li, Antonio Plaza, (参考訳) ハイパースペクトル画像(HSI)分類は、リモートセンシング分野における基礎研究を構成する。 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、スペクトル空間のコンテキスト依存をキャプチャする素晴らしい能力を実証している。 しかし、これらのアーキテクチャは、それぞれ限定的な受容場と二次的な計算複雑性に悩まされている。 幸いなことに、ステートスペースモデル上に構築された最近のMambaアーキテクチャは、長距離シーケンスモデリングと線形計算効率の利点を統合しており、低次元のシナリオにおいて大きな可能性を秘めている。 そこで本研究では,HSI分類のための3次元スペクトル空間マンバ(DSS-Mamba)フレームワークを提案する。 技術的には、スペクトル空間トークン生成(SSTG)モジュールは、HSIキューブを3次元スペクトル空間トークンの集合に変換するように設計されている。 因果関係のモデル化に限定し、高次元シナリオに適応できない伝統的なマンバの限界を克服するため、3次元スペクトル-空間選択走査(DSS)機構を導入し、スペクトルおよび空間次元に沿った3次元ハイパースペクトルトークンを画素単位で選択的に走査する。 次元優先順位付けの影響を調べるため, 5つの走査経路を構築した。 3DSSスキャン機構と従来のマッピング操作が組み合わさって、3D-スペクトル-空間的マンバブロック(3DMB)を形成し、グローバルなスペクトル-空間的意味表現の抽出を可能にする。 実験結果と解析結果から,提案手法はHSI分類ベンチマークの最先端手法よりも優れていることが示された。

Hyperspectral image (HSI) classification constitutes the fundamental research in remote sensing fields. Convolutional Neural Networks (CNNs) and Transformers have demonstrated impressive capability in capturing spectral-spatial contextual dependencies. However, these architectures suffer from limited receptive fields and quadratic computational complexity, respectively. Fortunately, recent Mamba architectures built upon the State Space Model integrate the advantages of long-range sequence modeling and linear computational efficiency, exhibiting substantial potential in low-dimensional scenarios. Motivated by this, we propose a novel 3D-Spectral-Spatial Mamba (3DSS-Mamba) framework for HSI classification, allowing for global spectral-spatial relationship modeling with greater computational efficiency. Technically, a spectral-spatial token generation (SSTG) module is designed to convert the HSI cube into a set of 3D spectral-spatial tokens. To overcome the limitations of traditional Mamba, which is confined to modeling causal sequences and inadaptable to high-dimensional scenarios, a 3D-Spectral-Spatial Selective Scanning (3DSS) mechanism is introduced, which performs pixel-wise selective scanning on 3D hyperspectral tokens along the spectral and spatial dimensions. Five scanning routes are constructed to investigate the impact of dimension prioritization. The 3DSS scanning mechanism combined with conventional mapping operations forms the 3D-spectral-spatial mamba block (3DMB), enabling the extraction of global spectral-spatial semantic representations. Experimental results and analysis demonstrate that the proposed method outperforms the state-of-the-art methods on HSI classification benchmarks.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# ディープニューラルネットワークの非対称な谷の探索と爆発

Exploring and Exploiting the Asymmetric Valley of Deep Neural Networks ( http://arxiv.org/abs/2405.12489v1 )

ライセンス: Link先を確認
Xin-Chun Li, Jin-Lin Tang, Bo Zhang, Lan Li, De-Chuan Zhan, (参考訳) ロスランドスケープの探索は、ディープニューラルネットワーク(DNN)の本質的な原則に関する洞察を提供する。 最近の研究は、平らな谷と鋭い谷の向こうの谷の非対称性を示唆しているが、その原因や意味を徹底的に調べることはなかった。 本研究は,(1)収束点に影響を与えるデータセット,ネットワークアーキテクチャ,初期化,ハイパーパラメータ,(2)1次元可視化のためのノイズの大きさと方向など,DNN谷の対称性に影響を与える要因を定量的に検討する。 我々の主要な観測は、ノイズと収束点の間の符号整合度が谷対称性の臨界指標であることを示している。 ReLUの活性化とソフトマックス関数の側面からの理論的な洞察は、興味深い現象を説明できるかもしれない。 我々は,モデル融合のシナリオにおける新しい理解と応用を提唱する:(1) 分離モデルの補間の有効性は,その符号整合率と著しく相関し,(2) フェデレート学習における符号整合がモデルパラメータ整合の革新的なアプローチとして出現する。

Exploring the loss landscape offers insights into the inherent principles of deep neural networks (DNNs). Recent work suggests an additional asymmetry of the valley beyond the flat and sharp ones, yet without thoroughly examining its causes or implications. Our study methodically explores the factors affecting the symmetry of DNN valleys, encompassing (1) the dataset, network architecture, initialization, and hyperparameters that influence the convergence point; and (2) the magnitude and direction of the noise for 1D visualization. Our major observation shows that the {\it degree of sign consistency} between the noise and the convergence point is a critical indicator of valley symmetry. Theoretical insights from the aspects of ReLU activation and softmax function could explain the interesting phenomenon. Our discovery propels novel understanding and applications in the scenario of Model Fusion: (1) the efficacy of interpolating separate models significantly correlates with their sign consistency ratio, and (2) imposing sign alignment during federated learning emerges as an innovative approach for model parameter alignment.
翻訳日:2024-05-22 14:28:21 公開日:2024-05-21
# Few-shot Wayでペアリングしたデータをカスタマイズする

Customize Your Own Paired Data via Few-shot Way ( http://arxiv.org/abs/2405.12490v1 )

ライセンス: Link先を確認
Jinshu Chen, Bingchuan Li, Miao Hua, Panpan Xu, Qian He, (参考訳) 既存の画像編集タスクのソリューションは、いくつかの問題に悩まされている。 生成した結果を著しく満足するが、いくつかの教師付き手法は膨大な量のペアトレーニングデータを必要とするため、使用量が大幅に制限される。 他の教師なしの手法は、大規模な事前訓練された事前訓練を最大限に活用するため、事前訓練されたドメインに制限され、アウト・オブ・ディストリビューションのケースでひどく振る舞う。 私たちがフォーカスするタスクは、少数のイメージペアによって、ユーザが望ましいエフェクトをカスタマイズする方法です。 提案フレームワークでは,サンプル間の方向変換に基づく新たな数ショット学習機構を導入し,学習可能な空間を指数関数的に拡張する。 拡散モデルパイプラインを採用することで、モデル内の条件計算モジュールを再設計し、いくつかの技術的改善を適用します。 実験により, 各種症例における本手法の有効性が示された。

Existing solutions to image editing tasks suffer from several issues. Though achieving remarkably satisfying generated results, some supervised methods require huge amounts of paired training data, which greatly limits their usages. The other unsupervised methods take full advantage of large-scale pre-trained priors, thus being strictly restricted to the domains where the priors are trained on and behaving badly in out-of-distribution cases. The task we focus on is how to enable the users to customize their desired effects through only few image pairs. In our proposed framework, a novel few-shot learning mechanism based on the directional transformations among samples is introduced and expands the learnable space exponentially. Adopting a diffusion model pipeline, we redesign the condition calculating modules in our model and apply several technical improvements. Experimental results demonstrate the capabilities of our method in various cases.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# ドメイン固有のフレームワークと複数のハードウェアデバイスの間のギャップを埋める

Bridging the Gap Between Domain-specific Frameworks and Multiple Hardware Devices ( http://arxiv.org/abs/2405.12491v1 )

ライセンス: Link先を確認
Xu Wen, Wanling Gao, Lei Wang, Jianfeng Zhan, (参考訳) ケースバイケースでソリューションを実装するという現在のアプローチは、O(M*N)の理論的複雑さを引き起こします。 これらの課題に対処するため,ドメイン固有のフレームワークと複数のハードウェアデバイスとのギャップを効果的に埋める手法を提案し,O(M+N)への移植の複雑さを低減する。 このアプローチは多層抽象化を利用する。 さまざまなドメイン固有の抽象化を使用して、さまざまなドメインからのアプリケーションを表現する。 これらの抽象化は統一的な抽象化に変換され、その後プリミティブ演算子の組み合わせに変換される。 最後に、これらのオペレータは複数のハードウェアプラットフォームにマップされる。 実装された統合フレームワークは、ディープラーニング、古典的な機械学習、X86、ARM、RISC-V、IoTデバイス、GPUにわたるデータ分析をサポートする。 X86サーバで1.1xから3.83x、ARM IoTデバイスで1.06xから4.33x、RISC-V IoTデバイスで1.25xから3.72x、GPUで1.93xである。 ソースコードはhttps://github.com/BenchCouncil/bridger.gitで公開されている。

The rapid development of domain-specific frameworks has presented us with a significant challenge: The current approach of implementing solutions on a case-by-case basis incurs a theoretical complexity of O(M*N), thereby increasing the cost of porting applications to different hardware platforms. To address these challenges, we propose a systematic methodology that effectively bridges the gap between domain-specific frameworks and multiple hardware devices, reducing porting complexity to O(M+N). The approach utilizes multi-layer abstractions. Different domain-specific abstractions are employed to represent applications from various domains. These abstractions are then transformed into a unified abstraction, which is subsequently translated into combinations of primitive operators. Finally, these operators are mapped to multiple hardware platforms. The implemented unified framework supports deep learning, classical machine learning, and data analysis across X86, ARM, RISC-V, IoT devices, and GPU. It outperforms existing solutions like scikit-learn, hummingbird, Spark, and pandas, achieving impressive speedups: 1.1x to 3.83x on X86 servers, 1.06x to 4.33x on ARM IoT devices, 1.25x to 3.72x on RISC-V IoT devices, and 1.93x on GPU. The source code is available at https://github.com/BenchCouncil/bridger.git.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# ディープニューラルネットワークの失われた景観を可視化し、再考し、マイニングする

Visualizing, Rethinking, and Mining the Loss Landscape of Deep Neural Networks ( http://arxiv.org/abs/2405.12493v1 )

ライセンス: Link先を確認
Xin-Chun Li, Lan Li, De-Chuan Zhan, (参考訳) ディープニューラルネットワーク(DNN)のロスランドスケープは、一般的に複雑で、大きく変動していると考えられている。 しかし興味深い観察は、ガウスの騒音方向に沿ってプロットされた損失面は、流域に摂動モデルがあるほぼv塩基であるということである。 このことは、1Dまたは2D部分空間がより複雑な局所幾何学構造をカバーできるかどうかを再考し、それに対応する摂動方向をどのようにマイニングするかを動機付けている。 本稿では, v-basin, v-side, w-basin, w-peak, vvv-basin曲線を含む, 1次元曲線を単純から複雑に体系的に分類する。 特に、後者の2つのタイプは、特定の摂動方向を直感的に構築することで既に入手が困難であり、対応する1次元曲線をプロットするための適切なマイニングアルゴリズムを提案する必要がある。 これらの1D方向を組み合わせることで、以前の作品でデモ機能でしか示されていないサドル面やワインのボトルの底など、様々な種類の2D面が可視化される。 最後に、観測されたいくつかの興味深い現象を説明するために、ヘッセン行列のレンズからの理論的洞察を提案する。

The loss landscape of deep neural networks (DNNs) is commonly considered complex and wildly fluctuated. However, an interesting observation is that the loss surfaces plotted along Gaussian noise directions are almost v-basin ones with the perturbed model lying on the basin. This motivates us to rethink whether the 1D or 2D subspace could cover more complex local geometry structures, and how to mine the corresponding perturbation directions. This paper systematically and gradually categorizes the 1D curves from simple to complex, including v-basin, v-side, w-basin, w-peak, and vvv-basin curves. Notably, the latter two types are already hard to obtain via the intuitive construction of specific perturbation directions, and we need to propose proper mining algorithms to plot the corresponding 1D curves. Combining these 1D directions, various types of 2D surfaces are visualized such as the saddle surfaces and the bottom of a bottle of wine that are only shown by demo functions in previous works. Finally, we propose theoretical insights from the lens of the Hessian matrix to explain the observed several interesting phenomena.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# 人工知能からの入力を用いたフィッシングメールの検出

Phishing Email Detection Using Inputs From Artificial Intelligence ( http://arxiv.org/abs/2405.12494v1 )

ライセンス: Link先を確認
Mithün Paul, Genevieve Bartlett, Jelena Mirkovic, Marjorie Freedman, (参考訳) 企業のセキュリティは、フィッシングのようなソーシャルエンジニアリングの攻撃によってますます脅かされている。 ユーザ自身と企業データの両方を保護するために、ますます多くの組織が、不審なコンテンツの特定と報告を従業員や顧客に対して教えようとするサイバーセキュリティトレーニングを提供している。 その性質上、このような訓練は、広範囲にわたる攻撃を継続する可能性のある信号に焦点を合わせようとしている。 さらに、既存の自動企業セキュリティ(スパムフィルタや商用フィッシング検出ソフトウェアなど)によってフィルタリングされていない電子メールメッセージに対して、これらのトレーニングから学んだことを適用することも期待されている。 しかし、このような訓練を頼りにしていると、フィッシングの検出を自動的なプロセスから、特にユーザが気を散らしたり、忘れたりするなどして、不利な人間によるものへとシフトする。 本研究では,このタイプの検出を自然言語処理タスクとして扱い,それに応じてトレーニングパイプラインを変更する方法について検討する。 これらのラベルは、ユーザーが通常そのようなトレーニングで識別するよう要求される信号のクラスから生成される。 また、これらのラベルのクラスに基づいて訓練されたベースライン分類器モデルも提示する。 ヒトのアノテータとそれらのラベル上のモデルの性能の比較分析により、機械と人の両方のトレーニングにおける各カリキュラムの改善に寄与する知見を提供する。

Enterprise security is increasingly being threatened by social engineering attacks, such as phishing, which deceive employees into giving access to enterprise data. To protect both the users themselves and enterprise data, more and more organizations provide cyber security training that seeks to teach employees/customers to identify and report suspicious content. By its very nature, such training seeks to focus on signals that are likely to persist across a wide range of attacks. Further, it expects the user to apply the learnings from these training on e-mail messages that were not filtered by existing, automatic enterprise security (e.g., spam filters and commercial phishing detection software). However, relying on such training now shifts the detection of phishing from an automatic process to a human driven one which is fallible especially when a user errs due to distraction, forgetfulness, etc. In this work we explore treating this type of detection as a natural language processing task and modifying training pipelines accordingly. We present a dataset with annotated labels where these labels are created from the classes of signals that users are typically asked to identify in such training. We also present baseline classifier models trained on these classes of labels. With a comparative analysis of performance between human annotators and the models on these labels, we provide insights which can contribute to the improvement of the respective curricula for both machine and human training.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# 実世界の画像のためのエントロピー連想メモリ

Entropic associative memory for real world images ( http://arxiv.org/abs/2405.12500v1 )

ライセンス: Link先を確認
Noé Hernández, Rafael Morales, Luis A. Pineda, (参考訳) エントロピック連想メモリ(英: Entropic Associative memory、EAM)は、自然記憶の計算モデルであり、連想的、分散的、宣言的、抽象的、構成的な性質を取り入れている。 以前の実験では、原稿の桁と文字の画像、衣服の画像、電話の表現など、構造化された、均質で、従来のデータに基づいて、このモデルを十分にテストしていた。 本研究では,EAMが動物や車両の複雑なイメージを適切に保存し,認識し,検索することを示す。 さらに、メモリシステムは、そのような複雑な画像に対して有意義な検索関連連鎖を生成する。 回収された物体は、適切な記憶、関連する記憶、想像の産物と見ることができる。

The entropic associative memory (EAM) is a computational model of natural memory incorporating some of its putative properties of being associative, distributed, declarative, abstractive and constructive. Previous experiments satisfactorily tested the model on structured, homogeneous and conventional data: images of manuscripts digits and letters, images of clothing, and phone representations. In this work we show that EAM appropriately stores, recognizes and retrieves complex and unconventional images of animals and vehicles. Additionally, the memory system generates meaningful retrieval association chains for such complex images. The retrieved objects can be seen as proper memories, associated recollections or products of imagination.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# エントロピーストップ:ロスエントロピーを用いた教師なしディープ・アウトリア検出

EntropyStop: Unsupervised Deep Outlier Detection with Loss Entropy ( http://arxiv.org/abs/2405.12502v1 )

ライセンス: Link先を確認
Yihong Huang, Yuang Zhang, Liping Wang, Fan Zhang, Xuemin Lin, (参考訳) Unsupervised Outlier Detection (UOD) は重要なデータマイニングタスクである。 ディープラーニングの進歩により、Deep Outlier Detection (OD) は広く関心を集めている。 ほとんどの深い UOD モデルは、通常のデータの分布を学ぶために、クリーンなデータセットにのみ訓練されている。 クリーンなデータセットに頼る代わりに、ラベルのない汚染データセットを直接トレーニングし、検出するアプローチもある。 エンサンブル法は、汚染されたトレーニングセットに対するモデルロバスト性を高めるための優れた解として現れた。 しかし、アンサンブルによりトレーニング時間が大幅に向上する。 本研究では, 未ラベル汚染データセットのトレーニングを中止し, 性能劣化に先立って, トレーニングフェーズにおけるアウトレーヤの影響について検討する。 当初我々は、正常データと異常データを混在させることで、AUCの変動が生じることを指摘した。 ラベルの必要性を回避するため,ロスエントロピー (Loss Entropy) というゼロラベルのエントロピー尺度を提案する。 一方,エントロピー測定値とラベルに基づくAUCとの負の相関を理論的に示す。 これに基づいて、損失エントロピーが最大モデル検出能力を示す場合のトレーニングを停止する自動早期停止アルゴリズムEntropyStopを開発した。 我々はADBench(47の実際のデータセットを含む)の広範な実験を行い、全体的な結果は、我々のアプローチによって強化されたAutoEncoder(AE)が、AEのアンサンブルよりも優れたパフォーマンスを達成するだけでなく、トレーニング時間の16%以下の時間も必要であることを示している。 最後に,提案手法を他の深部ODモデルで評価し,その適用可能性について検討した。

Unsupervised Outlier Detection (UOD) is an important data mining task. With the advance of deep learning, deep Outlier Detection (OD) has received broad interest. Most deep UOD models are trained exclusively on clean datasets to learn the distribution of the normal data, which requires huge manual efforts to clean the real-world data if possible. Instead of relying on clean datasets, some approaches directly train and detect on unlabeled contaminated datasets, leading to the need for methods that are robust to such conditions. Ensemble methods emerged as a superior solution to enhance model robustness against contaminated training sets. However, the training time is greatly increased by the ensemble. In this study, we investigate the impact of outliers on the training phase, aiming to halt training on unlabeled contaminated datasets before performance degradation. Initially, we noted that blending normal and anomalous data causes AUC fluctuations, a label-dependent measure of detection accuracy. To circumvent the need for labels, we propose a zero-label entropy metric named Loss Entropy for loss distribution, enabling us to infer optimal stopping points for training without labels. Meanwhile, we theoretically demonstrate negative correlation between entropy metric and the label-based AUC. Based on this, we develop an automated early-stopping algorithm, EntropyStop, which halts training when loss entropy suggests the maximum model detection capability. We conduct extensive experiments on ADBench (including 47 real datasets), and the overall results indicate that AutoEncoder (AE) enhanced by our approach not only achieves better performance than ensemble AEs but also requires under 1\% of training time. Lastly, our proposed metric and early-stopping approach are evaluated on other deep OD models, exhibiting their broad potential applicability.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# CLRKDNet:知識蒸留による車線検出の高速化

CLRKDNet: Speeding up Lane Detection with Knowledge Distillation ( http://arxiv.org/abs/2405.12503v1 )

ライセンス: Link先を確認
Weiqing Qi, Guoyang Zhao, Fulong Ma, Linwei Zheng, Ming Liu, (参考訳) 道路車線は、インテリジェントな車両における視覚知覚システムの不可欠な要素であり、安全なナビゲーションにおいて重要な役割を担っている。 レーン検出タスクでは、精度とリアルタイムのパフォーマンスのバランスが不可欠である。 このトレードオフに対処するために,検出精度とリアルタイム性能のバランスをとる合理化モデルであるCLRKDNetを導入する。 最新技術モデルCLRNetは、さまざまなデータセットで例外的なパフォーマンスを示してきたが、その計算オーバーヘッドは、FPN(Feature Pyramid Network)とミューティ層検出ヘッドアーキテクチャ(muti-layer detection head architecture)のため、かなり大きい。 提案手法はFPN構造と検出ヘッドの両方を単純化し, 新たに導入された一連の蒸留損失と合わせて, 教師と学生の新たな蒸留プロセスを統合するよう再設計した。 この組み合わせにより、CLRNetに匹敵する検出精度を維持しながら、推論時間を最大60%削減できる。 この精度とスピードの戦略的バランスにより、CLRKDNetは自律運転アプリケーションにおけるリアルタイム車線検出タスクの実行可能なソリューションとなる。

Road lanes are integral components of the visual perception systems in intelligent vehicles, playing a pivotal role in safe navigation. In lane detection tasks, balancing accuracy with real-time performance is essential, yet existing methods often sacrifice one for the other. To address this trade-off, we introduce CLRKDNet, a streamlined model that balances detection accuracy with real-time performance. The state-of-the-art model CLRNet has demonstrated exceptional performance across various datasets, yet its computational overhead is substantial due to its Feature Pyramid Network (FPN) and muti-layer detection head architecture. Our method simplifies both the FPN structure and detection heads, redesigning them to incorporate a novel teacher-student distillation process alongside a newly introduced series of distillation losses. This combination reduces inference time by up to 60% while maintaining detection accuracy comparable to CLRNet. This strategic balance of accuracy and speed makes CLRKDNet a viable solution for real-time lane detection tasks in autonomous driving applications.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# NOVA-3D:3Dアニメキャラクタ再構成のための非オーバーラップビュー

NOVA-3D: Non-overlapped Views for 3D Anime Character Reconstruction ( http://arxiv.org/abs/2405.12505v1 )

ライセンス: Link先を確認
Hongsheng Wang, Nanjie Yao, Xinrui Zhou, Shengyu Zhang, Huahao Xu, Fei Wu, Feng Lin, (参考訳) アニメーション業界では、3Dモデラーは通常、アニメキャラクターの3Dモデリングを導くために、前と後ろのオーバーラップしないコンセプトデザインに頼っている。 しかし、現在ではこれらの2Dデザインから直接アニメキャラクタを生成するための自動アプローチが欠如している。 これを踏まえて、オーバーラップしない視点からアニメキャラクターを再構築する新たな課題を探求する。 既存のマルチビューアプローチは重複する領域がないために直接適用できないし、フルボディのアニメキャラクタデータと標準ベンチマークが不足している。 このギャップを埋めるために、我々は3D \textbf{A}nime character Reconstruction (NOVA-3D) のための非オーバーラップされたビューを提示する。これは、3D一貫性のある特徴を効果的に学習し、非オーバーラップされたフロントとバックビューから直接フルボディのアニメキャラクターを合成するビュー認識機能融合法を実装した新しいフレームワークである。 そこで我々は,多視点画像と3Dアニメキャラクタの正確なカメラパラメータを含むNOVA-Humanデータセットを収集した。 大規模な実験により,提案手法はベースライン手法よりも優れており,特筆すべき細かな忠実さを持つアニメキャラクタのより優れた再構成を実現している。 さらに,本手法の有効性をさらに検証するため,アニメーションヘッド再構築タスクに適用し,SSIMでは94.453,LPIPSでは7.726,PSNRでは19.575に改善した。 コードとデータセットはhttps://wanghongsheng01.github.io/NOVA-3D/で公開されている。

In the animation industry, 3D modelers typically rely on front and back non-overlapped concept designs to guide the 3D modeling of anime characters. However, there is currently a lack of automated approaches for generating anime characters directly from these 2D designs. In light of this, we explore a novel task of reconstructing anime characters from non-overlapped views. This presents two main challenges: existing multi-view approaches cannot be directly applied due to the absence of overlapping regions, and there is a scarcity of full-body anime character data and standard benchmarks. To bridge the gap, we present Non-Overlapped Views for 3D \textbf{A}nime Character Reconstruction (NOVA-3D), a new framework that implements a method for view-aware feature fusion to learn 3D-consistent features effectively and synthesizes full-body anime characters from non-overlapped front and back views directly. To facilitate this line of research, we collected the NOVA-Human dataset, which comprises multi-view images and accurate camera parameters for 3D anime characters. Extensive experiments demonstrate that the proposed method outperforms baseline approaches, achieving superior reconstruction of anime characters with exceptional detail fidelity. In addition, to further verify the effectiveness of our method, we applied it to the animation head reconstruction task and improved the state-of-the-art baseline to 94.453 in SSIM, 7.726 in LPIPS, and 19.575 in PSNR on average. Codes and datasets are available at https://wanghongsheng01.github.io/NOVA-3D/.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# 計算類群に対する量子空間複雑性の上界と主イデアル問題

Upper bounding the quantum space complexity for computing class group and principal ideal problem ( http://arxiv.org/abs/2405.12508v1 )

ライセンス: Link先を確認
Iu-Iong Ng, (参考訳) 本稿では、クラス群計算の解法としてBiasse and Song(SODA'16)が提唱した量子アルゴリズムの量子空間複雑性の上限値と、S$-unitグループ計算への還元法を用いて主理想問題を算出する。 本稿では,Barbulescu and Poulalion (AFRICACRYPT'23) と de Boer, Ducas, Fehr (EUROCRYPT'20) と Eisentr\"{a}ger, Hallgren, Kitaev, Song (STOC'14) のアプローチに従う。

In this paper, we calculate the upper bound on quantum space complexity of the quantum algorithms proposed by Biasse and Song (SODA'16) for solving class group computation and the principal ideal problem using the reductions to $S$-unit group computation. We follow the approach of Barbulescu and Poulalion (AFRICACRYPT'23) and the framework given by de Boer, Ducas, and Fehr (EUROCRYPT'20) and Eisentr\"{a}ger, Hallgren, Kitaev, and Song (STOC'14).
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# 大規模モデルからの知識集約と蒸留による能動物体検出

Active Object Detection with Knowledge Aggregation and Distillation from Large Models ( http://arxiv.org/abs/2405.12509v1 )

ライセンス: Link先を確認
Dejie Yang, Yang Liu, (参考訳) 状態変化中のアクティブオブジェクトを正確に検出することは、人間のインタラクションを理解し、意思決定を容易にするために不可欠である。 既存のアクティブオブジェクト検出法(AOD)は主に、サイズ、形状、手との関係など、入力内のオブジェクトの視覚的外観に依存する。 しかしながら、これらの視覚的変化は微妙なものであり、特に同じカテゴリの複数の非変更インスタンスを気を散らすシナリオにおいて、課題を提起する可能性がある。 状態変化は、しばしばオブジェクト上で実行される相互作用の結果であり、AODのためのより信頼性の高い手がかりを提供するために、オブジェクトに関連する可視的相互作用(セマンティクスや視覚的外観を含む)についての情報的事前利用を提案する。 具体的には,先述した情報を教師デコーダ内のオラクルクエリに統合する知識集約手法を提案する。 推論プロセスの合理化と余分な知識入力の削減を目的として,学生デコーダの学習者による学習者検出能力の模倣を促す知識蒸留手法を提案する。 提案するフレームワークは,Ego4D,Epic-Kitchens,MECCANO,100DOHという4つのデータセット上での最先端性能を実現し,AODの改善におけるアプローチの有効性を実証する。

Accurately detecting active objects undergoing state changes is essential for comprehending human interactions and facilitating decision-making. The existing methods for active object detection (AOD) primarily rely on visual appearance of the objects within input, such as changes in size, shape and relationship with hands. However, these visual changes can be subtle, posing challenges, particularly in scenarios with multiple distracting no-change instances of the same category. We observe that the state changes are often the result of an interaction being performed upon the object, thus propose to use informed priors about object related plausible interactions (including semantics and visual appearance) to provide more reliable cues for AOD. Specifically, we propose a knowledge aggregation procedure to integrate the aforementioned informed priors into oracle queries within the teacher decoder, offering more object affordance commonsense to locate the active object. To streamline the inference process and reduce extra knowledge inputs, we propose a knowledge distillation approach that encourages the student decoder to mimic the detection capabilities of the teacher decoder using the oracle query by replicating its predictions and attention. Our proposed framework achieves state-of-the-art performance on four datasets, namely Ego4D, Epic-Kitchens, MECCANO, and 100DOH, which demonstrates the effectiveness of our approach in improving AOD.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# 動力学的視点による光流予測の再考

Rethink Predicting the Optical Flow with the Kinetics Perspective ( http://arxiv.org/abs/2405.12512v1 )

ライセンス: Link先を確認
Yuhao Cheng, Siru Zhang, Yiqiang Yan, (参考訳) 光フロー推定は、低レベルのコンピュータビジョンにおける基本的なタスクの1つであり、ピクセル単位での変位を記述し、他の多くのタスクで使用することができる。 見かけ上は、連続するフレーム内の画素間の相関として光学流を見ることができるので、連続的に相関体積を精製することで、優れた性能が得られる。 しかし、この方法では破滅的な計算が複雑になる。 それだけでなく、連続するフレームの閉塞領域に起因する誤差は、不正確なワープ操作によって増幅される。 これらの課題は, 明らかな視点からのみ解決できないため, 本論文では, 運動学的な観点からの光学的フロー推定を再考し, このモチベーションからの見かけと運動学的な情報を組み合わせた手法を提案する。 提案手法は, 相関ボリュームを構築する代わりに, 画像から抽出した特徴量から直接光フローを予測し, ネットワーク全体の効率を向上する。 一方,本提案手法では,ワープとオクルージョンを同時に考慮した新たなワープ操作を行う。 さらに,本手法は,新たな自己教師付き損失関数により,運動学特徴と明らかな特徴とをブレンドする。 さらに, 包括的実験およびアブレーション研究により, 光流の予測方法に関する新たな知見が, 最先端手法の優れた性能を達成できることが証明され, 提案手法は, 特に閉塞や高速移動を含む状況において, 相関に基づく手法よりも優れていることが示唆された。 コードは公開されます。

Optical flow estimation is one of the fundamental tasks in low-level computer vision, which describes the pixel-wise displacement and can be used in many other tasks. From the apparent aspect, the optical flow can be viewed as the correlation between the pixels in consecutive frames, so continuously refining the correlation volume can achieve an outstanding performance. However, it will make the method have a catastrophic computational complexity. Not only that, the error caused by the occlusion regions of the successive frames will be amplified through the inaccurate warp operation. These challenges can not be solved only from the apparent view, so this paper rethinks the optical flow estimation from the kinetics viewpoint.We propose a method combining the apparent and kinetics information from this motivation. The proposed method directly predicts the optical flow from the feature extracted from images instead of building the correlation volume, which will improve the efficiency of the whole network. Meanwhile, the proposed method involves a new differentiable warp operation that simultaneously considers the warping and occlusion. Moreover, the proposed method blends the kinetics feature with the apparent feature through the novel self-supervised loss function. Furthermore, comprehensive experiments and ablation studies prove that the proposed novel insight into how to predict the optical flow can achieve the better performance of the state-of-the-art methods, and in some metrics, the proposed method outperforms the correlation-based method, especially in situations containing occlusion and fast moving. The code will be public.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# 完全ランダム化ポインタ

Fully Randomized Pointers ( http://arxiv.org/abs/2405.12513v1 )

ライセンス: Link先を確認
Gregory J. Duck, Sai Dhawal Phaye, Roland H. C. Yap, Trevor E. Carlson, (参考訳) ソフトウェアセキュリティは、CやC++のような低レベルプログラミング言語で実装されるプログラムにとって、引き続き重要な問題である。 現在の文献では、それぞれがパフォーマンス、互換性、攻撃抵抗など、さまざまなトレードオフを持つ多くの防衛策が提案されている。 防御の一般的なクラスはポインタのランダム化または認証であり、無効なオブジェクトアクセス(例えば、メモリエラー)は難読化または拒否される。 多くの防衛は攻撃を中止するためにプログラム終了(例えばクラッシュ)を頼りにしており、敵が複数の攻撃の試みで防衛を「強要」することはできないという暗黙の仮定がある。 しかし、ハードウェアの投機的実行攻撃やネットワークサーバがエラー時に再起動するように設定されているなど、そのような仮定は必ずしも成り立たない。 このような場合、既存の防備のほとんどは、弱い効果的なセキュリティしか提供していないと論じる。 本稿では,強いメモリエラー対策としてフルランダム化ポインタ (FRP) を提案する。 キーとなるアイデアは、可能な限りポインタビットをランダムにし、バイナリ互換性を保ちながら、ポインタ間の関係を非常に予測不可能にすることだ。 さらに、非常に高いランダム化は、非現実的なブルートフォース攻撃を招き、既存の作業と比べて強力な効果的なセキュリティを提供する。 1)既存のバイナリコードとの互換性(再コンパイルなしで)、(2)基礎となるオブジェクトレイアウトから切り離された、(3)オンザフライで効率よくメモリアドレスにデコードできる、新しいFRPエンコーディングを設計する。 我々は、セキュリティと互換性をテストするソフトウェア実装(BlueFat)と、性能を評価するための概念実証ハードウェア実装(GreenFat)の形式でFRPを試作した。 FRPはバイナリレベルでは安全で実用的で互換性があり、ハードウェア実装では性能のオーバーヘッドが低い(10%)。

Software security continues to be a critical concern for programs implemented in low-level programming languages such as C and C++. Many defenses have been proposed in the current literature, each with different trade-offs including performance, compatibility, and attack resistance. One general class of defense is pointer randomization or authentication, where invalid object access (e.g., memory errors) is obfuscated or denied. Many defenses rely on the program termination (e.g., crashing) to abort attacks, with the implicit assumption that an adversary cannot "brute force" the defense with multiple attack attempts. However, such assumptions do not always hold, such as hardware speculative execution attacks or network servers configured to restart on error. In such cases, we argue that most existing defenses provide only weak effective security. In this paper, we propose Fully Randomized Pointers (FRP) as a stronger memory error defense that is resistant to even brute force attacks. The key idea is to fully randomize pointer bits -- as much as possible while also preserving binary compatibility -- rendering the relationships between pointers highly unpredictable. Furthermore, the very high degree of randomization renders brute force attacks impractical -- providing strong effective security compared to existing work. We design a new FRP encoding that is: (1) compatible with existing binary code (without recompilation); (2) decoupled from the underlying object layout; and (3) can be efficiently decoded on-the-fly to the underlying memory address. We prototype FRP in the form of a software implementation (BlueFat) to test security and compatibility, and a proof-of-concept hardware implementation (GreenFat) to evaluate performance. We show that FRP is secure, practical, and compatible at the binary level, while a hardware implementation can achieve low performance overheads (<10%).
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# 未来:AIが生み出す未来との会話は不安を減らし、負の感情を減らし、未来的な自己連続性を高める

Future You: A Conversation with an AI-Generated Future Self Reduces Anxiety, Negative Emotions, and Increases Future Self-Continuity ( http://arxiv.org/abs/2405.12514v1 )

ライセンス: Link先を確認
Pat Pataranutaporn, Kavin Winson, Peggy Yin, Auttasak Lapapirojn, Pichayoot Ouppaphan, Monchai Lertsutthiwong, Pattie Maes, Hal Hershfield, (参考訳) 本稿では,対話的かつ簡潔な単一セッションのデジタルチャット介入である"Future You"を紹介した。これは,個人が時間的に離れた未来と感じる関係の程度,メンタルヘルスと幸福感に肯定的な特性である。 我々のシステムでは、ユーザーは、将来の目標と個人的品質に合わせた、相対性がありながらAIで動くバーチャルバージョンとチャットできる。 会話を現実的にするために、ユーザの現在(18~30歳)と60歳(60歳)の間に一線を画す「合成記憶」を生成する。 また、「フューチャーユー」という文字は、ユーザの現在の自己の年齢差の画像のペルソナも採用する。 フューチャーユー」のキャラクターとの短い対話の後、ユーザーは不安を減らし、将来的な自己継続性を高めたと報告した。 これは、パーソナライズされたAI生成文字を使用して、ユーザの将来的な自己持続性と幸福を改善するための最初の研究である。

We introduce "Future You," an interactive, brief, single-session, digital chat intervention designed to improve future self-continuity--the degree of connection an individual feels with a temporally distant future self--a characteristic that is positively related to mental health and wellbeing. Our system allows users to chat with a relatable yet AI-powered virtual version of their future selves that is tuned to their future goals and personal qualities. To make the conversation realistic, the system generates a "synthetic memory"--a unique backstory for each user--that creates a throughline between the user's present age (between 18-30) and their life at age 60. The "Future You" character also adopts the persona of an age-progressed image of the user's present self. After a brief interaction with the "Future You" character, users reported decreased anxiety, and increased future self-continuity. This is the first study successfully demonstrating the use of personalized AI-generated characters to improve users' future self-continuity and wellbeing.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# MAGE: モチーフベースのグラフ生成によるモデルレベルグラフニューラルネットワークの説明

MAGE: Model-Level Graph Neural Networks Explanations via Motif-based Graph Generation ( http://arxiv.org/abs/2405.12519v1 )

ライセンス: Link先を確認
Zhaoning Yu, Hongyang Gao, (参考訳) グラフニューラルネットワーク(GNN)は、分子タスクにおいて顕著に成功したが、その解釈可能性はまだ難しい。 XGNNやGNNInterpreterのような伝統的なモデルレベルの説明法は、しばしば環のような有効な部分構造を特定するのに失敗し、疑わしい解釈可能性をもたらす。 この制限は、XGNNの原子・バイ・原子アプローチとGNNInterpreterの平均グラフ埋め込みへの依存に由来する。 これらのギャップに対処するために、モチーフを説明を生成する基本単位として使用する革新的 \textbf{M}otif-b\textbf{A}sed \textbf{G}NN \textbf{E}xplainer (MAGE) を導入する。 提案手法は,モチーフ分解手法を用いてポテンシャルモチーフを抽出することから始まる。 そして,注目に基づく学習手法を用いて,クラス固有のモチーフを同定する。 最後に、各クラスにモチーフベースのグラフ生成器を用いて、これらのクラス固有のモチーフに基づいた分子グラフ説明を作成する。 この新しい手法は、重要な部分構造を説明に組み込むだけでなく、その妥当性を保証し、人間に理解可能な結果をもたらす。 提案手法の有効性は,6つの実世界の分子データセットを用いた定量的,定性的な評価によって実証される。

Graph Neural Networks (GNNs) have shown remarkable success in molecular tasks, yet their interpretability remains challenging. Traditional model-level explanation methods like XGNN and GNNInterpreter often fail to identify valid substructures like rings, leading to questionable interpretability. This limitation stems from XGNN's atom-by-atom approach and GNNInterpreter's reliance on average graph embeddings, which overlook the essential structural elements crucial for molecules. To address these gaps, we introduce an innovative \textbf{M}otif-b\textbf{A}sed \textbf{G}NN \textbf{E}xplainer (MAGE) that uses motifs as fundamental units for generating explanations. Our approach begins with extracting potential motifs through a motif decomposition technique. Then, we utilize an attention-based learning method to identify class-specific motifs. Finally, we employ a motif-based graph generator for each class to create molecular graph explanations based on these class-specific motifs. This novel method not only incorporates critical substructures into the explanations but also guarantees their validity, yielding results that are human-understandable. Our proposed method's effectiveness is demonstrated through quantitative and qualitative assessments conducted on six real-world molecular datasets.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# ヘビーチューニングによるアンリーシュグラフニューラルネットワーク

Unleash Graph Neural Networks from Heavy Tuning ( http://arxiv.org/abs/2405.12521v1 )

ライセンス: Link先を確認
Lequan Lin, Dai Shi, Andi Han, Zhiyong Wang, Junbin Gao, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ型データ用に設計されたディープラーニングアーキテクチャであり、個々の観測間の関係を理解することが重要である。 しかし、特に目に見えないデータにおいて、有望なGNNパフォーマンスを達成するには、包括的なハイパーパラメータチューニングと綿密なトレーニングが必要である。 残念なことに、これらのプロセスには高い計算コストと人的労力が伴う。 さらに、グリッド探索のような従来の探索アルゴリズムは、検証データに過度に適合し、一般化精度が低下する可能性がある。 これらの課題に対処するために、光チューニングされた粗い探索中に保存されたチェックポイントから学習することで、高性能なGNNを直接生成するグラフ条件付き潜時拡散フレームワーク(GNN-Diff)を提案する。 提案手法は,(1)重度チューニングと複雑な探索空間設計からGNNトレーニングを解き放ち,(2)網羅的なグリッド探索により得られたパラメータよりも優れたGNNパラメータを生成し,(3)汎用ニューラルネットワーク用に設計された拡散フレームワークと比較して,GNNの高品質な生成を確立する。

Graph Neural Networks (GNNs) are deep-learning architectures designed for graph-type data, where understanding relationships among individual observations is crucial. However, achieving promising GNN performance, especially on unseen data, requires comprehensive hyperparameter tuning and meticulous training. Unfortunately, these processes come with high computational costs and significant human effort. Additionally, conventional searching algorithms such as grid search may result in overfitting on validation data, diminishing generalization accuracy. To tackle these challenges, we propose a graph conditional latent diffusion framework (GNN-Diff) to generate high-performing GNNs directly by learning from checkpoints saved during a light-tuning coarse search. Our method: (1) unleashes GNN training from heavy tuning and complex search space design; (2) produces GNN parameters that outperform those obtained through comprehensive grid search; and (3) establishes higher-quality generation for GNNs compared to diffusion frameworks designed for general neural networks.
翻訳日:2024-05-22 14:18:37 公開日:2024-05-21
# 言語モデルにおけるスケーラブルで信頼性の高い回路同定を可能にするスパースオートエンコーダ

Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models ( http://arxiv.org/abs/2405.12522v1 )

ライセンス: Link先を確認
Charles O'Neill, Thang Bui, (参考訳) 本稿では,離散スパースオートエンコーダを用いた大規模言語モデルにおける解釈可能な回路の探索手法を提案する。 提案手法は,計算複雑性とハイパーパラメータに対する感度という,既存の手法の限界に対処する。 モデルでは, 正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の 学習したアテンションヘッドの出力の表現は、ヘッドが特定の計算に関わったときにシグナルとなると仮定する。 学習した表現を整数符号に分解し、各ヘッドの正の例に特有の符号間の重なりを計測することにより、高価なアブレーションやアーキテクチャ変更を必要とせずに、回路にかかわるアテンションヘッドの直接同定を可能にする。 提案手法は, 直接オブジェクト識別, より高次比較, ドクストリング完了という3つのよく研究されたタスクにおいて, 動作時間を数時間から数秒に短縮しつつ, 現状のベースラインに比べて高い精度とリコールを実現する。 特に、ロバストな表現を学習するためには、各タスクに5から10のテキスト例しか必要としません。 本研究は,大規模言語モデルの内部動作を解析するための新たな方向性を提供するため,スケーラブルで効率的な機械的解釈性を実現するための離散スパースオートエンコーダの約束を強調した。

This paper introduces an efficient and robust method for discovering interpretable circuits in large language models using discrete sparse autoencoders. Our approach addresses key limitations of existing techniques, namely computational complexity and sensitivity to hyperparameters. We propose training sparse autoencoders on carefully designed positive and negative examples, where the model can only correctly predict the next token for the positive examples. We hypothesise that learned representations of attention head outputs will signal when a head is engaged in specific computations. By discretising the learned representations into integer codes and measuring the overlap between codes unique to positive examples for each head, we enable direct identification of attention heads involved in circuits without the need for expensive ablations or architectural modifications. On three well-studied tasks - indirect object identification, greater-than comparisons, and docstring completion - the proposed method achieves higher precision and recall in recovering ground-truth circuits compared to state-of-the-art baselines, while reducing runtime from hours to seconds. Notably, we require only 5-10 text examples for each task to learn robust representations. Our findings highlight the promise of discrete sparse autoencoders for scalable and efficient mechanistic interpretability, offering a new direction for analysing the inner workings of large language models.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# 単一画像の学習:マルチモーダル大言語モデルにおける効率的な機械学習

Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models ( http://arxiv.org/abs/2405.12523v1 )

ライセンス: Link先を確認
Jiaqi Li, Qianshan Wei, Chuanyi Zhang, Guilin Qi, Miaozeng Du, Yongrui Chen, Sheng Bi, (参考訳) 機械学習は、機械学習モデルにエンコードされたプライベートまたはセンシティブな情報を削除することによって、忘れられる権利を持つ個人に権限を与える。 しかし、Multimodal Large Language Models (MLLM) にMUを効果的に適用できるかは、特にリークされた概念の視覚的データを忘れるシナリオにおいて不確実である。 この課題を克服するために, 複数ステップで単一の画像を微調整することで, 概念の視覚的認識を解き放つための, SIU (Single Image Unlearning) を提案する。 SIUは2つの重要な側面から構成される。 i)多面的微調整データの構築。 我々は,忘れられる概念の微調整データを構築するための4つの目標を導入する。 (二)共同訓練損失 概念の視覚的認識を同期的に忘れ,MLLMの実用性を維持するために,Cross Entropy Lossと組み合わせた新しいDual Masked KL-divergence Lossを用いてMLLMを微調整する。 本手法と並行して,MLLMにおけるMUの新しいベンチマークであるMMUBenchを確立し,その評価のためのメトリクスの集合を導入する。 MMUBench の実験結果から,SIU は既存手法の性能を大幅に上回っていることがわかった。 さらに,SIUは侵入的メンバーシップ推論攻撃や脱獄攻撃を回避できることがわかった。 私たちの知る限りでは、MLLMでMUを初めて探求しています。 近い将来、コードとベンチマークをリリースします。

Machine unlearning empowers individuals with the `right to be forgotten' by removing their private or sensitive information encoded in machine learning models. However, it remains uncertain whether MU can be effectively applied to Multimodal Large Language Models (MLLMs), particularly in scenarios of forgetting the leaked visual data of concepts. To overcome the challenge, we propose an efficient method, Single Image Unlearning (SIU), to unlearn the visual recognition of a concept by fine-tuning a single associated image for few steps. SIU consists of two key aspects: (i) Constructing Multifaceted fine-tuning data. We introduce four targets, based on which we construct fine-tuning data for the concepts to be forgotten; (ii) Jointly training loss. To synchronously forget the visual recognition of concepts and preserve the utility of MLLMs, we fine-tune MLLMs through a novel Dual Masked KL-divergence Loss combined with Cross Entropy loss. Alongside our method, we establish MMUBench, a new benchmark for MU in MLLMs and introduce a collection of metrics for its evaluation. Experimental results on MMUBench show that SIU completely surpasses the performance of existing methods. Furthermore, we surprisingly find that SIU can avoid invasive membership inference attacks and jailbreak attacks. To the best of our knowledge, we are the first to explore MU in MLLMs. We will release the code and benchmark in the near future.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# SirLLM:無期限リテンションLDMのストリーミング

SirLLM: Streaming Infinite Retentive LLM ( http://arxiv.org/abs/2405.12528v1 )

ライセンス: Link先を確認
Yao Yao, Zuchao Li, Hai Zhao, (参考訳) 大規模言語モデル(LLM)が様々な領域で普及するにつれて、任意の長さの入力を処理し、メモリの程度を維持する能力が不可欠になる。 しかし、LLMの事前訓練されたテキスト長を超えると、テキスト生成能力が劇的に低下することが研究で示されているように、過度に長いテキストのワンオフ入力は限られている。 さらに、長いテキストデータを取得するのが困難であり、LCMにとってかなりのメモリ消費コストがかかるため、事前学習したテキストの長さを単純に伸ばすことは現実的ではない。 最近の取り組みでは、過度に長いテキスト入力の圧力を軽減するためにストリーミング入力を採用しているが、このアプローチはモデルの長期記憶能力を著しく損なう可能性がある。 この課題に動機づけられたSirLLM(Streaming Infinite Retentive LLM)を導入し、細調整を必要とせず、無限長の対話においてLLMが長いメモリを維持できるようにする。 SirLLM は Token Entropy メトリックとメモリ崩壊機構を使用してキーフレーズをフィルタリングし、長寿命メモリとフレキシブルメモリの両方で LLM を付与する。 我々は,(1)DailyDialog,(2)Grocery Shopping,(3)Rock-Paper-Scissorsの3つの異なるタスクを設計し,SirLLMの有効性を測定するために3つのデータセットを構築した。 実験の結果,SirLLM は様々な LLM やタスクにまたがって安定かつ重要な改善を達成できることを示した。 表紙を飾った時、「サーは自分自身を忘れることができた」が、サー・LLMは決して忘れなかった。 私たちのコードはhttps://github.com/Zoeyyao27/SirLLMで公開されています。

As Large Language Models (LLMs) become increasingly prevalent in various domains, their ability to process inputs of any length and maintain a degree of memory becomes essential. However, the one-off input of overly long texts is limited, as studies have shown that when input lengths exceed the LLMs' pre-trained text length, there is a dramatic decline in text generation capabilities. Moreover, simply extending the length of pre-training texts is impractical due to the difficulty in obtaining long text data and the substantial memory consumption costs this would entail for LLMs. Recent efforts have employed streaming inputs to alleviate the pressure of excessively long text inputs, but this approach can significantly impair the model's long-term memory capabilities. Motivated by this challenge, we introduce Streaming Infinite Retentive LLM (SirLLM), which allows LLMs to maintain longer memory during infinite-length dialogues without the need for fine-tuning. SirLLM utilizes the Token Entropy metric and a memory decay mechanism to filter key phrases, endowing LLMs with both long-lasting and flexible memory. We designed three distinct tasks and constructed three datasets to measure the effectiveness of SirLLM from various angles: (1) DailyDialog; (2) Grocery Shopping; (3) Rock-Paper-Scissors. Our experimental results robustly demonstrate that SirLLM can achieve stable and significant improvements across different LLMs and tasks, compellingly proving its effectiveness. When having a coversation, "A sir could forget himself," but SirLLM never does! Our code is publicly available at https://github.com/Zoeyyao27/SirLLM
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# CustomText:拡散モデルを用いたカスタムテキスト画像生成

CustomText: Customized Textual Image Generation using Diffusion Models ( http://arxiv.org/abs/2405.12531v1 )

ライセンス: Link先を確認
Shubham Paliwal, Arushi Jain, Monika Sharma, Vikram Jamwal, Lovekesh Vig, (参考訳) テキスト画像生成は、広告、教育、製品パッケージング、ソーシャルメディア、情報視覚化、ブランディングといった様々な分野にまたがる。 拡散モデルを用いた言語誘導画像合成における最近の進歩にもかかわらず、現在のモデルは画像生成に優れ、正確なテキストレンダリングに苦慮し、フォント属性の限定的な制御を提供する。 本稿では,高精度なテキストカスタマイズによる高品質な画像合成の実現を目標とし,画像生成モデルの進歩に寄与する。 提案したメソッドをCustomTextと呼びます。 我々の実装では、事前訓練されたTextDiffuserモデルを利用して、フォントの色、背景、型を制御する。 さらに,小型フォントを正確にレンダリングする課題に対処するため,一貫性デコーダとしてコントロールネットモデルを訓練し,テキスト生成性能を大幅に向上させる。 我々は,従来のCTW-1500データセットと小文字生成のための自己計算データセットのテキスト生成法と比較して,CustomTextの性能を評価し,優れた結果を示す。

Textual image generation spans diverse fields like advertising, education, product packaging, social media, information visualization, and branding. Despite recent strides in language-guided image synthesis using diffusion models, current models excel in image generation but struggle with accurate text rendering and offer limited control over font attributes. In this paper, we aim to enhance the synthesis of high-quality images with precise text customization, thereby contributing to the advancement of image generation models. We call our proposed method CustomText. Our implementation leverages a pre-trained TextDiffuser model to enable control over font color, background, and types. Additionally, to address the challenge of accurately rendering small-sized fonts, we train the ControlNet model for a consistency decoder, significantly enhancing text-generation performance. We assess the performance of CustomText in comparison to previous methods of textual image generation on the publicly available CTW-1500 dataset and a self-curated dataset for small-text generation, showcasing superior results.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# ピラミッドインファー:高スループットLDM推論のためのピラミッドKVキャッシュ圧縮

PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference ( http://arxiv.org/abs/2405.12532v1 )

ライセンス: Link先を確認
Dongjie Yang, XiaoDong Han, Yan Gao, Yao Hu, Shilin Zhang, Hai Zhao, (参考訳) 大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面しており、チャットボットのようなリアルタイムアプリケーションに対するスケーラビリティを妨げている。 推論を高速化するために、計算されたキーと値(KVキャッシュ)をGPUメモリに格納する。 既存のKVキャッシュ圧縮法では、プリ計算されたKVキャッシュをプルーニングすることでメモリを削減できる。 しかし、プレ計算において、レイヤ間の層間依存関係と巨大なメモリ消費を無視する。 これらの欠陥を探索するために、将来の世代に影響を与える重要なキーや値の数が層ごとに減少し、注意重みの一貫性によってそれらを抽出できることがわかった。 そこで本研究では,KVキャッシュを重要コンテキストを階層的に保持することで圧縮するPraamidInferを提案する。 PyramidInferは、パフォーマンスを犠牲にすることなく、少ないキーと値を計算することで、大きなメモリを節約する。 実験の結果、PraamidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを向上した。

Large Language Models (LLMs) have shown remarkable comprehension abilities but face challenges in GPU memory usage during inference, hindering their scalability for real-time applications like chatbots. To accelerate inference, we store computed keys and values (KV cache) in the GPU memory. Existing methods study the KV cache compression to reduce memory by pruning the pre-computed KV cache. However, they neglect the inter-layer dependency between layers and huge memory consumption in pre-computation. To explore these deficiencies, we find that the number of crucial keys and values that influence future generations decreases layer by layer and we can extract them by the consistency in attention weights. Based on the findings, we propose PyramidInfer, a method that compresses the KV cache by layer-wise retaining crucial context. PyramidInfer saves significant memory by computing fewer keys and values without sacrificing performance. Experimental results show PyramidInfer improves 2.2x throughput compared to Accelerate with over 54% GPU memory reduction in KV cache.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# ウルドゥー自然シーンのテキスト検出・認識・視覚質問応答のためのデータセットとベンチマーク

Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering ( http://arxiv.org/abs/2405.12533v1 )

ライセンス: Link先を確認
Hiba Maryam, Ling Fu, Jiajun Song, Tajrian ABM Shafayet, Qidi Luo, Xiang Bai, Yuliang Liu, (参考訳) デジタルコンテンツにおけるアクセシビリティ、情報検索、言語多様性を向上するためには、Urduシーンのテキスト検出、認識、視覚質問応答(VQA)技術の開発が不可欠である。 このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。 テキスト検出,認識,VQAタスクに使用可能な,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。 テキストインスタンスに対する微粒なアノテーションを提供し、任意の形のテキストに直面する前のデータセットの制限に対処する。 このデータセットは、追加のアノテーションポイントを組み込むことで、様々なテキストレイアウト、複雑な形状、そして現実世界のシナリオでよく見られる非標準的な向きを扱う方法の開発と評価を容易にする。 さらに、VQAアノテーションは、Urduのシーンテキスト理解の開発を促進するUrdu Text VQAメソッドの最初のベンチマークとなる。 提案されたデータセットは、https://github.com/Hiba-MeiRuan/Urdu-VQA-Dataset-/tree/mainで利用可能である。

The development of Urdu scene text detection, recognition, and Visual Question Answering (VQA) technologies is crucial for advancing accessibility, information retrieval, and linguistic diversity in digital content, facilitating better understanding and interaction with Urdu-language visual data. This initiative seeks to bridge the gap between textual and visual comprehension. We propose a new multi-task Urdu scene text dataset comprising over 1000 natural scene images, which can be used for text detection, recognition, and VQA tasks. We provide fine-grained annotations for text instances, addressing the limitations of previous datasets for facing arbitrary-shaped texts. By incorporating additional annotation points, this dataset facilitates the development and assessment of methods that can handle diverse text layouts, intricate shapes, and non-standard orientations commonly encountered in real-world scenarios. Besides, the VQA annotations make it the first benchmark for the Urdu Text VQA method, which can prompt the development of Urdu scene text understanding. The proposed dataset is available at: https://github.com/Hiba-MeiRuan/Urdu-VQA-Dataset-/tree/main
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# インテントギャップのブリッジ:知識に富んだビジュアルジェネレーション

Bridging the Intent Gap: Knowledge-Enhanced Visual Generation ( http://arxiv.org/abs/2405.12538v1 )

ライセンス: Link先を確認
Yi Cheng, Ziwei Xu, Dongyun Lin, Harry Cheng, Yongkang Wong, Ying Sun, Joo Hwee Lim, Mohan Kankanhalli, (参考訳) 視覚的コンテンツ生成では、ユーザの意図と生成されたコンテンツとの相違が長年にわたって問題となっている。 この相違は2つの主な要因から生じる。 まず、ユーザの意図は本質的に複雑で、微妙な詳細は入力プロンプトによって完全にはキャプチャされない。 このような詳細がないことは、生成モデルが意図した意味を正確に反映することを難しくし、所望の出力と生成された出力のミスマッチにつながる。 第二に、ビジュアルラベルペアで訓練された生成モデルは、生成された出力の入力データのすべての側面を正確に表現する包括的な知識を欠いている。 これらの課題に対処するために,視覚コンテンツ生成のための知識強化反復改善フレームワークを提案する。 まず、既存の生成モデルが直面する重要な課題を分析し、特定することから始める。 そして、人間の洞察、事前学習されたモデル、論理ルール、世界知識など、これらの課題に対処するために活用できる様々な知識源を紹介します。 さらに,知識に基づくフィードバックモジュールを組み込んで生成プロセスを反復的に洗練する新しい視覚生成フレームワークを提案する。 このモジュールは、生成されたコンテンツとユーザの意図のアライメントを徐々に改善します。 提案手法の有効性を予備実験により実証し,意図的コンテンツ生成のための知識強化型生成モデルの可能性を明らかにする。

For visual content generation, discrepancies between user intentions and the generated content have been a longstanding problem. This discrepancy arises from two main factors. First, user intentions are inherently complex, with subtle details not fully captured by input prompts. The absence of such details makes it challenging for generative models to accurately reflect the intended meaning, leading to a mismatch between the desired and generated output. Second, generative models trained on visual-label pairs lack the comprehensive knowledge to accurately represent all aspects of the input data in their generated outputs. To address these challenges, we propose a knowledge-enhanced iterative refinement framework for visual content generation. We begin by analyzing and identifying the key challenges faced by existing generative models. Then, we introduce various knowledge sources, including human insights, pre-trained models, logic rules, and world knowledge, which can be leveraged to address these challenges. Furthermore, we propose a novel visual generation framework that incorporates a knowledge-based feedback module to iteratively refine the generation process. This module gradually improves the alignment between the generated content and user intentions. We demonstrate the efficacy of the proposed framework through preliminary results, highlighting the potential of knowledge-enhanced generative models for intention-aligned content generation.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# 大規模言語モデルを用いた文脈拡張ビデオモーメント検索

Context-Enhanced Video Moment Retrieval with Large Language Models ( http://arxiv.org/abs/2405.12540v1 )

ライセンス: Link先を確認
Weijia Liu, Bo Miao, Jiuxin Cao, Xuelin Zhu, Bo Liu, Mehwish Nasim, Ajmal Mian, (参考訳) ビデオモーメント検索(VMR)の現在の手法は、特定の環境詳細、キャラクター記述、アクション物語を含む複雑な状況の整合に苦慮している。 この問題に対処するために,LMR(Large Language Model-Guided Moment Retrieval)アプローチを提案する。 具体的には、LMRがLLMを用いてコンテキスト拡張技術を導入し、重要なターゲット関連コンテキストセマンティクスを生成する。 これらのセマンティクスは、識別ビデオ表現を生成する視覚的特徴と統合される。 最後に、言語条件付きトランスフォーマーは、モーメント検索のためにアライメントされたビデオ表現を使用して、自由形式の言語クエリをオンザフライでデコードするように設計されている。 大規模な実験により、LMRは最先端の結果を達成し、最も近い競合相手であるQVHighlightsとCharades-STAベンチマークでそれぞれ3.28\%と4.06\%を上回った。 さらに重要なのは、複雑なクエリのローカライズにおいて、パフォーマンスの向上が著しく高くなることだ。

Current methods for Video Moment Retrieval (VMR) struggle to align complex situations involving specific environmental details, character descriptions, and action narratives. To tackle this issue, we propose a Large Language Model-guided Moment Retrieval (LMR) approach that employs the extensive knowledge of Large Language Models (LLMs) to improve video context representation as well as cross-modal alignment, facilitating accurate localization of target moments. Specifically, LMR introduces a context enhancement technique with LLMs to generate crucial target-related context semantics. These semantics are integrated with visual features for producing discriminative video representations. Finally, a language-conditioned transformer is designed to decode free-form language queries, on the fly, using aligned video representations for moment retrieval. Extensive experiments demonstrate that LMR achieves state-of-the-art results, outperforming the nearest competitor by up to 3.28\% and 4.06\% on the challenging QVHighlights and Charades-STA benchmarks, respectively. More importantly, the performance gains are significantly higher for localization of complex queries.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# DrHouse: センサデータと知識からの成果を調和させるLCMを用いた診断推論システム

DrHouse: An LLM-empowered Diagnostic Reasoning System through Harnessing Outcomes from Sensor Data and Expert Knowledge ( http://arxiv.org/abs/2405.12541v1 )

ライセンス: Link先を確認
Bufang Yang, Siyang Jiang, Lilin Xu, Kaiwei Liu, Hai Li, Guoliang Xing, Hongkai Chen, Xiaofan Jiang, Zhenyu Yan, (参考訳) 大規模言語モデル(LLM)は、LLMベースの仮想医師の最近の進歩によって証明されているように、デジタルヘルスケアを変革する可能性がある。 しかし、現在のアプローチは患者の主観的な症状の記述に依存しており、誤診の増加を引き起こしている。 スマートデバイスからの日次データの価値を認識し,新しいLCMベースのマルチターンコンサルティング仮想ドクターシステムDrHouseを紹介した。 1) 診断過程において, スマートデバイスからのセンサデータを活用し, 精度と信頼性を向上する。 2)DrHouseは、Up-to-DateやPubMedなどの医療データベースを継続的に更新し、診断基準の最前線でモデルを維持する。 3)DrHouseは,潜在的な疾患とその可能性の同時評価を行う新しい診断アルゴリズムを導入し,よりニュアンスに富み,医療的評価を促進する。 マルチターンインタラクションを通じて、DrHouseは、スマートデバイスから日々のデータにアクセスしたり、インラブテストを要求するなど、次のステップを決定し、診断を段階的に洗練する。 3つの公開データセットと我々の自己収集データセットの評価によると、DrHouseは最先端のベースラインよりも18.8%の精度で診断できる。 32人の被験者による調査の結果、75%の医療専門家と91.7%の患者がDrHouseの使用を希望していることがわかった。

Large language models (LLMs) have the potential to transform digital healthcare, as evidenced by recent advances in LLM-based virtual doctors. However, current approaches rely on patient's subjective descriptions of symptoms, causing increased misdiagnosis. Recognizing the value of daily data from smart devices, we introduce a novel LLM-based multi-turn consultation virtual doctor system, DrHouse, which incorporates three significant contributions: 1) It utilizes sensor data from smart devices in the diagnosis process, enhancing accuracy and reliability. 2) DrHouse leverages continuously updating medical databases such as Up-to-Date and PubMed to ensure our model remains at diagnostic standard's forefront. 3) DrHouse introduces a novel diagnostic algorithm that concurrently evaluates potential diseases and their likelihood, facilitating more nuanced and informed medical assessments. Through multi-turn interactions, DrHouse determines the next steps, such as accessing daily data from smart devices or requesting in-lab tests, and progressively refines its diagnoses. Evaluations on three public datasets and our self-collected datasets show that DrHouse can achieve up to an 18.8% increase in diagnosis accuracy over the state-of-the-art baselines. The results of a 32-participant user study show that 75% medical experts and 91.7% patients are willing to use DrHouse.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# 実パラメータ最適化のための高度突然変異を用いた直交開始粒子群最適化

Orthogonally Initiated Particle Swarm Optimization with Advanced Mutation for Real-Parameter Optimization ( http://arxiv.org/abs/2405.12542v1 )

ライセンス: Link先を確認
Indu Bala, Dikshit Chauhan, Lewis Mitchell, (参考訳) 本稿では,多角形PSO(Orthogonal PSO with Mutation,OPSO-m)と呼ばれる拡張粒子群最適化器を紹介する。 当初、PSOのための改良された初期Swarmを栽培するための直交配列に基づく学習手法を提案し、Swarmベースの最適化アルゴリズムの適応性を大幅に向上させた。 この記事はさらに、人口を正規グループとエリートグループに分割する、アーカイブベースの自己適応学習戦略を提示する。 各サブグループは異なる学習メカニズムを採用している。 レギュラーグループは、3つのユニークなアーカイブから派生した効率的な学習スキームを利用し、その品質レベルに基づいて個人を分類する。 さらに、エリート個体の位置を更新するために突然変異戦略が実施されている。 OPSO-mにおけるこれらの学習戦略の有効性を評価するために,探索・探索力学と集団多様性分析を用いて,その最適化能力を評価する。 提案したOPSO-mモデルは,CEC 2017スイートの10,30,50,100次元探索空間における実パラメータ問題に対して,感度測定を用いた現代最先端アルゴリズムと比較して実験を行った。 OPSO-mは解の精度、収束の速さ、探索の効率、堅牢な安定性において優れた性能を示し、複雑な最適化問題を解くための優れた適性を強調している。

This article introduces an enhanced particle swarm optimizer (PSO), termed Orthogonal PSO with Mutation (OPSO-m). Initially, it proposes an orthogonal array-based learning approach to cultivate an improved initial swarm for PSO, significantly boosting the adaptability of swarm-based optimization algorithms. The article further presents archive-based self-adaptive learning strategies, dividing the population into regular and elite subgroups. Each subgroup employs distinct learning mechanisms. The regular group utilizes efficient learning schemes derived from three unique archives, which categorize individuals based on their quality levels. Additionally, a mutation strategy is implemented to update the positions of elite individuals. Comparative studies are conducted to assess the effectiveness of these learning strategies in OPSO-m, evaluating its optimization capacity through exploration-exploitation dynamics and population diversity analysis. The proposed OPSO-m model is tested on real-parameter challenges from the CEC 2017 suite in 10, 30, 50, and 100-dimensional search spaces, with its results compared to contemporary state-of-the-art algorithms using a sensitivity metric. OPSO-m exhibits distinguished performance in the precision of solutions, rapidity of convergence, efficiency in search, and robust stability, thus highlighting its superior aptitude for resolving intricate optimization issues.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# 人間のように、視覚とテキストの知識を浸透させて学ぶ

Like Humans to Few-Shot Learning through Knowledge Permeation of Vision and Text ( http://arxiv.org/abs/2405.12543v1 )

ライセンス: Link先を確認
Yuyu Jia, Qing Zhou, Wei Huang, Junyu Gao, Qi Wang, (参考訳) ほとんどショットラーニングは、認識者が目に見えないカテゴリーから全く新しいシナリオへと一般化することを目的としていない。 サポートサンプルはほとんどないが、いくつかの高度なメソッドは最初、新しいクラスを特定するための事前知識としてクラス名を導入した。 しかし、障害は視覚的知識とテキスト的知識の相互の利点をどのように活用するかを包括的に理解することを妨げる。 本稿では,人間の直感に根ざした,一貫性のある双方向知識浸透戦略であるBiKopを提案する。クラス名記述は一般的な表現を提供するが,画像は個人の特異性を捉えている。 BiKopは、主に双方向の知識浸透を通じて階層的な汎用表現を確立する。 一方、ベースセットに対する関節表現のバイアスを考慮すると、トレーニング中に基本クラス関連セマンティクスを歪め、潜在的新規クラス関連情報の抑制を緩和する。 4つの挑戦的なベンチマークの実験は、BiKopの顕著な優位性を示している。 私たちのコードは公開されます。

Few-shot learning aims to generalize the recognizer from seen categories to an entirely novel scenario. With only a few support samples, several advanced methods initially introduce class names as prior knowledge for identifying novel classes. However, obstacles still impede achieving a comprehensive understanding of how to harness the mutual advantages of visual and textual knowledge. In this paper, we propose a coherent Bidirectional Knowledge Permeation strategy called BiKop, which is grounded in a human intuition: A class name description offers a general representation, whereas an image captures the specificity of individuals. BiKop primarily establishes a hierarchical joint general-specific representation through bidirectional knowledge permeation. On the other hand, considering the bias of joint representation towards the base set, we disentangle base-class-relevant semantics during training, thereby alleviating the suppression of potential novel-class-relevant information. Experiments on four challenging benchmarks demonstrate the remarkable superiority of BiKop. Our code will be publicly available.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# 産業IoT管理のためのブロックチェーンベースのAIメソッド:最近の開発、統合課題、機会

Blockchain-based AI Methods for Managing Industrial IoT: Recent Developments, Integration Challenges and Opportunities ( http://arxiv.org/abs/2405.12550v1 )

ライセンス: Link先を確認
Anichur Rahman, Dipanjali Kundu, Tanoy Debnath, Muaz Rahman, Airin Afroj Aishi, Jahidul Islam, (参考訳) 現在、Blockchain(BC)、Artificial Intelligence(AI)、Smart Industrial Internet of Things(IIoT)は、世界中の有望なテクノロジをリードするだけでなく、これらのテクノロジによって、現在の社会が生活の標準を開発し、ユーザにとって容易になっている。 しかし、これらの技術は様々な用途に応用されている。 そして、これらは、スマートシティ、住宅、製造業、教育、産業など、望まれるシステムの開発に成功している。 さらに、これらの技術は様々な分野における様々な問題、セキュリティ、プライバシ、機密性、スケーラビリティ、アプリケーションの課題について考慮する必要があります。 このような状況下では、これらの問題のソリューションに対する需要が高まっているため、著者らは、スマートIIoTにおけるBCによるAIアプローチに関する包括的な調査を提示する。 まず、AI、BC、スマートIoTアプリケーションに関する最先端の概要に焦点を当てます。 そして、これらの技術を統合する利点を提供し、確立された方法、ツール、戦略を効率的に議論する。 最も重要なことは、セキュリティ、安定性、スケーラビリティ、機密性といった様々な問題を強調し、戦略とメソッドに対処する方法をガイドすることです。 さらに、アプリケーションの個人的かつ協調的な利点についても論じている。 最後に、インテリジェントIIoTシステムにおけるBCベースのAIアプローチに基づくオープンな研究課題と今後のガイドラインについて、広く懸念しています。

Currently, Blockchain (BC), Artificial Intelligence (AI), and smart Industrial Internet of Things (IIoT) are not only leading promising technologies in the world, but also these technologies facilitate the current society to develop the standard of living and make it easier for users. However, these technologies have been applied in various domains for different purposes. Then, these are successfully assisted in developing the desired system, such as-smart cities, homes, manufacturers, education, and industries. Moreover, these technologies need to consider various issues-security, privacy, confidentiality, scalability, and application challenges in diverse fields. In this context, with the increasing demand for these issues solutions, the authors present a comprehensive survey on the AI approaches with BC in the smart IIoT. Firstly, we focus on state-of-the-art overviews regarding AI, BC, and smart IoT applications. Then, we provide the benefits of integrating these technologies and discuss the established methods, tools, and strategies efficiently. Most importantly, we highlight the various issues--security, stability, scalability, and confidentiality and guide the way of addressing strategy and methods. Furthermore, the individual and collaborative benefits of applications have been discussed. Lastly, we are extensively concerned about the open research challenges and potential future guidelines based on BC-based AI approaches in the intelligent IIoT system.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# ブロックブートストラップによる確率勾配勾配の偏差に対する不確かさ定量化

Uncertainty quantification by block bootstrap for differentially private stochastic gradient descent ( http://arxiv.org/abs/2405.12553v1 )

ライセンス: Link先を確認
Holger Dette, Carina Graw, (参考訳) Stochastic Gradient Descent (SGD)は機械学習において広く使われているツールである。 差別化プライバシ(DP)の文脈では、SGDは主に収束率とプライバシー保証に焦点を当てた過去数年間によく研究されてきた。 非プライベートケースでは、ブートストラップによるSGDの不確実性定量化(UQ)が、いくつかの著者によって対処されているが、これらの手順は、プライベートデータへの複数のクエリのため、差分プライバシーに転送することはできない。 本稿では,局所的な差分プライバシーの下でのSGDのブロックブートストラップを提案する。 この手法は容易に実装でき、幅広い種類の推定問題に適用できる。 本研究では,本手法の有効性を証明し,その有限標本特性をシミュレーション研究により説明する。 副産物として、非プライベートなSGDに対するUQのための単純な代替数値ツールも提供する。

Stochastic Gradient Descent (SGD) is a widely used tool in machine learning. In the context of Differential Privacy (DP), SGD has been well studied in the last years in which the focus is mainly on convergence rates and privacy guarantees. While in the non private case, uncertainty quantification (UQ) for SGD by bootstrap has been addressed by several authors, these procedures cannot be transferred to differential privacy due to multiple queries to the private data. In this paper, we propose a novel block bootstrap for SGD under local differential privacy that is computationally tractable and does not require an adjustment of the privacy budget. The method can be easily implemented and is applicable to a broad class of estimation problems. We prove the validity of our approach and illustrate its finite sample properties by means of a simulation study. As a by-product, the new method also provides a simple alternative numerical tool for UQ for non-private SGD.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# オンライン署名認識:生物学的にヒントを得た特徴ベクトル分割アプローチ

Online Signature Recognition: A Biologically Inspired Feature Vector Splitting Approach ( http://arxiv.org/abs/2405.12556v1 )

ライセンス: Link先を確認
Marcos Faundez, Moises Diaz, Miguel Angel Ferrer, (参考訳) 本研究は,電子セキュリティバイオメトリックシグネチャ認識アプリケーションにおいて,特徴ベクトル分割の認知的,生物学的にインスパイアされた基盤を探索し,異なる属性の意義を解析するための革新的なアプローチを提案する。 特徴を拡張セットにまとめる従来の方法とは別に、各特徴サブセットの相対的重要性の制御を維持するために、認知原則と整合した複数の分割戦略を採用しています。 本手法は2つの分類器(ベクトル量子化と1と5のトレーニングサンプルを用いた動的時間ワープ)を用いて3つの多様なデータベース(MCYT100, MCYT300, SVC)に適用した。 実験により, 空間座標 (x, y) と圧力データの融合により連続的に性能が向上することが示されている。 しかし, 同一特徴集合にペンチップ角を組み込むことで, 混合結果が得られ, 特定の事例で性能改善が見られた。 この研究は、機能融合の認知的側面を掘り下げ、電子セキュリティバイオメトリックス応用における特徴ベクトル分割の認知的関連性に光を当てる。

This research introduces an innovative approach to explore the cognitive and biologically inspired underpinnings of feature vector splitting for analyzing the significance of different attributes in e-security biometric signature recognition applications. Departing from traditional methods of concatenating features into an extended set, we employ multiple splitting strategies, aligning with cognitive principles, to preserve control over the relative importance of each feature subset. Our methodology is applied to three diverse databases (MCYT100, MCYT300,and SVC) using two classifiers (vector quantization and dynamic time warping with one and five training samples). Experimentation demonstrates that the fusion of pressure data with spatial coordinates (x and y) consistently enhances performance. However, the inclusion of pen-tip angles in the same feature set yields mixed results, with performance improvements observed in select cases. This work delves into the cognitive aspects of feature fusion,shedding light on the cognitive relevance of feature vector splitting in e-security biometric applications.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# SU(1, 1)量子力学における絡み合い転移:ボース・アインシュタイン凝縮体および周期的に駆動される結合振動子への応用

Entanglement transitions in SU(1, 1) quantum dynamics: applications to Bose-Einstein condensates and periodically driven coupled oscillators ( http://arxiv.org/abs/2405.12558v1 )

ライセンス: Link先を確認
Heng-Hsi Li, Po-Yao Chang, (参考訳) SU(1, 1)構造を持つ非平衡量子系の絡み合い特性について検討する。 M\"オビウス変換を通じて、これらの系の力学を、突然のクエンチまたは周期的な駆動に従って、ポアンカーの円盤上の3つの異なる軌道にマッピングし、加熱、非加熱、およびこれらの非平衡量子状態を記述する相境界に対応する。 ボース=アインシュタイン凝縮体のクエンチ力学と周期的に駆動される結合振動子という、SU(1, 1)構造を示す量子力学を実験的に実現可能な2つのシステムを考える。 どちらの場合も、熱、非加熱相、およびそれらの境界は指数的、振動的、線形的な成長がこれらの相を分類するフォノンの個体群において異なる符号によって表される。 同様に、絡み合いエントロピーと負性もまた、それぞれの相を特徴づける異なる挙動(直線的、振動的、対数的成長)を示す。 特に周期的に駆動される結合振動子では、非平衡特性は2組のSU(1, 1)発生器によって特徴づけられる。 2つのポアンカー円板上の軌跡の対応する2つの集合は、より複雑な位相図形へと導かれる。 熱領域内において, 熱領域内の相境界でパラメータが変動する場合に, エンタングルメントエントロピーの成長速度によってのみ識別できる2つの異なる位相を同定した。 この不連続性はフォノンの個体群では観察されない。

We study the entanglement properties in non-equilibrium quantum systems with the SU(1, 1) structure. Through M\"obius transformation, we map the dynamics of these systems following a sudden quench or a periodic drive onto three distinct trajectories on the Poincar\'e disc, corresponding the heating, non-heating, and a phase boundary describing these non-equilibrium quantum states. We consider two experimentally feasible systems where their quantum dynamics exhibit the SU(1, 1) structure: the quench dynamics of the Bose-Einstein condensates and the periodically driven coupled oscillators. In both cases, the heating, non-heating phases, and their boundary manifest through distinct signatures in the phonon population where exponential, oscillatory, and linear growths classify these phases. Similarly, the entanglement entropy and negativity also exhibit distinct behaviors (linearly, oscillatory, and logarithmic growths) characterizing these phases, respectively. Notibly, for the periodically driven coupled oscillators, the non-equilibrium properties are characterized by two sets of SU(1, 1) generators. The corresponding two sets of the trajectories on two Poincar\'e discs lead to a more complex phase diagram. We identify two distinct phases within the heating region discernible solely by the growth rate of the entanglement entropy, where a discontinuity is observed when varying the parameters across the phase boundary within in heating region. This discontinuity is not observed in the phonon population.
翻訳日:2024-05-22 14:08:52 公開日:2024-05-21
# 情報システム管理教育におけるITのゲーミフィケーション

Gamification of IT for training in information systems management ( http://arxiv.org/abs/2405.12561v1 )

ライセンス: Link先を確認
Yann Goetgheluck, Sarah Mernit, Julie Pereira, (参考訳) 本稿では、特にサイバーセキュリティ分野において、ITコンペティション、特にCapture The Flagを、スキルギャップを埋めるための情報システム管理コースに統合することを検討する。 IAEパリエストには、学生のスキル向上を目的とした教育用CTFチームが設置されている。 ワークショップ、課題、イベントが組織され、CTFに精通し、彼らのレベルに適応したサポートを提供しています。 予備的な結果は、サイバーセキュリティスキルを改善するためのソフトスキルの重要性を示している。 CTF教育チームは、サイバーセキュリティトレーニングのアクセシビリティと有効性を改善するために、これらの方法の実験と評価を続けている。

This article examines the integration of IT competitions, in particular Capture The Flag, into an information systems management course to fill skills gaps, particularly in the field of cybersecurity. An educational CTF team has been set up at IAE Paris-Est with the aim of developing students' skills. Workshops, challenges, and events have been organised to familiarise them with the CTFs and offer them support adapted to their level. Preliminary results show the importance of soft skills in improving cybersecurity skills. The CTF pedagogical team is continuing to experiment with and evaluate these methods to improve the accessibility and effectiveness of cybersecurity training.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# ProtT3: テキストベースのタンパク質理解のためのタンパク質対テキスト生成

ProtT3: Protein-to-Text Generation for Text-based Protein Understanding ( http://arxiv.org/abs/2405.12564v1 )

ライセンス: Link先を確認
Zhiyuan Liu, An Zhang, Hao Fei, Enzhi Zhang, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua, (参考訳) 言語モデル(LM)は、生物医学的な質問応答タスクで明らかなように、タンパク質のテキスト記述を理解するのに優れている。 しかし、それらの能力は、アミノ酸配列などの生のタンパク質データとともに、これらのデータに対する事前訓練の欠如によって弱まる。 逆に、タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストの処理に苦労する。 これらの制限に対処するため,テキストベースタンパク質理解のためのProtT3(Prott-to-Text Generation for Text-based Protein Understanding)を提案する。 ProtT3は、PLMをそのタンパク質理解モジュールとして組み込むことで、アミノ酸のタンパク質配列を理解することを可能にし、効果的なタンパク質対テキスト生成を可能にする。 PLMとLMの協調は、PLMの表現空間とLMの入力空間の間のモダリティギャップを橋渡しするクロスモーダルプロジェクタ(Q-Former)によって促進される。 タンパク質特性予測とタンパク質-テキスト検索に焦点を当てた以前の研究とは異なり、タンパク質-テキスト生成のほとんど探索されていない分野を探索する。 そこで我々は,タンパク質キャプション,タンパク質問合せ,タンパク質文検索など,タンパク質文モデリングタスクの定量的評価を行う。 実験の結果, ProtT3は現在のベースラインを大幅に超え, コアコンポーネントの有効性をさらに強調した。 私たちのコードはhttps://github.com/acharkq/ProtT3.comから入手可能です。

Language Models (LMs) excel in understanding textual descriptions of proteins, as evident in biomedical question-answering tasks. However, their capability falters with raw protein data, such as amino acid sequences, due to a deficit in pretraining on such data. Conversely, Protein Language Models (PLMs) can understand and convert protein data into high-quality representations, but struggle to process texts. To address their limitations, we introduce ProtT3, a framework for Protein-to-Text Generation for Text-based Protein Understanding. ProtT3 empowers an LM to understand protein sequences of amino acids by incorporating a PLM as its protein understanding module, enabling effective protein-to-text generation. This collaboration between PLM and LM is facilitated by a cross-modal projector (i.e., Q-Former) that bridges the modality gap between the PLM's representation space and the LM's input space. Unlike previous studies focusing on protein property prediction and protein-text retrieval, we delve into the largely unexplored field of protein-to-text generation. To facilitate comprehensive benchmarks and promote future research, we establish quantitative evaluations for protein-text modeling tasks, including protein captioning, protein question-answering, and protein-text retrieval. Our experiments show that ProtT3 substantially surpasses current baselines, with ablation studies further highlighting the efficacy of its core components. Our code is available at https://github.com/acharkq/ProtT3.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# オンライン共謀理論を解き明かす:テキストに基づくアプローチと評価

Unveiling Online Conspiracy Theorists: a Text-Based Approach and Characterization ( http://arxiv.org/abs/2405.12566v1 )

ライセンス: Link先を確認
Alessandra Recordare, Guglielmo Cola, Tiziano Fagni, Maurizio Tesconi, (参考訳) 今日のデジタルランドスケープでは、オンラインプラットフォームの偽情報エコシステムにおける陰謀説の拡散が懸念されている。 この現象の複雑さを考察する。 我々は、2つの異なるXデータセット(以前はTwitterと呼ばれていた)を包括的に分析した。一つは陰謀論的なパターンを持つユーザと、もうひとつはそのような傾向を欠いたユーザで構成され、コントロールグループとして機能するユーザである。 これら2つのグループを区別する要因は、感情、イディオム、言語的特徴の3つの次元にわたって探索される。 本研究の結果,他者に対する陰謀論者による語彙と言語の違いが明らかとなった。 我々は,871の豊富な特徴セットに基づいて陰謀論を広めるユーザを識別できる機械学習分類器を開発した。 結果は高い精度を示し、平均F1スコアは0.88である。 さらに,陰謀論のプロパゲータを定義する上で,最も差別的な特徴を明らかにした。

In today's digital landscape, the proliferation of conspiracy theories within the disinformation ecosystem of online platforms represents a growing concern. This paper delves into the complexities of this phenomenon. We conducted a comprehensive analysis of two distinct X (formerly known as Twitter) datasets: one comprising users with conspiracy theorizing patterns and another made of users lacking such tendencies and thus serving as a control group. The distinguishing factors between these two groups are explored across three dimensions: emotions, idioms, and linguistic features. Our findings reveal marked differences in the lexicon and language adopted by conspiracy theorists with respect to other users. We developed a machine learning classifier capable of identifying users who propagate conspiracy theories based on a rich set of 871 features. The results demonstrate high accuracy, with an average F1 score of 0.88. Moreover, this paper unveils the most discriminating characteristics that define conspiracy theory propagators.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# 一発連成型共形予測における正当性保証と訓練条件保証

Marginal and training-conditional guarantees in one-shot federated conformal prediction ( http://arxiv.org/abs/2405.12567v1 )

ライセンス: Link先を確認
Pierre Humbert, Batiste Le Bars, Aurélien Bellet, Sylvain Arlot, (参考訳) 単発フェデレート学習環境における共形予測について検討した。 主なゴールは、エージェントとサーバの間の1ラウンドの通信でのみ、サーバーレベルで、辺りとトレーニングで有効な予測セットを計算することである。 近似器のQuantile-of-quantiles系と分割共形予測を用いて、上記の要件を満たす計算効率・分布自由なアルゴリズムの集合を導入する。 我々のアプローチは、順序統計とβ-Beta分布の分析に関する理論的結果から導かれる。 また、非整合性スコアがほぼ確実に異なる場合、提案アルゴリズムのカバー範囲の上限も証明する。 訓練条件保証付きアルゴリズムの場合、これらの境界は集中型の場合と同じ桁数である。 注目すべきは、これは一発のフェデレーション・ラーニング・セッティングが集中型ケースに比べて大きな損失を伴わないことを意味している。 実験により,我々のアルゴリズムは,集中的に得られたものと同様のカバレッジと長さの予測セットを返すことを確認した。

We study conformal prediction in the one-shot federated learning setting. The main goal is to compute marginally and training-conditionally valid prediction sets, at the server-level, in only one round of communication between the agents and the server. Using the quantile-of-quantiles family of estimators and split conformal prediction, we introduce a collection of computationally-efficient and distribution-free algorithms that satisfy the aforementioned requirements. Our approaches come from theoretical results related to order statistics and the analysis of the Beta-Beta distribution. We also prove upper bounds on the coverage of all proposed algorithms when the nonconformity scores are almost surely distinct. For algorithms with training-conditional guarantees, these bounds are of the same order of magnitude as those of the centralized case. Remarkably, this implies that the one-shot federated learning setting entails no significant loss compared to the centralized case. Our experiments confirm that our algorithms return prediction sets with coverage and length similar to those obtained in a centralized setting.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# EchoPT: モバイルロボティクスのための空気中の2Dソナー画像を予測する事前訓練型トランスフォーマーアーキテクチャ

EchoPT: A Pretrained Transformer Architecture that Predicts 2D In-Air Sonar Images for Mobile Robotics ( http://arxiv.org/abs/2405.12573v1 )

ライセンス: Link先を確認
Jan Steckel, Wouter Jansen, Nico Huebel, (参考訳) 予測脳仮説は、知覚は、内部世界モデルによって生成された予測知覚トークンと実際の知覚入力トークンとの誤差を最小化する過程として解釈できることを示唆している。 空気中ソナーの文脈でこの仮説の動作例を実装する際には、超音波センシングを管理する反射モデルのスパースな性質により重大な困難が生じる。 これらの課題にもかかわらず、超音波データの予測処理を実装するには、ソナーデータを用いた一貫した世界モデルの作成が不可欠である。 本稿では,超音波を単独の知覚センサモダリティとする頑健なロボット動作を実現するために,従来のセンサデータとロボットのエゴモーション情報から2次元ソナー画像を予測するための事前学習型トランスフォーマアーキテクチャであるEchoPTを紹介する。 本稿では,EchoPTを駆動するトランスフォーマーアーキテクチャについて詳述し,その性能をいくつかの最先端技術と比較する。 本研究では,EchoPTモデルの提示と評価に加えて,この予測知覚アプローチの有効性を2つのロボットタスクで実証する。

The predictive brain hypothesis suggests that perception can be interpreted as the process of minimizing the error between predicted perception tokens generated by an internal world model and actual sensory input tokens. When implementing working examples of this hypothesis in the context of in-air sonar, significant difficulties arise due to the sparse nature of the reflection model that governs ultrasonic sensing. Despite these challenges, creating consistent world models using sonar data is crucial for implementing predictive processing of ultrasound data in robotics. In an effort to enable robust robot behavior using ultrasound as the sole exteroceptive sensor modality, this paper introduces EchoPT, a pretrained transformer architecture designed to predict 2D sonar images from previous sensory data and robot ego-motion information. We detail the transformer architecture that drives EchoPT and compare the performance of our model to several state-of-the-art techniques. In addition to presenting and evaluating our EchoPT model, we demonstrate the effectiveness of this predictive perception approach in two robotic tasks.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# 説明可能性と一般化のマイニング:自己指導に基づく実例検証

Mining the Explainability and Generalization: Fact Verification Based on Self-Instruction ( http://arxiv.org/abs/2405.12579v1 )

ライセンス: Link先を確認
Guangyao Lu, Yulin Liu, (参考訳) 商業LLMに基づくファクトチェックが主流となっている。 これらの手法は説明性が高いが、従来の微調整手法に比べて精度が低く、データセキュリティも重要な問題である。 本稿では,自己指導に基づくファクトチェックのための微調整手法を提案する。 提案手法はデータ拡張と改良DPO微調整からなる。 前者は、クレームエビデンスペアとラベルに基づいて肯定的な説明と否定的な説明の両方を生成するようモデルに指示し、その後、カスタマイズされた難易度基準に従ってデータセットをサンプリングする。 後者では、提案した改良DPOを用いて、生成されたサンプルを用いてモデルを微調整する。 最小スケールのLLaMA-7Bモデルを微調整し、難解な事実チェックデータセットFEVEROUSとHOVERで評価し、4つの微調整法と3つの数ショット学習法を用いて比較を行った。 実験により,本手法は従来の微調整法に匹敵する精度,あるいは超越した精度を保っているだけでなく,洗練された説明文を生成することがわかった。 また、高い一般化性能を示す。 本手法は,自己指導型学習をファクトチェックに活用する最初の方法であり,実験で示すように,コントラスト学習とDPOの改善を両立させる。

Fact-checking based on commercial LLMs has become mainstream. Although these methods offer high explainability, it falls short in accuracy compared to traditional fine-tuning approaches, and data security is also a significant concern. In this paper, we propose a self-instruction based fine-tuning approach for fact-checking that balances accuracy and explainability. Our method consists of Data Augmentation and Improved DPO fine-tuning. The former starts by instructing the model to generate both positive and negative explanations based on claim-evidence pairs and labels, then sampling the dataset according to our customized difficulty standards. The latter employs our proposed improved DPO to fine-tune the model using the generated samples. We fine-tune the smallest-scale LLaMA-7B model and evaluate it on the challenging fact-checking datasets FEVEROUS and HOVER, utilizing four fine-tuning methods and three few-shot learning methods for comparison. The experiments demonstrate that our approach not only retains accuracy comparable to, or even surpassing, traditional fine-tuning methods, but also generates fluent explanation text. Moreover, it also exhibit high generalization performance. Our method is the first to leverage self-supervised learning for fact-checking and innovatively combines contrastive learning and improved DPO in fine-tuning LLMs, as shown in the experiments.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# カーボン対応ソフトウェアサービス

Carbon-aware Software Services ( http://arxiv.org/abs/2405.12582v1 )

ライセンス: Link先を確認
Stefano Forti, Jacopo Soldani, Antonio Brogi, (参考訳) ICTセクターの重要な炭素フットプリントは、実行中のソフトウェアの二酸化炭素排出量を抑える方法を求めている。 本稿では,炭素を意識した対話型ソフトウェアサービスの実装,構成,評価を行う新しいフレームワークを提案する。 まず、エネルギー消費の異なる代替サービスバージョンを特徴付ける戦略設計パターンを活用する、炭素対応サービスを実装する手法を提案する。 そこで我々は,二酸化炭素排出量の最小化と,所望のセットポイントを超える平均出力品質を維持するという2段階の目標を追求し,炭素強度とサービス要求の予測に基づいて,その日の異なる時間に使用するバージョンを設定するためのバイレベル最適化スキームを考案した。 最後に、このような最適化スキームのオープンソースプロトタイプを使用して、我々の方法論に従って実装されたソフトウェアサービスを構成し、同じサービスの従来の非適応的な実装に対して評価する。 その結果, 炭素対応サービスの平均品質を制御し, 二酸化炭素排出量を8%から50%に削減できる可能性が示唆された。

The significant carbon footprint of the ICT sector calls for methodologies to contain carbon emissions of running software. This article proposes a novel framework for implementing, configuring and assessing carbon-aware interactive software services. First, we propose a methodology to implement carbon-aware services leveraging the Strategy design pattern to feature alternative service versions with different energy consumption. Then, we devise a bilevel optimisation scheme to configure which version to use at different times of the day, based on forecasts of carbon intensity and service requests, pursuing the two-fold goal of minimising carbon emissions and maintaining average output quality above a desired set-point. Last, an open-source prototype of such optimisation scheme is used to configure a software service implemented as per our methodology and assessed against traditional non-adaptive implementations of the same service. Results show the capability of our framework to control the average quality of output results of carbon-aware services and to reduce carbon emissions from 8% to 50%.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# 大規模ファンデーションモデルを用いた診断におけるデータセットの品質は依然として懸念されているか?

Is Dataset Quality Still a Concern in Diagnosis Using Large Foundation Model? ( http://arxiv.org/abs/2405.12584v1 )

ライセンス: Link先を確認
Ziqin Lin, Heng Li, Zinan Li, Huazhu Fu, Jiang Liu, (参考訳) 最近のLFM(Pre-trained large foundation model)の進歩は、自然言語処理やコンピュータビジョンなど、様々な領域で大きなブレークスルーをもたらしている。 これらのモデルは、特に医療診断タスクの領域に影響を与えている。 豊富なラベルのないデータを用いて、VIT(Vision Transformer)と自己教師付き学習フレームワークを用いて、基礎画像のためのLFMが開発された。 この LFM は、複数のデータセットにまたがる基礎疾患の診断において有望な性能を示した。 一方、ディープラーニングモデルは、画像の品質やデータセットのバイアスといった、データセットの品質の問題によって、長年にわたって問題視されてきた。 LFMにおけるデータ品質の影響を調べるため,異なる品質のデータセットを用いて2つの基礎診断タスクの探索を行った。 LFMは画像品質に対してより堅牢か? LFMはデータセットバイアスに影響されるか? 微調整技術はこれらの効果を緩和できるのか? LFMは画像品質やデータセットバイアスなど,一般的な畳み込みネットワークに比べて,データセットの品質問題に対するレジリエンスが高いことがわかった。 さらに、全体としての微調整は、データセットの品質問題の影響を軽減するために、LFMの効果的なアダプタであることが判明した。

Recent advancements in pre-trained large foundation models (LFM) have yielded significant breakthroughs across various domains, including natural language processing and computer vision. These models have been particularly impactful in the domain of medical diagnostic tasks. With abundant unlabeled data, an LFM has been developed for fundus images using the Vision Transformer (VIT) and a self-supervised learning framework. This LFM has shown promising performance in fundus disease diagnosis across multiple datasets. On the other hand, deep learning models have long been challenged by dataset quality issues, such as image quality and dataset bias. To investigate the influence of data quality on LFM, we conducted explorations in two fundus diagnosis tasks using datasets of varying quality. Specifically, we explored the following questions: Is LFM more robust to image quality? Is LFM affected by dataset bias? Can fine-tuning techniques alleviate these effects? Our investigation found that LFM exhibits greater resilience to dataset quality issues, including image quality and dataset bias, compared to typical convolutional networks. Furthermore, we discovered that overall fine-tuning is an effective adapter for LFM to mitigate the impact of dataset quality issues.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# KVキャッシュ圧縮のための行列分解によるデータフリー低ビット量子化

Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression ( http://arxiv.org/abs/2405.12591v1 )

ライセンス: Link先を確認
Peiyu Liu, Ze-Feng Gao, Wayne Xin Zhao, Yipeng Ma, Tao Wang, Ji-Rong Wen, (参考訳) キー値~(KV)キャッシングは、大きな言語モデル~(LLM)の推論を高速化する重要なテクニックであるが、メモリオーバーヘッドが大幅に増加する。 KVキャッシュのサイズを圧縮するために、既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。 本稿では、テンソル分解法に基づく新しいデータフリーな低ビット量子化手法である \textbf{DecoQuant} を導入し、KVキャッシュを効果的に圧縮する。 我々の中心となる考え方は、テンソル分解を行うことで元の行列の外れ値分布を調整し、量子化の困難を行列から分解された局所テンソルへ移行させることである。 特に、大きめのテンソルはより狭い値範囲を持つ傾向にあるのに対し、大きめのテンソルは主に小さな局所テンソルに集中していることが分かる。 そこで本研究では,小テンソルの高精度表現を維持しつつ,低ビット量子化を大テンソルに適用することを提案する。 さらに、提案手法を用いて、LLMのKVキャッシュを圧縮し、推論を高速化し、DecoQuantに特化した効率的な量子化カーネルを開発する。 大規模な実験を通じて、DecoQuantは優れた効率向上を示し、同等の生成品質を維持しながら、メモリフットプリントを最大$\sim$75\%削減することを示した。

Key-value~(KV) caching is an important technique to accelerate the inference of large language models~(LLMs), but incurs significant memory overhead. To compress the size of KV cache, existing methods often compromise precision or require extra data for calibration, limiting their practicality in LLM deployment. In this paper, we introduce \textbf{DecoQuant}, a novel data-free low-bit quantization technique based on tensor decomposition methods, to effectively compress KV cache. Our core idea is to adjust the outlier distribution of the original matrix by performing tensor decomposition, so that the quantization difficulties are migrated from the matrix to decomposed local tensors. Specially, we find that outliers mainly concentrate on small local tensors, while large tensors tend to have a narrower value range. Based on this finding, we propose to apply low-bit quantization to the large tensor, while maintaining high-precision representation for the small tensor. Furthermore, we utilize the proposed quantization method to compress the KV cache of LLMs to accelerate the inference and develop an efficient dequantization kernel tailored specifically for DecoQuant. Through extensive experiments, DecoQuant demonstrates remarkable efficiency gains, showcasing up to a $\sim$75\% reduction in memory footprint while maintaining comparable generation quality.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# 量子アニールの物理限界を拡張した統計量子ビット凍結

Statistical Qubit Freezing Extending Physical Limit of Quantum Annealers ( http://arxiv.org/abs/2405.12594v1 )

ライセンス: Link先を確認
Jeung Rac Lee, June-Koo Kevin Rhee, Changjun Kim, Bo Hyun Choi, (参考訳) Adiabatic quantum annealersは、クビット数の増加とともに、地面と励起状態の間の指数的に急速に減少するエネルギーギャップによってスケーラビリティに直面する。 これにより、熱雑音によって合成される基底状態の同定における誤差が生じる。 本稿では, 与えられた問題のアニーリングハミルトンモデルにおいて, 統計的決定的量子ビットの状態を選択的に固定する, SQF (Statistic qubit frozen) と呼ばれる新しいアルゴリズムスキームを提案する。 凍結を繰り返し適用することにより、例えば、SQFは、標準的なD-Waveの量子イジングマシンソリューションにおける従来のアニール法と比較して、断熱過程のスペクトルギャップを最大60 %向上させ、実質的に基本的な制限を克服する。

Adiabatic quantum annealers encounter scalability challenges due to exponentially fast diminishing energy gaps between ground and excited states with qubit-count increase. This introduces errors in identifying ground states compounded by a thermal noise. We propose a novel algorithmic scheme called statistical qubit freezing (SQF) that selectively fixes the state of statistically deterministic qubit in the annealing Hamiltonian model of the given problem. Applying freezing repeatedly, SQF significantly enhances the spectral gap between of an adiabatic process, as an example, by up to 60\% compared to traditional annealing methods in the standard D-Wave's quantum Ising machine solution, effectively overcoming the fundamental limitations.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# NISQデバイス上の量子チャネルの機械学習

Machine learning of quantum channels on NISQ devices ( http://arxiv.org/abs/2405.12598v1 )

ライセンス: Link先を確認
Giovanni Cemin, Marcel Cech, Erik Weiss, Stanislaw Soltan, Daniel Braun, Igor Lesanovsky, Federico Carollo, (参考訳) 世界規模の取り組みは、先進的な量子シミュレータとプロセッサの実現を目指している。 しかし、複雑なハードウェアとパルス制御システムの開発にもかかわらず、どの効果的な量子力学やチャネルがこれらのデバイスに実装されているかは一般には知られていない。 それらを体系的に推定するために,実効量子チャネルの繰り返し動作を通じて,一般的な離散時間ダイナミクスを近似するニューラルネットワークアルゴリズムを提案する。 我々は、多体ユニタリ回路における時間周期リンドブラッドダイナミクスと非単体サブシステムダイナミクスを考慮したアプローチを検証した。 さらに,ibmq_ehningen量子プロセッサのクロストーク効果について検討し,物理デバイス上の基礎となるダイナミクスの正確な性質が予め分かっていない場合に,量子チャネルを推定するための実用的なツールとして,我々の手法を実証する。 本手法はマルコフ力学の学習に向いているが、一般のマルコフ非離散時間進化を捉えるためにどのように適応できるかについて議論する。

World-wide efforts aim at the realization of advanced quantum simulators and processors. However, despite the development of intricate hardware and pulse control systems, it may still not be generally known which effective quantum dynamics, or channels, are implemented on these devices. To systematically infer those, we propose a neural-network algorithm approximating generic discrete-time dynamics through the repeated action of an effective quantum channel. We test our approach considering time-periodic Lindblad dynamics as well as non-unitary subsystem dynamics in many-body unitary circuits. Moreover, we exploit it to investigate cross-talk effects on the ibmq_ehningen quantum processor, which showcases our method as a practically applicable tool for inferring quantum channels when the exact nature of the underlying dynamics on the physical device is not known a priori. While the present approach is tailored for learning Markovian dynamics, we discuss how it can be adapted to also capture generic non-Markovian discrete-time evolutions.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# FFAM:3次元検出器記述のための特徴因子化活性化マップ

FFAM: Feature Factorization Activation Map for Explanation of 3D Detectors ( http://arxiv.org/abs/2405.12601v1 )

ライセンス: Link先を確認
Shuai Liu, Boyang Li, Zhiyu Fang, Mingyue Cui, Kai Huang, (参考訳) LiDARベースの3Dオブジェクト検出は近年目覚ましい進歩を遂げているが、既存のモデルのほとんどはブラックボックスであり、解釈性に欠けている。 従来の説明手法は主に画像ベースモデルの解析に重点を置いており、LiDARベースの3D検出器には適用できない。 本稿では,3次元検出器の高精細な視覚的説明を生成するための特徴因子化活性化マップ(FFAM)を提案する。 FFAMは非負行列分解を用いて概念活性化マップを生成し、その後これらのマップを集約して大域的な視覚的説明を得る。 オブジェクト固有の視覚的説明を実現するために,対象物体の特徴勾配を用いてグローバルな視覚的説明を洗練する。 さらに,アクティベーションマップと入力点クラウドのスケールを調整するために,ボクセルアップサンプリング戦略を導入する。 複数のデータセット上の複数の検出器でFFAMを質的かつ定量的に分析する。 FFAMによる高品質な視覚的説明を実験的に検証した。 コードは \url{https://github.com/Say2L/FFAM.git} で入手できる。

LiDAR-based 3D object detection has made impressive progress recently, yet most existing models are black-box, lacking interpretability. Previous explanation approaches primarily focus on analyzing image-based models and are not readily applicable to LiDAR-based 3D detectors. In this paper, we propose a feature factorization activation map (FFAM) to generate high-quality visual explanations for 3D detectors. FFAM employs non-negative matrix factorization to generate concept activation maps and subsequently aggregates these maps to obtain a global visual explanation. To achieve object-specific visual explanations, we refine the global visual explanation using the feature gradient of a target object. Additionally, we introduce a voxel upsampling strategy to align the scale between the activation map and input point cloud. We qualitatively and quantitatively analyze FFAM with multiple detectors on several datasets. Experimental results validate the high-quality visual explanations produced by FFAM. The Code will be available at \url{https://github.com/Say2L/FFAM.git}.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# Tiny Refinements Elicit Resilience: : LLM-Teaming に対する効率的なプレフィックスモデルに向けて

Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming ( http://arxiv.org/abs/2405.12604v1 )

ライセンス: Link先を確認
Jiaxu Liu, Xiangyu Yin, Sihao Wu, Jianhong Wang, Meng Fang, Xinping Yi, Xiaowei Huang, (参考訳) 大規模言語モデル(LLM)のレッドチーム戦略の普及に伴い,LLM防衛戦略の安全性と堅牢性向上に関する文献の不足がますます顕著になっている。 本稿では,LLM をベースとした <textbf{sentinel} モデルを,入力プロンプトをわずか (<30$) 追加トークンで再構成し,ターゲット LLM からの応答に対する毒性を効果的に低減するプラグイン・アンド・プレイプレフィックスモジュールとして導入する。 センチネルモデルは、微調整された大きなターゲットモデルに対して、自然に \textit{parameter inefficiency} と \textit{limited model accessibility} を克服する。 我々はPPO(Proximal Policy Optimization)を用いてレッドチームとセンチネルモデルの両方を動的に最適化し、エージェント間の複雑な相互作用を管理するためにマルチエージェントの中央集権的批評家にインスパイアされた価値共有メカニズムを取り入れたインターリーブ型トレーニングシステムを採用している。 テキスト・トゥ・テキスト・トゥ・イメージにわたる広範な実験により、有害な出力を緩和するアプローチの有効性が実証された。これは、さまざまなアプリケーションの安全性とロバスト性を高める上での我々のフレームワークの可能性を強調した、 \texttt{Llama-2}, \texttt{GPT-3.5}, \texttt{Stable-Diffusion}のような大規模モデルを扱う場合であってもである。

With the proliferation of red-teaming strategies for Large Language Models (LLMs), the deficiency in the literature about improving the safety and robustness of LLM defense strategies is becoming increasingly pronounced. This paper introduces the LLM-based \textbf{sentinel} model as a plug-and-play prefix module designed to reconstruct the input prompt with just a few ($<30$) additional tokens, effectively reducing toxicity in responses from target LLMs. The sentinel model naturally overcomes the \textit{parameter inefficiency} and \textit{limited model accessibility} for fine-tuning large target models. We employ an interleaved training regimen using Proximal Policy Optimization (PPO) to optimize both red team and sentinel models dynamically, incorporating a value head-sharing mechanism inspired by the multi-agent centralized critic to manage the complex interplay between agents. Our extensive experiments across text-to-text and text-to-image demonstrate the effectiveness of our approach in mitigating toxic outputs, even when dealing with larger models like \texttt{Llama-2}, \texttt{GPT-3.5} and \texttt{Stable-Diffusion}, highlighting the potential of our framework in enhancing safety and robustness in various applications.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# S3O:単眼ビデオによる人工物体の動的形状と骨格再構築のための2相アプローチ

S3O: A Dual-Phase Approach for Reconstructing Dynamic Shape and Skeleton of Articulated Objects from Single Monocular Video ( http://arxiv.org/abs/2405.12607v1 )

ライセンス: Link先を確認
Hao Zhang, Fang Li, Samyak Rawlekar, Narendra Ahuja, (参考訳) 単一の単眼ビデオから動的に調音された物体を再構成することは困難であり、限られた視点から形状、動き、カメラパラメータを共同で推定する必要がある。 現在の手法は通常、広範な計算資源とトレーニング時間を必要とし、事前定義されたパラメトリックモデル、カメラポーズ、キーポイントなどの追加の人間のアノテーションを必要とし、一般化性を制限する。 本稿では,これらの前提条件を強制し,可視形状や下層の骨格を含むパラメトリックモデルを効率的に学習する新しい2相法であるS3Oを提案する。 従来の戦略では、すべてのパラメータを同時に学習し、単一の誤った予測が重大なエラーを引き起こすような相互依存に繋がる。 対照的に、S3Oは段階的なアプローチを採用しており、まず粗いパラメトリックモデルを学習し、次に動きの学習と詳細な追加に進む。 この手法は計算複雑性を大幅に減らし、限定的な視点から再構築の堅牢性を高める。 モノクロビデオベンチマークによる3次元再構成における現在の不整合に対処するため,PlanetZooデータセットを収集した。 標準ベンチマークとPlanetZooデータセットの実験により、S3Oはより正確な3D再構成と可塑性骨格を提供し、トレーニング時間を最先端と比較して約60%短縮し、動的オブジェクト再構成における最先端の進歩を図った。

Reconstructing dynamic articulated objects from a singular monocular video is challenging, requiring joint estimation of shape, motion, and camera parameters from limited views. Current methods typically demand extensive computational resources and training time, and require additional human annotations such as predefined parametric models, camera poses, and key points, limiting their generalizability. We propose Synergistic Shape and Skeleton Optimization (S3O), a novel two-phase method that forgoes these prerequisites and efficiently learns parametric models including visible shapes and underlying skeletons. Conventional strategies typically learn all parameters simultaneously, leading to interdependencies where a single incorrect prediction can result in significant errors. In contrast, S3O adopts a phased approach: it first focuses on learning coarse parametric models, then progresses to motion learning and detail addition. This method substantially lowers computational complexity and enhances robustness in reconstruction from limited viewpoints, all without requiring additional annotations. To address the current inadequacies in 3D reconstruction from monocular video benchmarks, we collected the PlanetZoo dataset. Our experimental evaluations on standard benchmarks and the PlanetZoo dataset affirm that S3O provides more accurate 3D reconstruction, and plausible skeletons, and reduces the training time by approximately 60% compared to the state-of-the-art, thus advancing the state of the art in dynamic object reconstruction.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# Tagengo: 多言語チャットデータセット

Tagengo: A Multilingual Chat Dataset ( http://arxiv.org/abs/2405.12612v1 )

ライセンス: Link先を確認
Peter Devine, (参考訳) オープンソースの大規模言語モデル(LLM)は、近年大きく改善されている。 しかし、これらのモデルの多くは一般的な音声言語にのみ焦点を絞っている。 人為的なプロンプトと合成応答からなる74言語において,70k以上のプロンプト応答対の高品質なデータセットを提案する。 このデータセットを使って、最先端のオープンソースLLMをトレーニングし、マルチ言語でチャットします。 MT-Bench のチャットベンチマークを6言語で評価した結果,言語ごとのマルチ言語モデルは,従来のオープンソース LLM よりも優れていたことが判明した。 さらに,選択した対象言語(日本語)の性能には,多言語データのみのトレーニングよりも多言語データのトレーニングが有用であることが判明した。 これらの結果から,LLMを実現するために大量の高品質多言語データをトレーニングする必要があることが示唆された。

Open source large language models (LLMs) have shown great improvements in recent times. However, many of these models are focused solely on popular spoken languages. We present a high quality dataset of more than 70k prompt-response pairs in 74 languages which consist of human generated prompts and synthetic responses. We use this dataset to train a state-of-the-art open source English LLM to chat multilingually. We evaluate our model on MT-Bench chat benchmarks in 6 languages, finding that our multilingual model outperforms previous state-of-the-art open source LLMs across each language. We further find that training on more multilingual data is beneficial to the performance in a chosen target language (Japanese) compared to simply training on only data in that language. These results indicate the necessity of training on large amounts of high quality multilingual data to make a more accessible LLM.
翻訳日:2024-05-22 13:58:57 公開日:2024-05-21
# ガウス過程とニューラルネットワークによるサブキロメートル表面風の効率的なモデリング

Efficient modeling of sub-kilometer surface wind with Gaussian processes and neural networks ( http://arxiv.org/abs/2405.12614v1 )

ライセンス: Link先を確認
Francesco Zanetta, Daniele Nerini, Matteo Buzzi, Henry Moss, (参考訳) サブキロメートルスケールの表面の天気を正確に表現することは、幅広い応用において最適な意思決定に不可欠である。 このことは、数値シミュレーションと比較して低コストで正確で校正された確率予測を提供するための統計技術の使用を動機付けている。 風は、その空間的および時間的変動が高いため、モデルにとって特に困難な変数である。 本稿では,数値気象予測(NWP)モデル,デジタル標高モデル(DEM)モデル,その場測定など,複数のデータソースを活用することにより,ガウス過程(GP)とニューラルネットワークを統合して表面風速をモデル化する手法を提案する。 その結果、単変量確率回帰法のみを適用するのではなく、興味変数の多変量共分散構造をモデル化する付加価値が示された。 共分散をモデル化することにより、地上局から観測された測定値の最適積分が可能となり、ベースラインと比較して連続的なランク付け確率スコアが減少することが示されている。 さらに、Random Fourier Features (RFF) やパスワイズ条件付けといったスケーラブルなテクニックによって支援され、境界校正された現実的なフィールドを直接生成することができる。 本稿では,異なるモデル選択の効果,および近似の度合いについて論じ,ケーススタディにおける結果について述べる。

Accurately representing surface weather at the sub-kilometer scale is crucial for optimal decision-making in a wide range of applications. This motivates the use of statistical techniques to provide accurate and calibrated probabilistic predictions at a lower cost compared to numerical simulations. Wind represents a particularly challenging variable to model due to its high spatial and temporal variability. This paper presents a novel approach that integrates Gaussian processes (GPs) and neural networks to model surface wind gusts, leveraging multiple data sources, including numerical weather prediction (NWP) models, digital elevation models (DEM), and in-situ measurements. Results demonstrate the added value of modeling the multivariate covariance structure of the variable of interest, as opposed to only applying a univariate probabilistic regression approach. Modeling the covariance enables the optimal integration of observed measurements from ground stations, which is shown to reduce the continuous ranked probability score compared to the baseline. Moreover, it allows the direct generation of realistic fields that are also marginally calibrated, aided by scalable techniques such as Random Fourier Features (RFF) and pathwise conditioning. We discuss the effect of different modeling choices, as well as different degrees of approximation, and present our results for a case study.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# オブジェクト指向環境における因果ダイナミクスモデルの学習

Learning Causal Dynamics Models in Object-Oriented Environments ( http://arxiv.org/abs/2405.12615v1 )

ライセンス: Link先を確認
Zhongwei Yu, Jingqing Ruan, Dengpeng Xing, (参考訳) 因果力学モデル(CDM)は、強化学習における様々な課題に対処する上で大きな可能性を示している。 CDMを学習するために、最近の研究では、環境変数間の因果関係を捉えるために因果発見を行った。 しかし、CDMの学習は、計算複雑性とサンプル効率の制約により、まだ小規模の環境に限られている。 本稿では,CDMを多種多様なカテゴリに分類される大規模オブジェクト指向環境に拡張することを目的とする。 我々は、同じクラスに属するオブジェクト間の因果関係とパラメータを共有するオブジェクト指向CDM(OOCDM)を紹介する。 さらに,OOCDMの学習手法を提案する。 大規模タスクの実験は、OOCDMが因果発見、予測精度、一般化、計算効率で既存のCDMより優れていることを示している。

Causal dynamics models (CDMs) have demonstrated significant potential in addressing various challenges in reinforcement learning. To learn CDMs, recent studies have performed causal discovery to capture the causal dependencies among environmental variables. However, the learning of CDMs is still confined to small-scale environments due to computational complexity and sample efficiency constraints. This paper aims to extend CDMs to large-scale object-oriented environments, which consist of a multitude of objects classified into different categories. We introduce the Object-Oriented CDM (OOCDM) that shares causalities and parameters among objects belonging to the same class. Furthermore, we propose a learning method for OOCDM that enables it to adapt to a varying number of objects. Experiments on large-scale tasks indicate that OOCDM outperforms existing CDMs in terms of causal discovery, prediction accuracy, generalization, and computational efficiency.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# 大規模言語モデルにおける創発性の定量化

Quantifying Emergence in Large Language Models ( http://arxiv.org/abs/2405.12617v1 )

ライセンス: Link先を確認
Hang Chen, Xinyu Yang, Jiaying Zhu, Wenya Wang, (参考訳) LLMの'インテリジェント'な振る舞いとして広く概念化されている創発性は、最近研究され、測定可能な定義が欠如していることから、定量化が困難であることが証明されている。 最も一般的には、重要なリソースを消費する広範囲なデータセットやタスクにわたるモデルパフォーマンスを通じて統計的に推定されている。 さらに、そのような推定は解釈が困難であり、モデルの本質的な出現を正確に反映していない可能性がある。 そこで本研究では,出現を推定するための定量化ソリューションを提案する。 動的現象の創発性に着想を得て, 変圧器ブロック内の表現から導かれる, 微視的(意味)レベルのエントロピー低下と微視的(トークン)レベルのエントロピー低下を比較することで, 出現の強さを定量化する。 低コストな推定器を用いて,本手法は,テキスト内学習(ICL)と自然文の両方において,一連のLM(GPT-2, GEMMAなど)に対して一貫した振る舞いを示す。 実験結果から,本手法は,評価指標に基づく既存の観測結果と整合性のある測定結果を提供し,その妥当性を検証し,また,提案手法はICLにおける測定値のばらつきと<shots''数との相関関係などの新たな出現パターンを明らかにするとともに,LCMにおける幻覚の新たな解釈方法を示すとともに,GPT-2のような小型のLMによる大規模かつ閉鎖的なLMの出現を推定するための潜在的解決策を提供する。 私たちのコードは、https://github.com/Zodiark-ch/Emergence-of-LLMs/で利用可能です。

Emergence, broadly conceptualized as the ``intelligent'' behaviors of LLMs, has recently been studied and proved challenging to quantify due to the lack of a measurable definition. Most commonly, it has been estimated statistically through model performances across extensive datasets and tasks, which consumes significant resources. In addition, such estimation is difficult to interpret and may not accurately reflect the models' intrinsic emergence. In this work, we propose a quantifiable solution for estimating emergence. Inspired by emergentism in dynamics, we quantify the strength of emergence by comparing the entropy reduction of the macroscopic (semantic) level with that of the microscopic (token) level, both of which are derived from the representations within the transformer block. Using a low-cost estimator, our quantification method demonstrates consistent behaviors across a suite of LMs (GPT-2, GEMMA, etc.) under both in-context learning (ICL) and natural sentences. Empirical results show that (1) our method gives consistent measurements which align with existing observations based on performance metrics, validating the effectiveness of our emergence quantification; (2) our proposed metric uncovers novel emergence patterns such as the correlations between the variance of our metric and the number of ``shots'' in ICL, which further suggests a new way of interpreting hallucinations in LLMs; (3) we offer a potential solution towards estimating the emergence of larger and closed-resource LMs via smaller LMs like GPT-2. Our codes are available at: https://github.com/Zodiark-ch/Emergence-of-LLMs/.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# MentalQA: メンタルヘルスケアに対する質問と回答のための注釈付きアラビア語コーパス

MentalQA: An Annotated Arabic Corpus for Questions and Answers of Mental Healthcare ( http://arxiv.org/abs/2405.12619v1 )

ライセンス: Link先を確認
Hassan Alhuzali, Ashwag Alasmari, Hamad Alsaleh, (参考訳) メンタルヘルス障害は、背景、教育、社会経済的地位に関わらず、世界中の人々に大きな影響を及ぼす。 しかし、特に資源不足の地域社会では、適切なケアへのアクセスは依然として困難である。 テキストマイニングツールは、患者を診断し治療する専門家を支援することで、メンタルヘルスを支援する大きな可能性を秘めている。 本研究では、このようなツールを開発するためのアラビアのメンタルヘルスリソースの不足について論じる。 本稿では,対話型質問・回答(QA)インタラクションを特徴とする新しいアラビア語データセットであるMentalQAを紹介する。 データ品質を確保するため、我々は品質管理基準付きスキーマを用いて厳密なアノテーションプロセスを実行した。 データは質問に答える医療プラットフォームから収集された。 メンタルヘルスの質問とそれに対応する回答のアノテーションスキーマは、いくつかの修正を加えて既存の分類スキームに基づいている。 質問タイプには、診断、治療、解剖学と生理学、疫学、健康なライフスタイル、提供者選択の6つの異なるカテゴリが含まれる。 回答戦略には、情報提供、直接的なガイダンス、感情的な支援が含まれる。 3人の経験豊富なアノテータがデータを共同でアノテートして一貫性を確保した。 FleissのKappaは質問型が0.61ドル、回答戦略が0.98ドルである。 詳細な分析では,年齢層間での質問選好の変化や,質問タイプと回答戦略の強い相関関係など,洞察に富んだパターンが明らかになった。 MentalQAは、メンタルヘルスの専門家や情報を求める個人を支援するアラビアのテキストマイニングツールを開発するための貴重な基盤を提供する。

Mental health disorders significantly impact people globally, regardless of background, education, or socioeconomic status. However, access to adequate care remains a challenge, particularly for underserved communities with limited resources. Text mining tools offer immense potential to support mental healthcare by assisting professionals in diagnosing and treating patients. This study addresses the scarcity of Arabic mental health resources for developing such tools. We introduce MentalQA, a novel Arabic dataset featuring conversational-style question-and-answer (QA) interactions. To ensure data quality, we conducted a rigorous annotation process using a well-defined schema with quality control measures. Data was collected from a question-answering medical platform. The annotation schema for mental health questions and corresponding answers draws upon existing classification schemes with some modifications. Question types encompass six distinct categories: diagnosis, treatment, anatomy \& physiology, epidemiology, healthy lifestyle, and provider choice. Answer strategies include information provision, direct guidance, and emotional support. Three experienced annotators collaboratively annotated the data to ensure consistency. Our findings demonstrate high inter-annotator agreement, with Fleiss' Kappa of $0.61$ for question types and $0.98$ for answer strategies. In-depth analysis revealed insightful patterns, including variations in question preferences across age groups and a strong correlation between question types and answer strategies. MentalQA offers a valuable foundation for developing Arabic text mining tools capable of supporting mental health professionals and individuals seeking information.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# 対話型協調計画獲得におけるマインドモデリング理論の限界

Limits of Theory of Mind Modelling in Dialogue-Based Collaborative Plan Acquisition ( http://arxiv.org/abs/2405.12621v1 )

ライセンス: Link先を確認
Matteo Bortoletto, Constantin Ruhdorfer, Adnen Abdessaied, Lei Shi, Andreas Bulling, (参考訳) 対話型協調計画獲得(CPA)に関する最近の研究は、非対称なスキルセットと知識を持つ設定において、心の理論(ToM)モデリングが不足した知識予測を改善することを示唆している。 ToMは効果的なコラボレーションのために重要とされているが、この新しいタスクに対する実際の影響は未解明のままである。 計画をグラフとして表現し、タスク固有の制約を活用することで、CPAのパフォーマンスが自分自身の不足した知識を予測するときにほぼ倍になるため、ToMモデリングによる改善は減少することを示す。 この現象は、既存のベースライン法を評価する際にも持続する。 CPAにおけるToMの関連性をよりよく理解するために,本研究では,ToM機能の有無によるモデルの性能比較を原則的に報告する。 異なるモデルとアブリゲーションにわたる結果は、学習されたToM機能は、ToMに知覚可能なリンクを伴わずに、データ内の遅延パターンを反映する可能性が高いことを一貫して示唆している。 この発見は、CPA以降におけるToMの役割のより深い理解と、計算協調エージェントにおける精神状態のモデリングと評価のための新しい方法を要求する。

Recent work on dialogue-based collaborative plan acquisition (CPA) has suggested that Theory of Mind (ToM) modelling can improve missing knowledge prediction in settings with asymmetric skill-sets and knowledge. Although ToM was claimed to be important for effective collaboration, its real impact on this novel task remains under-explored. By representing plans as graphs and by exploiting task-specific constraints we show that, as performance on CPA nearly doubles when predicting one's own missing knowledge, the improvements due to ToM modelling diminish. This phenomenon persists even when evaluating existing baseline methods. To better understand the relevance of ToM for CPA, we report a principled performance comparison of models with and without ToM features. Results across different models and ablations consistently suggest that learned ToM features are indeed more likely to reflect latent patterns in the data with no perceivable link to ToM. This finding calls for a deeper understanding of the role of ToM in CPA and beyond, as well as new methods for modelling and evaluating mental states in computational collaborative agents.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# 量子共振器の次元化と量子機械学習への応用

Quantum Resonant Dimensionality Reduction and Its Application in Quantum Machine Learning ( http://arxiv.org/abs/2405.12625v1 )

ライセンス: Link先を確認
Fan Yang, Furong Wang, Xusheng Xu, Pao Gao, Tao Xin, ShiJie Wei, Guilu Long, (参考訳) 量子コンピューティングは、機械学習タスクを加速するための有望な候補である。 現在の量子ハードウェアの制御精度によって制限されているため、量子リソースの消費を減らすことが、量子上の優位性を達成する鍵となる。 本稿では、入力データの次元を小さくし、量子機械学習アルゴリズムを高速化するために、量子共振器遷移に基づく量子共振器次元削減(QRDR)アルゴリズムを提案する。 QRDR後、入力データ$N$の次元を所望のスケール$R$に減らし、元のデータの有効情報をそれに応じて保存し、その後の量子機械学習アルゴリズムや量子ストレージの計算複雑性を低減させる。 QRDRは多変量時間で動作し、既存のアルゴリズムと比較して1/\epsilon^3$のオーダーから1/\epsilon$のオーダーに誤差依存性を減少させる。 本研究では,2種類の量子分類器,量子支援ベクトルマシンと量子畳み込みニューラルネットワークを組み合わせて,水中検出ターゲットと量子多体位相をそれぞれ分類するアルゴリズムの性能を示す。 シミュレーションの結果,QRDRの適用による処理効率と精度の向上が示唆された。 量子機械学習が進むにつれて、我々のアルゴリズムは様々な計算分野に応用される可能性がある。

Quantum computing is a promising candidate for accelerating machine learning tasks. Limited by the control accuracy of current quantum hardware, reducing the consumption of quantum resources is the key to achieving quantum advantage. Here, we propose a quantum resonant dimension reduction (QRDR) algorithm based on the quantum resonant transition to reduce the dimension of input data and accelerate the quantum machine learning algorithms. After QRDR, the dimension of input data $N$ can be reduced into desired scale $R$, and the effective information of the original data will be preserved correspondingly, which will reduce the computational complexity of subsequent quantum machine learning algorithms or quantum storage. QRDR operates with polylogarithmic time complexity and reduces the error dependency from the order of $1/\epsilon^3$ to the order of $1/\epsilon$, compared to existing algorithms. We demonstrate the performance of our algorithm combining with two types of quantum classifiers, quantum support vector machines and quantum convolutional neural networks, for classifying underwater detection targets and quantum many-body phase respectively. The simulation results indicate that reduced data improved the processing efficiency and accuracy following the application of QRDR. As quantum machine learning continues to advance, our algorithm has the potential to be utilized in a variety of computing fields.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# Play Everywhere: ロボットとサッカーをするための時間論理に基づくゲーム環境独立的アプローチ

Play Everywhere: A Temporal Logic based Game Environment Independent Approach for Playing Soccer with Robots ( http://arxiv.org/abs/2405.12628v1 )

ライセンス: Link先を確認
Vincenzo Suriani, Emanuele Musumeci, Daniele Nardi, Domenico Daniele Bloisi, (参考訳) サッカーをするロボットは、ゲーム環境が変わると一般化に苦慮するハードコードな行動にしばしば依存する。 本稿では,ロボットの行動や目標を環境の意味に適応させるための時間論理に基づくアプローチを提案する。 特に,ロボットが環境の意味的特性に基づいて操作のレベルを選択し,ルールとゴールの集合を動的に修正する,サッカーの階層的表現について述べる。 提案手法は、人間が公式のフィールドでサッカーをしたり、路上でサッカーをするのと同じように、ロボットが非構造化環境で動作できるようにする。 提案手法の有効性を示すために,異なるシナリオで設定された3つの異なるユースケースを示す。

Robots playing soccer often rely on hard-coded behaviors that struggle to generalize when the game environment change. In this paper, we propose a temporal logic based approach that allows robots' behaviors and goals to adapt to the semantics of the environment. In particular, we present a hierarchical representation of soccer in which the robot selects the level of operation based on the perceived semantic characteristics of the environment, thus modifying dynamically the set of rules and goals to apply. The proposed approach enables the robot to operate in unstructured environments, just as it happens when humans go from soccer played on an official field to soccer played on a street. Three different use cases set in different scenarios are presented to demonstrate the effectiveness of the proposed approach.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# テキスト生成のためのマスケと因果言語モデリングの探索

Exploration of Masked and Causal Language Modelling for Text Generation ( http://arxiv.org/abs/2405.12630v1 )

ライセンス: Link先を確認
Nicolo Micheletti, Samuel Belkadi, Lifeng Han, Goran Nenadic, (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)の分野に革命をもたらし、この分野のあらゆるタスクにおいて最先端のパフォーマンスを達成した。 しかし、テキスト生成でよく使われるアプローチであるコーサル言語モデリング(CLM)は、左から右へ連続的にテキストを生成するが、本質的には、各トークンがいつどこで生成されるかは決定しないモデルの自由を制限する。 対照的に、主に言語理解タスクに使用されるMasked Language Modelling (MLM)は、テキストや任意の順序でトークンを生成することができる。 本稿では,テキスト生成タスクに対するMLMとCLMのアプローチを広範囲に比較する。 そのために、3つの異なるデータセット、すなわち3つの異なるデータセットで、同等の大きさの言語モデルを事前訓練する。 1) 退院要約 2)映画プロットのシナプス、及び 3)オーサシップ検証データセット。 代々の質を評価するために,まず定量的指標を用いて,コヒーレンスと文法的正当性を解析するための定性的な人的評価を行う。 さらに、生成されたテキストを3つのダウンストリームタスクで使用することで、その有用性を評価する。 1)エンティティ認識 2)テキスト分類,及び 3) 著者確認。 その結果、MLMはテキスト生成において、高い定量的スコアと、生成したテキストのコヒーレンスにより、CLMを一貫して上回っていることがわかった。 また、生成されたテキストの品質と下流タスクにおけるモデルの性能との間には、‘textit{no strong correlation}’がある。 本研究では,テキスト生成のためのMLMが今後の研究に大きな可能性を秘めており,今後の研究の方向性を示す。

Large Language Models (LLMs) have revolutionised the field of Natural Language Processing (NLP) and have achieved state-of-the-art performance in practically every task in this field. However, the prevalent approach used in text generation, Causal Language Modelling (CLM), which generates text sequentially from left to right, inherently limits the freedom of the model, which does not decide when and where each token is generated. In contrast, Masked Language Modelling (MLM), primarily used for language understanding tasks, can generate tokens anywhere in the text and any order. This paper conducts an extensive comparison of MLM and CLM approaches for text generation tasks. To do so, we pre-train several language models of comparable sizes on three different datasets, namely 1) medical discharge summaries, 2) movie plot synopses, and 3) authorship verification datasets. To assess the quality of the generations, we first employ quantitative metrics and then perform a qualitative human evaluation to analyse coherence and grammatical correctness. In addition, we evaluate the usefulness of the generated texts by using them in three different downstream tasks: 1) Entity Recognition, 2) Text Classification, and 3) Authorship Verification. The results show that MLM consistently outperforms CLM in text generation across all datasets, with higher quantitative scores and better coherence in the generated text. The study also finds \textit{no strong correlation} between the quality of the generated text and the performance of the models in the downstream tasks. With this study, we show that MLM for text generation has great potential for future research and provides direction for future studies in this area.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# 人的資源における顧客管理の自動化:コンピュータビジョンと顔認識を用いたデザインサイエンスアプローチ

Automating Attendance Management in Human Resources: A Design Science Approach Using Computer Vision and Facial Recognition ( http://arxiv.org/abs/2405.12633v1 )

ライセンス: Link先を確認
Bao-Thien Nguyen-Tat, Minh-Quoc Bui, Vuong M. Ngo, (参考訳) Haar Cascadeはコスト効率が高くユーザフレンドリーな機械学習ベースのアルゴリズムで、画像やビデオ中のオブジェクトを検出する。 通常、かなりのリソースと高価な計算コストを必要とするディープラーニングアルゴリズムとは異なり、エッジ検出やHaar機能といった単純な画像処理技術を使って、理解し、実装し易い。 NVIDIA Jetson Nanoのような組み込みコンピュータ上でHaar CascadeとOpenCV2を組み合わせることで、データベース内の顔を正確に検出し、マッチングすることで、出席者追跡を行うことができる。 本システムは,既存のソリューションとは切り離された,いくつかの特定の目的を達成することを目的としている。 ハールカスケードを利用しており、ハールのようなウェーブレットのような慎重に選択されたハールの特徴に富み、先進的なエッジ検出技術を採用している。 これらの技術は、画像とビデオの両方の正確な顔検出とマッチングを可能にし、高い精度とロバストなパフォーマンスに寄与する。 これにより、手動による介入を最小限に抑え、エラーを減らし、説明責任を強化する。 さらに、OpenCV2とNVIDIA Jetson Nanoの統合は、処理効率を最適化し、リソース制約のある環境に適している。 この制度は、学校、大学、職業訓練センター、小規模企業、オフィス、工場など様々な職場環境を含む多様な教育機関を対象とする。 はぁ...。 システムの価値と効率は、出席者管理技術を民主化し、より広い聴衆に利用できるようにする。 その結果、出席者の追跡とマネジメントのプラクティスを変える可能性があり、最終的には生産性と説明責任が向上します。 結論として、このシステムは、出席者の追跡と管理に対する画期的なアプローチである。

Haar Cascade is a cost-effective and user-friendly machine learning-based algorithm for detecting objects in images and videos. Unlike Deep Learning algorithms, which typically require significant resources and expensive computing costs, it uses simple image processing techniques like edge detection and Haar features that are easy to comprehend and implement. By combining Haar Cascade with OpenCV2 on an embedded computer like the NVIDIA Jetson Nano, this system can accurately detect and match faces in a database for attendance tracking. This system aims to achieve several specific objectives that set it apart from existing solutions. It leverages Haar Cascade, enriched with carefully selected Haar features, such as Haar-like wavelets, and employs advanced edge detection techniques. These techniques enable precise face detection and matching in both images and videos, contributing to high accuracy and robust performance. By doing so, it minimizes manual intervention and reduces errors, thereby strengthening accountability. Additionally, the integration of OpenCV2 and the NVIDIA Jetson Nano optimizes processing efficiency, making it suitable for resource-constrained environments. This system caters to a diverse range of educational institutions, including schools, colleges, vocational training centers, and various workplace settings such as small businesses, offices, and factories. ... The system's affordability and efficiency democratize attendance management technology, making it accessible to a broader audience. Consequently, it has the potential to transform attendance tracking and management practices, ultimately leading to heightened productivity and accountability. In conclusion, this system represents a groundbreaking approach to attendance tracking and management...
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# トレーニング可能な周波数をもつフーリエ特徴ネットワークに基づくマルチスケール潤滑シミュレーション

Multiscale lubrication simulation based on fourier feature networks with trainable frequency ( http://arxiv.org/abs/2405.12638v1 )

ライセンス: Link先を確認
Yihu Tang, Li Huang, Limin Wu, Xianghui Meng, (参考訳) トライボロジー性能の設計と最適化には粗面潤滑シミュレーションが不可欠である。 物理情報ニューラルネットワーク(PINN)の流体潤滑解析への応用が増加しているにもかかわらず、その用途は主に滑らかな表面に限られている。 これは、従来のPINN法がスペクトルバイアスに悩まされ、低周波の特徴を学習し、その結果、粗面を高周波信号で解析できないためである。 現在までに粗面潤滑のためのPINN法は報告されていない。 これらの制限を克服するために、トレーニング可能なフーリエ機能ネットワークを利用する、新しいマルチスケール潤滑ニューラルネットワークアーキテクチャを導入する。 学習可能な特徴埋め込み周波数を組み込むことで、このアーキテクチャは様々な周波数成分に自動的に適応し、粗面特性の分析を強化する。 この手法は, 有限要素法 (FEM) を用いて得られた手法と比較した。 比較分析は、このアプローチがFEM結果と高い整合性を達成することを示す。 さらに、このアーキテクチャは、精度と計算効率の両面で固定された特徴埋め込み周波数を持つ従来のフーリエ特徴ネットワークを超越している。 その結果、マルチスケール潤滑ニューラルネットワークモデルは、粗面潤滑分析のためのより効率的なツールを提供する。

Rough surface lubrication simulation is crucial for designing and optimizing tribological performance. Despite the growing application of Physical Information Neural Networks (PINNs) in hydrodynamic lubrication analysis, their use has been primarily limited to smooth surfaces. This is due to traditional PINN methods suffer from spectral bias, favoring to learn low-frequency features and thus failing to analyze rough surfaces with high-frequency signals. To date, no PINN methods have been reported for rough surface lubrication. To overcome these limitations, this work introduces a novel multi-scale lubrication neural network architecture that utilizes a trainable Fourier feature network. By incorporating learnable feature embedding frequencies, this architecture automatically adapts to various frequency components, thereby enhancing the analysis of rough surface characteristics. This method has been tested across multiple surface morphologies, and the results have been compared with those obtained using the finite element method (FEM). The comparative analysis demonstrates that this approach achieves a high consistency with FEM results. Furthermore, this novel architecture surpasses traditional Fourier feature networks with fixed feature embedding frequencies in both accuracy and computational efficiency. Consequently, the multi-scale lubrication neural network model offers a more efficient tool for rough surface lubrication analysis.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# 火で戦う:ChatGPTをどの程度信頼できるのか?

Fight Fire with Fire: How Much Can We Trust ChatGPT on Source Code-Related Tasks? ( http://arxiv.org/abs/2405.12641v1 )

ライセンス: Link先を確認
Xiao Yu, Lei Liu, Xing Hu, Jacky Wai Keung, Jin Liu, Xin Xia, (参考訳) ソフトウェア開発におけるChatGPTのような大規模言語モデルの利用の増加に伴い、生成するコードコンテンツの品質を検証することが重要になっている。 近年の研究では、ChatGPTを開発者とテスターの両方に活用して、マルチエージェント共同ソフトウェア開発を提案する。 マルチエージェントコラボレーションにより、ChatGPTは生成されたコードのテストレポートを生成することができ、コード内容の自己検証と、これらのレポートに基づいたバグ修正が可能になる。 しかし、これらの研究は、コード検証において生成されたテストレポートの有効性を評価しなかった。 そこで我々は,ChatGPTのコード生成,コード補完,プログラム修復における自己検証能力を評価するための総合的研究を行った。 ChatGPTに、(1)正しいコードを生成し、その正しさを自己検証し、(2)脆弱性のない完全なコードを自己検証し、(3)バグのあるコードを修復し、それからバグが解決されたかどうかを自己検証するように要求する。 2つのコード生成データセット,1つのコード補完データセット,および2つのプログラム修復データセットから得られた知見は,(1)ChatGPTが生成した誤りコードを正しく予測することが多かった。 2) ChatGPTの行動における自己矛盾性幻覚が出現した。 (3) ChatGPTの自己検証能力は、ChatGPTが誤って生成されたか、あるいは修正されたコードや、完了したコードの脆弱性に関するアサーションに同意しているかどうかを問うガイド質問によって向上することができる。 (4) ChatGPTが生成したテストレポートを使用することで、完了したコードにより多くの脆弱性を特定できるが、誤って生成されたコードと修正失敗の説明は、テストレポートで大半が不正確である。 これらの知見に基づき,ChatGPTを用いたさらなる研究や開発について考察する。

With the increasing utilization of large language models such as ChatGPT during software development, it has become crucial to verify the quality of code content it generates. Recent studies proposed utilizing ChatGPT as both a developer and tester for multi-agent collaborative software development. The multi-agent collaboration empowers ChatGPT to produce test reports for its generated code, enabling it to self-verify the code content and fix bugs based on these reports. However, these studies did not assess the effectiveness of the generated test reports in validating the code. Therefore, we conduct a comprehensive empirical investigation to evaluate ChatGPT's self-verification capability in code generation, code completion, and program repair. We request ChatGPT to (1) generate correct code and then self-verify its correctness; (2) complete code without vulnerabilities and then self-verify for the presence of vulnerabilities; and (3) repair buggy code and then self-verify whether the bugs are resolved. Our findings on two code generation datasets, one code completion dataset, and two program repair datasets reveal the following observations: (1) ChatGPT often erroneously predicts its generated incorrect code as correct. (2) The self-contradictory hallucinations in ChatGPT's behavior arise. (3) The self-verification capability of ChatGPT can be enhanced by asking the guiding question, which queries whether ChatGPT agrees with assertions about incorrectly generated or repaired code and vulnerabilities in completed code. (4) Using test reports generated by ChatGPT can identify more vulnerabilities in completed code, but the explanations for incorrectly generated code and failed repairs are mostly inaccurate in the test reports. Based on these findings, we provide implications for further research or development using ChatGPT.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# Twitterと携帯電話のデータを組み合わせて国境変更を観測:トルコとヨーロッパの国境開放

Combining Twitter and Mobile Phone Data to Observe Border-Rush: The Turkish-European Border Opening ( http://arxiv.org/abs/2405.12642v1 )

ライセンス: Link先を確認
Carlos Arcila Calderón, Bilgeçağ Aydoğdu, Tuba Bircan, Bünyamin Gündüz, Onur Önes, Albert Ali Salah, Alina Sîrbu, (参考訳) 2020年にトルコが国境管理を廃止すると決定すると、多くの個人がギリシャ、ブルガリア、トルコの国境に向かって旅した。 しかし、メディアレポートと実際の移行パターンの間の不規則な移動と不一致に関する検証可能な統計が欠如しているため、さらなる調査が必要である。 本研究の目的は,新しいデータソース,特に携帯電話とTwitterデータを活用することで,この知識ギャップを橋渡しし,国境を越えた移動量の推定器を構築し,展開する事象の質的な理解を育むことである。 移民外交の枠組みを用いることで、国境における緊急移動パターンの分析を行う。 本研究は, 定量化のための携帯電話データと質的理解のためのTwitterデータの可能性を示すものである。 我々は、特に研究中の人口の脆弱性を考えると、ビッグデータを活用するという倫理的意味を強調している。 これは、これらのデータソースとそれらの統合に固有の可能性、制限、リスクを識別することを目的として、人間のモビリティの社会的・政治的側面に関する徹底的な研究の必須点である。 この学術的な取り組みは、マイグレーションのダイナミクスのより微妙な理解に寄与し、誤用や抑圧的な監視を妨げる規制の定式化の道を開くことで、より正確な移行現実の表現を確実にする。

Following Turkey's 2020 decision to revoke border controls, many individuals journeyed towards the Greek, Bulgarian, and Turkish borders. However, the lack of verifiable statistics on irregular migration and discrepancies between media reports and actual migration patterns require further exploration. The objective of this study is to bridge this knowledge gap by harnessing novel data sources, specifically mobile phone and Twitter data, to construct estimators of cross-border mobility and to cultivate a qualitative comprehension of the unfolding events. By employing a migration diplomacy framework, we analyse emergent mobility patterns at the border. Our findings demonstrate the potential of mobile phone data for quantitative metrics and Twitter data for qualitative understanding. We underscore the ethical implications of leveraging Big Data, particularly considering the vulnerability of the population under study. This underscores the imperative for exhaustive research into the socio-political facets of human mobility, with the aim of discerning the potentialities, limitations, and risks inherent in these data sources and their integration. This scholarly endeavour contributes to a more nuanced understanding of migration dynamics and paves the way for the formulation of regulations that preclude misuse and oppressive surveillance, thereby ensuring a more accurate representation of migration realities.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# PoseGravity: 軸を優先した点と線からのPoseの推定

PoseGravity: Pose Estimation from Points and Lines with Axis Prior ( http://arxiv.org/abs/2405.12646v1 )

ライセンス: Link先を確認
Akshay Chandrasekhar, (参考訳) 本稿では,カメラの回転行列の軸が与えられた絶対的なカメラポーズを推定するアルゴリズムを提案する。 現在のアルゴリズムは、限られた入力領域上の代数的解によって問題を解く。 本稿では,ハイパーボラと単位円の交点を求めることで,問題を効率的に解けることを示す。 このソリューションは、最小限と過剰に制約された構成で、点と線の特徴の組み合わせを柔軟に適合させることができる。 さらに、平面と極小の構成の2つの特別なケースが同定され、より単純な閉形式解が得られる。 大規模な実験でそのアプローチが検証される。

This paper presents a new algorithm to estimate absolute camera pose given an axis of the camera's rotation matrix. Current algorithms solve the problem via algebraic solutions on limited input domains. This paper shows that the problem can be solved efficiently by finding the intersection points of a hyperbola and the unit circle. The solution can flexibly accommodate combinations of point and line features in minimal and overconstrained configurations. In addition, the two special cases of planar and minimal configurations are identified to yield simpler closed-form solutions. Extensive experiments validate the approach.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# 共起知識と学習可能な項頻度を用いたシーングラフ生成戦略

Scene Graph Generation Strategy with Co-occurrence Knowledge and Learnable Term Frequency ( http://arxiv.org/abs/2405.12648v1 )

ライセンス: Link先を確認
Hyeongjin Kim, Sangwon Kim, Dasom Ahn, Jong Taek Lee, Byoung Chul Ko, (参考訳) シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をグラフ構造として表現し、オブジェクト間の意味的関係を直感的に理解できるようにするため、画像理解において重要なタスクである。 これまでのSGG研究では、メッセージパッシングニューラルネットワーク(MPNN)を使用して、周囲の物体に関する情報を効果的に反映できる機能を更新した。 しかし、これらの研究は、SGG生成中の物体の共起を反映していない。 さらに、サンプリングと学習の手法の観点から、トレーニングデータセットの長い尾の問題にのみ対処した。 これら2つの問題に対処するために,オブジェクト間の共起知識と学習可能な項周波数逆文書周波数(TF-l-IDF)を反映したCooKを提案する。 提案したモデルをSGGベンチマークデータセットに適用し,SGGenサブタスクの既存の最先端モデルと比較して最大3.8%の性能向上を示した。 提案手法は得られた結果から一般化能力を示し,MPNNモデル全体の均一な性能向上を示す。

Scene graph generation (SGG) is an important task in image understanding because it represents the relationships between objects in an image as a graph structure, making it possible to understand the semantic relationships between objects intuitively. Previous SGG studies used a message-passing neural networks (MPNN) to update features, which can effectively reflect information about surrounding objects. However, these studies have failed to reflect the co-occurrence of objects during SGG generation. In addition, they only addressed the long-tail problem of the training dataset from the perspectives of sampling and learning methods. To address these two problems, we propose CooK, which reflects the Co-occurrence Knowledge between objects, and the learnable term frequency-inverse document frequency (TF-l-IDF) to solve the long-tail problem. We applied the proposed model to the SGG benchmark dataset, and the results showed a performance improvement of up to 3.8% compared with existing state-of-the-art models in SGGen subtask. The proposed method exhibits generalization ability from the results obtained, showing uniform performance improvement for all MPNN models.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# 不均一グラフニューラルネットワークの大域的説明のための記述論理の利用

Utilizing Description Logics for Global Explanations of Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2405.12654v1 )

ライセンス: Link先を確認
Dominik Köhler, Stefan Heindorf, (参考訳) グラフニューラルネットワーク(GNN)はグラフ構造化データのノード分類に有効であるが、特にグローバルレベルでは説明性に欠ける。 現在の研究は主に、入力のサブグラフを局所的な説明として、あるいはグローバルな説明として新しいグラフを生成する。 しかし、これらのグラフベースの手法は、複数の十分説明のあるクラスを説明する能力に制限がある。 より表現力のある説明を提供するために、記述論理(DL)の分野からクラス表現(CE)を活用することを提案する。 提案手法では,EL記述論理のCEを用いて,異なる種類のノードを持つ異種グラフを解析する。 提案手法では,まず,各CEに対して,複数のグラフを構築し,GNNが各グラフに対して予測を行い,予測スコアを集計する。 2) CEの正当性,すなわちGNNの予測とCEの予測を別個の検証セットで比較する。 サブグラフベースの説明の代わりに、CEベースの説明を提供する。

Graph Neural Networks (GNNs) are effective for node classification in graph-structured data, but they lack explainability, especially at the global level. Current research mainly utilizes subgraphs of the input as local explanations or generates new graphs as global explanations. However, these graph-based methods are limited in their ability to explain classes with multiple sufficient explanations. To provide more expressive explanations, we propose utilizing class expressions (CEs) from the field of description logic (DL). Our approach explains heterogeneous graphs with different types of nodes using CEs in the EL description logic. To identify the best explanation among multiple candidate explanations, we employ and compare two different scoring functions: (1) For a given CE, we construct multiple graphs, have the GNN make a prediction for each graph, and aggregate the predicted scores. (2) We score the CE in terms of fidelity, i.e., we compare the predictions of the GNN to the predictions by the CE on a separate validation set. Instead of subgraph-based explanations, we offer CE-based explanations.
翻訳日:2024-05-22 13:49:12 公開日:2024-05-21
# 極多ラベル知識グラフリンク予測のための検索言語モデル

Retrieval-Augmented Language Model for Extreme Multi-Label Knowledge Graph Link Prediction ( http://arxiv.org/abs/2405.12656v1 )

ライセンス: Link先を確認
Yu-Hsiang Lin, Huang-Ting Shieh, Chih-Yu Liu, Kuang-Ting Lee, Hsiao-Cheng Chang, Jing-Lun Yang, Yu-Sheng Lin, (参考訳) オープンエンド調査のための大規模言語モデル(LLM)における外挿は,(1)幻覚と(2)高価なトレーニングコストの2つの重要な問題に遭遇する。 これらの課題は、専門分野とパーソナライズされたデータにおけるLLMの課題であり、真理的な応答と低い微調整コストを必要とする。 既存の作業は、知識グラフ(KG)からの情報により、より小さな言語モデルの入力を増大させることによって、この問題に対処しようとするものである。 しかし,(1)KGの大型ワンホップ地区から関連情報を抽出できないこと,(2)KGに対して異なる特性を持つKGに対して同様の拡張戦略を適用すること,の2つの制限がある。 さらに、オープンエンド調査は一般的に複数の応答をもたらし、さらに外挿を複雑にする。 そこで本研究では,構造化実世界の知識を用いて,複数の応答でモデル外挿を行うための,超多ラベルKGリンク予測タスクを提案する。 検索者は、エンティティ、リレーション、テキストデータを一緒に検討することで、関連するワンホップ隣人を特定する。 実験により,(1)異なる特徴を持つKGは異なる拡張戦略を必要とし,(2)テキストデータによる言語モデルの入力を増大させることで,タスク性能が大幅に向上することが示された。 検索拡張フレームワークをKGに組み込むことで,提案したKGに基づく外挿が可能となる。 コードはGitHubで入手できる。 https://github.com/exiled1143/Retrieval-Augmented-Language-Model-for-Multi-Label-Knowledge-Graph-Lin k-Prediction.git

Extrapolation in Large language models (LLMs) for open-ended inquiry encounters two pivotal issues: (1) hallucination and (2) expensive training costs. These issues present challenges for LLMs in specialized domains and personalized data, requiring truthful responses and low fine-tuning costs. Existing works attempt to tackle the problem by augmenting the input of a smaller language model with information from a knowledge graph (KG). However, they have two limitations: (1) failing to extract relevant information from a large one-hop neighborhood in KG and (2) applying the same augmentation strategy for KGs with different characteristics that may result in low performance. Moreover, open-ended inquiry typically yields multiple responses, further complicating extrapolation. We propose a new task, the extreme multi-label KG link prediction task, to enable a model to perform extrapolation with multiple responses using structured real-world knowledge. Our retriever identifies relevant one-hop neighbors by considering entity, relation, and textual data together. Our experiments demonstrate that (1) KGs with different characteristics require different augmenting strategies, and (2) augmenting the language model's input with textual data improves task performance significantly. By incorporating the retrieval-augmented framework with KG, our framework, with a small parameter size, is able to extrapolate based on a given KG. The code can be obtained on GitHub: https://github.com/exiled1143/Retrieval-Augmented-Language-Model-for-Multi-Label-Knowledge-Graph-Lin k-Prediction.git
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# 極活動捕獲による分布外検出における過信の軽減

Mitigating Overconfidence in Out-of-Distribution Detection by Capturing Extreme Activations ( http://arxiv.org/abs/2405.12658v1 )

ライセンス: Link先を確認
Mohammad Azizmalayeri, Ameen Abu-Hanna, Giovanni Cinà, (参考訳) 現実世界のシナリオにおいて、マシンラーニングモデルの信頼性の高いデプロイには、アウト・オブ・ディストリビューション(OOD)インスタンスの検出が不可欠だ。 OOD入力は、通常、一次タスクにおいてより不確実な予測を引き起こすと予測されるが、モデルが高い信頼性の予測を返すOODケースが存在する。 この現象は「過信」と表現され、OOD検出に挑戦する。 特に、理論的な証拠は、過信は特定のニューラルネットワークアーキテクチャの本質的な性質であり、OOD検出の低さにつながることを示している。 本研究では,ニューラルネットワークの終端層における極端な活性化値を測定し,この過信のプロキシを利用して複数のOOD検出ベースラインを改善することにより,この問題に対処する。 提案手法は,合成データと実世界のデータ,表と画像のデータセット,ResNetやTransformerなどの複数のアーキテクチャ,トレーニング損失関数の相違,過去の理論的研究で検討されたシナリオを含む,幅広い実験で検証する。 ベースラインと比較すると,OOD検出AUCは2桁に増加し,どのシナリオにおいても性能が損なわれることはない。

Detecting out-of-distribution (OOD) instances is crucial for the reliable deployment of machine learning models in real-world scenarios. OOD inputs are commonly expected to cause a more uncertain prediction in the primary task; however, there are OOD cases for which the model returns a highly confident prediction. This phenomenon, denoted as "overconfidence", presents a challenge to OOD detection. Specifically, theoretical evidence indicates that overconfidence is an intrinsic property of certain neural network architectures, leading to poor OOD detection. In this work, we address this issue by measuring extreme activation values in the penultimate layer of neural networks and then leverage this proxy of overconfidence to improve on several OOD detection baselines. We test our method on a wide array of experiments spanning synthetic data and real-world data, tabular and image datasets, multiple architectures such as ResNet and Transformer, different training loss functions, and include the scenarios examined in previous theoretical work. Compared to the baselines, our method often grants substantial improvements, with double-digit increases in OOD detection AUC, and it does not damage performance in any scenario.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# EmoEdit:イメージ操作による感情の誘発

EmoEdit: Evoking Emotions through Image Manipulation ( http://arxiv.org/abs/2405.12661v1 )

ライセンス: Link先を確認
Jingyuan Yang, Jiawei Feng, Weibin Luo, Dani Lischinski, Daniel Cohen-Or, Hui Huang, (参考訳) Affective Image Manipulation (AIM) は、特定の感情的な反応を誘発するために、ユーザーが提供する画像を修正しようとする。 このタスクは、2つの目的のために本質的に複雑であり、意図した感情を著しく誘発し、元のイメージ構成を保存する。 既存のAIM手法は主に色とスタイルを調整し、しばしば正確な感情的な変化を誘発しない。 心理学的洞察に基づいて、感情的影響を高めるためにコンテンツ修正を取り入れてAIMを拡張した。 EmoEditは感情の属性と画像の編集を含む新しい2段階のフレームワークである。 感情帰属の段階では、視覚言語モデル(VLM)を用いて抽象的な感情を表現する意味的要因の階層を作成する。 画像編集段階では、VLMは提供された画像の最も関連性の高い要素を特定し、生成編集モデルを誘導し、情緒的な修正を行う。 私たちが開発したランキング手法は、感情の忠実度と構造的整合性の間のバランスをとり、最適な編集方法を選択する。 EmoEditを検証するため、416の画像のデータセットを正、負、中立のクラスに分類した。 本手法は定性的かつ定量的に評価され,従来の最先端技術と比較して優れた性能を示す。 さらに、感情指向やセマンティックス指向の編集など、様々な操作タスクにおけるEmoEditの可能性を示す。

Affective Image Manipulation (AIM) seeks to modify user-provided images to evoke specific emotional responses. This task is inherently complex due to its twofold objective: significantly evoking the intended emotion, while preserving the original image composition. Existing AIM methods primarily adjust color and style, often failing to elicit precise and profound emotional shifts. Drawing on psychological insights, we extend AIM by incorporating content modifications to enhance emotional impact. We introduce EmoEdit, a novel two-stage framework comprising emotion attribution and image editing. In the emotion attribution stage, we leverage a Vision-Language Model (VLM) to create hierarchies of semantic factors that represent abstract emotions. In the image editing stage, the VLM identifies the most relevant factors for the provided image, and guides a generative editing model to perform affective modifications. A ranking technique that we developed selects the best edit, balancing between emotion fidelity and structure integrity. To validate EmoEdit, we assembled a dataset of 416 images, categorized into positive, negative, and neutral classes. Our method is evaluated both qualitatively and quantitatively, demonstrating superior performance compared to existing state-of-the-art techniques. Additionally, we showcase EmoEdit's potential in various manipulation tasks, including emotion-oriented and semantics-oriented editing.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# LAGA:ガウススプラッティングによる層状3次元アバターの生成とカスタマイズ

LAGA: Layered 3D Avatar Generation and Customization via Gaussian Splatting ( http://arxiv.org/abs/2405.12663v1 )

ライセンス: Link先を確認
Jia Gong, Shenyu Ji, Lin Geng Foo, Kang Chen, Hossein Rahmani, Jun Liu, (参考訳) テキストによる記述から3D服のアバターを作り、カスタマイズすることは、重要で難しい課題だ。 伝統的な方法では、人体や衣服を分離不可能として扱い、衣服を自由に混ぜてマッチする能力を制限している。 この制限に対応するために、我々は、多彩な衣服で高忠実な分解可能なアバターを作成できる、慎重に設計された枠組みであるLAGA(Layered Gaussian Avatar)を提示する。 衣料品をアバターから切り離すことで,アバターを衣服レベルで安定的に編集することを可能にする。 我々のアプローチは、各層が特定の衣服や人体そのものに対応する階層構造で組織されたガウス点の集合を用いてアバターをモデル化することから始まります。 高品質な衣服を各層に生成するために,多彩な衣服生成のための粗大な戦略と,人体や他の衣服を含むアバター成分とのコヒーレンスを維持するための新しい二重SDS損失関数を導入する。 さらに,3つの正規化損失を導入し,ガウスの衣服移動を誘導し,衣服を様々なアバターに自由に移動させることを可能にした。 広汎な実験により、我々のアプローチは3D衣料人間の生成において既存の手法を超越していることが示される。

Creating and customizing a 3D clothed avatar from textual descriptions is a critical and challenging task. Traditional methods often treat the human body and clothing as inseparable, limiting users' ability to freely mix and match garments. In response to this limitation, we present LAyered Gaussian Avatar (LAGA), a carefully designed framework enabling the creation of high-fidelity decomposable avatars with diverse garments. By decoupling garments from avatar, our framework empowers users to conviniently edit avatars at the garment level. Our approach begins by modeling the avatar using a set of Gaussian points organized in a layered structure, where each layer corresponds to a specific garment or the human body itself. To generate high-quality garments for each layer, we introduce a coarse-to-fine strategy for diverse garment generation and a novel dual-SDS loss function to maintain coherence between the generated garments and avatar components, including the human body and other garments. Moreover, we introduce three regularization losses to guide the movement of Gaussians for garment transfer, allowing garments to be freely transferred to various avatars. Extensive experimentation demonstrates that our approach surpasses existing methods in the generation of 3D clothed humans.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# SYMPLEX:語彙前の単純な拡散を用いた制御可能なシンボリック音楽生成

SYMPLEX: Controllable Symbolic Music Generation using Simplex Diffusion with Vocabulary Priors ( http://arxiv.org/abs/2405.12666v1 )

ライセンス: Link先を確認
Nicolas Jonason, Luca Casini, Bob L. T. Sturm, (参考訳) 本稿では,信号空間ではなく確率に作用する拡散過程である単純な拡散に基づく,高速かつ制御可能な記号音楽生成のための新しい手法を提案する。 この目的は自然言語処理などの分野に応用されてきたが、ここでは秩序のない表現を用いた4バー多構成音楽ループの生成に適用する。 我々のモデルは,例えば時間やピッチ,楽器の選択といった音楽生成プロセスに対して,タスク固有のモデル適応や外在的制御を使わずに,かなりのレベルの制御が可能な,語彙の先行処理で操ることができることを示す。

We present a new approach for fast and controllable generation of symbolic music based on the simplex diffusion, which is essentially a diffusion process operating on probabilities rather than the signal space. This objective has been applied in domains such as natural language processing but here we apply it to generating 4-bar multi-instrument music loops using an orderless representation. We show that our model can be steered with vocabulary priors, which affords a considerable level control over the music generation process, for instance, infilling in time and pitch and choice of instrumentation -- all without task-specific model adaptation or applying extrinsic control.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# マルチモーダル機械翻訳に関する調査:課題,方法,課題

A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges ( http://arxiv.org/abs/2405.12669v1 )

ライセンス: Link先を確認
Huangjun Shen, Liangying Shao, Wenbo Li, Zhibin Lan, Zhanyu Liu, Jinsong Su, (参考訳) 近年、マルチモーダル機械翻訳は、その優れた性能のために、学術と産業の両方に大きな関心を集めている。 テキストと視覚の両方を入力として取り、視覚的コンテキストを活用して、ソーステキストの曖昧さに対処する。 本稿では、99の先行研究の概要を概観し、支配的なモデル、データセット、評価指標の観点から代表研究を包括的に要約することから始める。 その後,様々な要因がモデル性能に与える影響を分析し,今後の課題について検討する。 時間が経つにつれ、多モーダル機械翻訳は様々なニーズを満たすためにより多くのタイプを開発した。 マルチモーダル機械翻訳の初期段階に限られる以前の調査とは違い,本調査では,これらの新種をさまざまな側面から徹底的に結論付け,研究者に現状の理解を深めることを目的としている。

In recent years, multi-modal machine translation has attracted significant interest in both academia and industry due to its superior performance. It takes both textual and visual modalities as inputs, leveraging visual context to tackle the ambiguities in source texts. In this paper, we begin by offering an exhaustive overview of 99 prior works, comprehensively summarizing representative studies from the perspectives of dominant models, datasets, and evaluation metrics. Afterwards, we analyze the impact of various factors on model performance and finally discuss the possible research directions for this task in the future. Over time, multi-modal machine translation has developed more types to meet diverse needs. Unlike previous surveys confined to the early stage of multi-modal machine translation, our survey thoroughly concludes these emerging types from different aspects, so as to provide researchers with a better understanding of its current state.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# UAVの自律着陸のためのマルチモーダル学習に基づくアプローチ

A Multimodal Learning-based Approach for Autonomous Landing of UAV ( http://arxiv.org/abs/2405.12681v1 )

ライセンス: Link先を確認
Francisco Neves, Luís Branco, Maria Pereira, Rafael Claro, Andry Pinto, (参考訳) 無人無人航空機(UAV)着陸の分野では、従来のアプローチは必要な精度だけでなく、環境障害に対する弾力性も提供できない。 しかし、学習ベースのアルゴリズムは、データからインテリジェントな振る舞いを学ぶ能力を活用することによって、有望なソリューションを提供することができる。 一方,本研究では,高精度な自律着陸のための信頼性の高い位置決めが可能な,マルチモーダルトランスフォーマーに基づくDeep Learning検出器を提案する。 個々のセンサーの制限に対処し、多様な天候やセンサーの故障状況においても高い信頼性を達成することで、標準的なアプローチを超越している。 様々な環境において厳密に検証され、最適な真の正の速度と平均精度を最大90%まで達成した。 一方,Deep Q-Network(DQN)の理論的根拠に基づく強化学習(RL)意思決定モデルを提案する。 最初は要約で訓練され、適応的な振る舞いは実際の屋外シナリオでうまく転送され、検証される。 さらに、このアプローチは、およそ5msの高速な推論時間を示し、エッジデバイスへの適用性を検証する。

In the field of autonomous Unmanned Aerial Vehicles (UAVs) landing, conventional approaches fall short in delivering not only the required precision but also the resilience against environmental disturbances. Yet, learning-based algorithms can offer promising solutions by leveraging their ability to learn the intelligent behaviour from data. On one hand, this paper introduces a novel multimodal transformer-based Deep Learning detector, that can provide reliable positioning for precise autonomous landing. It surpasses standard approaches by addressing individual sensor limitations, achieving high reliability even in diverse weather and sensor failure conditions. It was rigorously validated across varying environments, achieving optimal true positive rates and average precisions of up to 90%. On the other hand, it is proposed a Reinforcement Learning (RL) decision-making model, based on a Deep Q-Network (DQN) rationale. Initially trained in sumlation, its adaptive behaviour is successfully transferred and validated in a real outdoor scenario. Furthermore, this approach demonstrates rapid inference times of approximately 5ms, validating its applicability on edge devices.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# 不確実性評価を用いたモデルフリー予測

Model Free Prediction with Uncertainty Assessment ( http://arxiv.org/abs/2405.12684v1 )

ライセンス: Link先を確認
Yuling Jiao, Lican Kang, Jin Liu, Heng Peng, Heng Zuo, (参考訳) 近年,標的関数の学習にディープニューラルネットワークの利用を特徴とするディープ非パラメトリック回帰が研究の焦点として注目されている。 理解収束率のかなりの進歩にもかかわらず、漸近性の欠如は厳密な統計的推測を妨げる。 このギャップに対処するため, 条件付き平均推定を行うプラットフォームに, 条件付き拡散モデルを活用して, 深い推定パラダイムを変換する新しいフレームワークを提案する。 理論的には,条件付き拡散モデルのための終端収束率を開発し,生成したサンプルの漸近正規性を確立する。 その結果,信頼性領域の構築が可能となり,統計的に頑健な推測が可能となった。 さらに,数値実験により提案手法の有効性を実証的に検証した。

Deep nonparametric regression, characterized by the utilization of deep neural networks to learn target functions, has emerged as a focal point of research attention in recent years. Despite considerable progress in understanding convergence rates, the absence of asymptotic properties hinders rigorous statistical inference. To address this gap, we propose a novel framework that transforms the deep estimation paradigm into a platform conducive to conditional mean estimation, leveraging the conditional diffusion model. Theoretically, we develop an end-to-end convergence rate for the conditional diffusion model and establish the asymptotic normality of the generated samples. Consequently, we are equipped to construct confidence regions, facilitating robust statistical inference. Furthermore, through numerical experiments, we empirically validate the efficacy of our proposed methodology.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# AIのタッチを見つける: LLM対応のスパンをテキストで識別する

Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text ( http://arxiv.org/abs/2405.12689v1 )

ライセンス: Link先を確認
Yafu Li, Zhilin Wang, Leyang Cui, Wei Bi, Shuming Shi, Yue Zhang, (参考訳) AI生成テキスト検出は、強力な言語モデルが人間レベルの生成に近づくにつれ、注目を集めている。 限定的な作業は、(部分的には)AIパラフレーズテキストの検出に費やされている。 しかし、AIパラフレーズは、テキストの洗練と多様性のための様々なアプリケーションシナリオで一般的に使用される。 そこで本研究では,パラフレーズ付きテキストスパン検出(PTD)という新たな検出フレームワークを提案し,テキスト内のパラフレーズ付きテキストスパンを同定する。 テキストレベルの検出とは異なり、PTDは全文を取り込み、各文にパラフレーズ度を示すスコアを割り当てる。 パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。 In-distriionとout-of-distriionの結果は、AIパラフレーズテキストスパンの同定におけるPTDモデルの有効性を示す。 統計的およびモデル解析は、パラフレーズ付きテキストの周囲の文脈の重要な役割を説明する。 広範な実験により、PTDモデルは多種多様なパラフレージングプロンプトと複数のパラフレージングテキストスパンに一般化できることが示されている。 私たちはリソースをhttps://github.com/Linzwcs/PASTEDでリリースします。

AI-generated text detection has attracted increasing attention as powerful language models approach human-level generation. Limited work is devoted to detecting (partially) AI-paraphrased texts. However, AI paraphrasing is commonly employed in various application scenarios for text refinement and diversity. To this end, we propose a novel detection framework, paraphrased text span detection (PTD), aiming to identify paraphrased text spans within a text. Different from text-level detection, PTD takes in the full text and assigns each of the sentences with a score indicating the paraphrasing degree. We construct a dedicated dataset, PASTED, for paraphrased text span detection. Both in-distribution and out-of-distribution results demonstrate the effectiveness of PTD models in identifying AI-paraphrased text spans. Statistical and model analysis explains the crucial role of the surrounding context of the paraphrased text spans. Extensive experiments show that PTD models can generalize to versatile paraphrasing prompts and multiple paraphrased text spans. We release our resources at https://github.com/Linzwcs/PASTED.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# 法医学的手書き検査者を支援する説明可能なオフライン自動署名検証器

Explainable offline automatic signature verifier to support forensic handwriting examiners ( http://arxiv.org/abs/2405.12695v1 )

ライセンス: Link先を確認
Moises Diaz, Miguel A. Ferrer, Gennaro Vessio, (参考訳) 署名検証は、法科学、法的判断、金融市場など、多くの応用において重要な課題である。 しかし、現在のシグネチャ検証システムは説明が難しいことが多いため、これらのアプリケーションでの受け入れを制限することができる。 本稿では,法医学的手書き検査を支援するために,新しい説明可能なオフライン自動署名検証器(ASV)を提案する。 我々のASVは、オフラインの署名画像から構築された普遍的背景モデル(UBM)に基づいている。 これにより、単純な距離測度を用いて、UBMと既知のシグネチャの参照セットに疑わしいシグネチャを割り当てることができます。 これにより、検証者の判断を非専門家に理解可能な方法で説明することができる。 ASVを公開データベース上で評価した結果,1対1の課題を考慮した場合であっても,最先端のASVと競合する性能が得られた。 以上の結果から,性能の面でも競争力のある説明可能なASVを開発することが可能であることが示唆された。 ASVは、法医学や法的判断などの重要な応用において、署名検証の受け入れを改善する可能性を秘めていると信じている。

Signature verification is a critical task in many applications, including forensic science, legal judgments, and financial markets. However, current signature verification systems are often difficult to explain, which can limit their acceptance in these applications. In this paper, we propose a novel explainable offline automatic signature verifier (ASV) to support forensic handwriting examiners. Our ASV is based on a universal background model (UBM) constructed from offline signature images. It allows us to assign a questioned signature to the UBM and to a reference set of known signatures using simple distance measures. This makes it possible to explain the verifier's decision in a way that is understandable to non experts. We evaluated our ASV on publicly available databases and found that it achieves competitive performance with state of the art ASVs, even when challenging 1 versus 1 comparison are considered. Our results demonstrate that it is possible to develop an explainable ASV that is also competitive in terms of performance. We believe that our ASV has the potential to improve the acceptance of signature verification in critical applications such as forensic science and legal judgments.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# OLAPH: バイオメディカルロングフォーム質問応答におけるファクタリティ向上

OLAPH: Improving Factuality in Biomedical Long-form Question Answering ( http://arxiv.org/abs/2405.12701v1 )

ライセンス: Link先を確認
Minbyul Jeong, Hyeon Hwang, Chanwoong Yoon, Taewhoo Lee, Jaewoo Kang, (参考訳) 医学領域では、多数のシナリオが大きな言語モデル(LLM)の長文生成能力を必要とする。 具体的には、患者の質問に対処する際には、モデルが実際の主張を伝達し、これらの主張を評価するための自動手法の必要性を強調することが不可欠である。 そこで本研究では,バイオメディカルドメインに関連する長文質問回答データセットを用いて再構成したベンチマークデータセットであるMedLFQAを紹介する。 我々は,MedLFQAを用いて事実自動評価を行う。 また,自動評価による現実性向上を実現するための,シンプルで斬新なフレームワークであるOLAPHを提案する。 OLAPHフレームワークは、サンプリング予測と選好最適化を使用して幻覚を軽減するためにLCMを反復的に訓練する。 言い換えれば、最も高いスコアング応答をサンプリング予測から導かれる優先応答として反復的に設定し、現実性を改善するための優先応答と整合するようにLLMを訓練する。 トレーニング中に使用されていない評価指標においても,OLAPHフレームワークでトレーニングしたLCMは,現実性において顕著なパフォーマンス向上を示す。 以上の結果から,OLAPHフレームワークでトレーニングした7B LLMでは,医療専門家の回答に匹敵する回答が得られた。 医療分野におけるLLMの長文生成能力の育成に光を当てる可能性があると我々は信じている。 私たちのコードとデータセットはhttps://github.com/dmis-lab/OLAPH}{https://github.com/dmis-lab/OLAPHで公開されています。

In the medical domain, numerous scenarios necessitate the long-form generation ability of large language models (LLMs). Specifically, when addressing patients' questions, it is essential that the model's response conveys factual claims, highlighting the need for an automated method to evaluate those claims. Thus, we introduce MedLFQA, a benchmark dataset reconstructed using long-form question-answering datasets related to the biomedical domain. We use MedLFQA to facilitate the automatic evaluations of factuality. We also propose OLAPH, a simple and novel framework that enables the improvement of factuality through automatic evaluations. The OLAPH framework iteratively trains LLMs to mitigate hallucinations using sampling predictions and preference optimization. In other words, we iteratively set the highest-scoring response as a preferred response derived from sampling predictions and train LLMs to align with the preferred response that improves factuality. We highlight that, even on evaluation metrics not used during training, LLMs trained with our OLAPH framework demonstrate significant performance improvement in factuality. Our findings reveal that a 7B LLM trained with our OLAPH framework can provide long answers comparable to the medical experts' answers in terms of factuality. We believe that our work could shed light on gauging the long-text generation ability of LLMs in the medical domain. Our code and datasets are available at https://github.com/dmis-lab/OLAPH}{https://github.com/dmis-lab/OLAPH.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# 早期退行を考慮した文書画像分類のためのマルチモーダル適応推論

Multimodal Adaptive Inference for Document Image Classification with Anytime Early Exiting ( http://arxiv.org/abs/2405.12705v1 )

ライセンス: Link先を確認
Omar Hamed, Souhail Bakkali, Marie-Francine Moens, Matthew Blaschko, Jordy Van Landeghem, (参考訳) この作業は、視覚的にリッチな文書理解(VDU)タスクのためのスケーラブルな運用環境におけるパフォーマンスと効率のバランスのとれたアプローチの必要性に対処する。 現在、高度な能力を提供するが、重い計算負担を伴う大規模なドキュメント基盤モデルに依存している。 本稿では,様々なトレーニング戦略,出口層タイプ,配置を組み込んだマルチモーダル早期退避モデルを提案する。 本研究の目的は,マルチモーダル文書画像分類における予測性能と効率のパレート最適バランスを実現することである。 包括的な実験を通じて、我々のアプローチを従来のエグジットポリシーと比較し、パフォーマンス効率のトレードオフの改善を示す。 私たちのマルチモーダルEE設計は、モデルの予測能力を保ち、スピードとレイテンシの両方を向上します。 これは、ベースライン精度を完全に維持しながら、20%以上のレイテンシの削減によって達成される。 この研究は、VDUコミュニティにおけるマルチモーダルEE設計の初めての調査であり、異なるレイヤでの離脱に対する信頼性スコアの改善におけるキャリブレーションの有効性を強調している。 全体として,本研究の成果は,性能と効率を両立させることにより,実用的なVDU応用に寄与する。

This work addresses the need for a balanced approach between performance and efficiency in scalable production environments for visually-rich document understanding (VDU) tasks. Currently, there is a reliance on large document foundation models that offer advanced capabilities but come with a heavy computational burden. In this paper, we propose a multimodal early exit (EE) model design that incorporates various training strategies, exit layer types and placements. Our goal is to achieve a Pareto-optimal balance between predictive performance and efficiency for multimodal document image classification. Through a comprehensive set of experiments, we compare our approach with traditional exit policies and showcase an improved performance-efficiency trade-off. Our multimodal EE design preserves the model's predictive capabilities, enhancing both speed and latency. This is achieved through a reduction of over 20% in latency, while fully retaining the baseline accuracy. This research represents the first exploration of multimodal EE design within the VDU community, highlighting as well the effectiveness of calibration in improving confidence scores for exiting at different layers. Overall, our findings contribute to practical VDU applications by enhancing both performance and efficiency.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# オープンアクセス観光カメラを用いた群集異常検出のためのマルチモーダルビデオ解析

Multimodal video analysis for crowd anomaly detection using open access tourism cameras ( http://arxiv.org/abs/2405.12708v1 )

ライセンス: Link先を確認
Alejandro Dionis-Ros, Joan Vila-Francés, Rafael Magdalena-Benedicto, Fernando Mateo, Antonio J. Serrano-López, (参考訳) 本稿では,マルチモーダル手法を用いて,時系列形式の情報抽出による群集異常の検出を提案する。 パターン認識アルゴリズムとセグメンテーションにより、一定間隔で人数と画像占有率の情報を抽出し、トレンドや異常な振る舞いを解析する。 具体的には, 時間的分解と残留分析により, 異常な行動の間隔や特定の状況が特定され, 観光やセキュリティなどの人的活動に関連する分野における意思決定や行動改善に利用することができる。 この手法がモレラ(スペイン、バレンシアナ)のTurisme Comunitat Valencianaのウェブカメラに応用されたことにより、優れた成果が得られた。 前週末と2023年10月の祭りの間に、特定の異常な状況と異常な全体的な増加を正しく検出することが示されている。 これらの結果は、トラジェクティブ記録や個人認識を使わずに、匿名性を最大化する手段を用いて、常に個人の機密性を保ちながら得られた。

In this article, we propose the detection of crowd anomalies through the extraction of information in the form of time series from video format using a multimodal approach. Through pattern recognition algorithms and segmentation, informative measures of the number of people and image occupancy are extracted at regular intervals, which are then analyzed to obtain trends and anomalous behaviors. Specifically, through temporal decomposition and residual analysis, intervals or specific situations of unusual behaviors are identified, which can be used in decision-making and improvement of actions in sectors related to human movement such as tourism or security. The application of this methodology on the webcam of Turisme Comunitat Valenciana in the town of Morella (Comunitat Valenciana, Spain) has provided excellent results. It is shown to correctly detect specific anomalous situations and unusual overall increases during the previous weekend and during the festivities in October 2023. These results have been obtained while preserving the confidentiality of individuals at all times by using measures that maximize anonymity, without trajectory recording or person recognition.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# グローバル・ローカル・セマンティック・一貫性学習によるテキスト・ビデオ検索

Text-Video Retrieval with Global-Local Semantic Consistent Learning ( http://arxiv.org/abs/2405.12710v1 )

ライセンス: Link先を確認
Haonan Zhang, Pengpeng Zeng, Lianli Gao, Jingkuan Song, Yihang Duan, Xinyu Lyu, Hengtao Shen, (参考訳) 大規模画像テキスト事前学習モデル(例えばCLIP)をビデオ領域に適応させることは、テキストビデオ検索の最先端を表現している。 第一のアプローチは、テキストとビデオのペアを共通の埋め込み空間に転送することと、特定のエンティティ上のクロスモーダルな相互作用を活用してセマンティックアライメントを構築することである。 効果はあるものの、これらのパラダイムは計算コストを禁止し、非効率な検索に繋がる。 そこで本研究では,テキスト・ビデオ検索のモダリティにまたがる潜在的共有セマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティック・ラーニング(GLSCL)を提案する。 具体的には、粗い粒度のアライメントを探索するパラメータフリーなグローバル相互作用モジュールを提案する。 そこで我々は,複数の学習可能なクエリを用いて,微粒なアライメントを学習するための潜在意味概念をキャプチャする共有ローカルインタラクションモジュールを考案した。 さらに、ビジュアルクエリと対応するテキストクエリの整合性を達成するために、ICL(Inter-Consistency Loss)が考案され、ビジュアル(テキスト)クエリ内の分散を反発させてより識別的な概念を生成するために、IDL(Intra-Diversity Loss)が開発された。 MSR-VTT, MSVD, DiDeMo, LSMDC, ActivityNet の5つの広く使用されているベンチマーク実験により,提案手法の有効性と有効性を実証した。 また,本手法はSOTAと同等の性能を示し,計算コストの約220倍の高速化を実現している。 コードは、https://github.com/zchoi/GLSCLで入手できる。

Adapting large-scale image-text pre-training models, e.g., CLIP, to the video domain represents the current state-of-the-art for text-video retrieval. The primary approaches involve transferring text-video pairs to a common embedding space and leveraging cross-modal interactions on specific entities for semantic alignment. Though effective, these paradigms entail prohibitive computational costs, leading to inefficient retrieval. To address this, we propose a simple yet effective method, Global-Local Semantic Consistent Learning (GLSCL), which capitalizes on latent shared semantics across modalities for text-video retrieval. Specifically, we introduce a parameter-free global interaction module to explore coarse-grained alignment. Then, we devise a shared local interaction module that employs several learnable queries to capture latent semantic concepts for learning fine-grained alignment. Furthermore, an Inter-Consistency Loss (ICL) is devised to accomplish the concept alignment between the visual query and corresponding textual query, and an Intra-Diversity Loss (IDL) is developed to repulse the distribution within visual (textual) queries to generate more discriminative concepts. Extensive experiments on five widely used benchmarks (i.e., MSR-VTT, MSVD, DiDeMo, LSMDC, and ActivityNet) substantiate the superior effectiveness and efficiency of the proposed method. Remarkably, our method achieves comparable performance with SOTA as well as being nearly 220 times faster in terms of computational cost. Code is available at: https://github.com/zchoi/GLSCL.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# オタゴマイクロラベル認識のための仮設半教師付き学習手法

A Masked Semi-Supervised Learning Approach for Otago Micro Labels Recognition ( http://arxiv.org/abs/2405.12711v1 )

ライセンス: Link先を確認
Meng Shang, Lenore Dedeyne, Jolan Dupont, Laura Vercauteren, Nadjia Amini, Laurence Lapauw, Evelien Gielen, Sabine Verschueren, Carolina Varon, Walter De Raedt, Bart Vanrumste, (参考訳) オタゴ運動プログラム(OEP)は,高齢者の力とバランスを高め,転倒を防止することを目的として,高齢者にとって重要なリハビリテーションイニシアチブとして機能する。 HAR(Human Activity Recognition)システムは個人の活動を認識するために広く利用されているが、既存のシステムはマクロ活動の継続(すなわち、同じエクササイズの連続)に焦点を当てており、OEPの場合、マイクロアクティビティ(例えば、エクササイズの個別の繰り返し)を識別する能力を無視している。 本研究は,OEPのマイクロアクティビティ認識において,このギャップを埋めることを目的とした,新しい半教師付き機械学習手法を提案する。 限られたデータセットサイズを管理するため,本モデルはTransformerエンコーダを用いて特徴抽出を行い,その後,Temporal Convolutional Network (TCN) によって分類した。 同時に、トランスフォーマーエンコーダは、暗黙の教師なし学習に使われ、入力信号を再構成する。 その結果, マスク付き教師なし学習課題は, 臨床的に適用可能な0.8の閾値を超えるf1スコアで証明されるように, 教師付き学習(分類タスク)の性能を高めることが示唆された。 マイクロアクティビティから、各エクササイズの反復回数を数え、椅子の上昇時の速度を計算するという、臨床的に関係のある2つの結果が現われる。 これらの結果から,高齢者の日常生活における運動強度と難易度の自動モニタリングが可能となった。

The Otago Exercise Program (OEP) serves as a vital rehabilitation initiative for older adults, aiming to enhance their strength and balance, and consequently prevent falls. While Human Activity Recognition (HAR) systems have been widely employed in recognizing the activities of individuals, existing systems focus on the duration of macro activities (i.e. a sequence of repetitions of the same exercise), neglecting the ability to discern micro activities (i.e. the individual repetitions of the exercises), in the case of OEP. This study presents a novel semi-supervised machine learning approach aimed at bridging this gap in recognizing the micro activities of OEP. To manage the limited dataset size, our model utilizes a Transformer encoder for feature extraction, subsequently classified by a Temporal Convolutional Network (TCN). Simultaneously, the Transformer encoder is employed for masked unsupervised learning to reconstruct input signals. Results indicate that the masked unsupervised learning task enhances the performance of the supervised learning (classification task), as evidenced by f1-scores surpassing the clinically applicable threshold of 0.8. From the micro activities, two clinically relevant outcomes emerge: counting the number of repetitions of each exercise and calculating the velocity during chair rising. These outcomes enable the automatic monitoring of exercise intensity and difficulty in the daily lives of older adults.
翻訳日:2024-05-22 13:39:22 公開日:2024-05-21
# ヒューマン・トゥ・ヒューマンからソフトウェア・エンジニアリングにおけるヒューマン・トゥ・ボット・会話へ

From Human-to-Human to Human-to-Bot Conversations in Software Engineering ( http://arxiv.org/abs/2405.12712v1 )

ライセンス: Link先を確認
Ranim Khojah, Francisco Gomes de Oliveira Neto, Philipp Leitner, (参考訳) ソフトウェア開発者は自然言語を使って他の人間だけでなく、チャットボットとも対話する。 これらのインタラクションは、開発者が何を達成したいのか、誰と対話したいのかに基づいて、異なる特性とフローを持つ。 本稿では、AIとチャットボットの統合後、現代のソフトウェア開発において発生する会話のダイナミクスを理解することを目的として、協調作業における人間の会話に加えて、チャットボットのインタラクションを含めることの利点とデメリットをより深く認識することを目的とする。 既存の会話属性を人間やNLUベースのチャットボットとコンパイルし、ソフトウェア開発のコンテキストに適応する。 次に,LLMを用いたチャットボットとの比較を観察研究に基づいて拡張する。 我々は人間同士の会話と人間同士の会話の類似点と相違点を示し、またNLUとLLMベースのチャットボットを区別する。 さらに、会話スタイルの違いを理解することで、開発者が会話から期待をどう形作り、その結果、ソフトウェアチーム内のコミュニケーションを支援するかについて、どのように理解するかについて議論する。 我々は,LLMチャットボットによる最近の会話スタイルは,生産性を向上し,開発者の精神的負担を軽減する能力にもかかわらず,社会的側面に関する特定の属性のため,人間との会話を置き換えることはできないと結論付けた。

Software developers use natural language to interact not only with other humans, but increasingly also with chatbots. These interactions have different properties and flow differently based on what goal the developer wants to achieve and who they interact with. In this paper, we aim to understand the dynamics of conversations that occur during modern software development after the integration of AI and chatbots, enabling a deeper recognition of the advantages and disadvantages of including chatbot interactions in addition to human conversations in collaborative work. We compile existing conversation attributes with humans and NLU-based chatbots and adapt them to the context of software development. Then, we extend the comparison to include LLM-powered chatbots based on an observational study. We present similarities and differences between human-to-human and human-to-bot conversations, also distinguishing between NLU- and LLM-based chatbots. Furthermore, we discuss how understanding the differences among the conversation styles guides the developer on how to shape their expectations from a conversation and consequently support the communication within a software team. We conclude that the recent conversation styles that we observe with LLM-chatbots can not replace conversations with humans due to certain attributes regarding social aspects despite their ability to support productivity and decrease the developers' mental load.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# 可視赤外人物再識別のための動的アイデンティティ誘導注意ネットワーク

Dynamic Identity-Guided Attention Network for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2405.12713v1 )

ライセンス: Link先を確認
Peng Gao, Yujian Lee, Hui Zhang, Xubo Liu, Yiyang Hu, Guquan Jing, (参考訳) Visible-infrared person re-identification (VI-ReID) は、可視光と赤外線の同一性を持つ人物をマッチングすることを目的としている。 VI-ReIDは、異なるモダリティの下で個々の外観に大きな違いがあるため、難しい課題である。 既存の手法は一般的に、画像や特徴レベルでのクロスモーダルな違いを橋渡ししようとする。 これらのクロスモーダルな不一致を効果的に最小化することは、アイデンティティによって導かれ、モダリティ全体にわたって一貫した表現を得るだけでなく、アイデンティティとは無関係な表現をフィルタリングすることに依存する。 これらの課題に対処するために、動的ID誘導型注意ネットワーク(DIAN)を導入し、異なるモダリティ間のギャップを効果的に埋めることを可能にする。 特に、DIANでは、意味的にリッチな表現を追求するために、まず直交射影を用いて、2つの連結された粗い層と細い層から特徴を融合する。 さらに、まず動的畳み込みカーネルを用いて、アイデンティティとモダリティに一貫性のある表現をマイニングする。 さらに、上述の埋め込みによるクロスモーダルな差異を効果的に橋渡しするために、クロス埋め込みバランス損失が導入された。 SYSU-MM01とRegDBデータセットの実験結果は、DIANが最先端のパフォーマンスを達成することを示す。 具体的には,SYSU-MM01の屋内探索では,86.28%のランク1精度と87.41%のmAPを達成した。 私たちのコードはまもなく利用可能になります。

Visible-infrared person re-identification (VI-ReID) aims to match people with the same identity between visible and infrared modalities. VI-ReID is a challenging task due to the large differences in individual appearance under different modalities. Existing methods generally try to bridge the cross-modal differences at image or feature level, which lacks exploring the discriminative embeddings. Effectively minimizing these cross-modal discrepancies relies on obtaining representations that are guided by identity and consistent across modalities, while also filtering out representations that are irrelevant to identity. To address these challenges, we introduce a dynamic identity-guided attention network (DIAN) to mine identity-guided and modality-consistent embeddings, facilitating effective bridging the gap between different modalities. Specifically, in DIAN, to pursue a semantically richer representation, we first use orthogonal projection to fuse the features from two connected coarse and fine layers. Furthermore, we first use dynamic convolution kernels to mine identity-guided and modality-consistent representations. More notably, a cross embedding balancing loss is introduced to effectively bridge cross-modal discrepancies by above embeddings. Experimental results on SYSU-MM01 and RegDB datasets show that DIAN achieves state-of-the-art performance. Specifically, for indoor search on SYSU-MM01, our method achieves 86.28% rank-1 accuracy and 87.41% mAP, respectively. Our code will be available soon.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# 非線形ダイナミクスのための量子アルゴリズム:散逸条件のないカールマン線形化の再検討

Quantum Algorithms for Nonlinear Dynamics: Revisiting Carleman Linearization with No Dissipative Conditions ( http://arxiv.org/abs/2405.12714v1 )

ライセンス: Link先を確認
Hsuan-Cheng Wu, Jingyao Wang, Xiantao Li, (参考訳) 本稿では,非線形力学系のカルマン線形化法による線形常微分方程式(ODE)への埋め込みについて検討する。 散逸条件下では、多くの先行研究がカールマン線形化の厳密な誤差境界と線形収束を確立しており、これは大規模力学系をシミュレートする量子上の利点の同定に役立っている。 我々の分析は、従来の散逸状態を超えて誤差境界を探索することによってこれらの知見を拡張し、量子計算の利点の範囲を新しい種類の動的レジームへと広げる。 この新しい状態は共振条件によって定義され、この共振条件がカールマン線型化のトランケーションレベル$N$に対して線形収束をもたらすことを示す。 我々は、バーガーズ方程式、フェルミ・パスタ・ウラム(FPU)鎖、コルテヴェーグ・ド・ヴリー(KdV)方程式など、様々なモデルに関する数値実験により、我々の分析を検証し、実際的な意味を実証する理論的な進歩を支持する。

In this paper, we explore the embedding of nonlinear dynamical systems into linear ordinary differential equations (ODEs) via the Carleman linearization method. Under dissipative conditions, numerous previous works have established rigorous error bounds and linear convergence for Carleman linearization, which have facilitated the identification of quantum advantages in simulating large-scale dynamical systems. Our analysis extends these findings by exploring error bounds beyond the traditional dissipative condition, thereby broadening the scope of quantum computational benefits to a new class of dynamical regimes. This novel regime is defined by a resonance condition, and we prove how this resonance condition leads to a linear convergence with respect to the truncation level $N$ in Carleman linearization. We support our theoretical advancements with numerical experiments on a variety of models, including the Burgers' equation, Fermi-Pasta-Ulam (FPU) chains, and the Korteweg-de Vries (KdV) equations, to validate our analysis and demonstrate the practical implications.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# RecGPT: テキストベースのレコメンデーションのための生成前トレーニング

RecGPT: Generative Pre-training for Text-based Recommendation ( http://arxiv.org/abs/2405.12715v1 )

ライセンス: Link先を確認
Hoang Ngo, Dat Quoc Nguyen, (参考訳) ドメイン適応型および完全学習型大規模言語モデルであるRecGPT-7Bとその命令追従型であるRecGPT-7B-Instructをテキストベースで提案する。 評価予測とシーケンシャルレコメンデーションタスクによる実験結果から,我々のモデルであるRecGPT-7B-Instructは,従来の強いベースラインよりも優れていた。 RecGPTモデルだけでなく、トレーニング済みで微調整されたデータセットもリリースしています。 https://github.com/VinAIResearch/RecGPT

We present the first domain-adapted and fully-trained large language model, RecGPT-7B, and its instruction-following variant, RecGPT-7B-Instruct, for text-based recommendation. Experimental results on rating prediction and sequential recommendation tasks show that our model, RecGPT-7B-Instruct, outperforms previous strong baselines. We are releasing our RecGPT models as well as their pre-training and fine-tuning datasets to facilitate future research and downstream applications in text-based recommendation. Public "huggingface" links to our RecGPT models and datasets are available at: https://github.com/VinAIResearch/RecGPT
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# 農作物のピアツーピアエネルギー取引を可能にする強化学習

Reinforcement Learning Enabled Peer-to-Peer Energy Trading for Dairy Farms ( http://arxiv.org/abs/2405.12716v1 )

ライセンス: Link先を確認
Mian Ibad Ali Shah, Enda Barrett, Karl Mason, (参考訳) 農家はエネルギー効率を高め、化石燃料やグリッドへの依存を減らすために再生可能エネルギーの採用をますます進めている。 このシフトは、ピアツーピア市場で余剰再生可能エネルギーの販売を可能にすることで、伝統的な電力網への乳農家の依存を減らすことを目的としている。 しかし、農業社会の動的な性質は、P2Pエネルギー取引のための特別なアルゴリズムを必要とする問題を引き起こす。 これを解決するため,MAPDES(Multi-Agent Peer-to-Peer Dairy Farm Energy Simulator)を開発した。 シミュレーションでは、電力コストの43%削減、ピーク需要の42%削減、エネルギー販売の1.91%増加など、ピアツーピアエネルギー取引や再生可能エネルギー源の欠如など、大幅なコスト削減が示されている。

Farm businesses are increasingly adopting renewables to enhance energy efficiency and reduce reliance on fossil fuels and the grid. This shift aims to decrease dairy farms' dependence on traditional electricity grids by enabling the sale of surplus renewable energy in Peer-to-Peer markets. However, the dynamic nature of farm communities poses challenges, requiring specialized algorithms for P2P energy trading. To address this, the Multi-Agent Peer-to-Peer Dairy Farm Energy Simulator (MAPDES) has been developed, providing a platform to experiment with Reinforcement Learning techniques. The simulations demonstrate significant cost savings, including a 43% reduction in electricity expenses, a 42% decrease in peak demand, and a 1.91% increase in energy sales compared to baseline scenarios lacking peer-to-peer energy trading or renewable energy sources.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# 補助データ無しのポゾンデータセット上でのバックドア・ロバストモデルのトレーニング方法

How to Train a Backdoor-Robust Model on a Poisoned Dataset without Auxiliary Data? ( http://arxiv.org/abs/2405.12719v1 )

ライセンス: Link先を確認
Yuwen Pu, Jiahao Chen, Chunyi Zhou, Zhou Feng, Qingming Li, Chunqiang Hu, Shouling Ji, (参考訳) バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する大きなセキュリティ脅威のため、学術や産業から広く注目を集めている。 既存の手法のほとんどは、異なる戦略でトレーニングデータセットを毒殺することでバックドアアタックを実行することを提案するため、毒殺されたサンプルを特定し、バックドアアタックを防御するコンテキストにおいて信頼性の低いデータセット上でクリーンなモデルをトレーニングすることが重要である。 多くのバックドア対策研究が提案されているが、その固有の弱点は、十分なクリーンサンプルの要求、様々な攻撃条件下での不安定な防御性能、適応攻撃に対する防御性能の低下など、現実的なシナリオに限られており、本稿では、上記の制限を克服し、より実用的なバックドア防御手法を提案することにコミットしている。 具体的には、まず、潜在的な摂動とバックドアトリガーの関係について検討し、理論的解析と実験結果から、汚染された試料は、クリーンな試料よりも摂動に頑健であることが示された。 そして、我々の重要な調査に基づいて、AdvrBDを紹介した。Adversarialの摂動に基づく堅牢なバックドアディフェンスフレームワークで、有毒なサンプルを効果的に識別し、有毒なデータセット上でクリーンなモデルをトレーニングすることができる。 構成的には、当社のAdvrBDは、汚染されたデータセット(例えば、中毒率)に関するクリーンなサンプルや知識の要求を排除し、現実のシナリオにおける実用性を大幅に改善します。

Backdoor attacks have attracted wide attention from academia and industry due to their great security threat to deep neural networks (DNN). Most of the existing methods propose to conduct backdoor attacks by poisoning the training dataset with different strategies, so it's critical to identify the poisoned samples and then train a clean model on the unreliable dataset in the context of defending backdoor attacks. Although numerous backdoor countermeasure researches are proposed, their inherent weaknesses render them limited in practical scenarios, such as the requirement of enough clean samples, unstable defense performance under various attack conditions, poor defense performance against adaptive attacks, and so on.Therefore, in this paper, we are committed to overcome the above limitations and propose a more practical backdoor defense method. Concretely, we first explore the inherent relationship between the potential perturbations and the backdoor trigger, and the theoretical analysis and experimental results demonstrate that the poisoned samples perform more robustness to perturbation than the clean ones. Then, based on our key explorations, we introduce AdvrBD, an Adversarial perturbation-based and robust Backdoor Defense framework, which can effectively identify the poisoned samples and train a clean model on the poisoned dataset. Constructively, our AdvrBD eliminates the requirement for any clean samples or knowledge about the poisoned dataset (e.g., poisoning ratio), which significantly improves the practicality in real-world scenarios.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# StarLKNet:パームベイン同定のための大型カーネルネットワークとスターミキシング

StarLKNet: Star Mixup with Large Kernel Networks for Palm Vein Identification ( http://arxiv.org/abs/2405.12721v1 )

ライセンス: Link先を確認
Xin Jin, Hongyu Zhu, Mounîm A. El Yacoubi, Hongchao Liao, Huafeng Qin, Yun Jiang, (参考訳) 新世代のバイオメトリックスの代表として、静脈識別技術は高いレベルのセキュリティと利便性を提供する。 深層学習アーキテクチャの著名なクラスである畳み込みニューラルネットワーク(CNN)は静脈の同定に広く利用されている。 その性能と堅牢性は、小さな有効受容場(例えば3$\times$3カーネル)と不十分なトレーニングサンプルによって制限されているため、静脈画像からグローバルな特徴表現を効果的に抽出することはできない。 これらの問題に対処するために,大規模なカーネル畳み込みに基づくパームベイン識別ネットワークであるStarLKNetを提案する。 我々のStarMixは、静脈の特徴の分布を効果的に学習し、サンプルを拡張する。 CNNがパームベイン画像から包括的特徴表現をキャプチャできるようにするため、パームベイン識別ネットワークの性能に及ぼす畳み込みカーネルサイズの影響を調査し、大規模なカーネル畳み込みとゲーティング機構を利用したネットワークであるLaKNetを設計した。 知識の現在の状況を踏まえると、これは静脈識別の領域で大きなカーネルを持つCNNをデプロイする最初の例である。 2つの公開パームベインデータセット上でのStarLKNetの性能を検証するために、大規模な実験を行った。 結果は、StarMixがより優れた拡張を提供し、LakNetは主流のアプローチよりも安定したパフォーマンス向上を示し、高い認識精度と最小の識別誤差をもたらすことを示した。

As a representative of a new generation of biometrics, vein identification technology offers a high level of security and convenience. Convolutional neural networks (CNNs), a prominent class of deep learning architectures, have been extensively utilized for vein identification. Since their performance and robustness are limited by small Effective Receptive Fields (e.g. 3$\times$3 kernels) and insufficient training samples, however, they are unable to extract global feature representations from vein images in an effective manner. To address these issues, we propose StarLKNet, a large kernel convolution-based palm-vein identification network, with the Mixup approach. Our StarMix learns effectively the distribution of vein features to expand samples. To enable CNNs to capture comprehensive feature representations from palm-vein images, we explored the effect of convolutional kernel size on the performance of palm-vein identification networks and designed LaKNet, a network leveraging large kernel convolution and gating mechanism. In light of the current state of knowledge, this represents an inaugural instance of the deployment of a CNN with large kernels in the domain of vein identification. Extensive experiments were conducted to validate the performance of StarLKNet on two public palm-vein datasets. The results demonstrated that StarMix provided superior augmentation, and LakNet exhibited more stable performance gains compared to mainstream approaches, resulting in the highest recognition accuracy and lowest identification error.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# Cuspポテンシャルの存在下でのDKP方程式:伝達共鳴と境界状態

The DKP Equation in Presence of a Cusp Potential: Transmission Resonances and Bound States ( http://arxiv.org/abs/2405.12722v1 )

ライセンス: Link先を確認
Vicente A. Arévalo, Sebastián Valladares, Clara Rojas, (参考訳) 本稿では,スピン-ワン粒子のカスプポテンシャルの存在下でのDuffin--Kemmer--Petiau(DKP)方程式を解くとともに,散乱解を導出し,ウィッテカー関数の観点から境界状態を計算した。

In this article, we solve the Duffin--Kemmer--Petiau (DKP) equation in the presence of the cusp potential for spin--one particles. We derived the scattering solutions and calculated the bound states in terms of the Whittaker functions. We show that transmission resonances are present, as well as the particle--anti-particle bound states.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# RemoCap:モーションキャプチャのためのアンタングル表現学習

RemoCap: Disentangled Representation Learning for Motion Capture ( http://arxiv.org/abs/2405.12724v1 )

ライセンス: Link先を確認
Hongsheng Wang, Lizao Zhang, Zhangnan Zhong, Shuolin Xu, Xinrui Zhou, Shengyu Zhang, Huahao Xu, Fei Wu, Feng Lin, (参考訳) 現実的なモーションシーケンスから3Dの人体を再構築することは、広範で複雑な閉塞のために依然として困難である。 現在の方法では、閉塞した身体部分の力学を捉えるのに苦労し、モデル浸透と歪んだ動きをもたらす。 RemoCapは、これらの制限を克服するために、Spatial Disentanglement (SD)とMotion Disentanglement (MD)を利用する。 SDは標的の人体と周囲の物体との間の閉塞的干渉に対処する。 これは、次元軸に沿ってターゲット特徴を遠ざけることによって達成される。 各次元の空間的位置に基づいて特徴を整列させることで、SDは対象物体の応答をグローバルウィンドウ内で分離し、閉塞にもかかわらず正確な捕獲を可能にする。 MDモジュールは、様々なシーンダイナミクスをシミュレートするために、チャネルワイズ時間シャッフル戦略を採用している。 このプロセスは動作特徴を効果的に切り離し、RemoCapは閉塞した部分をより忠実に再構築することができる。 さらに,時間的コヒーレンスを促進するシーケンス速度損失を提案する。 この損失はフレーム間の速度誤差を制限し、予測された動きが現実的な一貫性を示すことを保証する。 ベンチマークデータセットにおけるSOTA(State-of-the-art)手法との大規模な比較は、RemoCapの3D人体再構築における優れたパフォーマンスを示している。 3DPWデータセットでは、RemoCapは、MPVPE (81.9)、MPJPE (72.7)、PA-MPJPE (44.1)で最高の結果を得た。 コードはhttps://wanghongsheng01.github.io/RemoCap/で公開されている。

Reconstructing 3D human bodies from realistic motion sequences remains a challenge due to pervasive and complex occlusions. Current methods struggle to capture the dynamics of occluded body parts, leading to model penetration and distorted motion. RemoCap leverages Spatial Disentanglement (SD) and Motion Disentanglement (MD) to overcome these limitations. SD addresses occlusion interference between the target human body and surrounding objects. It achieves this by disentangling target features along the dimension axis. By aligning features based on their spatial positions in each dimension, SD isolates the target object's response within a global window, enabling accurate capture despite occlusions. The MD module employs a channel-wise temporal shuffling strategy to simulate diverse scene dynamics. This process effectively disentangles motion features, allowing RemoCap to reconstruct occluded parts with greater fidelity. Furthermore, this paper introduces a sequence velocity loss that promotes temporal coherence. This loss constrains inter-frame velocity errors, ensuring the predicted motion exhibits realistic consistency. Extensive comparisons with state-of-the-art (SOTA) methods on benchmark datasets demonstrate RemoCap's superior performance in 3D human body reconstruction. On the 3DPW dataset, RemoCap surpasses all competitors, achieving the best results in MPVPE (81.9), MPJPE (72.7), and PA-MPJPE (44.1) metrics. Codes are available at https://wanghongsheng01.github.io/RemoCap/.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# 量子化を前提としたバックドア攻撃に対する現実的な防御を目指すNearest

Nearest is Not Dearest: Towards Practical Defense against Quantization-conditioned Backdoor Attacks ( http://arxiv.org/abs/2405.12725v1 )

ライセンス: Link先を確認
Boheng Li, Yishuo Cai, Haowei Li, Feng Xue, Zhifeng Li, Yiming Li, (参考訳) モデル量子化はディープニューラルネットワークの圧縮と高速化に広く用いられている。 しかし、最近の研究では、量子化条件付バックドア(QCB)を埋め込むことで、モデル量子化の兵器化の可能性を明らかにしている。 これらの特別なバックドアは、放出された完全精度モデルに休息するが、標準量子化後に有効になる。 QCBの特異性のため、既存の防衛は脅威を減らすか、あるいは不可能である。 本稿では,QCBの詳細な分析を行う。 既存のQCBの活性化は、主に最も近い丸い操作から来ており、ニューロンの回り誤差(連続的全精度重みと量子化バージョンの違い)のノルムと密接に関連していることを明らかにする。 これらの知見に触発されて,QCBに対する効果的かつ実用的な防御法であるEFRAP(Error-guided Flipped Rounding with Activation Preservation)を提案する。 具体的には、ERFAPは、神経学的エラー規範と層的アクティベーション保存ガイダンスを備えた非アレストラウンドリング戦略を学び、バックドア効果に不可欠なニューロンのラウンドング戦略を、クリーンな精度に最小限の影響で反転させる。 ベンチマークデータセットの大規模な評価は、EFRAPが様々な設定下で最先端のQCB攻撃を破ることができることを示している。 コードはhttps://github.com/AntigoneRandy/QuantBackdoor_EFRAPで公開されている。

Model quantization is widely used to compress and accelerate deep neural networks. However, recent studies have revealed the feasibility of weaponizing model quantization via implanting quantization-conditioned backdoors (QCBs). These special backdoors stay dormant on released full-precision models but will come into effect after standard quantization. Due to the peculiarity of QCBs, existing defenses have minor effects on reducing their threats or are even infeasible. In this paper, we conduct the first in-depth analysis of QCBs. We reveal that the activation of existing QCBs primarily stems from the nearest rounding operation and is closely related to the norms of neuron-wise truncation errors (i.e., the difference between the continuous full-precision weights and its quantized version). Motivated by these insights, we propose Error-guided Flipped Rounding with Activation Preservation (EFRAP), an effective and practical defense against QCBs. Specifically, EFRAP learns a non-nearest rounding strategy with neuron-wise error norm and layer-wise activation preservation guidance, flipping the rounding strategies of neurons crucial for backdoor effects but with minimal impact on clean accuracy. Extensive evaluations on benchmark datasets demonstrate that our EFRAP can defeat state-of-the-art QCB attacks under various settings. Code is available at https://github.com/AntigoneRandy/QuantBackdoor_EFRAP.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# 雑音関数からのテンソルトレインの学習と量子シミュレーションへの応用

Learning tensor trains from noisy functions with application to quantum simulation ( http://arxiv.org/abs/2405.12730v1 )

ライセンス: Link先を確認
Kohtaroh Sakaue, Hiroshi Shinaoka, Rihito Sakurai, (参考訳) テンソルクロス補間 (TCI) は, 対象テンソルを補間式に基づいて適応的にサンプリングすることにより, テンソルトレイン (TT) を学習する強力な手法である。 しかし、テンソル評価がランダムノイズを含む場合、TTの最適化はノイズを補間するよりも有利である。 そこで本研究では,TTの初期推定から始める新しい手法を提案する。 本手法では量子TCI (QTCI) を用いて, 正弦関数と2時間相関関数の有効性を, ランダムノイズで評価した。 その結果,QTCI法に比べて雑音に対する堅牢性は向上した。 さらに、擬似想像時間進化に基づく量子シミュレーションにおける相関関数の最適化TTを用いて、QTCI法やモンテカルロ法よりも高い精度で基底状態エネルギーを得る。

Tensor cross interpolation (TCI) is a powerful technique for learning a tensor train (TT) by adaptively sampling a target tensor based on an interpolation formula. However, when the tensor evaluations contain random noise, optimizing the TT is more advantageous than interpolating the noise. Here, we propose a new method that starts with an initial guess of TT and optimizes it using non-linear least-squares by fitting it to measured points obtained from TCI. We use quantics TCI (QTCI) in this method and demonstrate its effectiveness on sine and two-time correlation functions, with each evaluated with random noise. The resulting TT exhibits increased robustness against noise compared to the QTCI method. Furthermore, we employ this optimized TT of the correlation function in quantum simulation based on pseudo-imaginary-time evolution, resulting in ground-state energy with higher accuracy than the QTCI or Monte Carlo methods.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# 今日の法典から明日の交響曲:2030年までの開発者ルーチンのAIトランスフォーメーション

From Today's Code to Tomorrow's Symphony: The AI Transformation of Developer's Routine by 2030 ( http://arxiv.org/abs/2405.12731v1 )

ライセンス: Link先を確認
Matteo Ciniselli, Niccolò Puccinelli, Ketai Qiu, Luca Di Grazia, (参考訳) ソフトウェアエンジニアリングの急速な発展の中で、人工知能(AI)をソフトウェア開発ライフサイクル(SDLC)に統合することは、開発者にとって変革的な時代を告げるものだ。 最近、私たちは、コーディング、デバッグ、ソフトウェア設計の重要な要素となったGitHub CopilotやOpenAIのChatGPTといったツールによって実証された、AI支援プログラミングへの重要なシフトを支援しました。 本稿では,2024年におけるAI支援プログラミングの現状と2030年における私たちの予測との対比分析を行い,AIの進歩が実装フェーズの強化にどのように寄与するかを考察し,手動コーダからAI駆動開発エコシステムのオーケストレータへの開発者の役割を根本的に変えた。 メンタルヘルスサポート、障害検出、コードの最適化、チームインタラクション、スキル開発における現在の制限に対処する、2030人の開発者に包括的なサポートを提供するAIツールであるHyperAssistantを構想している。 私たちはAIを補完的な力として強調し、それを置き換えるのではなく、開発者の能力を増強し、洗練された、信頼性があり、セキュアなソフトウェアソリューションを作り上げます。 私たちのビジョンは、プログラミングプラクティス、課題、将来の方向性の進化を予測し、開発者とAIがより緊密に協力し、SE効率、セキュリティ、クリエイティビティにおいて大きな飛躍を約束する新しいパラダイムを形成することです。

In the rapidly evolving landscape of software engineering, the integration of Artificial Intelligence (AI) into the Software Development Life-Cycle (SDLC) heralds a transformative era for developers. Recently, we have assisted to a pivotal shift towards AI-assisted programming, exemplified by tools like GitHub Copilot and OpenAI's ChatGPT, which have become a crucial element for coding, debugging, and software design. In this paper we provide a comparative analysis between the current state of AI-assisted programming in 2024 and our projections for 2030, by exploring how AI advancements are set to enhance the implementation phase, fundamentally altering developers' roles from manual coders to orchestrators of AI-driven development ecosystems. We envision HyperAssistant, an augmented AI tool that offers comprehensive support to 2030 developers, addressing current limitations in mental health support, fault detection, code optimization, team interaction, and skill development. We emphasize AI as a complementary force, augmenting developers' capabilities rather than replacing them, leading to the creation of sophisticated, reliable, and secure software solutions. Our vision seeks to anticipate the evolution of programming practices, challenges, and future directions, shaping a new paradigm where developers and AI collaborate more closely, promising a significant leap in SE efficiency, security and creativity.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# YouTubeでアカデミック研究を増幅する - 鎮静効果の予測因子としてのエンゲージメント指標

Amplifying Academic Research through YouTube: Engagement Metrics as Predictors of Citation Impact ( http://arxiv.org/abs/2405.12734v1 )

ライセンス: Link先を確認
Olga Zagovora, Talisa Schwal, Katrin Weller, (参考訳) 本研究は、従来のジャーナリズムへの信頼が低下し、情報に対するソーシャルメディアへの依存が高まる中、YouTubeのエンゲージメント指標とビデオ記述中の引用された出版物の学術的影響の相互作用を考察する。 Altmetric.comとYouTubeのAPIからのデータを分析することで、YouTubeのビデオ機能が引用の影響にどのように関係しているかを評価する。 初期の結果は、科学的出版物を引用し、高いエンゲージメントやコメント、他の出版物への言及を引用するビデオがフィルタリング機構として、あるいは衝撃的な研究の予測者として機能することを示唆している。

This study explores the interplay between YouTube engagement metrics and the academic impact of cited publications within video descriptions, amid declining trust in traditional journalism and increased reliance on social media for information. By analyzing data from Altmetric.com and YouTube's API, it assesses how YouTube video features relate to citation impact. Initial results suggest that videos citing scientific publications and garnering high engagement-likes, comments, and references to other publications-may function as a filtering mechanism or even as a predictor of impactful research.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# 自動車レーダとライダーセンサを用いた歩行者検出における逆気象の影響予測

Predicting the Influence of Adverse Weather on Pedestrian Detection with Automotive Radar and Lidar Sensors ( http://arxiv.org/abs/2405.12736v1 )

ライセンス: Link先を確認
Daniel Weihmayr, Fatih Sezgin, Leon Tolksdorf, Christian Birkner, Reza N. Jazar, (参考訳) 歩行者は道路交通で最も危険に晒されている交通機関の1つである。 名目状態での歩行者検出は良好に確立されているが,センサや歩行者検出性能は悪天候下で低下する。 雨と霧が特定のレーダーとライダーセンサーに与える影響を理解するには、広範囲なテストが必要である。 これらの課題に対処するために、まず、制御された環境において、雨や霧の強度の異なる歩行者検出性能の実証データを総合的に収集し、次に、雨や霧が歩行者検出性能に与える影響を予測する専用 \textit{Weather Filter} (WF) モデルを導入する。 本研究では,センサ仕様の物理的関係を表す最新技術ベースラインモデルを用いて,センサ上の歩行者反射率や液滴の変化といった二次気象効果の表現を欠き,経験データを用いて調整する。 観測結果は,気象の劣化に関する文献と一致しており,WFは,最小限のテスト作業のみを必要としながら,歩行者検出に対する気象の影響を予測する上で,ベースラインモデルよりも優れていることがわかった。

Pedestrians are among the most endangered traffic participants in road traffic. While pedestrian detection in nominal conditions is well established, the sensor and, therefore, the pedestrian detection performance degrades under adverse weather conditions. Understanding the influences of rain and fog on a specific radar and lidar sensor requires extensive testing, and if the sensors' specifications are altered, a retesting effort is required. These challenges are addressed in this paper, firstly by conducting comprehensive measurements collecting empirical data of pedestrian detection performance under varying rain and fog intensities in a controlled environment, and secondly, by introducing a dedicated \textit{Weather Filter} (WF) model that predicts the effects of rain and fog on a user-specified radar and lidar on pedestrian detection performance. We use a state-of-the-art baseline model representing the physical relation of sensor specifications, which, however, lacks the representation of secondary weather effects, e.g., changes in pedestrian reflectivity or droplets on a sensor, and adjust it with empirical data to account for such. We find that our measurement results are in agreement with existent literature related to weather degredation and our WF outperforms the baseline model in predicting weather effects on pedestrian detection while only requiring a minimal testing effort.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# SPO:インプシット・リワード・モデリングを用いた多次元参照シーケンスアライメント

SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling ( http://arxiv.org/abs/2405.12739v1 )

ライセンス: Link先を確認
Xingzhou Lou, Junge Zhang, Jian Xie, Lifeng Liu, Dong Yan, Kaiqi Huang, (参考訳) 人間の嗜好の整合性は、強力で信頼性の高い大規模言語モデル(LLM)を構築する上で重要である。 しかし、現在の方法は、人間の好みの多次元性を無視したり、複数の報酬モデルを管理する複雑さに悩まされる。 これらの問題に対処するために、人間の嗜好の複数の次元と整列するように連続的に微調整するSPO(Sequential Preference Optimization)を提案する。 SPOは明示的な報酬モデリングを回避し、モデルの微妙な人間の好みに合わせて直接最適化する。 理論的には閉形式最適SPOポリシーと損失関数を導出する。 グラディエント解析は、SPOが以前最適化された次元のアライメントを維持しながらLLMを微調整する方法を示す。 異なる大きさのLLMと複数の評価データセットに関する実証的な結果から、SPOはLLMを人間の嗜好の多次元にわたって整列させ、ベースラインを大幅に上回ることを示した。

Human preference alignment is critical in building powerful and reliable large language models (LLMs). However, current methods either ignore the multi-dimensionality of human preferences (e.g. helpfulness and harmlessness) or struggle with the complexity of managing multiple reward models. To address these issues, we propose Sequential Preference Optimization (SPO), a method that sequentially fine-tunes LLMs to align with multiple dimensions of human preferences. SPO avoids explicit reward modeling, directly optimizing the models to align with nuanced human preferences. We theoretically derive closed-form optimal SPO policy and loss function. Gradient analysis is conducted to show how SPO manages to fine-tune the LLMs while maintaining alignment on previously optimized dimensions. Empirical results on LLMs of different size and multiple evaluation datasets demonstrate that SPO successfully aligns LLMs across multiple dimensions of human preferences and significantly outperforms the baselines.
翻訳日:2024-05-22 13:29:38 公開日:2024-05-21
# マルチオブジェクトパーソナライゼーション

Multi-Subject Personalization ( http://arxiv.org/abs/2405.12742v1 )

ライセンス: Link先を確認
Arushi Jain, Shubham Paliwal, Monika Sharma, Vikram Jamwal, Lovekesh Vig, (参考訳) 創造的なストーリーイラストレーションには、複数の文字やオブジェクトの一貫したインタープレイが必要です。 しかし、従来のテキスト・ツー・イメージモデルは、複数のパーソナライズされた被写体を特徴とする画像を作成しながら、重大な課題に直面している。 例えば、被写体レンダリングを歪ませたり、テキスト記述が一貫性のある被写体インタラクションをレンダリングできないりする。 課題のいくつかを軽減するために,MSP(Multi-Subject Personalization)を提案する。 我々は、安定拡散を用いてMSPを実装し、他のテキスト・画像モデルに対して我々のアプローチを評価し、目的と相互作用を表す良質な画像の一貫性のある生成を示す。

Creative story illustration requires a consistent interplay of multiple characters or objects. However, conventional text-to-image models face significant challenges while producing images featuring multiple personalized subjects. For example, they distort the subject rendering, or the text descriptions fail to render coherent subject interactions. We present Multi-Subject Personalization (MSP) to alleviate some of these challenges. We implement MSP using Stable Diffusion and assess our approach against other text-to-image models, showcasing its consistent generation of good-quality images representing intended subjects and interactions.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# 多言語性のエコー:LM微調整における文化的価値変化の追跡

The Echoes of Multilinguality: Tracing Cultural Value Shifts during LM Fine-tuning ( http://arxiv.org/abs/2405.12744v1 )

ライセンス: Link先を確認
Rochelle Choenni, Anne Lauscher, Ekaterina Shutova, (参考訳) 異なる言語で書かれたテキストは、それぞれの作家の文化的に依存した信念を反映している。 したがって、複数の言語におけるテキストの結合を共同で訓練した多言語LM(MLM)が、言語毎に異なる文化的価値を符号化することを期待している。 しかし、これらのLMの「多言語性」は言語間共有によってもたらされるため、文化的な価値が一つの言語から別の言語へと変化したと考える理由もある。 これは、複数の言語でテキストを生成するのに熟練しているのとは別に、実際はMLMの使用を制限するが、コミュニティに役立てることができる言語技術を作成するためには、そのバイアスに敏感なLMの出力も必要である(Naous et al , 2023)。 しかし、MLM(Hershcovich et al , 2022a)における文化的価値の出現と発展についてはほとんど分かっていない。 我々は,言語が異なるテスト言語で符号化された文化的価値にどのように影響するかを,微調整中にどのように修正されるかを研究することで,初めて研究する。 微調整段階に着目して、異なるデータソースや言語からの新たな言語体験に曝露した場合の値シフト間の相互作用を研究することができる。 最後に、トレーニングデータ属性法を用いて、微調整の例やそれらが生み出す言語にパターンを見つける。

Texts written in different languages reflect different culturally-dependent beliefs of their writers. Thus, we expect multilingual LMs (MLMs), that are jointly trained on a concatenation of text in multiple languages, to encode different cultural values for each language. Yet, as the 'multilinguality' of these LMs is driven by cross-lingual sharing, we also have reason to belief that cultural values bleed over from one language into another. This limits the use of MLMs in practice, as apart from being proficient in generating text in multiple languages, creating language technology that can serve a community also requires the output of LMs to be sensitive to their biases (Naous et al., 2023). Yet, little is known about how cultural values emerge and evolve in MLMs (Hershcovich et al., 2022a). We are the first to study how languages can exert influence on the cultural values encoded for different test languages, by studying how such values are revised during fine-tuning. Focusing on the fine-tuning stage allows us to study the interplay between value shifts when exposed to new linguistic experience from different data sources and languages. Lastly, we use a training data attribution method to find patterns in the fine-tuning examples, and the languages that they come from, that tend to instigate value shifts.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# hBN欠損データベース:六方晶窒化ホウ素における色中心の理論的コンパイル

The hBN defects database: a theoretical compilation of color centers in hexagonal boron nitride ( http://arxiv.org/abs/2405.12749v1 )

ライセンス: Link先を確認
Chanaprom Cholsuk, Ashkan Zand, Asli Cakan, Tobias Vogl, (参考訳) 六方晶窒化ホウ素(hBN)の発色中心は、量子技術への応用の可能性から、集中的に研究されている。 様々な欠陥が作られてきたが、それらの多くは、原子の起源が不明である。 特に回折に制限された場所では、多くの欠陥があり、光学的に活動しているものを特定する必要があるため、欠陥の直接画像化は技術的に非常に難しい。 もう一つのアプローチは、光物性と理論シミュレーションを比較し、どの欠陥が一致するシグネチャを持つかを特定することである。 このために1つの資産が不十分であり、誤割り当てを引き起こすことが示されている。 本稿では,hBN欠陥の電子構造(257三重項と211一重項構成)と光物理指紋(励起状態寿命,量子効率,遷移双極子モーメントと配向,偏光可視性など)を網羅した密度汎関数理論(DFT)に基づく検索可能なオンラインデータベースを公表する。 すべてのデータはオープンソースで、https://h-bn.infoで公開されている。 実験的に観測された欠陥シグネチャを入力でき、データベースは可能な限り多くの観測プロパティを入力して絞り込むことが可能な候補を出力する。 データベースは継続的に更新され、より多くの欠陥と新しいフォトフィジカルな特性が提供される。 したがって、このデータベースは欠陥を確実に識別するだけでなく、どの欠陥が磁場検知や量子メモリの応用に期待できるかを調査することができる。

Color centers in hexagonal boron nitride (hBN) have become an intensively researched system due to their potential applications in quantum technologies. There has been a large variety of defects being fabricated, yet, for many of them, the atomic origin remains unclear. The direct imaging of the defect is technically very challenging, in particular since, in a diffraction-limited spot, there are many defects and then one has to identify the one that is optically active. Another approach is to compare the photophysical properties with theoretical simulations and identify which defect has a matching signature. It has been shown that a single property for this is insufficient and causes misassignments. Here, we publish a density functional theory (DFT)-based searchable online database covering the electronic structure of hBN defects (257 triplet and 211 singlet configurations), as well as their photophysical fingerprint (excited state lifetime, quantum efficiency, transition dipole moment and orientation, polarization visibility, and many more). All data is open-source and publicly accessible at https://h-bn.info and can be downloaded. It is possible to enter the experimentally observed defect signature and the database will output possible candidates which can be narrowed down by entering as many observed properties as possible. The database will be continuously updated with more defects and new photophysical properties (which can also be specifically requested by any users). The database therefore allows one to reliably identify defects but also investigate which defects might be promising for magnetic field sensing or quantum memory applications.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# サイバーセキュリティのためのジェネレーティブAIと大規模言語モデル:必要なすべての洞察

Generative AI and Large Language Models for Cyber Security: All Insights You Need ( http://arxiv.org/abs/2405.12750v1 )

ライセンス: Link先を確認
Mohamed Amine Ferrag, Fatima Alwahedi, Ammar Battah, Bilel Cherif, Abdechakour Mechri, Norbert Tihanyi, (参考訳) 本稿では,ジェネレーティブAIとLarge Language Models(LLMs)によるサイバーセキュリティの将来を概観する。 ハードウェア設計のセキュリティ、侵入検知、ソフトウェアエンジニアリング、設計検証、サイバー脅威インテリジェンス、マルウェア検出、フィッシング検出など、さまざまな領域にわたるLCMアプリケーションを探索する。 GPT-4, GPT-3.5, Mixtral-8x7B, BERT, Falcon2, LLaMA などのモデルの発展に焦点を当て, LLM の進化とその現状について概説する。 我々の分析は、プロンプトインジェクション、安全でないアウトプットハンドリング、データ中毒、DDoS攻撃、敵の指示など、LCMの脆弱性にまで拡張する。 これらのモデルを保護するための緩和戦略を探求し、潜在的な攻撃シナリオや予防テクニックを包括的に調査する。 さらに,サイバーセキュリティ知識とハードウェアセキュリティにおける42 LLMモデルの性能評価を行い,その強みと弱点を強調した。 LLMトレーニングとテストのためのサイバーセキュリティデータセットを徹底的に評価し、データ生成から使用までのライフサイクルをカバーし、将来の研究のギャップを特定します。 さらに,半量子量子化(HQQ),RLHF(Reinforcement Learning with Human Feedback),DPO(Direct Preference Optimization),QLoRA(Quantized Low-Rank Adapters),RAG(Retrieval-Augmented Generation)など,LLMを活用するための新たな戦略について検討した。 これらの知見は、リアルタイムサイバーセキュリティの防御を強化し、脅威検出および応答におけるLLMアプリケーションの洗練を改善することを目的としている。 本稿は,LLMを将来のサイバーセキュリティフレームワークに統合するための基礎的理解と戦略的方向性を提供し,進化するサイバー脅威に対する防御のために,イノベーションと堅牢なモデル展開を強調する。

This paper provides a comprehensive review of the future of cybersecurity through Generative AI and Large Language Models (LLMs). We explore LLM applications across various domains, including hardware design security, intrusion detection, software engineering, design verification, cyber threat intelligence, malware detection, and phishing detection. We present an overview of LLM evolution and its current state, focusing on advancements in models such as GPT-4, GPT-3.5, Mixtral-8x7B, BERT, Falcon2, and LLaMA. Our analysis extends to LLM vulnerabilities, such as prompt injection, insecure output handling, data poisoning, DDoS attacks, and adversarial instructions. We delve into mitigation strategies to protect these models, providing a comprehensive look at potential attack scenarios and prevention techniques. Furthermore, we evaluate the performance of 42 LLM models in cybersecurity knowledge and hardware security, highlighting their strengths and weaknesses. We thoroughly evaluate cybersecurity datasets for LLM training and testing, covering the lifecycle from data creation to usage and identifying gaps for future research. In addition, we review new strategies for leveraging LLMs, including techniques like Half-Quadratic Quantization (HQQ), Reinforcement Learning with Human Feedback (RLHF), Direct Preference Optimization (DPO), Quantized Low-Rank Adapters (QLoRA), and Retrieval-Augmented Generation (RAG). These insights aim to enhance real-time cybersecurity defenses and improve the sophistication of LLM applications in threat detection and response. Our paper provides a foundational understanding and strategic direction for integrating LLMs into future cybersecurity frameworks, emphasizing innovation and robust model deployment to safeguard against evolving cyber threats.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# 無ラベル共有スプリット学習のためのステルスなバックドアアタック

A Stealthy Backdoor Attack for Without-Label-Sharing Split Learning ( http://arxiv.org/abs/2405.12751v1 )

ライセンス: Link先を確認
Yuwen Pu, Zhuoyuan Ding, Jiahao Chen, Chunyi Zhou, Qingming Li, Chunqiang Hu, Shouling Ji, (参考訳) クライアントの計算コストの削減とデータユーティリティの実現を目的とした,新たなプライバシ保護パラダイムとして,スプリットラーニングが注目され,スマートヘルスやスマートトランスポートなど,さまざまな分野に広く応用されている。 近年の研究では、推論攻撃やデータ再構成など、分割学習におけるプライバシー漏洩の懸念に対処することに集中しているが、分割学習の枠組みにおけるセキュリティ問題(例えば、バックドア攻撃)の探索は比較的限られている。 それでも、スプリットラーニングの文脈におけるセキュリティの脆弱性は、高い脅威を招き、顔認識モデルにおける不正な偽装など、重大なセキュリティ上の影響を引き起こす可能性がある。 そこで本稿では,スプリットラーニングに固有のセキュリティ脆弱性を明らかにする非ラベル共有型スプリットラーニングアーキテクチャに適した,ステルスなバックドアアタック戦略(SBAT)を提案する。 トレーニングモデルにバックドアを導入し、既知のクライアントネットワークアーキテクチャと未知のアーキテクチャの2つのシナリオを探索する。 トレーニングデータやラベルを操作する従来のバックドアアタック手法とは違い,サーバネットワークにトリガを注入することで,バックドアアタックを構築的に実施する。 具体的には、SBATはトレーニング中の中間パラメータ(例えば勾配)の変更を控え、代わりに悪意のある操作をすべて実行することで、より高い攻撃ステルスネスを達成する。

As a novel privacy-preserving paradigm aimed at reducing client computational costs and achieving data utility, split learning has garnered extensive attention and proliferated widespread applications across various fields, including smart health and smart transportation, among others. While recent studies have primarily concentrated on addressing privacy leakage concerns in split learning, such as inference attacks and data reconstruction, the exploration of security issues (e.g., backdoor attacks) within the framework of split learning has been comparatively limited. Nonetheless, the security vulnerability within the context of split learning is highly posing a threat and can give rise to grave security implications, such as the illegal impersonation in the face recognition model. Therefore, in this paper, we propose a stealthy backdoor attack strategy (namely SBAT) tailored to the without-label-sharing split learning architecture, which unveils the inherent security vulnerability of split learning. We posit the existence of a potential attacker on the server side aiming to introduce a backdoor into the training model, while exploring two scenarios: one with known client network architecture and the other with unknown architecture. Diverging from traditional backdoor attack methods that manipulate the training data and labels, we constructively conduct the backdoor attack by injecting the trigger embedding into the server network. Specifically, our SBAT achieves a higher level of attack stealthiness by refraining from modifying any intermediate parameters (e.g., gradients) during training and instead executing all malicious operations post-training.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# C3L:コントラスト学習によるコンテンツ関連視覚言語指導データ生成

C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning ( http://arxiv.org/abs/2405.12752v1 )

ライセンス: Link先を確認
Ji Ma, Wei Suo, Peng Wang, Yanning Zhang, (参考訳) VLIT(Vision-Language Instruction Tuning)は、LVLM(Large Vision-Language Models)の重要なトレーニングフェーズである。 オープンソースのLVLMの改善により、研究者たちは、オープンソースのLVLMを使用してVLITデータを生成するようになり、大きな進歩を遂げた。 しかし、このようなデータ生成アプローチは以下の課題によってボトルネックとなる。 1) マルチモーダルモデルは事前の言語知識の影響を受けやすいため, 直接LVLMを用いてVLITデータを生成すると, 生成したデータと画像間の低コンテンツ関連性が必然的に生じる。 2) VLITデータの生成能力を向上させるため, 従来の手法では, 生成能力を高めるための追加のトレーニングフェーズが組み込まれている。 このプロセスは、モデルが目に見えない入力(すなわち「露出バイアス」問題)に一般化するのを損なう。 本稿では,コントラスト学習(C3L)によるコンテンツ関連VLITデータ生成を提案する。 具体的には、画像インストラクション対応スコアS(I2C)を演算することで、VLITデータと画像間のコンテンツ関連性を高める新しいコンテンツ関連モジュールを設計する。 さらに,LVLMのVLITデータ生成能力をさらに向上するために,コントラスト学習モジュールを導入する。 4つのベンチマークで多数の自動測定を行った結果,本手法の有効性が示された。

Vision-Language Instruction Tuning (VLIT) is a critical training phase for Large Vision-Language Models (LVLMs). With the improving capabilities of open-source LVLMs, researchers have increasingly turned to generate VLIT data by using open-source LVLMs and achieved significant progress. However, such data generation approaches are bottlenecked by the following challenges: 1) Since multi-modal models tend to be influenced by prior language knowledge, directly using LVLMs to generate VLIT data would inevitably lead to low content relevance between generated data and images. 2) To improve the ability of the models to generate VLIT data, previous methods have incorporated an additional training phase to boost the generative capacity. This process hurts the generalization of the models to unseen inputs (i.e., "exposure bias" problem). In this paper, we propose a new Content Correlated VLIT data generation via Contrastive Learning (C3L). Specifically, we design a new content relevance module which enhances the content relevance between VLIT data and images by computing Image Instruction Correspondence Scores S(I2C). Moreover, a contrastive learning module is introduced to further boost the VLIT data generation capability of the LVLMs. A large number of automatic measures on four benchmarks show the effectiveness of our method.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# 加速コロナ磁場モデルのためのニューラル演算子

Neural Operator for Accelerating Coronal Magnetic Field Model ( http://arxiv.org/abs/2405.12754v1 )

ライセンス: Link先を確認
Yutao Du, Qin Li, Raghav Gnanasambandam, Mengnan Du, Haimin Wang, Bo Shen, (参考訳) 太陽の大気の研究は、太陽活動に影響を及ぼす複雑な磁場のために難しい。 磁気流体力学(MHD)シミュレーションはこれらの相互作用をモデル化するのに役立つが、非常に時間がかかる(通常は数日のスケールで)。 我々の研究は、FNO(Fourier Neural Operator)を用いて、コロナ磁場モデリング、特にBifrost MHDモデルを加速する。 本研究では, 3次元領域上の偏微分方程式(PDE)から解を生成するために, TFNO (Tensorized FNO) を適用した。 TFNOの性能は他のディープラーニング手法と比較され、その正確さとスケーラビリティを強調している。 物理解析により、TFNOは信頼性が高く、高精度でMHDシミュレーションを加速できることを確認した。 この進歩はデータ処理の効率を改善し、予測能力を高め、磁気トポロジをよりよく理解する。

Studying the sun's outer atmosphere is challenging due to its complex magnetic fields impacting solar activities. Magnetohydrodynamics (MHD) simulations help model these interactions but are extremely time-consuming (usually on a scale of days). Our research applies the Fourier Neural Operator (FNO) to accelerate the coronal magnetic field modeling, specifically, the Bifrost MHD model. We apply Tensorized FNO (TFNO) to generate solutions from partial differential equations (PDEs) over a 3D domain efficiently. TFNO's performance is compared with other deep learning methods, highlighting its accuracy and scalability. Physics analysis confirms that TFNO is reliable and capable of accelerating MHD simulations with high precision. This advancement improves efficiency in data handling, enhances predictive capabilities, and provides a better understanding of magnetic topologies.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# 実世界のデータセットにおけるグローキングの進展対策

Progress Measures for Grokking on Real-world Datasets ( http://arxiv.org/abs/2405.12755v1 )

ライセンス: Link先を確認
Satvik Golechha, (参考訳) グロキング(Grokking)は、機械学習モデルがオーバーフィッティングの長い後に一般化する現象であり、主にアルゴリズムのタスクで観察され研究されている。 本稿では,クロスエントロピー損失下での分類にディープニューラルネットワークを用いた実世界のデータセットのグルーキングについて検討する。 我々は、ウェイトノルムの$L_2$ノルムが、ウェイトノルムの期待範囲外においてグラッキングが起こりうることを示すことで、グラッキングの主要な原因である、という一般的な仮説に挑戦する。 グルーキングをよりよく理解するために,活性化空間,絶対重みエントロピー,局所回路の複雑さを近似した3つの新しい進行手段を導入する。 これらの尺度は、一般化と概念的に関連し、重量ノルムと比較して現実世界のデータセットのグラッキングと強い相関を示す。 本研究の結果から, 重量ノルムはグルーキングや進行測定と相関するが, 因果関係はなく, 提案手法はグルーキングのダイナミクスをよりよく理解するものであることが示唆された。

Grokking, a phenomenon where machine learning models generalize long after overfitting, has been primarily observed and studied in algorithmic tasks. This paper explores grokking in real-world datasets using deep neural networks for classification under the cross-entropy loss. We challenge the prevalent hypothesis that the $L_2$ norm of weights is the primary cause of grokking by demonstrating that grokking can occur outside the expected range of weight norms. To better understand grokking, we introduce three new progress measures: activation sparsity, absolute weight entropy, and approximate local circuit complexity. These measures are conceptually related to generalization and demonstrate a stronger correlation with grokking in real-world datasets compared to weight norms. Our findings suggest that while weight norms might usually correlate with grokking and our progress measures, they are not causative, and our proposed measures provide a better understanding of the dynamics of grokking.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# 正規回帰法の最適閾値ラベル付けのための並列アルゴリズム

Parallel Algorithm for Optimal Threshold Labeling of Ordinal Regression Methods ( http://arxiv.org/abs/2405.12756v1 )

ライセンス: Link先を確認
Ryoya Yamasaki, Toshiyuki Tanaka, (参考訳) 順序回帰(ordinal regression、OR)は、下層のカテゴリー的対象変数が下層の説明変数に対して自然な順序関係を持つ順序データの分類である。 K$クラスのORタスクに対して、しきい値法は説明変数の1次元変換(1DT)を学習し、説明変数の観測のための1DT値がラベル値の順序を保存するようにして、目標変数の対応する観測のための1,\ldots,K$を保持し、しきい値ラベル付けによって学習された1DTにラベル予測を割り当て、すなわち、1DTが$(K-1)$しきい値パラメータで区切られた実線上の間隔に属する間隔のランクに従って、学習された1DTにラベルを割り当てる。 本研究では,従来の研究で開発された最適しきい値ラベリングを求める並列化可能なアルゴリズムを提案し,そのアルゴリズムが最適しきい値ラベリングをうまく出力するための十分な条件を導出する。 数値実験では, 動的プログラミングに基づく既存アルゴリズムと比較して, 提案アルゴリズムを並列処理で使用することにより, しきい値ラベル付きしきい値法全体の学習に要する計算時間を約60\,\%に短縮することができた。

Ordinal regression (OR) is classification of ordinal data in which the underlying categorical target variable has a natural ordinal relation for the underlying explanatory variable. For $K$-class OR tasks, threshold methods learn a one-dimensional transformation (1DT) of the explanatory variable so that 1DT values for observations of the explanatory variable preserve the order of label values $1,\ldots,K$ for corresponding observations of the target variable well, and then assign a label prediction to the learned 1DT through threshold labeling, namely, according to the rank of an interval to which the 1DT belongs among intervals on the real line separated by $(K-1)$ threshold parameters. In this study, we propose a parallelizable algorithm to find the optimal threshold labeling, which was developed in previous research, and derive sufficient conditions for that algorithm to successfully output the optimal threshold labeling. In a numerical experiment we performed, the computation time taken for the whole learning process of a threshold method with the optimal threshold labeling could be reduced to approximately 60\,\% by using the proposed algorithm with parallel processing compared to using an existing algorithm based on dynamic programming.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# BIMM:映像表現学習のための脳誘発マスケプドモデリング

BIMM: Brain Inspired Masked Modeling for Video Representation Learning ( http://arxiv.org/abs/2405.12757v1 )

ライセンス: Link先を確認
Zhifan Wan, Jie Zhang, Changzhen Li, Shiguang Shan, (参考訳) ヒト脳の視覚経路は、それぞれ物体の識別と動的情報モデリングに焦点を当てた2つのサブパス、すなわち腹側経路と背側経路を含む。 どちらの経路も多層構造で構成されており、各層は視覚情報の異なる側面を処理する。 人間の脳の視覚情報処理機構に着想を得て,ビデオから包括的表現を学習するBrain Inspired Masked Modeling(BIMM)フレームワークを提案する。 具体的には腹側枝と背側枝からなり,それぞれ画像と映像の表現を学習する。 両ブランチともViT(Vision Transformer)をバックボーンとして採用しており、マスク付きモデリング手法を用いてトレーニングされている。 脳内の異なる視覚皮質の目標を達成するために、各枝のエンコーダを3つの中間ブロックに分割し、軽量デコーダを用いて進行予測ターゲットを再構築する。 さらに,視覚経路における情報共有機構からインスピレーションを得て,学習中の枝間の部分的パラメータ共有戦略を提案する。 BIMMは最先端の手法に比べて優れた性能を示す。

The visual pathway of human brain includes two sub-pathways, ie, the ventral pathway and the dorsal pathway, which focus on object identification and dynamic information modeling, respectively. Both pathways comprise multi-layer structures, with each layer responsible for processing different aspects of visual information. Inspired by visual information processing mechanism of the human brain, we propose the Brain Inspired Masked Modeling (BIMM) framework, aiming to learn comprehensive representations from videos. Specifically, our approach consists of ventral and dorsal branches, which learn image and video representations, respectively. Both branches employ the Vision Transformer (ViT) as their backbone and are trained using masked modeling method. To achieve the goals of different visual cortices in the brain, we segment the encoder of each branch into three intermediate blocks and reconstruct progressive prediction targets with light weight decoders. Furthermore, drawing inspiration from the information-sharing mechanism in the visual pathways, we propose a partial parameter sharing strategy between the branches during training. Extensive experiments demonstrate that BIMM achieves superior performance compared to the state-of-the-art methods.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# クロススペクトルGated-RGBステレオ深さ推定

Cross-spectral Gated-RGB Stereo Depth Estimation ( http://arxiv.org/abs/2405.12759v1 )

ライセンス: Link先を確認
Samuel Brucker, Stefanie Walz, Mario Bijelic, Felix Heide, (参考訳) ゲート付きカメラがシーンを照らし、シーンのタイムゲートのインパルスを捉えます。 ナノ秒スケールのゲートを使用することで、既存のセンサーはメガピクセルのゲート画像をキャプチャでき、現在のLiDARセンサーの深度を空間解像度と深度精度で向上させることができる。 ゲート深度推定法はフレーム毎に100万の深さ推定を行うが、その解像度は既存のRGB画像法よりは低い。 本研究では,高解像度のステレオHDR RCCBカメラとゲートイメージングを組み合わせることで,アクティブゲーティング,マルチビューRGB,マルチビューNIRセンシングから,スペクトル全体にわたるマルチビューおよびゲートキューの奥行きを活用できる。 得られたキャプチャシステムは、低コストのCMOSセンサーとフラッドイルミネーションのみで構成されている。 IRカットフィルタを除去する際,RCCBカメラが計測する能動的照明を含む,これらの多モード多視点深度キューを活用可能な新しいステレオ深度推定法を提案する。 提案手法は, 蓄積したLiDAR地盤の100~220mの範囲において, 次の最良既存手法よりも39%高い精度で高精度な深度を実現する。 私たちのコード、モデル、データセットはhttps://light.princeton.edu/gatedrccbstereo/で利用可能です。

Gated cameras flood-illuminate a scene and capture the time-gated impulse response of a scene. By employing nanosecond-scale gates, existing sensors are capable of capturing mega-pixel gated images, delivering dense depth improving on today's LiDAR sensors in spatial resolution and depth precision. Although gated depth estimation methods deliver a million of depth estimates per frame, their resolution is still an order below existing RGB imaging methods. In this work, we combine high-resolution stereo HDR RCCB cameras with gated imaging, allowing us to exploit depth cues from active gating, multi-view RGB and multi-view NIR sensing -- multi-view and gated cues across the entire spectrum. The resulting capture system consists only of low-cost CMOS sensors and flood-illumination. We propose a novel stereo-depth estimation method that is capable of exploiting these multi-modal multi-view depth cues, including the active illumination that is measured by the RCCB camera when removing the IR-cut filter. The proposed method achieves accurate depth at long ranges, outperforming the next best existing method by 39% for ranges of 100 to 220m in MAE on accumulated LiDAR ground-truth. Our code, models and datasets are available at https://light.princeton.edu/gatedrccbstereo/ .
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# ソーシャルネットワークにおける情報拡散アルゴリズムにおけるバイアスの検出と緩和

Detecting and Mitigating Bias in Algorithms Used to Disseminate Information in Social Networks ( http://arxiv.org/abs/2405.12764v1 )

ライセンス: Link先を確認
Vedran Sekara, Ivan Dotu, Manuel Cebrian, Esteban Moro, Manuel Garcia-Herranz, (参考訳) 社会的つながりは、個人がコミュニケーションし、情報伝達し、病気が広がる経路である。 効果的な情報キャンペーンを開発し、疫病と闘い、限られた資源の範囲を最大化するためには、アイデアや技術を取り入れ、それを他人に広める可能性がより高い個人を特定することが不可欠である。 その結果、多くの研究がインフルエンサーの集合を特定することに重点を置いている。 ここでは、これらの影響の最大化手法を用いた種付け情報は、接続された個人と中央の個人にのみ利益をもたらし、最も脆弱な情報を一貫して残していることを示す。 この結果は、影響の最大化アルゴリズムの厄介な結果を浮き彫りにしている。 この問題を解決するために、インフルエンスと情報エクイティの両方を最大化する、単純で多目的のアルゴリズムを考案した。 我々の研究は、より公平なインフルエンサーセットを見つける方法を示し、情報の最大化のために、情報平等を妥協する必要はないことを強調している。

Social connections are a conduit through which individuals communicate, information propagates, and diseases spread. Identifying individuals that are more likely to adopt ideas or technologies and spread them to others is essential in order to develop effective information campaigns, fight epidemics, and to maximize the reach of limited resources. Consequently a lot of work has focused on identifying sets of influencers. Here we show that seeding information using these influence maximization methods, only benefits connected and central individuals, consistently leaving the most vulnerable behind. Our results highlights troublesome outcomes of influence maximization algorithms: they do not disseminate information in an equitable manner threatening to create an increasingly unequal society. To overcome this issue we devise a simple, multi-objective algorithm, which maximises both influence and information equity. Our work demonstrates how to find fairer influencer sets, highlighting that in our search for maximizing information, we do not need to compromise on information equality.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# LLM時代のOracle Automationをテストする

Test Oracle Automation in the era of LLMs ( http://arxiv.org/abs/2405.12766v1 )

ライセンス: Link先を確認
Facundo Molina, Alessandra Gorla, (参考訳) 欠陥検出におけるテストスイートの有効性は、そのテストオーラクルの正確性と完全性に大きく依存する。 大規模言語モデル(LLM)は、自動テスト生成やプログラムの修正など、多様なソフトウェアテストタスクに取り組む上で、すでに顕著な能力を発揮している。 本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。 さらに,本研究の目的は, オラクルの欠陥やデータ漏洩に関する懸念を含む, オラクルの自動化にLLMを使用する場合, SE研究者が考慮すべき主要な脅威について, 議論を開始することである。

The effectiveness of a test suite in detecting faults highly depends on the correctness and completeness of its test oracles. Large Language Models (LLMs) have already demonstrated remarkable proficiency in tackling diverse software testing tasks, such as automated test generation and program repair. This paper aims to enable discussions on the potential of using LLMs for test oracle automation, along with the challenges that may emerge during the generation of various types of oracles. Additionally, our aim is to initiate discussions on the primary threats that SE researchers must consider when employing LLMs for oracle automation, encompassing concerns regarding oracle deficiencies and data leakages.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# 原子磁気センサへの応用

Postselected amplification applied to atomic magnetometers ( http://arxiv.org/abs/2405.12767v1 )

ライセンス: Link先を確認
Yazhi Niu, Jialin Li, Lupei Qin, Xin-Qi Li, (参考訳) 我々は、原子磁気センサ(AM)を光学的マッハ・ツェンダー干渉計(MZI)に埋め込むことを提案する。 プローブレーザ光のファラデー回転角の増幅効果を、MZIを通過した際のレーザ光子の経路変化状態を適切に選択することにより解析する。 提案手法は, 弱い磁場を観測するためのポストセレクトメロジカルプロトコルを提供し, 現状の光学的AMの感度をさらに高める可能性がある。

We propose to embed the atomic magnetometer (AM) into an optical Mach-Zehnder interferometer (MZI). We analyze the effect of amplification of the Faraday rotation angle of the probe laser light, by properly postselecting the path-information state of the laser photons when passing through the MZI. The proposed scheme provides a postselected metrological protocol of probing weak magnetic fields, having a potential to further enhance the sensitivity of the nowadays state-of-the-art optical AM.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# 原子冷却用全繊維近赤外780nmレーザーシステム

All-fiber, near-infrared, laser system at 780nm for atom cooling ( http://arxiv.org/abs/2405.12770v1 )

ライセンス: Link先を確認
Matteo Marchesini, Michelangelo Dondi, Leonardo Rossi, Gabriele Bolognini, Marco Prevedelli, Francesco Minardi, (参考訳) 低温中性原子は、新しい革新的な量子技術応用に期待できる「アーキテクチャ」である。 これらは磁場用の量子センサー、重力測定のための干渉計、量子コンピューティングやシミュレーションまで様々である。 この技術的景観の中では、原子を効率的に冷却し、操作するために信頼性の高いレーザーシステムは不可欠である。 本稿では、量子技術応用のための比較的単純でコンパクトで経済的なレーザーシステムの設計、実験的実現および特性について述べる。 ルビジウム原子を扱うために780nmで動作し、完全に繊維成分に基づいている。 これにより信頼性が向上し、自由空間システムに関してより複雑で汎用性が低下する。 コスト削減のために、我々は既に利用可能な1560nmの商用ファイバーデバイスを活用している。 ルビジウム波長で動作するには、1560nmの赤外線の第2高調波発生(SHG)を用い、1560nmの2つの半導体レーザー(冷却用、1つはポンピング用)を組み合わせ、エルビウムドープファイバ増幅器(EDFA)に増幅し、周期的にポリドニオブ酸リチウム(PPLN)結晶に倍増する。 レーザの振幅安定性,周波数雑音,SHG効率を特徴付ける。 測定された特徴(3$\times$10$^{-4}$ at 1 s; linewidths far below 1 MHz)は、量子センサや原子干渉計の応用に適している。

Cold neutral atoms are a promising "architecture" for novel and innovative quantum technology applications. These range from quantum sensors for magnetic fields, interferometers for gravimetry measurements, to quantum computing and simulations. Within this technological landscape, reliable laser systems are crucial in order to cool and manipulate atoms efficiently. We present the design, experimental realization and characterization of a relatively simple, compact, and economical laser system for quantum technology applications. It operates at 780 nm in order to work with Rubidium atoms, and it is entirely based on fiber components. This improves its reliability, and makes it less complex and more versatile with respect to a free-space system. In order to cut costs, we take advantage of already available commercial fiber devices at 1560 nm: due to their ubiquity in telecom applications they are in fact cheap and standardized. To operate at Rubidium wavelengths the system employs Second-Harmonic Generation (SHG) of the 1560 nm infrared radiation: two semiconductor lasers at 1560 nm (one for cooling, one for repumping) are combined, amplified in an Erbium-Doped Fiber Amplifier (EDFA), and frequency-doubled in a Periodically-Poled Lithium Niobate (PPLN) crystal. We characterize the amplitude stability of the lasers, their frequency noise, and the SHG efficiency. The measured features (rms relative amplitude noise of 3$\times$10$^{-4}$ at 1 s; linewidths well below 1 MHz) make our system a suitable candidate for applications in quantum sensors and atom interferometers.
翻訳日:2024-05-22 13:19:55 公開日:2024-05-21
# X線キャビティを用いたメスバウアー核を持つ非線形光学へ向けて

Towards nonlinear optics with Mössbauer nuclei using x-ray cavities ( http://arxiv.org/abs/2405.12773v1 )

ライセンス: Link先を確認
Dominik Lentrodt, Christoph H. Keitel, Jörg Evers, (参考訳) 核共鳴の強い励起、特に「オスバウアー核」は長年の目標であり、新しいX線源の進歩は、この点において新しい選択肢を約束している。 ここでは、非線形光学を原子核で実現し、利用可能な技術と比較する、より一般的な目的のための必要な実験条件を図示する。 特に, 集束X線パルスによる薄膜X線キャビティにおける非線形核励起の包括的理論を提案する。 これにより、広い共鳴で空洞のジオメトリを同定し、適度に厳密な焦点でも核の励起を促進できる。

Strong excitation of nuclear resonances, particularly of Mo\"ossbauer nuclei, has been a longstanding goal and the advance of novel x-ray sources is promising new options in this regard. Here we map out the necessary experimental conditions for the more general goal of realizing nonlinear optics with nuclei and compare with available technology. In particular, we present a comprehensive theory of nonlinear nuclear excitation in thin-film x-ray cavities by focused x-ray pulses. We thereby identify cavity geometries with broad resonances which allow one to boost the nuclear excitation even at moderately tight focusing.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# 深層学習とデコンボリューションを用いた振動源のブラインド分離

Blind Separation of Vibration Sources using Deep Learning and Deconvolution ( http://arxiv.org/abs/2405.12774v1 )

ライセンス: Link先を確認
Igor Makienko, Michael Grebshtein, Eli Gildish, (参考訳) 回転機械の振動は、主に2つの源に由来するが、どちらもセンサーに向かう途中で機械の伝達関数によって歪められる。 提案手法は, 振動源のブラインド分離を容易にし, 監視機器や外部測定装置に関する情報を不要にする。 本手法では, 最初は拡張CNNを用いてギヤ信号を分離し, その後, 残余の2乗ログエンベロープを用いて軸受故障信号の推定を行う。 トランスファー関数の効果は、新しいホワイトニングベースのデコンボリューション法(WBD)を用いて、両方のソースから除去される。 シミュレーションと実験の結果は,追加情報がない場合に早期に軸受故障を検出する能力を示している。 本研究は, 安定動作条件下での振動が記録されることを前提として, 局部および分散軸受断層の両方を考察した。

Vibrations of rotating machinery primarily originate from two sources, both of which are distorted by the machine's transfer function on their way to the sensor: the dominant gear-related vibrations and a low-energy signal linked to bearing faults. The proposed method facilitates the blind separation of vibration sources, eliminating the need for any information about the monitored equipment or external measurements. This method estimates both sources in two stages: initially, the gear signal is isolated using a dilated CNN, followed by the estimation of the bearing fault signal using the squared log envelope of the residual. The effect of the transfer function is removed from both sources using a novel whitening-based deconvolution method (WBD). Both simulation and experimental results demonstrate the method's ability to detect bearing failures early when no additional information is available. This study considers both local and distributed bearing faults, assuming that the vibrations are recorded under stable operating conditions.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# マルチモーダル発話における意味発見のための教師なしマルチモーダルクラスタリング

Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances ( http://arxiv.org/abs/2405.12775v1 )

ライセンス: Link先を確認
Hanlei Zhang, Hua Xu, Fei Long, Xin Wang, Kai Gao, (参考訳) 多モーダル発話の意味を明らかにすることは、人間の言語を理解し、人間と機械の相互作用を強化するのに不可欠である。 既存の手法は、教師なしシナリオにおける複雑な意味を識別するために非言語情報を活用する際の限界を示す。 本稿では,新しい教師なしマルチモーダルクラスタリング手法 (UMC) を提案する。 UMCは、マルチモーダルデータのための拡張ビューを構築するためのユニークなアプローチを導入し、その後、事前トレーニングを実行して、その後のクラスタリングのための十分に初期化された表現を確立するために使用される。 提案手法は,各サンプルの近傍近傍の密度を指標とした表現学習の指針として,高品質なサンプルを動的に選択する手法である。 さらに、各クラスタの上位$K$パラメータの最適値を自動決定して、サンプル選択を洗練させる。 最後に、効率的なクラスタリングに寄与する表現を学習するために、高品質なサンプルと低品質なサンプルの両方が使用される。 ベンチマークマルチモーダルインテントと対話行動データセットに基づいてベースラインを構築します。 UMCは、最先端の手法よりもクラスタリングメトリクスの2-6\%のスコアを著しく改善しており、この領域で最初に成功した取り組みである。 完全なコードとデータはhttps://github.com/thuiar/UMC.comで公開されている。

Discovering the semantics of multimodal utterances is essential for understanding human language and enhancing human-machine interactions. Existing methods manifest limitations in leveraging nonverbal information for discerning complex semantics in unsupervised scenarios. This paper introduces a novel unsupervised multimodal clustering method (UMC), making a pioneering contribution to this field. UMC introduces a unique approach to constructing augmentation views for multimodal data, which are then used to perform pre-training to establish well-initialized representations for subsequent clustering. An innovative strategy is proposed to dynamically select high-quality samples as guidance for representation learning, gauged by the density of each sample's nearest neighbors. Besides, it is equipped to automatically determine the optimal value for the top-$K$ parameter in each cluster to refine sample selection. Finally, both high- and low-quality samples are used to learn representations conducive to effective clustering. We build baselines on benchmark multimodal intent and dialogue act datasets. UMC shows remarkable improvements of 2-6\% scores in clustering metrics over state-of-the-art methods, marking the first successful endeavor in this domain. The complete code and data are available at https://github.com/thuiar/UMC.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# Transformer in Touch: 調査

Transformer in Touch: A Survey ( http://arxiv.org/abs/2405.12779v1 )

ライセンス: Link先を確認
Jing Gao, Ning Cheng, Bin Fang, Wenjuan Han, (参考訳) 自然言語処理の分野で最初に大きな成功を収めたTransformerモデルは、最近、触覚認識の応用に大きな可能性を示している。 本稿では,触覚技術におけるトランスフォーマーの適用と開発について概観する。 まず,トランスフォーマーの成功の背景にある2つの基本的な概念,すなわち自己認識機構と大規模事前学習を紹介する。 次に,多種多様な触覚タスクにおけるトランスフォーマーの適用について検討する。オブジェクト認識,クロスモーダル生成,オブジェクト操作に限らず,コア方法論,パフォーマンスベンチマーク,設計ハイライトの簡潔な要約を提供する。 最後に,コミュニティ内でより多くの関心を喚起し,既存の課題に取り組み,触覚領域におけるトランスフォーマーモデルの利用を促進することを目的として,さらなる研究と今後の研究の可能性を示唆する。

The Transformer model, initially achieving significant success in the field of natural language processing, has recently shown great potential in the application of tactile perception. This review aims to comprehensively outline the application and development of Transformers in tactile technology. We first introduce the two fundamental concepts behind the success of the Transformer: the self-attention mechanism and large-scale pre-training. Then, we delve into the application of Transformers in various tactile tasks, including but not limited to object recognition, cross-modal generation, and object manipulation, offering a concise summary of the core methodologies, performance benchmarks, and design highlights. Finally, we suggest potential areas for further research and future work, aiming to generate more interest within the community, tackle existing challenges, and encourage the use of Transformer models in the tactile field.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# 自己監督型モダリティ-スイム変圧器の非依存事前試験

Self-Supervised Modality-Agnostic Pre-Training of Swin Transformers ( http://arxiv.org/abs/2405.12781v1 )

ライセンス: Link先を確認
Abhiroop Talasila, Maitreya Maity, U. Deva Priyakumar, (参考訳) 教師なし事前訓練はトランスフォーメーションパラダイムとして現れ、様々な領域で顕著な進歩を見せている。 しかし、事前学習データ分布が異なる領域シフトに対する感受性は、微調整とは異なるため、大きな障害となる。 そこで我々は,Swin Transformerを改良して,異なる医用画像モダリティから学習し,下流のパフォーマンスを向上させる。 SwinFUSE(Swin Multi-Modal Fusion for UnSupervised Enhancement)と呼ばれる私たちのモデルには3つの利点があります。 i)CT(CT)とMRI(MRI)の両方から事前訓練中に学習し,相補的特徴表現をもたらす。 2ドメイン不変モジュール(DIM)は、健全な入力領域を効果的に強調し、適応性を向上する。 (iii) 当初訓練されていた作業の制限を超越して、目覚ましい一般化性を示す。 公開されている2つの3Dセグメンテーションデータセットに対する実験は、単一モダリティモデルと比較して、わずか1-2%のパフォーマンストレードオフを示したが、アウト・オブ・ディストリビューション・モダリティでは最大27%の大幅なアウトパフォーマンスを示した。 この大幅な改善は、提案されたアプローチの実践的妥当性と実世界の適用性を強調します。 コードは、https://github.com/devalab/SwinFUSEで入手できる。

Unsupervised pre-training has emerged as a transformative paradigm, displaying remarkable advancements in various domains. However, the susceptibility to domain shift, where pre-training data distribution differs from fine-tuning, poses a significant obstacle. To address this, we augment the Swin Transformer to learn from different medical imaging modalities, enhancing downstream performance. Our model, dubbed SwinFUSE (Swin Multi-Modal Fusion for UnSupervised Enhancement), offers three key advantages: (i) it learns from both Computed Tomography (CT) and Magnetic Resonance Images (MRI) during pre-training, resulting in complementary feature representations; (ii) a domain-invariance module (DIM) that effectively highlights salient input regions, enhancing adaptability; (iii) exhibits remarkable generalizability, surpassing the confines of tasks it was initially pre-trained on. Our experiments on two publicly available 3D segmentation datasets show a modest 1-2% performance trade-off compared to single-modality models, yet significant out-performance of up to 27% on out-of-distribution modality. This substantial improvement underscores our proposed approach's practical relevance and real-world applicability. Code is available at: https://github.com/devalab/SwinFUSE
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# エパネチニコフ変分オートエンコーダ

Epanechnikov Variational Autoencoder ( http://arxiv.org/abs/2405.12783v1 )

ライセンス: Link先を確認
Tian Qin, Wei-Min Huang, (参考訳) 本稿では,KDEによる後方の近似と,ELBO(エビデンス・ローバウンド)におけるKullback-Leibler(KL)の偏差を導出することにより,VAE(VAEs) [17)とカーネル密度推定(KDEs) [25 ],[23]を橋渡しする。 KDEの柔軟性により、VAEの後方の最適化が可能となり、バニラVAEのガウス潜在空間の制限に対処するだけでなく、ELBOにおけるKL偏差を推定する新たな視点を提供する。 適切な条件 [9],[3 ] の下では、エパネチニコフ核がKL-発散の導出上限を漸近的に最小化する最適選択であることを示す。 ガウスカーネルと比較すると、エパネチニコフカーネルはコンパクトなサポートを備えており、それによって生成されたサンプルのノイズやぼやけが軽減される。 ELBO における Epanechnikov カーネルの実装は、再パラメータ化のトリックを直接適用可能な "ロケーションスケール" ディストリビューションのファミリにあるため、簡単である。 MNIST, Fashion-MNIST, CIFAR-10, CelebAなどのベンチマークデータセットに関する一連の実験では、FIDスコアとシャープネス[27]で測定されたように、バニラVAEよりもベニラVAEの方が優れていることが示されている。

In this paper, we bridge Variational Autoencoders (VAEs) [17] and kernel density estimations (KDEs) [25 ],[23] by approximating the posterior by KDEs and deriving an upper bound of the Kullback-Leibler (KL) divergence in the evidence lower bound (ELBO). The flexibility of KDEs makes the optimization of posteriors in VAEs possible, which not only addresses the limitations of Gaussian latent space in vanilla VAE but also provides a new perspective of estimating the KL-divergence in ELBO. Under appropriate conditions [ 9],[3 ], we show that the Epanechnikov kernel is the optimal choice in minimizing the derived upper bound of KL-divergence asymptotically. Compared with Gaussian kernel, Epanechnikov kernel has compact support which should make the generated sample less noisy and blurry. The implementation of Epanechnikov kernel in ELBO is straightforward as it lies in the "location-scale" family of distributions where the reparametrization tricks can be directly employed. A series of experiments on benchmark datasets such as MNIST, Fashion-MNIST, CIFAR-10 and CelebA further demonstrate the superiority of Epanechnikov Variational Autoenocoder (EVAE) over vanilla VAE in the quality of reconstructed images, as measured by the FID score and Sharpness[27].
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# 塗り絵によるポリプの一般化と擬似マスク微細化

Generalize Polyp Segmentation via Inpainting across Diverse Backgrounds and Pseudo-Mask Refinement ( http://arxiv.org/abs/2405.12784v1 )

ライセンス: Link先を確認
Jiajian Ma, Fangqi Lu, Silin Huang, Song Wu, Zhen Li, (参考訳) 異なる通常の背景にある病変を塗布することは一般化問題に対処する潜在的な方法であり、これはポリープセグメンテーションモデルに不可欠である。 しかし、複雑な内視鏡環境にポリプをシームレスに導入すると同時に、正確な擬似マスクを同時に生成することは、現在の塗布方法の課題である。 これらの問題に対処するために、我々はまず、事前訓練された安定拡散インペイントとコントロールネットを活用し、異なる背景にポリプを塗布できる堅牢な生成モデルを導入する。 次に, 塗布された領域に合成ポリープを限定し, 塗布された領域誘導型擬似マスク精錬ネットワークを構築する。 また, モデル微調整のために, 良好な整合性および硬質な合成ケースを優先するサンプル選択戦略を提案する。 評価実験の結果, 塗装品質は質的にも定量的にも, ベースライン法よりも優れていた。 さらに、我々のデータ拡張戦略は、外部データセット上でのポリプセグメンテーションモデルの性能を大幅に向上させ、その領域で完全に教師付きトレーニングベンチマークのレベルを達成または超えるようにします。 私たちのコードはhttps://github.com/497662892/PolypInpainterで利用可能です。

Inpainting lesions within different normal backgrounds is a potential method of addressing the generalization problem, which is crucial for polyp segmentation models. However, seamlessly introducing polyps into complex endoscopic environments while simultaneously generating accurate pseudo-masks remains a challenge for current inpainting methods. To address these issues, we first leverage the pre-trained Stable Diffusion Inpaint and ControlNet, to introduce a robust generative model capable of inpainting polyps across different backgrounds. Secondly, we utilize the prior that synthetic polyps are confined to the inpainted region, to establish an inpainted region-guided pseudo-mask refinement network. We also propose a sample selection strategy that prioritizes well-aligned and hard synthetic cases for further model fine-tuning. Experiments demonstrate that our inpainting model outperformed baseline methods both qualitatively and quantitatively in inpainting quality. Moreover, our data augmentation strategy significantly enhances the performance of polyp segmentation models on external datasets, achieving or surpassing the level of fully supervised training benchmarks in that domain. Our code is available at https://github.com/497662892/PolypInpainter.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# 鉄鋼産業における予測保守のための人工知能的アプローチ:調査

Artificial Intelligence Approaches for Predictive Maintenance in the Steel Industry: A Survey ( http://arxiv.org/abs/2405.12785v1 )

ライセンス: Link先を確認
Jakub Jakubowski, Natalia Wojak-Strzelecka, Rita P. Ribeiro, Sepideh Pashami, Szymon Bobek, Joao Gama, Grzegorz J Nalepa, (参考訳) 予測保守(PdM)は産業4.0の柱の1つとして出現し、運用効率の向上、ダウンタイムの最小化、設備の寿命延長、故障防止のために重要になった。 幅広いPdMタスクは、産業センサから生成されたデータを使用する人工知能(AI)メソッドを使用して実行することができる。 鉄鋼産業は世界経済の重要な分野であり、環境のフットプリント、市場のグローバル化の性質、労働条件の要求などを考えると、この傾向の潜在的恩恵の1つである。 この調査は、鉄鋼業界におけるAIベースのPdMの分野における知識の現状を総合し、研究者や実践者に対処するものである。 我々は,この話題に関連する219の論文を特定し,5つの研究課題を定式化した。 PdM を対象とする機器や設備について検討し,PdM のアプローチを定式化し,これらのソリューションの開発に使用されるAI 手法の動向を明らかにした。 調査論文で用いたデータの特徴について検討し,本研究の実際的意義について検討した。 研究の大部分は、産業用センサーのデータを用いて、高炉や熱間圧延に焦点を当てている。 最近の傾向は、特にディープラーニングの利用において、ドメインに対する関心が増していることを示している。 主な課題は、生産環境で提案された手法の実装、保守計画への導入、研究のアクセシビリティと再現性の向上である。

Predictive Maintenance (PdM) emerged as one of the pillars of Industry 4.0, and became crucial for enhancing operational efficiency, allowing to minimize downtime, extend lifespan of equipment, and prevent failures. A wide range of PdM tasks can be performed using Artificial Intelligence (AI) methods, which often use data generated from industrial sensors. The steel industry, which is an important branch of the global economy, is one of the potential beneficiaries of this trend, given its large environmental footprint, the globalized nature of the market, and the demanding working conditions. This survey synthesizes the current state of knowledge in the field of AI-based PdM within the steel industry and is addressed to researchers and practitioners. We identified 219 articles related to this topic and formulated five research questions, allowing us to gain a global perspective on current trends and the main research gaps. We examined equipment and facilities subjected to PdM, determined common PdM approaches, and identified trends in the AI methods used to develop these solutions. We explored the characteristics of the data used in the surveyed articles and assessed the practical implications of the research presented there. Most of the research focuses on the blast furnace or hot rolling, using data from industrial sensors. Current trends show increasing interest in the domain, especially in the use of deep learning. The main challenges include implementing the proposed methods in a production environment, incorporating them into maintenance plans, and enhancing the accessibility and reproducibility of the research.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# 顔認識システムの脆弱性を再考する:実践的視点から

Rethinking the Vulnerabilities of Face Recognition Systems:From a Practical Perspective ( http://arxiv.org/abs/2405.12786v1 )

ライセンス: Link先を確認
Jiahao Chen, Zhiqiang Shen, Yuwen Pu, Chunyi Zhou, Shouling Ji, (参考訳) 顔認識システム(FRS)は、監視やユーザ認証を含む重要なアプリケーションに統合され、現代のセキュリティシステムにおける彼らの重要な役割を強調している。 最近の研究では、FRSの脆弱性(例えば、敵パッチ攻撃)やバックドア攻撃(例えば、データ中毒の訓練など)が明らかにされており、信頼性と信頼性に関する重大な懸念が提起されている。 従来の研究は主に伝統的な敵対的攻撃やバックドア攻撃に焦点をあてており、そのような脅威の資源集約的あるいは特権的支配的な性質を見越して、その実践的な一般化、盗み、普遍性、堅牢さを制限していた。 本論文では,ユーザ研究と予備調査を通じて,FRSの固有の脆弱性を掘り下げる。 これらの脆弱性を悪用することで、FIBAと呼ばれる顔認証バックドア攻撃という新たな攻撃を特定できる。 FIBAは従来の攻撃の限界を回避し、攻撃者が特定のトリガーを寄付してシステムをバイパスすることで広範囲の破壊を可能にする。 これは、データベースに1つの有毒な例が挿入された後、対応するトリガーが攻撃者がFRSを偽造するための普遍的なキーとなることを意味する。 この戦略は基本的に、入学段階で開始することで従来の攻撃に挑戦し、トレーニングデータではなく、特徴データベースを汚染することで脅威の景観を劇的に変える。

Face Recognition Systems (FRS) have increasingly integrated into critical applications, including surveillance and user authentication, highlighting their pivotal role in modern security systems. Recent studies have revealed vulnerabilities in FRS to adversarial (e.g., adversarial patch attacks) and backdoor attacks (e.g., training data poisoning), raising significant concerns about their reliability and trustworthiness. Previous studies primarily focus on traditional adversarial or backdoor attacks, overlooking the resource-intensive or privileged-manipulation nature of such threats, thus limiting their practical generalization, stealthiness, universality and robustness. Correspondingly, in this paper, we delve into the inherent vulnerabilities in FRS through user studies and preliminary explorations. By exploiting these vulnerabilities, we identify a novel attack, facial identity backdoor attack dubbed FIBA, which unveils a potentially more devastating threat against FRS:an enrollment-stage backdoor attack. FIBA circumvents the limitations of traditional attacks, enabling broad-scale disruption by allowing any attacker donning a specific trigger to bypass these systems. This implies that after a single, poisoned example is inserted into the database, the corresponding trigger becomes a universal key for any attackers to spoof the FRS. This strategy essentially challenges the conventional attacks by initiating at the enrollment stage, dramatically transforming the threat landscape by poisoning the feature database rather than the training data.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# 非自己回帰翻訳で何が達成されたのか?

What Have We Achieved on Non-autoregressive Translation? ( http://arxiv.org/abs/2405.12788v1 )

ライセンス: Link先を確認
Yafu Li, Huajian Zhang, Jianhao Yan, Yongjing Yin, Yue Zhang, (参考訳) 近年,非自己回帰法 (NAT) 翻訳は自己回帰法 (AT) に匹敵する傾向にある。 しかし、BLEUを用いた評価は、人間のアノテーションと弱い相関関係があることが示されている。 限定的な研究は、非自己回帰翻訳と自己回帰翻訳を包括的に比較し、NATとATとの真の近接性について不確実性を残している。 このギャップに対処するために,人間の評価を含む,様々な次元にまたがる4つの代表的NAT手法を体系的に評価した。 我々の経験的結果は、パフォーマンスギャップを狭めるにもかかわらず、最先端のNATは、より信頼性の高い評価基準の下では、ATよりも性能が劣っていることを示している。 さらに, 依存関係を明示的にモデル化することは, 自然言語の生成や分布外シーケンスの一般化に不可欠であることが判明した。

Recent advances have made non-autoregressive (NAT) translation comparable to autoregressive methods (AT). However, their evaluation using BLEU has been shown to weakly correlate with human annotations. Limited research compares non-autoregressive translation and autoregressive translation comprehensively, leaving uncertainty about the true proximity of NAT to AT. To address this gap, we systematically evaluate four representative NAT methods across various dimensions, including human evaluation. Our empirical results demonstrate that despite narrowing the performance gap, state-of-the-art NAT still underperforms AT under more reliable evaluation metrics. Furthermore, we discover that explicitly modeling dependencies is crucial for generating natural language and generalizing to out-of-distribution sequences.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# オブジェクトの状態変化を予想する

Anticipating Object State Changes ( http://arxiv.org/abs/2405.12789v1 )

ライセンス: Link先を確認
Victoria Manousaki, Konstantinos Bacharidis, Filippos Gouidis, Konstantinos Papoutsakis, Dimitris Plexousakis, Antonis Argyros, (参考訳) 画像やビデオのオブジェクト状態の変化を予測することは、視覚ベースのシーン理解、自動監視システム、アクションプランニングにおいて重要な意味を持つソリューションとして難しい問題である。 本研究では,この問題を解くための最初の方法を提案する。 提案手法は,ヒトの行動が未確認であった結果,近い将来に発生する物体の状態変化を予測する。 この問題に対処するために,近年の視覚情報を表す学習視覚機能と過去のオブジェクトの状態変化や動作を表す自然言語(NLP)機能を統合した新しいフレームワークを提案する。 Ego4D-OSCAと呼ばれるオブジェクト状態変化予測タスク(OSCA)のための新しいキュレートされたアノテーションデータを導入する。 動的シナリオにおけるオブジェクト状態変化の予測における提案手法の有効性を実証する実験を行った。 提案研究は,映像理解システムの予測性能を高めるために,映像と言語情報の統合の可能性を明らかにするものである。 さらに,オブジェクトの状態変化を期待する新たな課題について,今後の研究の基盤となるものとなる。 ソースコードと新しいアノテーションデータ(Ego4D-OSCA)が公開される。

Anticipating object state changes in images and videos is a challenging problem whose solution has important implications in vision-based scene understanding, automated monitoring systems, and action planning. In this work, we propose the first method for solving this problem. The proposed method predicts object state changes that will occur in the near future as a result of yet unseen human actions. To address this new problem, we propose a novel framework that integrates learnt visual features that represent the recent visual information, with natural language (NLP) features that represent past object state changes and actions. Leveraging the extensive and challenging Ego4D dataset which provides a large-scale collection of first-person perspective videos across numerous interaction scenarios, we introduce new curated annotation data for the object state change anticipation task (OSCA), noted as Ego4D-OSCA. An extensive experimental evaluation was conducted that demonstrates the efficacy of the proposed method in predicting object state changes in dynamic scenarios. The proposed work underscores the potential of integrating video and linguistic cues to enhance the predictive performance of video understanding systems. Moreover, it lays the groundwork for future research on the new task of object state change anticipation. The source code and the new annotation data (Ego4D-OSCA) will be made publicly available.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# DisenStudio:分散空間制御によるカスタマイズ多目的テキスト・ビデオ生成

DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control ( http://arxiv.org/abs/2405.12796v1 )

ライセンス: Link先を確認
Hong Chen, Xin Wang, Yipeng Zhang, Yuwei Zhou, Zeyang Zhang, Siao Tang, Wenwu Zhu, (参考訳) ビデオでカスタマイズされたコンテンツを生成することは、最近注目を集めている。 しかし、既存の研究は、主に1つの主題に対するカスタマイズされたテキスト・ツー・ビデオ生成に焦点を当てており、ビデオが複数の主題を含むと予想される場合、主題の欠落や属性バインディングの問題に悩まされている。 さらに、既存のモデルでは、要求されたアクションを対応する主題(アクション結合問題)に割り当てるのに苦労し、良好なマルチオブジェクト生成性能を達成できなかった。 そこで本稿では,複数の主題をカスタマイズしたテキスト誘導ビデオを生成するための新しいフレームワークであるDisenStudioを提案する。 具体的には、DistenStudioは、予め訓練された拡散に基づくテキスト・ツー・ビデオモデルを拡張し、提案した空間的異方性(空間的異方性)のクロスアテンション機構により、各被験者を所望のアクションに関連付ける。 次に,多目的共起チューニング,仮面単体チューニング,多目的運動保存チューニングという3つのチューニング戦略を含む,動作保存型遠絡微調整を提案する複数の対象に対して,モデルをカスタマイズする。 最初の2つの戦略は、被写体の発生を保証し、その視覚特性を保ち、第3の戦略は、静的な画像を微調整する際の時間運動生成能力をモデルが維持するのに役立つ。 提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。 さらに、DisenStudioは様々な制御可能な生成アプリケーションのための強力なツールとして利用できることを示す。

Generating customized content in videos has received increasing attention recently. However, existing works primarily focus on customized text-to-video generation for single subject, suffering from subject-missing and attribute-binding problems when the video is expected to contain multiple subjects. Furthermore, existing models struggle to assign the desired actions to the corresponding subjects (action-binding problem), failing to achieve satisfactory multi-subject generation performance. To tackle the problems, in this paper, we propose DisenStudio, a novel framework that can generate text-guided videos for customized multiple subjects, given few images for each subject. Specifically, DisenStudio enhances a pretrained diffusion-based text-to-video model with our proposed spatial-disentangled cross-attention mechanism to associate each subject with the desired action. Then the model is customized for the multiple subjects with the proposed motion-preserved disentangled finetuning, which involves three tuning strategies: multi-subject co-occurrence tuning, masked single-subject tuning, and multi-subject motion-preserved tuning. The first two strategies guarantee the subject occurrence and preserve their visual attributes, and the third strategy helps the model maintain the temporal motion-generation ability when finetuning on static images. We conduct extensive experiments to demonstrate our proposed DisenStudio significantly outperforms existing methods in various metrics. Additionally, we show that DisenStudio can be used as a powerful tool for various controllable generation applications.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# 自己学習と潜在コミュニティリカバリによるグラフエンコーダの組込み

Refined Graph Encoder Embedding via Self-Training and Latent Community Recovery ( http://arxiv.org/abs/2405.12797v1 )

ライセンス: Link先を確認
Cencheng Shen, Jonathan Larson, Ha Trinh, Carey E. Priebe, (参考訳) 本稿では,リニアトランスフォーメーション,自己学習,隠れたコミュニティリカバリによるグラフエンコーダの埋め込みを改良し,改良されたグラフエンコーダの埋め込み手法を提案する。 本稿では,提案手法が確率的ブロックモデルによって有用な隠れコミュニティを効果的に識別できる方法と,改良手法が頂点埋め込みの改善と,その後の頂点分類における決定境界の改善にどのように寄与するかを示す。 本手法の有効性は,シミュレーションおよび実世界のグラフデータの収集を通じて検証する。

This paper introduces a refined graph encoder embedding method, enhancing the original graph encoder embedding using linear transformation, self-training, and hidden community recovery within observed communities. We provide the theoretical rationale for the refinement procedure, demonstrating how and why our proposed method can effectively identify useful hidden communities via stochastic block models, and how the refinement method leads to improved vertex embedding and better decision boundaries for subsequent vertex classification. The efficacy of our approach is validated through a collection of simulated and real-world graph data.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# YouTubeの科学談話:コメントで研究を引用する動機

Scientific discourse on YouTube: Motivations for citing research in comments ( http://arxiv.org/abs/2405.12798v1 )

ライセンス: Link先を確認
Sören Striewski, Olga Zagovora, Isabella Peters, (参考訳) YouTubeは、幅広いトピックに関するユーザ生成コンテンツの貴重なソースであり、コメントシステムを使用することで、ユーザの参加を促進する。 ビデオコンテンツはますます科学的な話題に対処しており、学者と消費者の両方がビデオの説明とビデオコメントを使って学術的な研究や科学出版物を参照している証拠がある。 コメントは非帰的な行動であるため、この研究は個人が論文へのリンクをコメントに投稿する理由についての洞察を提供する。 そこで,定性的コンテンツ分析と反復的符号化手法を適用した。 さらに、学術出版物にコメントで言及する理由は、学術作品で引用する理由と、YouTubeでコメントする理由とが対比された。 研究リンクを共有する主な動機は,(1)トピックについてより多くの洞察を提供し,(2)他のコメンテーターが提供した挑戦的な情報を提供することである。

YouTube is a valuable source of user-generated content on a wide range of topics, and it encourages user participation through the use of a comment system. Video content is increasingly addressing scientific topics, and there is evidence that both academics and consumers use video descriptions and video comments to refer to academic research and scientific publications. Because commenting is a discursive behavior, this study will provide insights on why individuals post links to research publications in comments. For this, a qualitative content analysis and iterative coding approach were applied. Furthermore, the reasons for mentioning academic publications in comments were contrasted with the reasons for citing in scholarly works and with reasons for commenting on YouTube. We discovered that the primary motives for sharing research links were (1) providing more insights into the topic and (2) challenging information offered by other commentators.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# ドローンによる時間批判的荒野探索と救助のための深層強化学習

Deep Reinforcement Learning for Time-Critical Wilderness Search And Rescue Using Drones ( http://arxiv.org/abs/2405.12800v1 )

ライセンス: Link先を確認
Jan-Hendrik Ewers, David Anderson, Douglas Thomson, (参考訳) 荒野における伝統的な捜索・救助手法は時間を要する可能性があり、範囲は限られている。 ドローンはより高速で柔軟なソリューションを提供するが、その探索経路を最適化することが不可欠だ。 本稿では,自然環境におけるドローンの効率的な探索ミッション構築のための深層強化学習の活用について検討する。 提案手法では,探索領域と行方不明者に関する事前データを,確率分布マップの形で活用する。 これにより、深層強化学習エージェントは、行方不明者を見つける確率を最大化する最適な飛行経路を学習することができる。 実験の結果,従来のカバレッジ計画や探索計画アルゴリズムと比較して,検索時間の大幅な改善が得られた。 1つの比較で、深層強化学習は、現実世界の検索操作における命と死を意味する違いである160\%以上の他のアルゴリズムより優れていることが判明した。 さらに, 従来の研究と異なり, キュウチュアによって可能となる連続的な行動空間を取り入れることで, より微妙な飛行パターンを実現できる。

Traditional search and rescue methods in wilderness areas can be time-consuming and have limited coverage. Drones offer a faster and more flexible solution, but optimizing their search paths is crucial. This paper explores the use of deep reinforcement learning to create efficient search missions for drones in wilderness environments. Our approach leverages a priori data about the search area and the missing person in the form of a probability distribution map. This allows the deep reinforcement learning agent to learn optimal flight paths that maximize the probability of finding the missing person quickly. Experimental results show that our method achieves a significant improvement in search times compared to traditional coverage planning and search planning algorithms. In one comparison, deep reinforcement learning is found to outperform other algorithms by over $160\%$, a difference that can mean life or death in real-world search operations. Additionally, unlike previous work, our approach incorporates a continuous action space enabled by cubature, allowing for more nuanced flight patterns.
翻訳日:2024-05-22 13:10:09 公開日:2024-05-21
# 隣人の比較が簡単になる: 効率よく効果的な検索のための複数の候補を共同比較する

Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective Retrieval ( http://arxiv.org/abs/2405.12801v1 )

ライセンス: Link先を確認
Jonghyun Song, Cheyon Jin, Wenlong Zhao, Jay-Yoon Lee, (参考訳) 一般的な検索と参照のパラダイムでは、スケーラブルなバイエンコーダを使用して、関連する候補の広いセットを検索し、その後、高価ながより正確なクロスエンコーダを限定的な候補セットに取得する。 しかし、この小さなサブセットは、しばしばバイエンコーダからのエラーの伝播を引き起こすため、パイプライン全体のパフォーマンスが制限される。 これらの問題に対処するために,クエリと複数の候補埋め込みを浅い自己認識層を通じて共同で比較するCMC(Comparing Multiple Candidates)フレームワークを提案する。 コンテキスト化された表現を提供する一方で、CMCは複数の比較を同時に扱うのに十分なスケーラビリティを備えており、2K候補の比較には100の比較の2倍の時間しかかからない。 CMCを軽量で効果的なリランカーとして使用することで、トップ1の精度を向上させることができる。 さらに、他のレトリバーと統合した場合、CMCリグレードは事実上強化されたレトリバーとして機能する。 この構成は、単一のレトリバー(仮想)と比較して無視可能なレイテンシのみを追加し、Kでのリコールを大幅に改善する(拡張)。 実験により,CMCはZeSHELデータセットの初期検索ステージと比較して,Recall@k(+6.7,+3.5%-p, R@16, R@64)を大幅に改善した。 一方,本研究では,エンティティ,パス,ダイアログのランク付けを直接行う実験を行っている。 その結果、CMCはクロスエンコーダよりも11倍高速であるだけでなく、ウィキペディアのエンティティリンク(+0.7%-p)とDSTC7ダイアログランキング(+3.3%-p)の予測性能を改善した。 コードとデータセットへのリンクはhttps://github.com/yc-song/cmcで確認できる。

A common retrieve-and-rerank paradigm involves retrieving a broad set of relevant candidates using a scalable bi-encoder, followed by expensive but more accurate cross-encoders to a limited candidate set. However, this small subset often leads to error propagation from the bi-encoders, thereby restricting the performance of the overall pipeline. To address these issues, we propose the Comparing Multiple Candidates (CMC) framework, which compares a query and multiple candidate embeddings jointly through shallow self-attention layers. While providing contextualized representations, CMC is scalable enough to handle multiple comparisons simultaneously, where comparing 2K candidates takes only twice as long as comparing 100. Practitioners can use CMC as a lightweight and effective reranker to improve top-1 accuracy. Moreover, when integrated with another retriever, CMC reranking can function as a virtually enhanced retriever. This configuration adds only negligible latency compared to using a single retriever (virtual), while significantly improving recall at K (enhanced).} Through experiments, we demonstrate that CMC, as a virtually enhanced retriever, significantly improves Recall@k (+6.7, +3.5%-p for R@16, R@64) compared to the initial retrieval stage on the ZeSHEL dataset. Meanwhile, we conduct experiments for direct reranking on entity, passage, and dialogue ranking. The results indicate that CMC is not only faster (11x) than cross-encoders but also often more effective, with improved prediction performance in Wikipedia entity linking (+0.7%-p) and DSTC7 dialogue ranking (+3.3%-p). The code and link to datasets are available at https://github.com/yc-song/cmc
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# MOSS:モノクルビデオからのモーションベース3D合成

MOSS: Motion-based 3D Clothed Human Synthesis from Monocular Video ( http://arxiv.org/abs/2405.12806v1 )

ライセンス: Link先を確認
Hongsheng Wang, Xiang Cai, Xi Sun, Jinhong Yue, Shengyu Zhang, Feng Lin, Fei Wu, (参考訳) 単一視点の人間の再構築は、仮想現実の応用、特に複雑な人間の動きを含む文脈において中心的な位置を占める。 これは、現実的な衣服の変形を達成する上での顕著な課題である。 現在の手法は、運動が表面の変形に与える影響をしばしば見落とし、その結果、表面は大域的な動きによって課される制約を欠いている。 これらの制約を克服するために,動作対応のガウス分割を実現するために,運動情報を利用した3次元衣服合成(MOSS)という革新的な枠組みを導入する。 本フレームワークは,KGAS (Kinematic Gaussian Locating Splatting) とUID (Surface deformation Detector) の2つのモジュールから構成される。 KGASは、体表面を横切る大域的な運動を伝播するためにマトリックス・フィッシャー分布を包含する。 この分布の密度と回転係数はガウスを明示的に制御し、再構成された表面の現実性を高める。 さらに,KGASに基づく単一視点での局所閉塞に対処するため,UIDは重要な表面を同定し,これらの変形を補うために幾何的再構成を行う。 実験により,MOSSはモノクロビデオからの3次元衣料合成において,最先端の視覚的品質を実現することが示された。 特に,ヒトNeRFとガウススプラッティングをそれぞれ33.94%,LPIPS*で16.75%改善した。 コードはhttps://wanghongsheng01.github.io/MOSS/で公開されている。

Single-view clothed human reconstruction holds a central position in virtual reality applications, especially in contexts involving intricate human motions. It presents notable challenges in achieving realistic clothing deformation. Current methodologies often overlook the influence of motion on surface deformation, resulting in surfaces lacking the constraints imposed by global motion. To overcome these limitations, we introduce an innovative framework, Motion-Based 3D Clothed Humans Synthesis (MOSS), which employs kinematic information to achieve motion-aware Gaussian split on the human surface. Our framework consists of two modules: Kinematic Gaussian Locating Splatting (KGAS) and Surface Deformation Detector (UID). KGAS incorporates matrix-Fisher distribution to propagate global motion across the body surface. The density and rotation factors of this distribution explicitly control the Gaussians, thereby enhancing the realism of the reconstructed surface. Additionally, to address local occlusions in single-view, based on KGAS, UID identifies significant surfaces, and geometric reconstruction is performed to compensate for these deformations. Experimental results demonstrate that MOSS achieves state-of-the-art visual quality in 3D clothed human synthesis from monocular videos. Notably, we improve the Human NeRF and the Gaussian Splatting by 33.94% and 16.75% in LPIPS* respectively. Codes are available at https://wanghongsheng01.github.io/MOSS/.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# FAdam:Adamは対角的な経験的フィッシャー情報を用いた自然な勾配最適化器です。

FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information ( http://arxiv.org/abs/2405.12807v1 )

ライセンス: Link先を確認
Dongseong Hwang, (参考訳) 本稿では、Adam Optimizationrの数学的基礎を確立し、リーマン的および情報幾何学による自然勾配降下との関係を解明する。 本研究では,Adam の対角的経験的フィッシャー情報行列 (FIM) を厳密に解析し,実験的 FIM の限界のため,離散分布に基づいたログ確率関数の損失としての利用を推奨する。 解析によって元のAdamアルゴリズムの欠陥が明らかとなり、運動量計算の強化、バイアス補正の調整、勾配クリッピングなどの修正が提案された。 我々は、我々の理論的枠組みに基づいて重量減衰項を洗練する。 我々の修正アルゴリズムであるFisher Adam (FAdam) は、LLM、ASR、VQ-VAEを含む様々な領域で優れた性能を示し、ASRにおける最先端の結果を達成する。

This paper establishes a mathematical foundation for the Adam optimizer, elucidating its connection to natural gradient descent through Riemannian and information geometry. We rigorously analyze the diagonal empirical Fisher information matrix (FIM) in Adam, clarifying all detailed approximations and advocating for the use of log probability functions as loss, which should be based on discrete distributions, due to the limitations of empirical FIM. Our analysis uncovers flaws in the original Adam algorithm, leading to proposed corrections such as enhanced momentum calculations, adjusted bias corrections, and gradient clipping. We refine the weight decay term based on our theoretical framework. Our modified algorithm, Fisher Adam (FAdam), demonstrates superior performance across diverse domains including LLM, ASR, and VQ-VAE, achieving state-of-the-art results in ASR.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# 大規模言語モデルとNLP: 調査

Large Language Models Meet NLP: A Survey ( http://arxiv.org/abs/2405.12819v1 )

ライセンス: Link先を確認
Libo Qin, Qiguang Chen, Xiachong Feng, Yang Wu, Yongheng Zhang, Yinghui Li, Min Li, Wanxiang Che, Philip S. Yu, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な能力を示してきたが、この分野におけるその可能性に関する体系的な調査は、まだ明らかになっていない。 本研究の目的は,(1) LLMがNLPタスクに現在どのように適用されているか,という問いに答えることで,このギャップに対処することにある。 2)従来のNLPタスクはすでにLLMで解決されているか? (3)NLPのLCMは今後どうなるのか? これらの疑問に答えるために,我々はNLPにおけるLLMの概要を概観する第一歩を踏み出した。 具体的には,(1)パラメータフリーズアプリケーションと(2)パラメータチューニングアプリケーションを含む統一分類を導入し,NLPにおけるLCMの現在の進歩を理解するための統一的な視点を提供する。 さらに,新たなフロンティアとそれに関連する課題を要約し,さらなる画期的な発展を促すことを目的とする。 本研究は,NLP における LLM の「ポテンシャルと限界」に関する貴重な知見を提供するとともに,NLP における有効な LLM 構築のための実践的ガイドとしても機能することを願っている。

While large language models (LLMs) like ChatGPT have shown impressive capabilities in Natural Language Processing (NLP) tasks, a systematic investigation of their potential in this field remains largely unexplored. This study aims to address this gap by exploring the following questions: (1) How are LLMs currently applied to NLP tasks in the literature? (2) Have traditional NLP tasks already been solved with LLMs? (3) What is the future of the LLMs for NLP? To answer these questions, we take the first step to provide a comprehensive overview of LLMs in NLP. Specifically, we first introduce a unified taxonomy including (1) parameter-frozen application and (2) parameter-tuning application to offer a unified perspective for understanding the current progress of LLMs in NLP. Furthermore, we summarize the new frontiers and the associated challenges, aiming to inspire further groundbreaking advancements. We hope this work offers valuable insights into the {potential and limitations} of LLMs in NLP, while also serving as a practical guide for building effective LLMs in NLP.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# Wav-KAN:Wavelet Kolmogorov-Arnold Networks

Wav-KAN: Wavelet Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2405.12832v1 )

ライセンス: Link先を確認
Zavareh Bozorgasl, Hao Chen, (参考訳) 本稿では、Wavelet Kolmogorov-Arnold Networks (Wav-KAN) フレームワークを活用し、解釈性と性能を向上させる革新的なニューラルネットワークアーキテクチャであるWav-KANを紹介する。 従来の多層パーセプトロン(MLP)や、Spl-KANのような最近の進歩は、解釈可能性、トレーニング速度、堅牢性、計算効率、パフォーマンスに関する課題に直面している。 Wav-KANは、ウェーブレット関数をコルモゴロフ・アルノルドネットワーク構造に組み込むことでこれらの制限に対処し、入力データの高周波成分と低周波成分の両方を効率的に捕捉することができる。 ウェーブレットに基づく近似は直交あるいは半直交の基底を使い、基礎となるデータ構造を正確に表現することとノイズへの過度な適合を避けることのバランスを維持する。 水が容器の形にどのように適合しているかに似て、Wav-KANはデータ構造に適応し、Spl-KANやMLPと比較して精度が向上し、トレーニング速度が速く、堅牢性も向上した。 我々の研究結果は、様々な分野にまたがる、解釈可能な高性能ニューラルネットワークを開発するための強力なツールとして、Wav-KANの可能性を強調した。 この研究は、PyTorchやTensorFlowといったフレームワークにおけるWav-KANのさらなる探索と実装のステージを設定し、また、UAT(Universal Approximation Theory)におけるReLUのような現在のアクティベーション関数のように、広範に使用可能なkanのウェーブレットを作成する。

In this paper , we introduce Wav-KAN, an innovative neural network architecture that leverages the Wavelet Kolmogorov-Arnold Networks (Wav-KAN) framework to enhance interpretability and performance. Traditional multilayer perceptrons (MLPs) and even recent advancements like Spl-KAN face challenges related to interpretability, training speed, robustness, computational efficiency, and performance. Wav-KAN addresses these limitations by incorporating wavelet functions into the Kolmogorov-Arnold network structure, enabling the network to capture both high-frequency and low-frequency components of the input data efficiently. Wavelet-based approximations employ orthogonal or semi-orthogonal basis and also maintains a balance between accurately representing the underlying data structure and avoiding overfitting to the noise. Analogous to how water conforms to the shape of its container, Wav-KAN adapts to the data structure, resulting in enhanced accuracy, faster training speeds, and increased robustness compared to Spl-KAN and MLPs. Our results highlight the potential of Wav-KAN as a powerful tool for developing interpretable and high-performance neural networks, with applications spanning various fields. This work sets the stage for further exploration and implementation of Wav-KAN in frameworks such as PyTorch, TensorFlow, and also it makes wavelet in KAN in wide-spread usage like nowadays activation functions like ReLU, sigmoid in universal approximation theory (UAT).
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# マルチモーダルデータを用いた深層学習に基づく放射線学レポート作成に関する調査研究

A Survey of Deep Learning-based Radiology Report Generation Using Multimodal Data ( http://arxiv.org/abs/2405.12833v1 )

ライセンス: Link先を確認
Xinyi Wang, Grazziela Figueredo, Ruizhe Li, Wei Emma Zhang, Weitong Chen, Xin Chen, (参考訳) 自動放射線診断レポート生成は、医師の作業負荷を軽減し、医療資源の地域格差を最小限に抑え、医用画像解析分野において重要なトピックとなる。 マルチモーダル入力データ(医療画像、臨床情報、医療知識など)から情報を入手し、包括的で正確なレポートを作成するためには、医師を模倣する計算モデルが必要であるため、これは難しい課題である。 近年, トランスフォーマー, コントラスト学習, 知識ベース構築など, 深層学習に基づく手法を用いてこの問題に対処する研究が数多く出ている。 本調査では, 最新の研究で開発された重要な手法を要約し, 多モードデータ取得, データ準備, 特徴学習, 特徴融合/相互作用, レポート生成を含む5つの主要コンポーネントを含む, ディープラーニングに基づくレポート生成のための一般的なワークフローを提案する。 これらのコンポーネントのそれぞれに対する最先端のメソッドが強調されている。 さらに、この分野におけるトレーニング戦略、パブリックデータセット、評価方法、現在の課題、今後の方向性について要約する。 また,同じ実験条件下で異なる手法の定量的比較を行った。 これは、放射線学レポート生成のためのマルチモーダル入力とデータ融合に焦点を当てた最新の調査である。 本研究の目的は, 自動臨床報告生成と医用画像解析に関心のある研究者, 特にマルチモーダル入力を使用する研究者に包括的で豊富な情報を提供することであり, フィールドを前進させる新しいアルゴリズムの開発を支援することである。

Automatic radiology report generation can alleviate the workload for physicians and minimize regional disparities in medical resources, therefore becoming an important topic in the medical image analysis field. It is a challenging task, as the computational model needs to mimic physicians to obtain information from multi-modal input data (i.e., medical images, clinical information, medical knowledge, etc.), and produce comprehensive and accurate reports. Recently, numerous works emerged to address this issue using deep learning-based methods, such as transformers, contrastive learning, and knowledge-base construction. This survey summarizes the key techniques developed in the most recent works and proposes a general workflow for deep learning-based report generation with five main components, including multi-modality data acquisition, data preparation, feature learning, feature fusion/interaction, and report generation. The state-of-the-art methods for each of these components are highlighted. Additionally, training strategies, public datasets, evaluation methods, current challenges, and future directions in this field are summarized. We have also conducted a quantitative comparison between different methods under the same experimental setting. This is the most up-to-date survey that focuses on multi-modality inputs and data fusion for radiology report generation. The aim is to provide comprehensive and rich information for researchers interested in automatic clinical report generation and medical image analysis, especially when using multimodal inputs, and assist them in developing new algorithms to advance the field.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# GotFunding:科学論文に基づく助成制度

GotFunding: A grant recommendation system based on scientific articles ( http://arxiv.org/abs/2405.12840v1 )

ライセンス: Link先を確認
Tong Zeng, Daniel E. Acuna, (参考訳) 資金獲得は科学者として成功する上で重要な要素である。 中学校は、彼らの研究プロファイルに最も合う適切な機関やプログラムを見つけるのに多くの時間を費やしています。 しかし、最高の出版物に影響を与える要因は何か。 一部の大学はこれらの要因を理解するためにプレワードの職員を雇うかもしれないが、全ての機関が雇用する余裕があるわけではない。 助成金による出版物の歴史的記録は、マッチングプロセスを理解するのに役立ち、自動化のためのレコメンデーションシステムの開発にも役立ちます。 本研究では,国立衛生研究所(NIH)の助成金記録に基づく推薦制度である「textsc{GotFunding} (Grant recOmmendaTion based on past FUNding)」を提示する。 本システムでは,問題をランク付け学習として活用することで高い性能(NDCG@1 = 0.945)を実現する。 予測を効果的に行う特徴を分析した結果, ランキングの重要さが示唆された。 1) 公告と助成金の年差 2 出版物に提供される情報の量及び 3) 公告の付与に関する関連性 今後のシステム改善と,研究者が試すオンラインツールについて論じる。

Obtaining funding is an important part of becoming a successful scientist. Junior faculty spend a great deal of time finding the right agencies and programs that best match their research profile. But what are the factors that influence the best publication--grant matching? Some universities might employ pre-award personnel to understand these factors, but not all institutions can afford to hire them. Historical records of publications funded by grants can help us understand the matching process and also help us develop recommendation systems to automate it. In this work, we present \textsc{GotFunding} (Grant recOmmendaTion based on past FUNDING), a recommendation system trained on National Institutes of Health's (NIH) grant--publication records. Our system achieves a high performance (NDCG@1 = 0.945) by casting the problem as learning to rank. By analyzing the features that make predictions effective, our results show that the ranking considers most important 1) the year difference between publication and grant grant, 2) the amount of information provided in the publication, and 3) the relevance of the publication to the grant. We discuss future improvements of the system and an online tool for scientists to try.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# 静的解析のための中間表現力の展開:調査

Unveiling the Power of Intermediate Representations for Static Analysis: A Survey ( http://arxiv.org/abs/2405.12841v1 )

ライセンス: Link先を確認
Bowen Zhang, Wei Chen, Hung-Chun Chiu, Charles Zhang, (参考訳) 静的解析技術は、実際の実行を必要とせずにプログラムの動作を分析し、ポートレートすることで、プログラムのセキュリティ、パフォーマンス、信頼性を高める。 基本的に、静的解析は、ターゲットプログラムの中間表現(IR)を入力として、必須のプログラム情報を取得し、プログラムを理解する。 しかし、情報提供者としての機能に加えて、静的解析におけるIRの利点に関する体系的な分析が欠如している。 一般に、現代の静的分析フレームワークは、様々な言語で多様な分析を行い、最小限の時間消費で信頼性の高い結果を生成し、広範囲のカスタマイズオプションを提供する能力を持つべきである。 本調査では,これらの目標を体系的に評価し,IRの観点から潜在的な解決策について検討する。 静的解析分野の学習者や実践者がIR設計をよりよく理解するためのマニュアルとして機能する。 一方、研究者にとって多くの研究機会が明らかにされている。

Static analysis techniques enhance the security, performance, and reliability of programs by analyzing and portraiting program behaviors without the need for actual execution. In essence, static analysis takes the Intermediate Representation (IR) of a target program as input to retrieve essential program information and understand the program. However, there is a lack of systematic analysis on the benefit of IR for static analysis, besides serving as an information provider. In general, a modern static analysis framework should possess the ability to conduct diverse analyses on different languages, producing reliable results with minimal time consumption, and offering extensive customization options. In this survey, we systematically characterize these goals and review the potential solutions from the perspective of IR. It can serve as a manual for learners and practitioners in the static analysis field to better understand IR design. Meanwhile, numerous research opportunities are revealed for researchers.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# OpenCarbonEval: 大規模AIモデルにおける統一二酸化炭素排出量推定フレームワーク

OpenCarbonEval: A Unified Carbon Emission Estimation Framework in Large-Scale AI Models ( http://arxiv.org/abs/2405.12843v1 )

ライセンス: Link先を確認
Zhaojian Yu, Yinghao Wu, Zhuotao Deng, Yansong Tang, Xiao-Ping Zhang, (参考訳) 近年,テキストやビデオ生成などのタスクにおいて,大規模自動回帰モデルが大きく進歩している。 しかしながら、これらのモデルによる環境への影響は、炭素フットプリントの評価と分析の欠如により、ほとんど見落とされてきている。 このギャップに対処するため、我々はOpenCarbonEvalを紹介します。これは、さまざまなモードで大規模なモデルを統合して炭素排出量を予測する統合フレームワークで、AIサービスプロバイダやユーザに対して、事前に排出量を見積もる手段を提供し、これらのモデルに関連する環境圧力を軽減します。 OpenCarbonEvalでは、トレーニングプロセスにおけるワークロードとハードウェアのゆらぎをキャプチャして、より正確なエミッション推定を行う動的スループットモデリング手法を提案する。 評価の結果,OpenCarbonEvalは従来手法よりも高精度にトレーニングエミッションを予測でき,異なるモーダルタスクにシームレスに適用できることがわかった。 具体的には,OpenCarbonEvalは,視覚モデルと言語モデルの両方において,二酸化炭素排出量を予測する上で優れた性能を発揮することを示す。 持続可能なAI開発とデプロイメントを促進することで、OpenCarbonEvalは大規模モデルの環境への影響を低減し、AIコミュニティにとってより環境に責任を持つ未来に貢献することができる。

In recent years, large-scale auto-regressive models have made significant progress in various tasks, such as text or video generation. However, the environmental impact of these models has been largely overlooked, with a lack of assessment and analysis of their carbon footprint. To address this gap, we introduce OpenCarbonEval, a unified framework for integrating large-scale models across diverse modalities to predict carbon emissions, which could provide AI service providers and users with a means to estimate emissions beforehand and help mitigate the environmental pressure associated with these models. In OpenCarbonEval, we propose a dynamic throughput modeling approach that could capture workload and hardware fluctuations in the training process for more precise emissions estimates. Our evaluation results demonstrate that OpenCarbonEval can more accurately predict training emissions than previous methods, and can be seamlessly applied to different modal tasks. Specifically, we show that OpenCarbonEval achieves superior performance in predicting carbon emissions for both visual models and language models. By promoting sustainable AI development and deployment, OpenCarbonEval can help reduce the environmental impact of large-scale models and contribute to a more environmentally responsible future for the AI community.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# 楽譜の記憶可能性の測定・予測のためのデータセットとベースライン

A Dataset and Baselines for Measuring and Predicting the Music Piece Memorability ( http://arxiv.org/abs/2405.12847v1 )

ライセンス: Link先を確認
Li-Yang Tseng, Tzu-Ling Lin, Hong-Han Shuai, Jen-Wei Huang, Wen-Whei Chang, (参考訳) 今日では、自発的なストリーミングサービスや、商業的な休憩中の偶然の出会いを通じて、人間が常に音楽に晒されている。 音楽が豊富にあるにもかかわらず、一部の曲は記憶に残るものが多く、しばしば人気が高まる。 この現象に触発され,音楽の記憶可能性の測定と予測に焦点が当てられた。 そこで我々は,新たなインタラクティブな実験手法を用いて,信頼性の高い記憶可能性ラベルを持つ新しい楽曲データセットを収集した。 次に、ベースラインをトレーニングし、解釈可能な特徴と音声メル-スペクトログラムの両方を入力として利用し、音楽の記憶可能性の予測と分析を行う。 我々の知る限りでは、我々はデータ駆動の深層学習に基づく手法を用いて、初めて音楽の記憶可能性を探究している。 一連の実験とアブレーション研究を通じて、改善の余地はあるものの、限られたデータで音楽の記憶可能性を予測することが可能であることを実証した。 高い原子価、覚醒、より速いテンポのような固有の要素は記憶に残る音楽に寄与する。 予測技術が進化を続けるにつれ、音楽レコメンデーションシステムや音楽スタイルの転送といった現実的な応用は、間違いなくこの新しい研究分野の恩恵を受けるだろう。

Nowadays, humans are constantly exposed to music, whether through voluntary streaming services or incidental encounters during commercial breaks. Despite the abundance of music, certain pieces remain more memorable and often gain greater popularity. Inspired by this phenomenon, we focus on measuring and predicting music memorability. To achieve this, we collect a new music piece dataset with reliable memorability labels using a novel interactive experimental procedure. We then train baselines to predict and analyze music memorability, leveraging both interpretable features and audio mel-spectrograms as inputs. To the best of our knowledge, we are the first to explore music memorability using data-driven deep learning-based methods. Through a series of experiments and ablation studies, we demonstrate that while there is room for improvement, predicting music memorability with limited data is possible. Certain intrinsic elements, such as higher valence, arousal, and faster tempo, contribute to memorable music. As prediction techniques continue to evolve, real-life applications like music recommendation systems and music style transfer will undoubtedly benefit from this new area of research.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# MPSoC上に実装されたReckON RSNNアーキテクチャのトレーニングと推論

Training and inference in the ReckON RSNN architecture implemented on a MPSoC ( http://arxiv.org/abs/2405.12849v1 )

ライセンス: Link先を確認
Alejandro Linares-Barranco, Luciano Prono, Robert Lengenstein, Giacomo Indiveri, Charlotte Frenkel, (参考訳) 人工知能の台頭に伴い、トレーニングフェーズ後に特定のタスクを学習できるニューラルネットワークを実装するために、生物学的ニューロンモデルが使用されている。 そのようなネットワークの1つのタイプは、生物学的ニューロン、IntegrateとFireニューロンの単純化されたモデルに依存するニューラルネットワーク(SNN)をスパイクしている。 この種のニューロンでSNNを実装するために、いくつかのアクセラレータが登場しました。 ReckONシステムは、リカレントSNNのトレーニングと実行を可能にするシステムの1つである。 カスタムASIC上に実装されたReckONアーキテクチャは、ハードウェア記述言語を使って完全に記述することができる。 本稿では,MPSoC (Xilinx Multiprocessor System on Chip System) 上で実装するためのVerilog記述を適用する。 本稿では,システムの効率的な動作に必要な回路と,Pynq ZUプラットフォーム上で使用するPythonフレームワークについて述べる。 アーキテクチャと実装を2つの異なるシナリオで検証し、シミュレーションされた精度を1秒あたり3.8Mイベントのピーク性能で保持する方法を示す。

With the rise of artificial intelligence, biological neuron models are being used to implement neural networks that can learn certain tasks after a training phase. One type of such networks are spiking neural networks (SNNs) that rely on a simplified model for biological neurons, the Integrate and Fire neuron. Several accelerators have emerged to implement SNNs with this kind of neuron. The ReckON system is one of these that allows both the training and execution of a recurrent SNN. The ReckON architecture, implemented on a custom ASIC, can be fully described using a hardware description language. In this work, we adapt the Verilog description to implement it on a Xilinx Multiprocessor System on Chip system (MPSoC). We present the circuits required for the efficient operation of the system, and a Python framework to use it on the Pynq ZU platform. We validate the architecture and implementation in two different scenarios, and show how the simulated accuracy is preserved with a peak performance of 3.8M events processed per second.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# 頚癌放射線治療におけるMR-CTの弱監督的アライメントと登録

Weakly supervised alignment and registration of MR-CT for cervical cancer radiotherapy ( http://arxiv.org/abs/2405.12850v1 )

ライセンス: Link先を確認
Jjahao Zhang, Yin Gu, Deyu Sun, Yuhua Gao, Ming Gao, Ming Cui, Teng Zhang, He Ma, (参考訳) 子宮頸癌は女性の主要な死因の1つであり、現在、ブラキセラピーが第一治療方法である。 しかし,癌診断や治療の選択肢を改善するために,頸部組織浸潤の程度を正確に定義することが重要である。 CT (Computed tomography) とMRI (MRI) の両特徴の融合は, 骨盤内組織浸潤の程度を正確に把握するのに有用である。 登録は情報融合の最初のステップである。 しかし、多モード画像に様々な深さを合わせると、手動のアライメントは大きなエラーを起こしやすく、時間を要する。 さらに、関心領域(ROI)の大きさやマルチモーダル画像の形状の変化は、正確な登録を実現する上で重要な課題であり、本稿では、予備的な空間アライメントアルゴリズムと弱教師付きマルチモーダル登録ネットワークを提案する。 空間位置アライメントアルゴリズムは、医師が提供した2つのモーダル画像の限定アノテーション情報を効率よく利用し、複数のモーダル画像を様々な深さで自動的にアライメントする。 本手法は,光学的フローを推定するために,弱教師付きレジストレーションとピラミッド特徴量とコストボリュームを併用したアライメントマルチモーダル画像を利用することにより,従来のボリュームレンダリングアライメント手法や登録ネットワークよりも優れた性能を示すことを示す。 これは,マルチモーダル画像登録におけるモデルの有効性を示す。

Cervical cancer is one of the leading causes of death in women, and brachytherapy is currently the primary treatment method. However, it is important to precisely define the extent of paracervical tissue invasion to improve cancer diagnosis and treatment options. The fusion of the information characteristics of both computed tomography (CT) and magnetic resonance imaging(MRI) modalities may be useful in achieving a precise outline of the extent of paracervical tissue invasion. Registration is the initial step in information fusion. However, when aligning multimodal images with varying depths, manual alignment is prone to large errors and is time-consuming. Furthermore, the variations in the size of the Region of Interest (ROI) and the shape of multimodal images pose a significant challenge for achieving accurate registration.In this paper, we propose a preliminary spatial alignment algorithm and a weakly supervised multimodal registration network. The spatial position alignment algorithm efficiently utilizes the limited annotation information in the two modal images provided by the doctor to automatically align multimodal images with varying depths. By utilizing aligned multimodal images for weakly supervised registration and incorporating pyramidal features and cost volume to estimate the optical flow, the results indicate that the proposed method outperforms traditional volume rendering alignment methods and registration networks in various evaluation metrics. This demonstrates the effectiveness of our model in multimodal image registration.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# 開発者インタラクションを伴わないアプリケーション層サイバー偽造

Application Layer Cyber Deception without Developer Interaction ( http://arxiv.org/abs/2405.12852v1 )

ライセンス: Link先を確認
Mario Kahlhofer, Stefan Rass, (参考訳) アプリケーションと密接に絡み合うサイバー詐欺技術は、生産システムにおいて重大な技術的課題をもたらす。 セキュリティ対策は通常、システムオペレーターの責任であるが、通常はソースコードではなく、構築されたソフトウェアアーティファクトへのアクセスに限られる。 この制限は、特に、ソフトウェア開発ライフサイクルを完全にコントロールすることなく、アプリケーションランタイムにサイバー詐欺テクニックをデプロイすることを困難にしている。 本研究は, 技術的, トポロジ的, 運用的, 有効性に基づいて, 19の技術的手法を検証し, 評価する。 我々は、サイバー詐欺の約束にもかかわらず、研究の関心をほとんど受けていないように見えるハネポットや逆プロキシ以外の、いくつかの新しいテクニックを見つけました。 これらの技術的課題を克服することで、特定のアプリケーションクラスに合わせて、よりダイナミックでパーソナライズされたサイバー偽装技術を採用することができると信じています。

Cyber deception techniques that are tightly intertwined with applications pose significant technical challenges in production systems. Security measures are usually the responsibility of a system operator, but they are typically limited to accessing built software artifacts, not their source code. This limitation makes it particularly challenging to deploy cyber deception techniques at application runtime and without full control over the software development lifecycle. This work reviews 19 technical methods to accomplish this and evaluates them based on technical, topological, operational, and efficacy properties. We find some novel techniques beyond honeypots and reverse proxies that seem to have received little research interest despite their promise for cyber deception. We believe that overcoming these technical challenges can drive the adoption of more dynamic and personalized cyber deception techniques, tailored to specific classes of applications.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# 三次元感情認識における音声・視覚融合のための不整合性を考慮したクロスアテンション

Inconsistency-Aware Cross-Attention for Audio-Visual Fusion in Dimensional Emotion Recognition ( http://arxiv.org/abs/2405.12853v1 )

ライセンス: Link先を確認
R Gnana Praveen, Jahangir Alam, (参考訳) モーダル性にまたがる相補的関係の活用は、近年、マルチモーダル感情認識において多くの注目を集めている。 既存のアプローチのほとんどは、モダリティ間の相補的な関係を捉えるために、クロスアテンションを探索した。 しかし、モダリティはまた、弱相補的関係を示す可能性があり、それが交差した特徴を悪化させ、結果としてマルチモーダルな特徴表現が低下する可能性がある。 この問題に対処するために,音声と視覚の相補的関係に基づいて,最も関連性の高い特徴を適応的に選択できるIACAを提案する。 具体的には、弱い相補関係を扱うための適切な特徴を適応的に選択できる2段階ゲーティング機構を設計する。 Aff-Wild2データセットを用いて,提案モデルのロバスト性を示す実験を行った。

Leveraging complementary relationships across modalities has recently drawn a lot of attention in multimodal emotion recognition. Most of the existing approaches explored cross-attention to capture the complementary relationships across the modalities. However, the modalities may also exhibit weak complementary relationships, which may deteriorate the cross-attended features, resulting in poor multimodal feature representations. To address this problem, we propose Inconsistency-Aware Cross-Attention (IACA), which can adaptively select the most relevant features on-the-fly based on the strong or weak complementary relationships across audio and visual modalities. Specifically, we design a two-stage gating mechanism that can adaptively select the appropriate relevant features to deal with weak complementary relationships. Extensive experiments are conducted on the challenging Aff-Wild2 dataset to show the robustness of the proposed model.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# 偏微分方程式のシミュレートに必要なハミルトン群に対するブロック符号化の明示的なゲート構成

Explicit gate construction of block-encoding for Hamiltonians needed for simulating partial differential equations ( http://arxiv.org/abs/2405.12855v1 )

ライセンス: Link先を確認
Nikita Guseynov, Xiajie Huang, Nana Liu, (参考訳) 量子計算は、様々な科学・工学分野において重要な問題を解決する重要な可能性を持つ新興技術である。 本稿では,ハミルトニアンの重要なクラスに対するブロックエンコーディングを明示的に構築するための効率的な量子プロトコルを提案する。 非保守的な PDE を保守的な PDE に変換するシュロディンジェライゼーション(Schrodingerisation) 技術(英語版) を用いると、このハミルトニアン類は多項式関数である係数を持つ任意の線型偏微分方程式をシミュレートするのに十分であることが示されている。 ハミルトニアンのクラスは多項式積の分解と位置と運動量作用素の和からなる。 この構成は明示的で、最小の1ビットと2ビットの演算を利用する。 このブロックエンコーディングの明示的な構成は、このハミルトニアンに対するユニタリ進化作用素を構築するための基本的な構成要素を形成する。 提案アルゴリズムは,空間分割サイズに対する多項式スケーリングを示し,古典的有限差分法に対する指数的高速化を示唆する。 この研究は、偏微分方程式を解くための明示的で効率的な量子回路を構築するための重要な基盤を提供する。

Quantum computation is an emerging technology with important potential for solving certain problems pivotal in various scientific and engineering disciplines. This paper introduces an efficient quantum protocol for the explicit construction of the block-encoding for an important class of Hamiltonians. Using the Schrodingerisation technique -- which converts non-conservative PDEs into conservative ones -- this particular class of Hamiltonians is shown to be sufficient for simulating any linear partial differential equations that have coefficients which are polynomial functions. The class of Hamiltonians consist of discretisations of polynomial products and sums of position and momentum operators. This construction is explicit and leverages minimal one- and two-qubit operations. The explicit construction of this block-encoding forms a fundamental building block for constructing the unitary evolution operator for this Hamiltonian. The proposed algorithm exhibits polynomial scaling with respect to the spatial partitioning size, suggesting an exponential speedup over classical finite-difference methods. This work provides an important foundation for building explicit and efficient quantum circuits for solving partial differential equations.
翻訳日:2024-05-22 13:00:17 公開日:2024-05-21
# LLMプロセス:自然言語による数値予測分布

LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language ( http://arxiv.org/abs/2405.12856v1 )

ライセンス: Link先を確認
James Requeima, John Bronskill, Dami Choi, Richard E. Turner, David Duvenaud, (参考訳) 機械学習の実践者は、以前の知識と信念を予測モデルに統合し、ニュアンスとコンテキスト認識の分析の可能性を制限するという、重要な課題に直面することが多い。 さらに、この事前知識を確率的モデリングに統合するために必要な専門知識は、一般的にこれらのモデルの適用を専門家に限定する。 我々のゴールは、数値データを処理し、ユーザの事前知識を記述した自然言語テキストで導かれる任意の場所で確率予測を行うレグレッションモデルを構築することである。 大きな言語モデル(LLM)は、そのようなツールを設計するのに便利な出発点を提供する。 1) 自然言語に専門家の洞察を組み込むインターフェースを提供する。 2) LLM に符号化された潜伏問題関連知識を活用する機会を提供する。 まず、LLMから明示的で一貫性のある数値予測分布を抽出する戦略を探求する。 予測, 多次元回帰, ブラックボックス最適化, 画像モデリングなどの設定において, LLMプロセスと呼ばれるこれらの共同予測分布を任意に多量に検討する。 本稿では,コヒーレントな予測分布を導出する実践的詳細を考察し,その妥当性を実証する。 最後に,テキストを数値予測に活用し,予測性能を向上し,定性的な記述を反映した定量的な構造を与える能力を示す。 これにより、LLMが暗黙的にエンコードするリッチで基底的な仮説空間を探索し始めることができる。

Machine learning practitioners often face significant challenges in formally integrating their prior knowledge and beliefs into predictive models, limiting the potential for nuanced and context-aware analyses. Moreover, the expertise needed to integrate this prior knowledge into probabilistic modeling typically limits the application of these models to specialists. Our goal is to build a regression model that can process numerical data and make probabilistic predictions at arbitrary locations, guided by natural language text which describes a user's prior knowledge. Large Language Models (LLMs) provide a useful starting point for designing such a tool since they 1) provide an interface where users can incorporate expert insights in natural language and 2) provide an opportunity for leveraging latent problem-relevant knowledge encoded in LLMs that users may not have themselves. We start by exploring strategies for eliciting explicit, coherent numerical predictive distributions from LLMs. We examine these joint predictive distributions, which we call LLM Processes, over arbitrarily-many quantities in settings such as forecasting, multi-dimensional regression, black-box optimization, and image modeling. We investigate the practical details of prompting to elicit coherent predictive distributions, and demonstrate their effectiveness at regression. Finally, we demonstrate the ability to usefully incorporate text into numerical predictions, improving predictive performance and giving quantitative structure that reflects qualitative descriptions. This lets us begin to explore the rich, grounded hypothesis space that LLMs implicitly encode.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# 双極子結合試料中のNV中心を用いた高磁場マイクロスケールNMR分光

High-Field Microscale NMR Spectroscopy with NV Centers in Dipolarly-Coupled Samples ( http://arxiv.org/abs/2405.12857v1 )

ライセンス: Link先を確認
Carlos Munuera-Javaloy, Ander Tobalina, Jorge Casanova, (参考訳) ダイヤモンドベースの量子センサーは、高速分子運動が標的核間の双極子相互作用を平均化するシナリオにおいて、マイクロスケールでの高分解能NMR分光を可能にした。 しかし、低拡散のサンプルでは、ユビキタス双極子結合は関連する分光情報の抽出に挑戦する。 本研究では,窒素空隙(NV)アンサンブルに基づくセンサを用いた高磁場下での双極子結合試料中の核スピンの走査を可能にするプロトコルを提案する。 本プロトコルは, 試料中の原子核間の結合を除去し, 試料の磁化ダイナミクスから目標エネルギーシフトを効率的に抽出するために, 高周波とマイクロ波の同期伝送に基づく。 さらに、この手法は高磁場下での動作により、試料の熱偏極が大きくなり、NMR信号が増大するように設計されている。 本手法の精度は試料のコヒーレンス時間によって制限され, 固体系のエネルギーシフトの正確な同定が可能となった。

Diamond-based quantum sensors have enabled high-resolution NMR spectroscopy at the microscale in scenarios where fast molecular motion averages out dipolar interactions among target nuclei. However, in samples with low-diffusion, ubiquitous dipolar couplings challenge the extraction of relevant spectroscopic information. In this work we present a protocol that enables the scanning of nuclear spins in dipolarly-coupled samples at high magnetic fields with a sensor based on nitrogen vacancy (NV) ensembles. Our protocol is based on the synchronized delivery of radio frequency (RF) and microwave (MW) radiation to eliminate couplings among nuclei in the scanned sample and to efficiently extract target energy-shifts from the sample's magnetization dynamics. In addition, the method is designed to operate at high magnetic fields leading to a larger sample thermal polarization, thus to an increased NMR signal. The precision of our method is ultimately limited by the coherence time of the sample, allowing for accurate identification of relevant energy shifts in solid-state systems.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# 透明セグメンテーションにおける水滴汚染の影響

Influence of Water Droplet Contamination for Transparency Segmentation ( http://arxiv.org/abs/2405.12861v1 )

ライセンス: Link先を確認
Volker Knauthe, Paul Weitz, Thomas Pöllabauer, Tristan Wirth, Arne Rak, Arjan Kuijper, Dieter W. Fellner, (参考訳) 医療分野や危険な環境において、プロセスの監督や自律エージェントなど、コンピュータビジョン技術が産業応用の台頭に向かっている。 これらのテクニックの一般利用性は高いが、現実のユースケースには依然として課題がある。 特に透明な構造は、ガラスのドアや保護ケース、あるいはメガネのような日常的な物体に現れ、コンピュータビジョンの手法に挑戦する。 本論文は, 環境効果による環境汚染にともなって, 透明な物体と(自然発生の)汚染の組合せを評価した。 透明構造に3グレードの水滴汚染を取り入れた489枚の画像を含む新しい公開データセットを導入し,その結果が透明性処理に与える影響について検討した。 その結果,汚染された透明物体のセグメンテーションは容易であり,汚染の重症度と現状の機械学習モデルとの区別が可能であることがわかった。 これにより、汚染された保護ケーシングによるデータシフトに対するレジリエンスに関するコンピュータビジョンシステムを強化したり、自動クリーニングアラートを実装することが可能になる。

Computer vision techniques are on the rise for industrial applications, like process supervision and autonomous agents, e.g., in the healthcare domain and dangerous environments. While the general usability of these techniques is high, there are still challenging real-world use-cases. Especially transparent structures, which can appear in the form of glass doors, protective casings or everyday objects like glasses, pose a challenge for computer vision methods. This paper evaluates the combination of transparent objects in conjunction with (naturally occurring) contamination through environmental effects like hazing. We introduce a novel publicly available dataset containing 489 images incorporating three grades of water droplet contamination on transparent structures and examine the resulting influence on transparency handling. Our findings show, that contaminated transparent objects are easier to segment and that we are able to distinguish between different severity levels of contamination with a current state-of-the art machine-learning model. This in turn opens up the possibility to enhance computer vision systems regarding resilience against, e.g., datashifts through contaminated protection casings or implement an automated cleaning alert.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# 制約のあるゴールの定式化と計画に向けて

Toward Constraint Compliant Goal Formulation and Planning ( http://arxiv.org/abs/2405.12862v1 )

ライセンス: Link先を確認
Steven J. Jones Robert E. Wray, (参考訳) 規範、規則、嗜好に従うことの1つは、目標の定式化と計画処理に制約(倫理の知識など)を取り入れることである。 異なる倫理的枠組みにおける知識の符号化がエージェントの目的の定式化と計画処理にどのように影響するかを簡単なドメインで検討し、関連する制約の集合が様々なタイプの「ハード」と「ソフト」の制約の混合を含む場合、エージェントが満足し満足する能力を示す。 エージェントが倫理的制約にどう従おうとするかは倫理的枠組みに依存しており、我々は倫理的規範に従うための非倫理的枠組みと実用的枠組みのトレードオフを調査する。 代表的なシナリオは、同じ規範の異なるフレーミングで同じタスクを実行することが、どのように異なる振る舞いをもたらすかを強調する。 本研究は,目標定式化・計画中の倫理的対立を解決する上で,メタ認知的判断に重要な役割を担っていることを示唆する。

One part of complying with norms, rules, and preferences is incorporating constraints (such as knowledge of ethics) into one's goal formulation and planning processing. We explore in a simple domain how the encoding of knowledge in different ethical frameworks influences an agent's goal formulation and planning processing and demonstrate ability of an agent to satisfy and satisfice when its collection of relevant constraints includes a mix of "hard" and "soft" constraints of various types. How the agent attempts to comply with ethical constraints depends on the ethical framing and we investigate tradeoffs between deontological framing and utilitarian framing for complying with an ethical norm. Representative scenarios highlight how performing the same task with different framings of the same norm leads to different behaviors. Our explorations suggest an important role for metacognitive judgments in resolving ethical conflicts during goal formulation and planning.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# SOTA画像分割作業における透明性歪みロバスト性

Transparency Distortion Robustness for SOTA Image Segmentation Tasks ( http://arxiv.org/abs/2405.12864v1 )

ライセンス: Link先を確認
Volker Knauthe, Arne Rak, Tristan Wirth, Thomas Pöllabauer, Simon Metzler, Arjan Kuijper, Dieter W. Fellner, (参考訳) セマンティック・イメージ・セグメンテーション(Semantic Image Segmentation)は、自動運転から産業プロセスの監督、人間の視覚支援まで、さまざまな現実世界の応用を促進する。 これらのモデルは通常、サンプル入力を使用して教師付きで訓練される。 これらの例と操作中の入力の間の分布シフトは誤ったセグメンテーションを引き起こす可能性がある。 近年, カメラや照明設備, レンズ歪み, 逆入力, 画像劣化などによる分布変化に対するセマンティックセグメンテーションモデルのロバストさが注目されている。 しかし、不均一なガラス構造(eg窓)や加熱空気のカオス屈折によって引き起こされる空間的に変化する放射歪み効果に対する堅牢性は、まだ研究コミュニティによって解決されていない。 本研究では,空間的に異なる歪みを持つ既存のデータセットを合成的に拡張する手法を提案する。 実験により, これらの歪み効果は, 最先端セグメンテーションモデルの性能を低下させることが示された。 モデルキャパシティの事前訓練および拡大は、性能劣化をある程度軽減するのに適した戦略であり、歪んだ画像の微調整は、限界性能の改善に繋がる。

Semantic Image Segmentation facilitates a multitude of real-world applications ranging from autonomous driving over industrial process supervision to vision aids for human beings. These models are usually trained in a supervised fashion using example inputs. Distribution Shifts between these examples and the inputs in operation may cause erroneous segmentations. The robustness of semantic segmentation models against distribution shifts caused by differing camera or lighting setups, lens distortions, adversarial inputs and image corruptions has been topic of recent research. However, robustness against spatially varying radial distortion effects that can be caused by uneven glass structures (e.g. windows) or the chaotic refraction in heated air has not been addressed by the research community yet. We propose a method to synthetically augment existing datasets with spatially varying distortions. Our experiments show, that these distortion effects degrade the performance of state-of-the-art segmentation models. Pretraining and enlarged model capacities proof to be suitable strategies for mitigating performance degradation to some degree, while fine-tuning on distorted images only leads to marginal performance improvements.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# 量子機械学習の一般化による量子コンパイルの高速化

Leveraging Quantum Machine Learning Generalization to Significantly Speed-up Quantum Compilation ( http://arxiv.org/abs/2405.12866v1 )

ライセンス: Link先を確認
Alon Kukliansky, Lukasz Cincio, Ed Younis, Costin Iancu, (参考訳) 量子コンパイラにデプロイされた既存の数値オプティマイザは、高価な$\mathcal{O}(4^n)$Matrix-matrix演算を使用する。 量子機械学習(QML)の最近の進歩に触発されたQFactor-Sampleは、行列行列演算を単純な$\mathcal{O}(2^n)$回路シミュレーションに置き換える。 回路がシンプルになればなるほど、必要な入力サンプルの数が少なくなる。 大規模な回路上でQFactor-Sampleを検証し、そのハイパーパラメータチューニングについて議論する。 BQSKit量子コンパイラに組み込んで、最先端のドメイン固有オプティマイザと比較すると、拡張性の向上とコンパイル時間の短縮が示され、8キュービット以上の回路に対する平均スピードアップ係数 {\bf 69} が達成された。 また,数値最適化の改善が分割型コンパイル方式の力学にどう影響するかを論じ,コンパイル速度と解品質のトレードオフを可能にする。

Existing numerical optimizers deployed in quantum compilers use expensive $\mathcal{O}(4^n)$ matrix-matrix operations. Inspired by recent advances in quantum machine learning (QML), QFactor-Sample replaces matrix-matrix operations with simpler $\mathcal{O}(2^n)$ circuit simulations on a set of sample inputs. The simpler the circuit, the lower the number of required input samples. We validate QFactor-Sample on a large set of circuits and discuss its hyperparameter tuning. When incorporated in the BQSKit quantum compiler and compared against a state-of-the-art domain-specific optimizer, We demonstrate improved scalability and a reduction in compile time, achieving an average speedup factor of {\bf 69} for circuits with more than 8 qubits. We also discuss how improved numerical optimization affects the dynamics of partitioning-based compilation schemes, which allow a trade-off between compilation speed and solution quality.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# 物理力学をシミュレートする等変時空間減衰グラフネットワーク

Equivariant Spatio-Temporal Attentive Graph Networks to Simulate Physical Dynamics ( http://arxiv.org/abs/2405.12868v1 )

ライセンス: Link先を確認
Liming Wu, Zhichao Hou, Jirui Yuan, Yu Rong, Wenbing Huang, (参考訳) 物理的なシステムのダイナミクスを表現し、シミュレートすることを学ぶことは、非常に難しい課題です。 既存の同変グラフニューラルネットワーク(GNN)に基づく手法は、物理の対称性、 \emph{e g } 、翻訳、回転等をカプセル化しており、より優れた一般化能力をもたらす。 それでも、そのタスクのフレーム・ツー・フレームの定式化は、主に環境の観測されていないダイナミクスによって引き起こされる非マルコフ性を見落としている。 本稿では、過去の軌道を用いて非マルコフ相互作用を復元することにより、時空間予測タスクとしてダイナミクスシミュレーションを再構成する。 我々は,時空間GNNの同変版であるEquivariant Spatio-Temporal Attentive Graph Networks (ESTAG)を提案する。 その中核となるのは、歴史フレームから周期パターンを抽出し、空間的メッセージパッシングを実現するための等変空間モジュール(ESM)を構築するための新しい等変離散フーリエ変換(EDFT)と、前向きの注意と等変プール機構を備えた等変時変時間モジュール(ETM)を設計し、時間的メッセージを集約する。 分子レベル,タンパク質レベル,マクロレベルに対応する3つの実データセットについて,本モデルの評価を行った。 ESTAGの有効性は, 典型的な時空間GNNおよび同変GNNと比較して検証した。

Learning to represent and simulate the dynamics of physical systems is a crucial yet challenging task. Existing equivariant Graph Neural Network (GNN) based methods have encapsulated the symmetry of physics, \emph{e.g.}, translations, rotations, etc, leading to better generalization ability. Nevertheless, their frame-to-frame formulation of the task overlooks the non-Markov property mainly incurred by unobserved dynamics in the environment. In this paper, we reformulate dynamics simulation as a spatio-temporal prediction task, by employing the trajectory in the past period to recover the Non-Markovian interactions. We propose Equivariant Spatio-Temporal Attentive Graph Networks (ESTAG), an equivariant version of spatio-temporal GNNs, to fulfill our purpose. At its core, we design a novel Equivariant Discrete Fourier Transform (EDFT) to extract periodic patterns from the history frames, and then construct an Equivariant Spatial Module (ESM) to accomplish spatial message passing, and an Equivariant Temporal Module (ETM) with the forward attention and equivariant pooling mechanisms to aggregate temporal message. We evaluate our model on three real datasets corresponding to the molecular-, protein- and macro-level. Experimental results verify the effectiveness of ESTAG compared to typical spatio-temporal GNNs and equivariant GNNs.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# 2つの干渉フォトニック量子ビットの状態のマルチパラメータ推定

Multi-parameter estimation of the state of two interfering photonic qubits ( http://arxiv.org/abs/2405.12870v1 )

ライセンス: Link先を確認
L. Maggio, D. Triggiani, P. Facchi, V. Tamma, (参考訳) 2つの干渉光量子ビットの偏光状態に付随する複数のパラメータの性質において達成可能な最大感度と同時推定のための偏光分解測定に基づく2光子干渉法を実証した。 この推定は、偏光分解二光子干渉に基づく新しい干渉法を利用する。 本手法の有効性と精度は, 限られたサンプリング値を用いても検証可能であることを示す。 この研究は、光量子ビットを持つ量子技術の発展に関係し、多光子干渉、ボゾンサンプリング、マルチパラメータ量子センシング、量子情報処理の間の界面で物理学に光を当てる。

It is demonstrated a two-photon interfering technique based on polarization-resolved measurements for the simultaneous estimation with the maximum sensitivity achievable in nature of multiple parameters associated with the polarization state of two interfering photonic qubits. This estimation is done by exploiting a novel interferometry technique based on polarization-resolved two-photon interference. We show the experimental feasibility and accuracy of this technique even when a limited number of sampling measurements is employed. This work is relevant for the development of quantum technologies with photonic qubits and sheds light on the physics at the interface between multiphoton interference, boson sampling, multi-parameter quantum sensing and quantum information processing.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# 拡散RSCC:リモートセンシング画像における変化キャプションのための拡散確率モデル

Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images ( http://arxiv.org/abs/2405.12875v1 )

ライセンス: Link先を確認
Xiaofei Yu, Yitong Li, Jie Ma, (参考訳) リモートセンシング画像変換キャプション (RSICC) は、両時間的リモートセンシング画像ペア間の意味的変化を記述するために、人間のような言語を生成することを目的としている。 環境力学と土地管理に関する貴重な知見を提供する。 従来の変更キャプションタスクとは異なり、RSICCは、異なるモダリティをまたいだ関連情報を検索し、流動的なキャプションを生成するだけでなく、地形変化のローカライゼーションに対するピクセルレベルの差の影響を緩和する。 長時間スパンによる画素問題は、生成されたキャプションの精度を低下させる。 拡散モデルの顕著な生成力に着想を得て,この問題を解くための確率的拡散モデルを提案する。 学習過程において,マルコフ連鎖の下で実字幕分布から標準ガウス分布への分布を学習するために,クロスモーダル特徴を条件とした雑音予測器を構築する。 一方、逆処理におけるノイズ予測のために、クロスモード融合と積み重ねセルフアテンションモジュールが設計されている。 テスト段階では、よく訓練されたノイズ予測器が分布の平均値を推定し、段階的に変化キャプションを生成する。 LEVIR-CCデータセットに関する大規模な実験は、我々の拡散RSCCとその個々のコンポーネントの有効性を実証している。 測定結果は、従来のメトリクスと新しく拡張されたメトリクスの両方において、既存のメソッドよりも優れたパフォーマンスを示す。 コードと資料はhttps://github.com/Fay-Y/Diffusion-RSCC.comからオンラインで入手できる。

Remote sensing image change captioning (RSICC) aims at generating human-like language to describe the semantic changes between bi-temporal remote sensing image pairs. It provides valuable insights into environmental dynamics and land management. Unlike conventional change captioning task, RSICC involves not only retrieving relevant information across different modalities and generating fluent captions, but also mitigating the impact of pixel-level differences on terrain change localization. The pixel problem due to long time span decreases the accuracy of generated caption. Inspired by the remarkable generative power of diffusion model, we propose a probabilistic diffusion model for RSICC to solve the aforementioned problems. In training process, we construct a noise predictor conditioned on cross modal features to learn the distribution from the real caption distribution to the standard Gaussian distribution under the Markov chain. Meanwhile, a cross-mode fusion and a stacking self-attention module are designed for noise predictor in the reverse process. In testing phase, the well-trained noise predictor helps to estimate the mean value of the distribution and generate change captions step by step. Extensive experiments on the LEVIR-CC dataset demonstrate the effectiveness of our Diffusion-RSCC and its individual components. The quantitative results showcase superior performance over existing methods across both traditional and newly augmented metrics. The code and materials will be available online at https://github.com/Fay-Y/Diffusion-RSCC.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# ExESによるエキスパート検索とチーム形成システムの説明

Explaining Expert Search and Team Formation Systems with ExES ( http://arxiv.org/abs/2405.12881v1 )

ライセンス: Link先を確認
Kiarash Golzadeh, Lukasz Golab, Jaroslaw Szlichta, (参考訳) 専門家の検索とチーム形成システムは、個人を表すノード、スキルでラベル付けされたエッジ、コラボレーション関係を示すエッジなど、コラボレーションネットワークで動作する。 所望のスキルに対応するキーワードクエリが与えられた場合、これらのシステムはクエリに最も合う専門家を特定する。 しかし、この問題に対する最先端のソリューションには透明性がない。 この問題に対処するために,説明可能な人工知能(XAI)の分野から,現実的および反現実的手法を用いて,専門家の探索とチーム形成システムを説明するためのツールであるExESを提案する。 ExESは、重要なスキルとコラボレーションを強調するために事実説明を使用し、専門家として特定される可能性を高めるために、新しいスキルとコラボレーションを提案するために反事実説明を使用する。 対話型説明ツールとしての実用的展開に向けて,説明探索を高速化するプルーニング戦略のスイートを提示し,実験的に評価する。 多くの場合、当社のプルーニング戦略はExESを徹底的な検索よりも桁違いに高速にし、簡潔で実用的な説明を生み出しています。

Expert search and team formation systems operate on collaboration networks, with nodes representing individuals, labeled with their skills, and edges denoting collaboration relationships. Given a keyword query corresponding to the desired skills, these systems identify experts that best match the query. However, state-of-the-art solutions to this problem lack transparency. To address this issue, we propose ExES, a tool designed to explain expert search and team formation systems using factual and counterfactual methods from the field of explainable artificial intelligence (XAI). ExES uses factual explanations to highlight important skills and collaborations, and counterfactual explanations to suggest new skills and collaborations to increase the likelihood of being identified as an expert. Towards a practical deployment as an interactive explanation tool, we present and experimentally evaluate a suite of pruning strategies to speed up the explanation search. In many cases, our pruning strategies make ExES an order of magnitude faster than exhaustive search, while still producing concise and actionable explanations.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# アラビア語における説得技術の調査:大規模言語モデルを活用した実証的研究

Investigating Persuasion Techniques in Arabic: An Empirical Study Leveraging Large Language Models ( http://arxiv.org/abs/2405.12884v1 )

ライセンス: Link先を確認
Abdurahmman Alzahrani, Eyad Babkier, Faisal Yanbaawi, Firas Yanbaawi, Hassan Alhuzali, (参考訳) 現代におけるデジタルコミュニケーションとソーシャルメディアの普及は,テキストにおける説得的手法の理解を深めることが不可欠である。 この知識は、正確な情報を効果的に識別し、情報的な決定を下すのに不可欠である。 このニーズに対処するため,アラビアのソーシャルメディアコンテンツにおける説得的手法の同定に焦点をあてた総合的な実証的研究を行った。 この目的を達成するために,事前学習言語モデル(PLM)を用いて,2つのタスクを含むArAlEvalデータセットを利用する。 本研究では,PLMの能力を利用した3つの学習手法について検討した。 大規模な実験により, 上述したデータセットにおいて, 微調整法が最も高い結果が得られ, f1-micro score 0.865 と f1-weighted score 0.861 が得られることがわかった。 さらに、我々の分析は興味深い発見に光を当てている。 GPTモデルの性能は他の手法に比べて相対的に低いが,数ショットの学習技術を用いることで,最大20倍の精度で結果を向上できることがわかった。 これは、このトピックで将来の研究と調査のための有望な方向を提供する。 と。

In the current era of digital communication and widespread use of social media, it is crucial to develop an understanding of persuasive techniques employed in written text. This knowledge is essential for effectively discerning accurate information and making informed decisions. To address this need, this paper presents a comprehensive empirical study focused on identifying persuasive techniques in Arabic social media content. To achieve this objective, we utilize Pre-trained Language Models (PLMs) and leverage the ArAlEval dataset, which encompasses two tasks: binary classification to determine the presence or absence of persuasion techniques, and multi-label classification to identify the specific types of techniques employed in the text. Our study explores three different learning approaches by harnessing the power of PLMs: feature extraction, fine-tuning, and prompt engineering techniques. Through extensive experimentation, we find that the fine-tuning approach yields the highest results on the aforementioned dataset, achieving an f1-micro score of 0.865 and an f1-weighted score of 0.861. Furthermore, our analysis sheds light on an interesting finding. While the performance of the GPT model is relatively lower compared to the other approaches, we have observed that by employing few-shot learning techniques, we can enhance its results by up to 20\%. This offers promising directions for future research and exploration in this topic\footnote{Upon Acceptance, the source code will be released on GitHub.}.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# DARK:Denoising, Amplification, Restoration Kit

DARK: Denoising, Amplification, Restoration Kit ( http://arxiv.org/abs/2405.12891v1 )

ライセンス: Link先を確認
Zhuoheng Li, Yuheng Pan, Houcheng Yu, Zhiheng Zhang, (参考訳) 本稿では、高度な機械学習と畳み込みニューラルネットワーク(CNN)を利用して、低照度条件下で画像を拡張するための、新しい軽量な計算フレームワークを提案する。 従来のエンハンスメント技術は、難易度の高い照明環境において、ノイズ、色歪み、詳細損失といった問題に適切に対処することができないことが多い。 提案手法は,Retinex理論の知見と最近の画像復元ネットワークの進歩を活用して,照明成分を効率よく処理し,コンボリューションブロックを最適化することで,文脈に敏感な拡張を統合できる合理化モデルを開発した。 その結果、画像の明瞭度と色質は大幅に改善され、過度な強調や不自然な色の変化は避けられた。 重要なことは、我々のモデルは軽量で、計算要求が低く、標準のコンシューマーハードウェア上でリアルタイムアプリケーションに適合するように設計されている。 性能評価により,我々のモデルは,低照度画像の高精細化だけでなく,最小の計算フットプリントも維持できることを確認した。

This paper introduces a novel lightweight computational framework for enhancing images under low-light conditions, utilizing advanced machine learning and convolutional neural networks (CNNs). Traditional enhancement techniques often fail to adequately address issues like noise, color distortion, and detail loss in challenging lighting environments. Our approach leverages insights from the Retinex theory and recent advances in image restoration networks to develop a streamlined model that efficiently processes illumination components and integrates context-sensitive enhancements through optimized convolutional blocks. This results in significantly improved image clarity and color fidelity, while avoiding over-enhancement and unnatural color shifts. Crucially, our model is designed to be lightweight, ensuring low computational demand and suitability for real-time applications on standard consumer hardware. Performance evaluations confirm that our model not only surpasses existing methods in enhancing low-light images but also maintains a minimal computational footprint.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# コミュニケーションチャネルの不完全性に関する分散フェデレーション学習

Decentralized Federated Learning Over Imperfect Communication Channels ( http://arxiv.org/abs/2405.12894v1 )

ライセンス: Link先を確認
Weicai Li, Tiejun Lv, Wei Ni, Jingbo Zhao, Ekram Hossain, H. Vincent Poor, (参考訳) 本稿では、分散化フェデレーション学習(D-FL)における不完全なコミュニケーションチャネルの影響を分析し、その後、ネットワークトポロジや不完全なチャネルに適応して、トレーニングラウンドあたりの局所的なアグリゲーションの最適数を決定する。 まず、完全チャネルと集約を必要とする理想的な大域的モデルから、不完全チャネルの下で局所的に集約されたD-FLモデルのバイアスを導出することから始める。 このバイアスは、過度の局所的な集約が通信エラーを蓄積し、収束を低下させることができることを示している。 もう一つの重要な側面は、バイアスに基づいてD-FLの収束上限を分析することである。 境界を最小化することにより、チャネルの知識の欠如による通信エラーの蓄積とトレードオフのバランスをとるために、ローカルアグリゲーションの最適個数を同定する。 この知識により、コミュニケーションエラーの影響が緩和され、集約全体を通して収束上限が減少する。 実験は収束解析を検証し、また、広く検討されている2つの画像分類タスクにおける局所的な集合の最適個数を同定する。 D-FLは、最適数の局所的なアグリゲーションを持つため、トレーニング精度が10%以上向上する可能性がある。

This paper analyzes the impact of imperfect communication channels on decentralized federated learning (D-FL) and subsequently determines the optimal number of local aggregations per training round, adapting to the network topology and imperfect channels. We start by deriving the bias of locally aggregated D-FL models under imperfect channels from the ideal global models requiring perfect channels and aggregations. The bias reveals that excessive local aggregations can accumulate communication errors and degrade convergence. Another important aspect is that we analyze a convergence upper bound of D-FL based on the bias. By minimizing the bound, the optimal number of local aggregations is identified to balance a trade-off with accumulation of communication errors in the absence of knowledge of the channels. With this knowledge, the impact of communication errors can be alleviated, allowing the convergence upper bound to decrease throughout aggregations. Experiments validate our convergence analysis and also identify the optimal number of local aggregations on two widely considered image classification tasks. It is seen that D-FL, with an optimal number of local aggregations, can outperform its potential alternatives by over 10% in training accuracy.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# 敵対的DPO: 対話エージェントのコヒーレンスと伝播性に最小限の影響で毒性を低下させる有害なデータ

Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents ( http://arxiv.org/abs/2405.12900v1 )

ライセンス: Link先を確認
San Kim, Gary Geunbae Lee, (参考訳) オープンドメイン対話システムの最近の進歩は、高品質な大規模言語モデル(LLM)の出現と、様々な効果的な訓練手法によって促進されている。 それでも、これらのモデルに毒性が存在することは、ユーザエクスペリエンスを低下させる可能性がある重要な課題を示します。 そこで本研究では,ADPO(Adversarial DPO)と呼ばれる,DPO(Direct preference Optimization)の改良という,革新的なトレーニングアルゴリズムを提案する。 ADPOアルゴリズムは、有害な制御トークンを用いて自己生成される安全でない応答に対して、より高い確率分布を好ましい応答に割り当て、低い分布を低い確率分布に割り当てるようにモデルを訓練するように設計されている。 我々はADPOが性能劣化を最小限に抑えながら、有害な会話に対するモデルのレジリエンスを高めることを実証した。 さらに,ADPOは従来のDPOと比較して,より安定したトレーニング手順を提供することを示す。 我々の知る限り、これは有害データを生成モデルに直接組み込むDPOアルゴリズムの最初の適応であり、それによって安全な対話データを作成する必要がなくなる。

Recent advancements in open-domain dialogue systems have been propelled by the emergence of high-quality large language models (LLMs) and various effective training methodologies. Nevertheless, the presence of toxicity within these models presents a significant challenge that can potentially diminish the user experience. In this study, we introduce an innovative training algorithm, an improvement upon direct preference optimization (DPO), called adversarial DPO (ADPO). The ADPO algorithm is designed to train models to assign higher probability distributions to preferred responses and lower distributions to unsafe responses, which are self-generated using the toxic control token. We demonstrate that ADPO enhances the model's resilience against harmful conversations while minimizing performance degradation. Furthermore, we illustrate that ADPO offers a more stable training procedure compared to the traditional DPO. To the best of our knowledge, this is the first adaptation of the DPO algorithm that directly incorporates harmful data into the generative model, thereby reducing the need to artificially create safe dialogue data.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# 大規模言語モデルを用いたトピックモデリング事例法と英国法の新しい分類法:AIによる概要判断

Topic Modelling Case Law Using a Large Language Model and a New Taxonomy for UK Law: AI Insights into Summary Judgment ( http://arxiv.org/abs/2405.12910v1 )

ライセンス: Link先を確認
Holli Sargeant, Ahmed Izzidien, Felix Steffek, (参考訳) 本稿では,英国における要約判断事例をモデル化するための新しい分類法を開発し,適用することによって,法的分析における重要なギャップを解消する。 要約判断事例のキュレートされたデータセットを用いて,Large Language Model Claude 3 Opusを用いて,機能的トピックとトレンドを探索する。 クロード3オプスはこのトピックを87.10%の精度で正しく分類した。 この分析は、様々な法的領域にまたがる要約判断の適用において、異なるパターンを明らかにしている。 イギリスにおけるケースローは、もともとキーワードやトピックフィルタリングオプションでラベル付けされているのではなく、要約判断のテーマ的基盤に関する理解を深めるだけでなく、法的な分類において伝統的なAI駆動アプローチとAI駆動アプローチを組み合わせる可能性も示している。 そこで本論文は,英国法における新しい一般的な分類法を提供する。 この研究の意義は、司法行政と計算法的研究方法論の分野におけるさらなる研究と政策に関する議論の基盤となる。

This paper addresses a critical gap in legal analytics by developing and applying a novel taxonomy for topic modelling summary judgment cases in the United Kingdom. Using a curated dataset of summary judgment cases, we use the Large Language Model Claude 3 Opus to explore functional topics and trends. We find that Claude 3 Opus correctly classified the topic with an accuracy of 87.10%. The analysis reveals distinct patterns in the application of summary judgments across various legal domains. As case law in the United Kingdom is not originally labelled with keywords or a topic filtering option, the findings not only refine our understanding of the thematic underpinnings of summary judgments but also illustrate the potential of combining traditional and AI-driven approaches in legal classification. Therefore, this paper provides a new and general taxonomy for UK law. The implications of this work serve as a foundation for further research and policy discussions in the field of judicial administration and computational legal research methodologies.
翻訳日:2024-05-22 12:50:33 公開日:2024-05-21
# 大規模言語モデルを用いたテキスト・画像生成の実証的研究

An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation ( http://arxiv.org/abs/2405.12914v1 )

ライセンス: Link先を確認
Zhiyu Tan, Mengping Yang, Luozheng Qin, Hao Yang, Ye Qian, Qiang Zhou, Cheng Zhang, Hao Li, (参考訳) 忠実なテキスト画像生成のための重要な前提は、テキスト入力の正確な理解である。 既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。 しかし、事前訓練されたCLIPモデルは、最大トークン長77の英語をエンコードするだけでよい。 さらに、CLIPからのテキストエンコーダのモデルキャパシティは、多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現するLarge Language Models (LLMs)と比較して比較的制限されている。 本稿では,LLMをテキストエンコーダとして検討し,テキスト・画像生成における言語理解を改善する。 残念なことに、LLMをスクラッチからトレーニングするテキスト・ツー・イメージ生成モデルには、かなりの計算資源とデータが必要である。 そこで本研究では,既存のテキスト・画像モデルとLLMを効果的かつ効率的に統合する3段階学習パイプラインを提案する。 具体的には,LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。 大規模な実験により,本モデルは多言語だけでなく,画像生成品質の優れた入力コンテキストもサポートすることが示された。

One critical prerequisite for faithful text-to-image generation is the accurate understanding of text inputs. Existing methods leverage the text encoder of the CLIP model to represent input prompts. However, the pre-trained CLIP model can merely encode English with a maximum token length of 77. Moreover, the model capacity of the text encoder from CLIP is relatively limited compared to Large Language Models (LLMs), which offer multilingual input, accommodate longer context, and achieve superior text representation. In this paper, we investigate LLMs as the text encoder to improve the language understanding in text-to-image generation. Unfortunately, training text-to-image generative model with LLMs from scratch demands significant computational resources and data. To this end, we introduce a three-stage training pipeline that effectively and efficiently integrates the existing text-to-image model with LLMs. Specifically, we propose a lightweight adapter that enables fast training of the text-to-image model using the textual representations from LLMs. Extensive experiments demonstrate that our model supports not only multilingual but also longer input context with superior image generation quality.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# G-DIG:機械翻訳のためのグラディエントベースディバースとハイGh品質インストラクションデータ選択を目指して

G-DIG: Towards Gradient-based DIverse and hiGh-quality Instruction Data Selection for Machine Translation ( http://arxiv.org/abs/2405.12915v1 )

ライセンス: Link先を確認
Xingyuan Pan, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Shanbo Cheng, (参考訳) 大規模言語モデル(LLM)は、一般的なシナリオにおいて顕著な能力を示している。 インストラクションの微調整は、様々なタスクにおいて人間と協調する権限を与える。 それでも、命令データの多様性と品質は、命令の微調整の2つの主要な課題である。 そこで本研究では,機械翻訳のための高品質かつ多様な命令微調整データを自動的に選択するための,勾配に基づく新しい手法を提案する。 私たちの重要なイノベーションは、個々のトレーニング例がトレーニング中にモデルにどのように影響するかを分析することです。 具体的には、そのモデルに優れた影響を及ぼす訓練例を、影響関数と小さな高品質なシードデータセットを用いて選択する。 さらに、トレーニングデータの多様性を高めるために、モデルの勾配や再サンプリングをクラスタリングすることで、モデルに与えるさまざまな影響を最大化する。 WMT22およびFLORES翻訳タスクの広範囲にわたる実験は,本手法の優位性を実証し,詳細な解析により,その妥当性と一般化がさらに検証された。

Large Language Models (LLMs) have demonstrated remarkable abilities in general scenarios. Instruction finetuning empowers them to align with humans in various tasks. Nevertheless, the Diversity and Quality of the instruction data remain two main challenges for instruction finetuning. With regard to this, in this paper, we propose a novel gradient-based method to automatically select high-quality and diverse instruction finetuning data for machine translation. Our key innovation centers around analyzing how individual training examples influence the model during training. Specifically, we select training examples that exert beneficial influences on the model as high-quality ones by means of Influence Function plus a small high-quality seed dataset. Moreover, to enhance the diversity of the training data we maximize the variety of influences they have on the model by clustering on their gradients and resampling. Extensive experiments on WMT22 and FLORES translation tasks demonstrate the superiority of our methods, and in-depth analysis further validates their effectiveness and generalization.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# 相互作用量子ビットに対するDickeモデルの基底状態における$k$-partite相関と絡み合い

Genuine $k$-partite correlations and entanglement in the ground state of the Dicke model for interacting qubits ( http://arxiv.org/abs/2405.12916v1 )

ライセンス: Link先を確認
Antônio C. Lourenço, Denis R. Candido, Eduardo I. Duzzioni, (参考訳) サブシステム間の相関関係の分析は、臨界現象の理解と量子情報処理の実行の両方に不可欠である。 しかし、相関測度の大部分は、複数のパーティションやサブシステムを扱うことに関連する固有の課題のため、分割に限られている。 そこで本研究では,相互作用量子ビットを用いたDickeモデルのGenuine Multipartite correlations (GMC)について検討する。 この方法では、システムの各部分における相関の正確な定量化と、オーダー$k$の各GCCのパーセンテージコントリビューションが可能である。 最も重要なことは、GMC信号がモデルに存在する一階と二階の量子相転移の両方を示すことである。 さらに、GMCは古典的および量子的相関を包含しているため、実際の多部絡み検出には量子フィッシャー情報(QFI)を用いる。 最終的に、ディック模型と相互作用する量子ビットと、マグノンの量子場と相互作用する固体中のスピン中心を比較して、この一般化されたディック模型の潜在的実験的実現を実証する。

The analysis of correlations among subsystems is essential for both the understanding of critical phenomena and for performing quantum information tasks. However, the majority of correlation measures are restricted to bipartitions due to the inherent challenges associated with handling multiple partitions and subsystems. To address this, we investigate Genuine Multipartite Correlations (GMC) of the Dicke model with interacting qubits. This method allows for the precise quantification of correlations within each subpart of the system, as well as for the percentage contribution of each GMC of order $k$. Most importantly, we show that GMC signal both first- and second-order quantum phase transitions present in the model. Furthermore, we employ Quantum Fisher Information (QFI) to detect genuine multipartite entanglement, since the GMC encompass both classical and quantum correlations. Ultimately, we compare the Dicke model with interacting qubits to spin-centers in solids interacting with a quantum field of magnons to demonstrate a potential experimental realization of this generalized Dicke model.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# ソフトウェアレビューの合理化 - 最小限の例による効率的な予測モデリング

Streamlining Software Reviews: Efficient Predictive Modeling with Minimal Examples ( http://arxiv.org/abs/2405.12920v1 )

ライセンス: Link先を確認
Tim Menzies, Andre Lustosa, (参考訳) 本稿では,ソフトウェア解析における新たな課題を提案する。 このプロセスでは、中小企業(対象分野の専門家)のパネルがソフトウェア動作の例をレビューし、ソフトウェア操作を改善する方法を推奨します。 通常、中小企業の時間は極端に限られているので、理想的には、このパネルはごく少数の非常に有益な例を見て、この最適化タスクを完了することができる。 このレビュープロセスを支援するために、私たちは予測モデルをトレーニングし、いくつかのオラクルが次の例を好む/好まないかを推測する手法を探る。 このような予測モデルは、すべての例を探索する際のガイドとして、中小企業と連携することができる。 また、パネリストが去った後、そのモデルは、パネルの代わりに託宣として使用できる(新しい例を扱うために、パネリストは忙しい他の場所で)。 31のケーススタディ(ソフトウェアプロセスに関する高レベルな決定から、ビデオエンコーディングソフトウェアの設定方法に関する低レベルな決定まで)では、このような予測モデルを12から30のラベルで構築できることを示します。 私たちの知る限りでは、少数の例(そして大きな言語モデルではない)でこの論文の成功は前例がない。 オープンサイエンスの原則に従って、私たちはすべてのコードとデータをhttps://github.com/timm/ez/tree/Stable-EMSE-paperで提供します。

This paper proposes a new challenge problem for software analytics. In the process we shall call "software review", a panel of SMEs (subject matter experts) review examples of software behavior to recommend how to improve that's software's operation. SME time is usually extremely limited so, ideally, this panel can complete this optimization task after looking at just a small number of very informative, examples. To support this review process, we explore methods that train a predictive model to guess if some oracle will like/dislike the next example. Such a predictive model can work with the SMEs to guide them in their exploration of all the examples. Also, after the panelists leave, that model can be used as an oracle in place of the panel (to handle new examples, while the panelists are busy, elsewhere). In 31 case studies (ranging from from high-level decisions about software processes to low-level decisions about how to configure video encoding software), we show that such predictive models can be built using as few as 12 to 30 labels. To the best of our knowledge, this paper's success with only a handful of examples (and no large language model) is unprecedented. In accordance with the principles of open science, we offer all our code and data at https://github.com/timm/ez/tree/Stable-EMSE-paper so that others can repeat/refute/improve these results.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# 分数計算による1/f^α$雑音に対する量子最適制御:半導体スピン量子ビットにおける電圧制御交換

Quantum optimal control robust to $1/f^α$ noises using fractional calculus: voltage-controlled exchange in semiconductor spin qubits ( http://arxiv.org/abs/2405.12922v1 )

ライセンス: Link先を確認
Bohdan Khromets, Jonathan Baugh, (参考訳) 低周波1/f^\alpha$チャージノイズは、量子ドットにおける電圧制御されたスピン量子ビットの性能を著しく阻害する。 ここでは、分数計算を用いて、ノイズの多い量子ゲート演算において、最も高い平均忠実度が得られる電圧制御パルスを設計する。 具体的には、2スピン$\mathrm{SWAP}^k$ゲートを生成する交換相互作用の指数電圧制御に着目する。 定常電荷ノイズがゲート不整合の主源である場合、最適な交換パルスは長く弱く、パラメータが1-\alpha/2$の対称ベータ分布関数の広い形状を持つ。 交換パルスを高速かつ高振幅にする方法の一般的な実践は、分数ブラウン運動としてモデル化された強い非定常雑音力学の場合においても有益である。 提案手法は、様々な電圧制御量子ビットアーキテクチャにおける量子ゲート演算の特性と最適化に適用できる。

Low-frequency $1/f^\alpha$ charge noise significantly hinders the performance of voltage-controlled spin qubits in quantum dots. Here, we utilize fractional calculus to design voltage control pulses yielding the highest average fidelities for noisy quantum gate operations. We focus specifically on the exponential voltage control of the exchange interaction generating two-spin $\mathrm{SWAP}^k$ gates. When stationary charge noise is the dominant source of gate infidelity, we derive that the optimal exchange pulse is long and weak, with the broad shape of the symmetric beta distribution function with parameter $1-\alpha/2$. The common practice of making exchange pulses fast and high-amplitude still remains beneficial in the case of strongly nonstationary noise dynamics, modeled as fractional Brownian motion. The proposed methods are applicable to the characterization and optimization of quantum gate operations in various voltage-controlled qubit architectures.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# マグナス展開による時間依存ハミルトンシミュレーション:アルゴリズムと超収束

Time-dependent Hamiltonian Simulation via Magnus Expansion: Algorithm and Superconvergence ( http://arxiv.org/abs/2405.12925v1 )

ライセンス: Link先を確認
Di Fang, Diyi Liu, Rahul Sarkar, (参考訳) ハミルトンシミュレーションは、基礎となるユニタリがより振動するにつれてより困難になる。 そのような場合、ハミルトニアン微分に対する可換スケーリングと対数論のような弱い依存を持つアルゴリズムが望まれる。 我々は,Magnus級数展開に基づく時間依存ハミルトニアンシミュレーションアルゴリズムを導入する。 重要なことに、相互作用図における非有界ハミルトニアンシミュレーションに適用すると、2階アルゴリズムの可換体が驚くほどの4階超収束をもたらすことが証明され、誤差は空間格子の数に依存しない。 これにより、一階マグナス展開に基づくqHOPアルゴリズム [An, Fang, Lin, Quantum 2022] が拡張され、超収束の証明は、独立した関心を持つ半古典的解析に基づいている。

Hamiltonian simulation becomes more challenging as the underlying unitary becomes more oscillatory. In such cases, an algorithm with commutator scaling and a weak dependence, such as logarithmic, on the derivatives of the Hamiltonian is desired. We introduce a new time-dependent Hamiltonian simulation algorithm based on the Magnus series expansion that exhibits both features. Importantly, when applied to unbounded Hamiltonian simulation in the interaction picture, we prove that the commutator in the second-order algorithm leads to a surprising fourth-order superconvergence, with an error preconstant independent of the number of spatial grids. This extends the qHOP algorithm [An, Fang, Lin, Quantum 2022] based on first-order Magnus expansion, and the proof of superconvergence is based on semiclassical analysis that is of independent interest.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# 公正データを信頼する - 公平性駆動型データ削除技術における品質の活用

Trusting Fair Data: Leveraging Quality in Fairness-Driven Data Removal Techniques ( http://arxiv.org/abs/2405.12926v1 )

ライセンス: Link先を確認
Manh Khoi Duong, Stefan Conrad, (参考訳) 本稿では,特定のデータポイントをトレーニングセットから除去し,その集合内の個体群を公平に表現することを目的としたバイアス軽減手法について述べる。 機械学習モデルは、これらの前処理データセットに基づいてトレーニングされており、その予測は公正であると期待されている。 しかし、そのようなアプローチは関連するデータを除外し、到達したサブセットはさらなる使用にはあまり信頼できない。 先行手法の信頼性を高めるために,(1)グループカバレッジ,(2)データ損失の最小化に加えて,サブセットが満たさなければならない追加要件と目的を提案する。 グループ全体の除去は、測定された公正性を改善する可能性があるが、すべてのグループを表現できないことは公平とは考えられないため、このプラクティスは非常に問題である。 第2の懸念として、差別を最小限にしながらデータの保持を提唱する。 公平性とデータ損失を考慮した多目的最適化問題を導入することにより,これらの目的のバランスをとるパレート最適解を求める手法を提案する。 このようなソリューションを識別することで、公正性とデータ品質のトレードオフに関する情報的な決定を下し、アプリケーションに最も適したサブセットを選択することができる。

In this paper, we deal with bias mitigation techniques that remove specific data points from the training set to aim for a fair representation of the population in that set. Machine learning models are trained on these pre-processed datasets, and their predictions are expected to be fair. However, such approaches may exclude relevant data, making the attained subsets less trustworthy for further usage. To enhance the trustworthiness of prior methods, we propose additional requirements and objectives that the subsets must fulfill in addition to fairness: (1) group coverage, and (2) minimal data loss. While removing entire groups may improve the measured fairness, this practice is very problematic as failing to represent every group cannot be considered fair. In our second concern, we advocate for the retention of data while minimizing discrimination. By introducing a multi-objective optimization problem that considers fairness and data loss, we propose a methodology to find Pareto-optimal solutions that balance these objectives. By identifying such solutions, users can make informed decisions about the trade-off between fairness and data quality and select the most suitable subset for their application.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# 画像登録とサブピクセル推定について

On Image Registration and Subpixel Estimation ( http://arxiv.org/abs/2405.12927v1 )

ライセンス: Link先を確認
Serap A. Savari, (参考訳) 画像登録は、一般的な状況において、同じシーンの離散画像をサブピクセル精度に合わせる方法を模索するマシンビジョンにおける古典的な問題である。 すべての推定問題と同様に、根底にある困難は、基底真理に関する部分的な情報である。 我々は,測定と量子化に関する質問に動機づけられた基本的かつ理想的な1次元画像登録問題を考察し,この設定においてサブインターバル/サブピクセルの推測が可能である範囲は,関心の関数に関連する複雑性の種類,機能と画素サイズの関係,利用可能な異なるサンプリング数観測数に依存することを示した。

Image registration is a classical problem in machine vision which seeks methods to align discrete images of the same scene to subpixel accuracy in general situations. As with all estimation problems, the underlying difficulty is the partial information available about the ground truth. We consider a basic and idealized one-dimensional image registration problem motivated by questions about measurement and about quantization, and we demonstrate that the extent to which subinterval/subpixel inferences can be made in this setting depends on a type of complexity associated with the function of interest, the relationship between the function and the pixel size, and the number of distinct sampling count observations available.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# コード混合感とヘイト音声予測

Code-mixed Sentiment and Hate-speech Prediction ( http://arxiv.org/abs/2405.12929v1 )

ライセンス: Link先を確認
Anjali Yadav, Tanya Garg, Matej Klemen, Matej Ulcar, Basant Agarwal, Marko Robnik Sikonja, (参考訳) コード混合談話は、複数の言語を1つのテキストで結合する。 いくつかの公用語を持つ国では非公式の談話でよく使われるが、他の多くの国では英語や近隣の言語と組み合わせて用いられる。 近年,多くの自然言語処理タスクが大規模言語モデルで支配されているため,関連するタスクに対するコード混在設定における性能について検討した。 私たちはまず、英語とヒンディー語、英語とスロベニア語のための2言語で事前訓練された4つの新しいマスク付き言語モデルを作成しました。 次に,複数の言語を用いた単言語,バイリンガル,少数言語,多言語モデルの評価を行い,特にソーシャルメディアテキストにおける感情分析と攻撃的言語検出の2つのタスクについて検討した。 その結果、最も成功した分類器は、ソーシャルメディアのテキストに特化して微調整されたバイリンガルモデルと多言語モデルであり、次いで非特殊化された大規模多言語モデルとモノリンガルモデルであり、巨大な生成モデルは競合しないことがわかった。 感情的な問題に対して、ほとんどのモデルでは、非コード混合データと比較して、コード混合データに対してわずかにパフォーマンスが良くなっています。

Code-mixed discourse combines multiple languages in a single text. It is commonly used in informal discourse in countries with several official languages, but also in many other countries in combination with English or neighboring languages. As recently large language models have dominated most natural language processing tasks, we investigated their performance in code-mixed settings for relevant tasks. We first created four new bilingual pre-trained masked language models for English-Hindi and English-Slovene languages, specifically aimed to support informal language. Then we performed an evaluation of monolingual, bilingual, few-lingual, and massively multilingual models on several languages, using two tasks that frequently contain code-mixed text, in particular, sentiment analysis and offensive language detection in social media texts. The results show that the most successful classifiers are fine-tuned bilingual models and multilingual models, specialized for social media texts, followed by non-specialized massively multilingual and monolingual models, while huge generative models are not competitive. For our affective problems, the models mostly perform slightly better on code-mixed data compared to non-code-mixed data.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# Pytorch-Wildlife: 保全のための協調的なディープラーニングフレームワーク

Pytorch-Wildlife: A Collaborative Deep Learning Framework for Conservation ( http://arxiv.org/abs/2405.12930v1 )

ライセンス: Link先を確認
Andres Hernandez, Zhongqi Miao, Luisa Vargas, Rahul Dodhia, Juan Lavista, (参考訳) 様々な要因によって引き起こされた世界の生物多様性の急激な減少は、大規模な野生生物モニタリングの緊急の必要性を浮き彫りにしている。 これに対し、科学者は野生生物のモニタリングにおいて、データ処理のための自動化されたディープラーニング手法に目を向けた。 しかし、これらの高度な手法を現実のシナリオに適用することは、その複雑さと専門知識の必要性により、主に技術的な課題と学際的障壁のために困難である。 これらの課題に対処するために、PyTorch上に構築されたオープンソースのディープラーニングプラットフォームであるPytorch-Wildlifeを紹介します。 強力なAIモデルの作成、修正、共有のために設計されている。 このプラットフォームはユーザビリティとアクセシビリティを重視しており、技術的背景が限られている個人でもアクセス可能である。 また、機能拡張とさらなる開発を簡単にするためのモジュール化されたコードベースも提供する。 Pytorch-Wildlifeは直感的でユーザフレンドリなインターフェースを提供し、画像やビデオの動物検出と分類のために、ローカルインストールまたはHugging Faceを通じてアクセスすることができる。 現実世界の2つの応用として、Pytorch-Wildlifeは、アマゾン熱帯雨林での動物分類モデルの訓練や、ガラパゴス諸島での侵入性オポッサムの認識に利用されている。 Opossumモデルは98%の精度で、Amazonモデルはデータの90%で36匹の動物に対して92%の精度で認識する。 Pytorch-Wildlifeが進化するにつれて、環境問題に対処しながら、より多くの保全タスクを統合することを目指しています。 Pytorch-Wildlifeはhttps://github.com/microsoft/CameraTraps.comで公開されている。

The alarming decline in global biodiversity, driven by various factors, underscores the urgent need for large-scale wildlife monitoring. In response, scientists have turned to automated deep learning methods for data processing in wildlife monitoring. However, applying these advanced methods in real-world scenarios is challenging due to their complexity and the need for specialized knowledge, primarily because of technical challenges and interdisciplinary barriers. To address these challenges, we introduce Pytorch-Wildlife, an open-source deep learning platform built on PyTorch. It is designed for creating, modifying, and sharing powerful AI models. This platform emphasizes usability and accessibility, making it accessible to individuals with limited or no technical background. It also offers a modular codebase to simplify feature expansion and further development. Pytorch-Wildlife offers an intuitive, user-friendly interface, accessible through local installation or Hugging Face, for animal detection and classification in images and videos. As two real-world applications, Pytorch-Wildlife has been utilized to train animal classification models for species recognition in the Amazon Rainforest and for invasive opossum recognition in the Galapagos Islands. The Opossum model achieves 98% accuracy, and the Amazon model has 92% recognition accuracy for 36 animals in 90% of the data. As Pytorch-Wildlife evolves, we aim to integrate more conservation tasks, addressing various environmental challenges. Pytorch-Wildlife is available at https://github.com/microsoft/CameraTraps.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# Skin-in-the-Game: LLMにおけるマルチステークホルダアライメントによる意思決定

Skin-in-the-Game: Decision Making via Multi-Stakeholder Alignment in LLMs ( http://arxiv.org/abs/2405.12933v1 )

ライセンス: Link先を確認
Bilgehan Sel, Priya Shanmugasundaram, Mohammad Kachuee, Kun Zhou, Ruoxi Jia, Ming Jin, (参考訳) 大規模言語モデル(LLM)は、要約、算術的推論、質問応答といったタスクにおいて顕著な能力を示している。 しかし、道徳的推論と倫理的意思決定の領域において、特に複数の利害関係者との複雑なシナリオにおいて、大きな課題に直面している。 本稿では,複数の利害関係者の視点から意思決定の結果を探索することにより,LLMにおける道徳的推論を強化することを目的としたSkin-in-the-Game(SKIG)フレームワークを紹介する。 SKIGのメカニズムの中心は、共感のエクササイズやリスクアセスメントとともに、行動の説明責任をシミュレートすることである。 我々は,SKIGの性能を,プロプライエタリかつオープンソース LLM を用いた様々な道徳的推論ベンチマークで検証し,その重要なコンポーネントを広範囲なアブレーション分析により検討する。

Large Language Models (LLMs) have shown remarkable capabilities in tasks such as summarization, arithmetic reasoning, and question answering. However, they encounter significant challenges in the domain of moral reasoning and ethical decision-making, especially in complex scenarios with multiple stakeholders. This paper introduces the Skin-in-the-Game (SKIG) framework, aimed at enhancing moral reasoning in LLMs by exploring decisions' consequences from multiple stakeholder perspectives. Central to SKIG's mechanism is simulating accountability for actions, which, alongside empathy exercises and risk assessment, is pivotal to its effectiveness. We validate SKIG's performance across various moral reasoning benchmarks with proprietary and opensource LLMs, and investigate its crucial components through extensive ablation analyses.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# 実世界データ統合によるアドレス指定可能宿泊選択

Address-Specific Sustainable Accommodation Choice Through Real-World Data Integration ( http://arxiv.org/abs/2405.12934v1 )

ライセンス: Link先を確認
Peter J. Bentley, Rajat Mathur, Soo Ling Lim, Sid Narang, (参考訳) 消費者は、旅の持続的な宿泊を選択したいと願っており、企業の場合は、その義務を負うこともある。 しかし、宿泊市場は、持続可能な選択のための有意義な能力を提供していない。通常、CO2の見積もりは、全国の同じタイプの宿泊施設と同一である。 本稿では,持続可能な宿泊施設の真の選択を可能にする意思決定支援システムを提案する。 EcoGradeと呼ばれるデータ駆動のアドレス固有メトリックを開発し、政府の承認したデータセットを統合し、データが疎結合な補間を使用する。 10の都市で1万の英国住所でこの指標を検証し、我々の解釈と現実との一致が統計的に有意であることを示す。 我々は,この指標がグローバルな宿泊市場における意思決定支援システムに組み込まれ,数ヶ月にわたって実際のユーザによってテストされ,ユーザからの肯定的なフィードバックが得られたことを示す。 EUでは、最終エネルギー消費量の40%が建物からのものである。 すべての建築所有者に、宿泊をより効率的にするよう促す必要があります。 賃貸セクターは、賃貸住宅が頻繁に改修されるため、変化が急速に起こり得る1つの分野である。 EcoGrade を用いた意思決定支援システムが,この肯定的な変化を促すことを期待する。

Consumers wish to choose sustainable accommodation for their travels, and in the case of corporations, may be required to do so. Yet accommodation marketplaces provide no meaningful capability for sustainable choice: typically CO2 estimates are provided that are identical for all accommodation of the same type across an entire country. We propose a decision support system that enables real choice of sustainable accommodation. We develop a data-driven address- specific metric called EcoGrade, which integrates government approved datasets and uses interpolation where data is sparse. We validate the metric on 10,000 UK addresses in 10 cities, showing the match of our interpolations to reality is statistically significant. We show how the metric has been embedded into a decision support system for a global accommodation marketplace and tested by real users over several months with positive user feedback. In the EU, forty percent of final energy consumption is from buildings. We need to encourage all building owners to make their accommodation more efficient. The rental sector is one area where change can occur rapidly, as rented accommodation is renovated frequently. We anticipate our decision support system using EcoGrade will encourage this positive change.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# 有限サイズ伝送線路共振器を用いた直接及び二重シャピロステップの回路QED理論

Circuit QED theory of direct and dual Shapiro steps with finite-size transmission line resonators ( http://arxiv.org/abs/2405.12935v1 )

ライセンス: Link先を確認
Federico Borletto, Luca Giacomelli, Cristiano Ciuti, (参考訳) 有限サイズの伝送線路共振器に結合したジョセフソン接合部の直接及び二重シャピロステップの発生について検討する。 どちらの問題も回路QEDアプローチによって処理するが、光子モードは大きいが有限である。 双対の場合、(近似的な)電荷相双対性は仮定せず、ジョセフソン接合に対する完全なマルチバンド力学を含む。 そのようなハミルトン的アプローチにおける平均場方程式は、伝送線路モードの数が十分大きいときに、散逸的古典方程式によって得られる結果を再現する。 量子的および熱的ゆらぎを考慮に入れるため、トラッピングされたウィグナーアプローチにおける平均場処理を超越した処理を行う。 揺らぎは、直接ステップと二重ステップの両方を変更するように示される。 両ステップがこれらのゆらぎに非常に敏感であることを示し、量子力学三角形を閉じるために必要となる、接合と伝送路のロバスト性を制御する重要な物理パラメータを同定する。

We investigate the occurrence of direct and dual Shapiro steps for a Josephson junction coupled to a finite-size transmission line resonator. We treat both problems through a circuit QED approach with a large, but finite number of photon modes. For the dual case, we do not assume the (approximate) charge-phase duality, but include the full multi-band dynamics for the Josephson junction. Mean-field equations within such Hamiltonian approach reproduce the result obtained through a dissipative classical equation when the number of transmission line modes is large enough. To account for quantum and thermal fluctuations, we go beyond the mean-field treatment within a truncated Wigner approach. The fluctuations are shown to modify both the direct and the dual steps. We show how the dual steps are very sensitive to these fluctuations and identify the key physical parameters for the junction and the transmission line controlling their robustness, which is essential for applications to close the quantum metrological triangle.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# 推論の集約:大規模言語モデルにおける回答選択の促進のための階層的枠組み

Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models ( http://arxiv.org/abs/2405.12939v1 )

ライセンス: Link先を確認
Zhangyue Yin, Qiushi Sun, Qipeng Guo, Zhiyuan Zeng, Xiaonan Li, Tianxiang Sun, Cheng Chang, Qinyuan Cheng, Ding Wang, Xiaofeng Mou, Xipeng Qiu, XuanJing Huang, (参考訳) 近年のChain-of-Thoughtの進歩は、複雑な推論タスクにおいて、LLM(Large Language Models)の大きなブレークスルーを助長している。 最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、LCMの推論性能を向上させる。 しかし、正しい答えが少数派である場合、このアプローチは失敗する。 本研究は, LLMの推論能力を制約する主要な要因として, 予測された解のみに基づいて解けない限界を同定する。 この欠点に対処するために、階層的推論集約フレームワークAoR(Aggregation of Reasoning)を導入し、推論連鎖の評価に基づいて回答を選択する。 さらに、AoRは動的サンプリングを導入し、タスクの複雑さに応じて推論チェーンの数を調整する。 一連の複雑な推論タスクの実験結果は、AoRが顕著なアンサンブル法より優れていることを示している。 さらに分析したところ、AoR は様々な LLM に適応するだけでなく、現在の手法と比較して優れた性能の天井も達成していることがわかった。

Recent advancements in Chain-of-Thought prompting have facilitated significant breakthroughs for Large Language Models (LLMs) in complex reasoning tasks. Current research enhances the reasoning performance of LLMs by sampling multiple reasoning chains and ensembling based on the answer frequency. However, this approach fails in scenarios where the correct answers are in the minority. We identify this as a primary factor constraining the reasoning capabilities of LLMs, a limitation that cannot be resolved solely based on the predicted answers. To address this shortcoming, we introduce a hierarchical reasoning aggregation framework AoR (Aggregation of Reasoning), which selects answers based on the evaluation of reasoning chains. Additionally, AoR incorporates dynamic sampling, adjusting the number of reasoning chains in accordance with the complexity of the task. Experimental results on a series of complex reasoning tasks show that AoR outperforms prominent ensemble methods. Further analysis reveals that AoR not only adapts various LLMs but also achieves a superior performance ceiling when compared to current methods.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# 確率拡散過程の無限小生成器の学習

Learning the Infinitesimal Generator of Stochastic Diffusion Processes ( http://arxiv.org/abs/2405.12940v1 )

ライセンス: Link先を確認
Vladimir R. Kostic, Karim Lounici, Helene Halconruy, Timothee Devergne, Massimiliano Pontil, (参考訳) 本稿では,自然系と物理系の数値シミュレーションを理解するために不可欠な,確率拡散過程の無限小生成系のデータ駆動学習について述べる。 ジェネレータの非有界性は、ヒルベルト・シュミット作用素の従来の解析手法を非効率に活用するなど、大きな課題を生じさせる。 これを解決するために,これらの確率過程のエネルギー関数に基づく新しい枠組みを導入する。 提案手法は,全知識設定と部分的知識設定の両方において,エネルギーベースのリスクメトリックを通じて,物理的先行性を統合する。 部分的知識設定におけるカーネルヒルベルト空間(RKHS)の再生成における低ランク推定器の統計的性能を評価する。 特に,本手法は状態空間次元に依存しない学習境界を提供し,非特異なスペクトル推定を確実にする。 さらに,確率拡散の固有エネルギー誘起測定値と生成器推定に用いるRKHS測定値との歪みがスペクトル学習境界に与える影響を解明する。

We address data-driven learning of the infinitesimal generator of stochastic diffusion processes, essential for understanding numerical simulations of natural and physical systems. The unbounded nature of the generator poses significant challenges, rendering conventional analysis techniques for Hilbert-Schmidt operators ineffective. To overcome this, we introduce a novel framework based on the energy functional for these stochastic processes. Our approach integrates physical priors through an energy-based risk metric in both full and partial knowledge settings. We evaluate the statistical performance of a reduced-rank estimator in reproducing kernel Hilbert spaces (RKHS) in the partial knowledge setting. Notably, our approach provides learning bounds independent of the state space dimension and ensures non-spurious spectral estimation. Additionally, we elucidate how the distortion between the intrinsic energy-induced metric of the stochastic diffusion and the RKHS metric used for generator estimation impacts the spectral learning bounds.
翻訳日:2024-05-22 12:40:41 公開日:2024-05-21
# AMFD:多スペクトルペデストリアン検出のための適応型マルチモーダルフュージョンによる蒸留

AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection ( http://arxiv.org/abs/2405.12944v1 )

ライセンス: Link先を確認
Zizhao Chen, Yeqiang Qian, Xiaoxiao Yang, Chunxiang Wang, Ming Yang, (参考訳) 多スペクトル歩行者検出は、複雑な照明シナリオにおける性能向上に有効であることが示されている。 しかし、マルチスペクトル検出における2重ストリームネットワークでは、2つの異なる特徴抽出枝がマルチモーダルデータに使われており、1つの特徴抽出枝のみを利用するシングルストリームネットワークと比較してほぼ2倍の時間で推測される。 この推測時間の増加は、自律システム用の組み込みデバイスにおいて、多スペクトル歩行者検出が広く採用されることを妨げている。 この制限に対処するため、様々な知識蒸留法が提案されている。 しかし, 従来の蒸留法では, 融合特性のみに着目し, 元のマルチモーダル特性の大量の情報を無視して, 学生ネットワークの性能を制限していた。 この課題に対処するために,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークを導入する。 具体的には,モダル抽出アライメント(MEA)モジュールを用いて,学生ネットワークの学習重みを導出し,焦点とグローバルな注意機構を統合する。 この手法により,教師ネットワークとは独立して,付加的な機能融合モジュールを必要とすることなく,学生ネットワークが最適な融合戦略を取得することができる。 さらに,検出のための多スペクトルデータセットであるSMODデータセットを提案する。 AMFDの有効性を検証するため, 挑戦的なKAIST, LLVIP, SMODデータセットの大規模な実験を行った。 その結果,ログ平均誤差率の低減と平均誤差精度の向上の両面において,既存の最先端手法よりも優れた結果が得られた。 コードはhttps://github.com/bigD233/AMFD.gitで公開されている。

Multispectral pedestrian detection has been shown to be effective in improving performance within complex illumination scenarios. However, prevalent double-stream networks in multispectral detection employ two separate feature extraction branches for multi-modal data, leading to nearly double the inference time compared to single-stream networks utilizing only one feature extraction branch. This increased inference time has hindered the widespread employment of multispectral pedestrian detection in embedded devices for autonomous systems. To address this limitation, various knowledge distillation methods have been proposed. However, traditional distillation methods focus only on the fusion features and ignore the large amount of information in the original multi-modal features, thereby restricting the student network's performance. To tackle the challenge, we introduce the Adaptive Modal Fusion Distillation (AMFD) framework, which can fully utilize the original modal features of the teacher network. Specifically, a Modal Extraction Alignment (MEA) module is utilized to derive learning weights for student networks, integrating focal and global attention mechanisms. This methodology enables the student network to acquire optimal fusion strategies independent from that of teacher network without necessitating an additional feature fusion module. Furthermore, we present the SMOD dataset, a well-aligned challenging multispectral dataset for detection. Extensive experiments on the challenging KAIST, LLVIP and SMOD datasets are conducted to validate the effectiveness of AMFD. The results demonstrate that our method outperforms existing state-of-the-art methods in both reducing log-average Miss Rate and improving mean Average Precision. The code is available at https://github.com/bigD233/AMFD.git.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# ブロックチェーンベースのIoTシステムにおけるハニーポットの戦略的展開

Strategic Deployment of Honeypots in Blockchain-based IoT Systems ( http://arxiv.org/abs/2405.12951v1 )

ライセンス: Link先を確認
Daniel Commey, Sena Hounsinou, Garth V. Crosby, (参考訳) 本稿では,ブロックチェーンベースのモノのインターネット(Internet of Things, Internet of Things, モノのインターネット)システムにおけるサイバーセキュリティの強化という課題に対処する。 同社は、IoTノード上のスマートコントラクト機能と統合された侵入検知システム(IDS)を活用する、ハニーポットの動的デプロイのためのAI駆動システムモデルを導入した。 このモデルにより、不審な活動に応じて正規ノードをデコイに変換することができ、それによってBIoTネットワークのセキュリティが強化される。 本論文は,ゲーム理論モデル,特にベイズゲームを用いて,潜在的な攻撃者とAI強化IDSとの戦略的相互作用を解析する。 このモデルは、当初正常に見える可能性のある高度な攻撃の理解と予測に焦点を当て、戦略決定、最適化されたハニーポットデプロイメント、そして、進化する攻撃パターンに対応する適応戦略を強調している。

This paper addresses the challenge of enhancing cybersecurity in Blockchain-based Internet of Things (BIoTs) systems, which are increasingly vulnerable to sophisticated cyberattacks. It introduces an AI-powered system model for the dynamic deployment of honeypots, utilizing an Intrusion Detection System (IDS) integrated with smart contract functionalities on IoT nodes. This model enables the transformation of regular nodes into decoys in response to suspicious activities, thereby strengthening the security of BIoT networks. The paper analyses strategic interactions between potential attackers and the AI-enhanced IDS through a game-theoretic model, specifically Bayesian games. The model focuses on understanding and predicting sophisticated attacks that may initially appear normal, emphasizing strategic decision-making, optimized honeypot deployment, and adaptive strategies in response to evolving attack patterns.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# 切り裂かれた可変値の反復

Truncated Variance Reduced Value Iteration ( http://arxiv.org/abs/2405.12952v1 )

ライセンス: Link先を確認
Yujia Jin, Ishani Karmarkar, Aaron Sidford, Jiayi Wang, (参考訳) A_{\text{tot}}$-state-action pairs, bounded rewards, discount factor $\gamma$。 我々は、サンプリング設定において$\tilde{O}(A_{\text{tot}}[(1 - \gamma)^{-3}\epsilon^{-2} + (1 - \gamma)^{-2}])$-timeアルゴリズムを提供する。 これらの結果は、$\tilde{O}(A_{\text{tot}}[(1 - \gamma)^{-3}\epsilon^{-2} + (1 - \gamma)^{-3}])$ time [Sidford, Wang, Wu, Ye 2018] in the sample set, $\tilde{O}(s + A_{\text{tot}} (1-\gamma)^{-3})$ time [Sidford, Wang, Wu, Yang, Ye 2018] in the offline set, or time at least quadratic in the state of state using interior point methods for linear programming。 Sidford, Wang, Wu, Yang, Ye 2018][Sidford, Wang, Wu, Yang, Ye 2018] を確率的分散還元値反復法で構築し,その結果を得る。 提案手法は,提案手法を実装するために導入した,新しい分散還元サンプリング手順のばらつきを改善するため,反復処理の進行を慎重に抑制する変種を提供する。 我々のメソッドは基本的にモデルフリーであり、与えられた生成モデルアクセス時に$\tilde{O}(A_{\text{tot}})$-spaceで実装できる。 その結果, モデルフリー法とモデルベース法とでは, サンプル・複雑さのギャップを埋めることができた。

We provide faster randomized algorithms for computing an $\epsilon$-optimal policy in a discounted Markov decision process with $A_{\text{tot}}$-state-action pairs, bounded rewards, and discount factor $\gamma$. We provide an $\tilde{O}(A_{\text{tot}}[(1 - \gamma)^{-3}\epsilon^{-2} + (1 - \gamma)^{-2}])$-time algorithm in the sampling setting, where the probability transition matrix is unknown but accessible through a generative model which can be queried in $\tilde{O}(1)$-time, and an $\tilde{O}(s + (1-\gamma)^{-2})$-time algorithm in the offline setting where the probability transition matrix is known and $s$-sparse. These results improve upon the prior state-of-the-art which either ran in $\tilde{O}(A_{\text{tot}}[(1 - \gamma)^{-3}\epsilon^{-2} + (1 - \gamma)^{-3}])$ time [Sidford, Wang, Wu, Ye 2018] in the sampling setting, $\tilde{O}(s + A_{\text{tot}} (1-\gamma)^{-3})$ time [Sidford, Wang, Wu, Yang, Ye 2018] in the offline setting, or time at least quadratic in the number of states using interior point methods for linear programming. We achieve our results by building upon prior stochastic variance-reduced value iteration methods [Sidford, Wang, Wu, Yang, Ye 2018]. We provide a variant that carefully truncates the progress of its iterates to improve the variance of new variance-reduced sampling procedures that we introduce to implement the steps. Our method is essentially model-free and can be implemented in $\tilde{O}(A_{\text{tot}})$-space when given generative model access. Consequently, our results take a step in closing the sample-complexity gap between model-free and model-based methods.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# マスアートノイズを伴うハーフスペースのオンライン学習

Online Learning of Halfspaces with Massart Noise ( http://arxiv.org/abs/2405.12958v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Vasilis Kontonis, Christos Tzamos, Nikos Zarifis, (参考訳) 我々はMassartノイズの存在下でのオンライン学習の課題について検討する。 オンラインの敵対者が任意のラベル列を選択する代わりに、文脈 $\mathbf{x}$ が逆選択されると仮定するが、学習者に提示されるラベル $y$ は、大まかに$\eta$ の確率が未知の基底構造ラベル $\mathbf{x}$ と矛盾する。 我々は$\gamma$-margin線形分類器の基本クラスについて研究し、$\eta T + o(T)$の誤りを解く計算効率の良いアルゴリズムを提案する。 我々のミスバウンダリは、効率的なアルゴリズムに対して質的に厳密である。オフライン設定でも、$\eta$よりも優れた分類誤差を達成するには、SQモデルにおいて超多項式時間が必要であることが知られている。 オンライン学習モデルを$k$-armの文脈的ビジット設定に拡張し、一般的に使用される実現可能性の仮定を満たす代わりに、報酬は、重みベクトル $\mathbf{w}^\ast$ のある線形ランキング関数と一貫性(期待通り)を持つ。 文脈のリスト $\mathbf{x}_1,\ldots \mathbf{x}_k$, if $\mathbf{w}^*\cdot \mathbf{x}_i > \mathbf{w}^* \cdot \mathbf{x}_j$ が与えられた場合、期待されるアクションの報酬$i$は少なくとも$\Delta$によって$j$よりも大きくなければならない。 我々はMassartオンライン学習者を用いて,任意のラウンドでランダムなアクションを選択するよりも,少なくとも$(1-1/k)~ \Delta T - o(T)$の報酬を得られる効率的なバンディットアルゴリズムを設計する。

We study the task of online learning in the presence of Massart noise. Instead of assuming that the online adversary chooses an arbitrary sequence of labels, we assume that the context $\mathbf{x}$ is selected adversarially but the label $y$ presented to the learner disagrees with the ground-truth label of $\mathbf{x}$ with unknown probability at most $\eta$. We study the fundamental class of $\gamma$-margin linear classifiers and present a computationally efficient algorithm that achieves mistake bound $\eta T + o(T)$. Our mistake bound is qualitatively tight for efficient algorithms: it is known that even in the offline setting achieving classification error better than $\eta$ requires super-polynomial time in the SQ model. We extend our online learning model to a $k$-arm contextual bandit setting where the rewards -- instead of satisfying commonly used realizability assumptions -- are consistent (in expectation) with some linear ranking function with weight vector $\mathbf{w}^\ast$. Given a list of contexts $\mathbf{x}_1,\ldots \mathbf{x}_k$, if $\mathbf{w}^*\cdot \mathbf{x}_i > \mathbf{w}^* \cdot \mathbf{x}_j$, the expected reward of action $i$ must be larger than that of $j$ by at least $\Delta$. We use our Massart online learner to design an efficient bandit algorithm that obtains expected reward at least $(1-1/k)~ \Delta T - o(T)$ bigger than choosing a random action at every round.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# エネルギーランクアライメント: 選好最適化を用いた大規模化学空間探索

Energy Rank Alignment: Using Preference Optimization to Search Chemical Space at Scale ( http://arxiv.org/abs/2405.12961v1 )

ライセンス: Link先を確認
Shriram Chennakesavalu, Frank Hu, Sebastian Ibarraran, Grant M. Rotskoff, (参考訳) 化学的空間を探索することは、可能な分子の数が原子の数と組み合わせて増加するため、非常に難しい問題である。 化学化合物のデータベース上で訓練された大規模で自己回帰的なモデルは強力な生成物を生み出してきたが、それでも所望の特性を持つ分子を生成するための堅牢な戦略は欠如している。 この分子探索問題は、大規模言語モデルにおける「アライメント」問題とよく似ているが、多くの化学的なタスクでは、具体的かつ容易に評価可能な報酬関数を持つ。 本稿では,エネルギーランクアライメント(ERA)と呼ばれるアルゴリズムを導入し,自己回帰ポリシーの最適化に使用する勾配に基づく目標値を生成する。 理論的には、このアルゴリズムは近似ポリシー最適化(PPO)と直接選好最適化(DPO)と密接に関連しているが、エネルギー関数の役割を果たす報酬を持つ理想のギブス・ボルツマン分布に収束する最小化器を持つ。 さらに、このアルゴリズムはスケーラビリティが高く、強化学習を必要とせず、ペアリング毎の選好観測回数が少ない場合、DPOとよく対応できる。 我々は、分子トランスフォーマーを配置し、外部に指定された性質を持つ分子を生成する。 ケミカルサーチに重点を置いているが、LLMアライメントのためのAI教師付きタスクにおいても優れた結果が得られる。

Searching through chemical space is an exceptionally challenging problem because the number of possible molecules grows combinatorially with the number of atoms. Large, autoregressive models trained on databases of chemical compounds have yielded powerful generators, but we still lack robust strategies for generating molecules with desired properties. This molecular search problem closely resembles the "alignment" problem for large language models, though for many chemical tasks we have a specific and easily evaluable reward function. Here, we introduce an algorithm called energy rank alignment (ERA) that leverages an explicit reward function to produce a gradient-based objective that we use to optimize autoregressive policies. We show theoretically that this algorithm is closely related to proximal policy optimization (PPO) and direct preference optimization (DPO), but has a minimizer that converges to an ideal Gibbs-Boltzmann distribution with the reward playing the role of an energy function. Furthermore, this algorithm is highly scalable, does not require reinforcement learning, and performs well relative to DPO when the number of preference observations per pairing is small. We deploy this approach to align molecular transformers to generate molecules with externally specified properties and find that it does so robustly, searching through diverse parts of chemical space. While our focus here is on chemical search, we also obtain excellent results on an AI supervised task for LLM alignment, showing that the method is scalable and general.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# トランスフォーマーアーキテクチャによる総合的マルチモーダルディープラーニング生存予測:グリオ芽腫における多施設研究

Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma ( http://arxiv.org/abs/2405.12963v1 )

ライセンス: Link先を確認
Ahmed Gomaa, Yixing Huang, Amr Hagag, Charlotte Schmitter, Daniel Höfler, Thomas Weissmann, Katharina Breininger, Manuel Schmidt, Jenny Stritzelberger, Daniel Delev, Roland Coras, Arnd Dörfler, Oliver Schnell, Benjamin Frey, Udo S. Gaipl, Sabine Semrau, Christoph Bert, Rainer Fietkau, Florian Putz, (参考訳) 背景: 本研究は, 変圧器を用いた深層学習モデルにおいて, MR画像, 臨床および分子病理学的データを統合することにより, グリオブラスト腫の生存率予測を改善することを目的としている。 方法: 変圧器を用いた非線形および非局所生存予測モデルの提案と評価を行う。 このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。 モデル一般化性を示すために, UPenn-GBM, UCSF-PDGM, RHUH-GBMの3つの独立した公開テストセットを用いて, それぞれ378, 366, 36のケースからなる時間依存コンコータンス指数(Cdt)を用いて, モデルの評価を行った。 結果: 提案したトランスフォーマーモデルは, 撮像および非撮像データに対して有望な性能を達成し, 性能向上のための両モード(UPenn-GBMテストセット, Cdt 0.645, Multimodal Cdt 0.707)を効果的に統合し, 最先端の3D-CNNモデルより優れていた。 Cdt値が0.707(UPenn-GBM、内部テストセット)、0.672(UCSF-PDGM、第1外部テストセット)、0.618(RHUH-GBM、第2外部テストセット)の3つの独立したマルチセンターテストセットに一貫性が認められた。 このモデルは、3つのデータセット(logrank p 1.9\times{10}^{-8}, 9.7\times{10}^{-3}, 1.2\times{10}^{-2})に対して、好ましくない生存率と好ましくない生存率の差を顕著に示した。 結論: トランスフォーマーを用いた生存予測モデルでは, 多様な入力モダリティからの補完情報を統合し, 最先端の方法と比較して, グリオブラスト腫生存予測の改善に寄与する。 モデル一般化性を支持する機関間で連続的な性能が観察された。

Background: This research aims to improve glioblastoma survival prediction by integrating MR images, clinical and molecular-pathologic data in a transformer-based deep learning model, addressing data heterogeneity and performance generalizability. Method: We propose and evaluate a transformer-based non-linear and non-proportional survival prediction model. The model employs self-supervised learning techniques to effectively encode the high-dimensional MRI input for integration with non-imaging data using cross-attention. To demonstrate model generalizability, the model is assessed with the time-dependent concordance index (Cdt) in two training setups using three independent public test sets: UPenn-GBM, UCSF-PDGM, and RHUH-GBM, each comprising 378, 366, and 36 cases, respectively. Results: The proposed transformer model achieved promising performance for imaging as well as non-imaging data, effectively integrating both modalities for enhanced performance (UPenn-GBM test-set, imaging Cdt 0.645, multimodal Cdt 0.707) while outperforming state-of-the-art late-fusion 3D-CNN-based models. Consistent performance was observed across the three independent multicenter test sets with Cdt values of 0.707 (UPenn-GBM, internal test set), 0.672 (UCSF-PDGM, first external test set) and 0.618 (RHUH-GBM, second external test set). The model achieved significant discrimination between patients with favorable and unfavorable survival for all three datasets (logrank p 1.9\times{10}^{-8}, 9.7\times{10}^{-3}, and 1.2\times{10}^{-2}). Conclusions: The proposed transformer-based survival prediction model integrates complementary information from diverse input modalities, contributing to improved glioblastoma survival prediction compared to state-of-the-art methods. Consistent performance was observed across institutions supporting model generalizability.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# 宇宙論的可能性に基づく推論の未来:加速された高次元パラメータ推定とモデル比較

The future of cosmological likelihood-based inference: accelerated high-dimensional parameter estimation and model comparison ( http://arxiv.org/abs/2405.12965v1 )

ライセンス: Link先を確認
Davide Piras, Alicja Polanska, Alessio Spurio Mancini, Matthew A. Price, Jason D. McEwen, (参考訳) 我々は,最近の機械学習とその基盤技術を活用し,宇宙論的な可能性に基づく推論の新しいパラダイムを提唱し,ベイズ的推論を高次元設定で加速する。 特に私たちは (i)エミュレーション、例えばCosmoPower-JAXを模倣する機械学習モデルを訓練すること。 (ii)微分可能および確率的プログラミング、eg JAXおよびNumPyro 三 スケーラブルマルコフ連鎖モンテカルロ(MCMC)の勾配を利用したサンプリング技術、例えばハミルトニアンモンテカルロ (iv) ベイズ的証拠を純粋に後部サンプルから計算する疎結合でスケーラブルなベイズ的モデル選択手法(例えば、ハーモニックで実装された学習調和平均)。 このパラダイムにより、パラメータ推定とモデル選択の両方を含むベイズ解析を、従来のアプローチのごく一部で行うことができる。 まず,37次元および39次元パラメータ空間におけるStage IVサーベイにおけるシミュレーション宇宙せん断解析へのこのパラダイムの適用を,$\Lambda$CDMと動的ダークエネルギーモデル(w_0w_a$CDM)と比較した。 我々は,48CPUコアで8ヶ月の計算コストを2日間のGPUで2日間に削減しつつ,従来のネストサンプリング手法で計算したデータと良好な一致を示した後部輪郭とエビデンスを復元する。 第2に,3つのシミュレーションされた次世代サーベイ間の共同解析を行い,それぞれが3x2pt解析を行い,その結果,157次元および159次元のパラメータ空間が得られた。 標準的なネストサンプリング技術はこの高次元環境では実現不可能であり、48のCPUコア上での12年間の計算時間を必要とするが、提案手法は24のGPU上で8日間の計算時間しか必要としない。 私たちの分析で使用されるパッケージはすべて公開されています。

We advocate for a new paradigm of cosmological likelihood-based inference, leveraging recent developments in machine learning and its underlying technology, to accelerate Bayesian inference in high-dimensional settings. Specifically, we combine (i) emulation, where a machine learning model is trained to mimic cosmological observables, e.g. CosmoPower-JAX; (ii) differentiable and probabilistic programming, e.g. JAX and NumPyro, respectively; (iii) scalable Markov chain Monte Carlo (MCMC) sampling techniques that exploit gradients, e.g. Hamiltonian Monte Carlo; and (iv) decoupled and scalable Bayesian model selection techniques that compute the Bayesian evidence purely from posterior samples, e.g. the learned harmonic mean implemented in harmonic. This paradigm allows us to carry out a complete Bayesian analysis, including both parameter estimation and model selection, in a fraction of the time of traditional approaches. First, we demonstrate the application of this paradigm on a simulated cosmic shear analysis for a Stage IV survey in 37- and 39-dimensional parameter spaces, comparing $\Lambda$CDM and a dynamical dark energy model ($w_0w_a$CDM). We recover posterior contours and evidence estimates that are in excellent agreement with those computed by the traditional nested sampling approach while reducing the computational cost from 8 months on 48 CPU cores to 2 days on 12 GPUs. Second, we consider a joint analysis between three simulated next-generation surveys, each performing a 3x2pt analysis, resulting in 157- and 159-dimensional parameter spaces. Standard nested sampling techniques are simply not feasible in this high-dimensional setting, requiring a projected 12 years of compute time on 48 CPU cores; on the other hand, the proposed approach only requires 8 days of compute time on 24 GPUs. All packages used in our analyses are publicly available.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# ノイズラベルを正確に扱えるか?

Can We Treat Noisy Labels as Accurate? ( http://arxiv.org/abs/2405.12969v1 )

ライセンス: Link先を確認
Yuxiang Zheng, Zhongyi Han, Yilong Yin, Xin Gao, Tongliang Liu, (参考訳) ノイズラベルは、特にあいまいなインスタンス機能のために、機械学習モデルの正確性と一般化を著しく妨げている。 遷移行列などのノイズラベルを直接修正しようとする従来の手法は、問題の本質的な複雑さに十分対応できないことが多い。 本稿では,雑音ラベルからの学習におけるパラダイムシフトであるEchoAlignを紹介する。 ラベルの修正に集中するのではなく、EchoAlignはノイズのあるラベル($\tilde{Y}$)を正確に扱い、対応するインスタンス機能($X$)を変更して$\tilde{Y}$とのアライメントを改善する。 EchoMod: 制御可能な生成モデルを用いることで、EchoModは固有の特性を維持しつつ、ノイズラベルとの整合性を確保しながら、インスタンスを正確に修正する。 2) EchoSelect: インスタンスの変更は、必然的にトレーニングとテストセット間の分散シフトを導入します。 EchoSelectは、これらのシフトを軽減するために、クリーンなオリジナルインスタンスのかなりの部分を維持している。 オリジナルと修正されたインスタンス間の特徴類似度分布を、正確なサンプル選択のための堅牢なツールとして活用する。 この統合されたアプローチは、顕著な結果をもたらす。 30%のインスタンス依存ノイズのある環境では、選択精度が99%であっても、EchoSelectは以前のベストメソッドに比べてサンプルの2倍近い数を保持している。 注目すべきなのは、3つのデータセットにおいて、EchoAlignは従来の最先端技術を超え、大幅に改善されていることだ。

Noisy labels significantly hinder the accuracy and generalization of machine learning models, particularly due to ambiguous instance features. Traditional techniques that attempt to correct noisy labels directly, such as those using transition matrices, often fail to address the inherent complexities of the problem sufficiently. In this paper, we introduce EchoAlign, a transformative paradigm shift in learning from noisy labels. Instead of focusing on label correction, EchoAlign treats noisy labels ($\tilde{Y}$) as accurate and modifies corresponding instance features ($X$) to achieve better alignment with $\tilde{Y}$. EchoAlign's core components are (1) EchoMod: Employing controllable generative models, EchoMod precisely modifies instances while maintaining their intrinsic characteristics and ensuring alignment with the noisy labels. (2) EchoSelect: Instance modification inevitably introduces distribution shifts between training and test sets. EchoSelect maintains a significant portion of clean original instances to mitigate these shifts. It leverages the distinct feature similarity distributions between original and modified instances as a robust tool for accurate sample selection. This integrated approach yields remarkable results. In environments with 30% instance-dependent noise, even at 99% selection accuracy, EchoSelect retains nearly twice the number of samples compared to the previous best method. Notably, on three datasets, EchoAlign surpasses previous state-of-the-art techniques with a substantial improvement.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# 微粒化IDと属性制御を用いた事前学習拡散モデルのための顔適応器

Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control ( http://arxiv.org/abs/2405.12970v1 )

ライセンス: Link先を確認
Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu, (参考訳) 現在の顔の再現と交換は、主にGANフレームワークに依存しているが、近年では、より優れた生成能力のために、事前訓練された拡散モデルに焦点が移っている。 しかし、これらのモデルのトレーニングはリソース集約的であり、その結果はまだ満足のいくパフォーマンスレベルに達していない。 この問題に対処するために,事前学習した拡散モデルに対する高精度かつ高忠実な顔編集のための,効率的かつ効果的なアダプタであるFace-Adapterを導入する。 顔の再現・スワッピング作業は、基本的にターゲット構造、ID、属性の組み合わせを含む。 1つのモデルで両方のタスクを達成するために、これらの要因のコントロールを十分に分離することを目指している。 具体的には,以下の方法を含む。 1) 正確なランドマーク及び背景を提供する空間条件発生装置 2) 変圧器デコーダにより顔の埋め込みをテキスト空間に転送するプラグイン・アンド・プレイのアイデンティティ・エンコーダ。 3) 空間条件と詳細な属性を統合する属性コントローラ Face-Adapterは、完全に調整された顔の再現/スワッピングモデルと比較して、モーションコントロールの精度、ID保持能力、生成品質において同等またはそれ以上の性能を達成する。 さらに、Face-Adapterは様々なStableDiffusionモデルとシームレスに統合される。

Current face reenactment and swapping methods mainly rely on GAN frameworks, but recent focus has shifted to pre-trained diffusion models for their superior generation capabilities. However, training these models is resource-intensive, and the results have not yet achieved satisfactory performance levels. To address this issue, we introduce Face-Adapter, an efficient and effective adapter designed for high-precision and high-fidelity face editing for pre-trained diffusion models. We observe that both face reenactment/swapping tasks essentially involve combinations of target structure, ID and attribute. We aim to sufficiently decouple the control of these factors to achieve both tasks in one model. Specifically, our method contains: 1) A Spatial Condition Generator that provides precise landmarks and background; 2) A Plug-and-play Identity Encoder that transfers face embeddings to the text space by a transformer decoder. 3) An Attribute Controller that integrates spatial conditions and detailed attributes. Face-Adapter achieves comparable or even superior performance in terms of motion control precision, ID retention capability, and generation quality compared to fully fine-tuned face reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates with various StableDiffusion models.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# BiomedParse: あらゆるものを一度に解析するバイオメディカル基礎モデル

BiomedParse: a biomedical foundation model for image parsing of everything everywhere all at once ( http://arxiv.org/abs/2405.12971v1 )

ライセンス: Link先を確認
Theodore Zhao, Yu Gu, Jianwei Yang, Naoto Usuyama, Ho Hin Lee, Tristan Naumann, Jianfeng Gao, Angela Crabtree, Brian Piening, Carlo Bifulco, Mu Wei, Hoifung Poon, Sheng Wang, (参考訳) バイオメディカル画像解析は、細胞生物学、病理学、放射線学、その他多くの生物医学領域における生物医学的な発見の基礎となる。 ホロスティック画像解析は、セグメンテーション、検出、関連するオブジェクトの認識など、相互依存のサブタスクを含む。 そこで本研究では,9つの画像モダリティにまたがる82種類のオブジェクトの分割,検出,認識を共同で行うことができる,画像解析のためのバイオメディカル基礎モデルであるBiomedParseを提案する。 共同学習により、個々のタスクの精度を向上させることができ、ユーザが各オブジェクトのバウンディングボックスを精力的に指定する必要はなく、テキストプロンプトを通じて画像中のすべての関連オブジェクトを分割するといった新しいアプリケーションを可能にすることができる。 我々は、これらのデータセットに付随する手軽に利用可能な自然言語ラベルや記述を活用し、GPT-4を用いて、ノイズの多い非構造化テキスト情報を確立されたバイオメディカルオブジェクトオントロジーと調和させた。 我々は600万枚以上の画像、セグメンテーションマスク、テキスト記述からなる大規模なデータセットを作成しました。 画像セグメンテーションにおいて,BiomedParseは,9つの画像モダリティ(すべて)にまたがる102,855個の画像-マスク-ラベルトリプルに対して,最先端の手法よりも高い精度で適用可能であることを示した。 特定の対象の特定を目的としたオブジェクト検出について、BiomedParseは再び最先端のパフォーマンス、特に不規則な形状のオブジェクト(どこでも)を達成した。 画像内のすべてのオブジェクトとそれらの意味型を同時に識別することを目的としたオブジェクト認識において、BiomedParseは画像内のすべてのバイオメディカルオブジェクト(すべて一度に)を同時にセグメンテーションおよびラベル付けできることを示した。 要約すると、BiomedParseはバイオメディカルイメージ分析のためのオールインワンツールであり、すべての主要なバイオメディカルイメージのセグメンテーション、検出、認識を共同で解決し、効率的で正確な画像ベースのバイオメディカル発見のための道を歩む。

Biomedical image analysis is fundamental for biomedical discovery in cell biology, pathology, radiology, and many other biomedical domains. Holistic image analysis comprises interdependent subtasks such as segmentation, detection, and recognition of relevant objects. Here, we propose BiomedParse, a biomedical foundation model for imaging parsing that can jointly conduct segmentation, detection, and recognition for 82 object types across 9 imaging modalities. Through joint learning, we can improve accuracy for individual tasks and enable novel applications such as segmenting all relevant objects in an image through a text prompt, rather than requiring users to laboriously specify the bounding box for each object. We leveraged readily available natural-language labels or descriptions accompanying those datasets and use GPT-4 to harmonize the noisy, unstructured text information with established biomedical object ontologies. We created a large dataset comprising over six million triples of image, segmentation mask, and textual description. On image segmentation, we showed that BiomedParse is broadly applicable, outperforming state-of-the-art methods on 102,855 test image-mask-label triples across 9 imaging modalities (everything). On object detection, which aims to locate a specific object of interest, BiomedParse again attained state-of-the-art performance, especially on objects with irregular shapes (everywhere). On object recognition, which aims to identify all objects in a given image along with their semantic types, we showed that BiomedParse can simultaneously segment and label all biomedical objects in an image (all at once). In summary, BiomedParse is an all-in-one tool for biomedical image analysis by jointly solving segmentation, detection, and recognition for all major biomedical image modalities, paving the path for efficient and accurate image-based biomedical discovery.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# 概念駆動型テキスト・画像生成のためのパーソナライズされた残像

Personalized Residuals for Concept-Driven Text-to-Image Generation ( http://arxiv.org/abs/2405.12978v1 )

ライセンス: Link先を確認
Cusuh Ham, Matthew Fisher, James Hays, Nicholas Kolkin, Yuchen Liu, Richard Zhang, Tobias Hinz, (参考訳) テキストと画像の拡散モデルを用いた効率的な概念駆動型生成のためのパーソナライズされた残差と局所的な注意誘導サンプリングを提案する。 提案手法は,事前学習したテキスト条件拡散モデルの重みを凍結し,モデルの少数の部分集合に対する低ランク残差を学習することによって,まず概念を表現する。 この手法は, クロスアテンションによって局所化される領域のみに学習された残差を適用し, 元の拡散重みを他のすべての領域に適用する。 したがって、局所サンプリングは、この概念の学習された同一性と、基礎となる拡散モデルの既存の生成モデルとを結合させる。 正規化画像を用いることなく,従来のモデルよりも少ないパラメータで,1つのGPU上で約3分で概念の同一性を効果的に捉えることができることを示す。

We present personalized residuals and localized attention-guided sampling for efficient concept-driven generation using text-to-image diffusion models. Our method first represents concepts by freezing the weights of a pretrained text-conditioned diffusion model and learning low-rank residuals for a small subset of the model's layers. The residual-based approach then directly enables application of our proposed sampling technique, which applies the learned residuals only in areas where the concept is localized via cross-attention and applies the original diffusion weights in all other regions. Localized sampling therefore combines the learned identity of the concept with the existing generative prior of the underlying diffusion model. We show that personalized residuals effectively capture the identity of a concept in ~3 minutes on a single GPU without the use of regularization images and with fewer parameters than previous models, and localized sampling allows using the original model as strong prior for large parts of the image.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# OmniGlue: ファンデーションモデルガイダンスと一般的な機能マッチング

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance ( http://arxiv.org/abs/2405.12979v1 )

ライセンス: Link先を確認
Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo, (参考訳) 画像マッチング分野は、新しい学習可能な特徴マッチング技術の継続的な出現を目の当たりにしており、従来のベンチマークでは常に性能が向上している。 しかし,本研究では,これらの進歩にもかかわらず,現実の応用の可能性は,新たな画像領域への限定的な一般化能力によって制限されていることを示す。 本稿では,基本原理として一般化された最初の学習可能な画像マッチングであるOmniGlueを紹介する。 OmniGlueは、ビジョンファウンデーションモデルから幅広い知識を活用して、特徴マッチングプロセスをガイドし、トレーニング時に見えない領域への一般化を促進する。 さらに,空間情報と外観情報をアンタングル化するキーポイント位置誘導型アテンション機構を提案する。 シーンレベル、オブジェクト中心、空中画像など、さまざまな画像領域を持つデータセットのスイートで、包括的な実験を行います。 OmniGlueの新規なコンポーネントは、直接的に同等の参照モデルに対して20.9\%の未確認ドメインに対して相対的なゲインをもたらし、また最近のLightGlueメソッドを9.5\%の相対コードで上回っている。 https://hwjiang1510.github.io/OmniGlueで、コードとモデルが見つかる。

The image matching field has been witnessing a continuous emergence of novel learnable feature matching techniques, with ever-improving performance on conventional benchmarks. However, our investigation shows that despite these gains, their potential for real-world applications is restricted by their limited generalization capabilities to novel image domains. In this paper, we introduce OmniGlue, the first learnable image matcher that is designed with generalization as a core principle. OmniGlue leverages broad knowledge from a vision foundation model to guide the feature matching process, boosting generalization to domains not seen at training time. Additionally, we propose a novel keypoint position-guided attention mechanism which disentangles spatial and appearance information, leading to enhanced matching descriptors. We perform comprehensive experiments on a suite of $7$ datasets with varied image domains, including scene-level, object-centric and aerial images. OmniGlue's novel components lead to relative gains on unseen domains of $20.9\%$ with respect to a directly comparable reference model, while also outperforming the recent LightGlue method by $9.5\%$ relatively.Code and model can be found at https://hwjiang1510.github.io/OmniGlue
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# クロス層アテンションによるトランスフォーマーキーバリューキャッシュサイズ削減

Reducing Transformer Key-Value Cache Size with Cross-Layer Attention ( http://arxiv.org/abs/2405.12981v1 )

ライセンス: Link先を確認
William Brandon, Mayank Mishra, Aniruddha Nrusimha, Rameswar Panda, Jonathan Ragan Kelly, (参考訳) キーバリューキャッシュ(KV)は、トランスフォーマーベースの自己回帰型大言語モデル(LLM)のデコーディングを高速化する上で重要な役割を果たす。 しかし、KVキャッシュを保存するのに必要なメモリ量は、長いシーケンス長と大きなバッチサイズで禁止される可能性がある。 トランスの発明以来、KVキャッシュのサイズを減らすために発見された最も効果的な介入は、Multi-Query Attention(MQA)とその一般化であるGrouped-Query Attention(GQA)である。 MQAとGQAはどちらもアテンションブロックの設計を変更し、複数のクエリヘッドが単一のキー/バリューヘッドを共有できるようにし、異なるキー/バリューヘッドの数を大きな要因で削減し、精度を最小限に低下させる。 本稿では,CLA(Cross-Layer Attention)と呼ばれる新しいアテンション設計を実現するため,隣接するレイヤ間でキーとバリューヘッドを共有することで,マルチクエリアテンションをさらに一歩進めることができることを示す。 CLAでは、修正されていないMQAとほぼ同じ精度を維持しながら、KVキャッシュのサイズを2倍に削減できることがわかった。 1Bパラメータと3Bパラメータをスクラッチからトレーニングする実験では,従来のMQAで可能なメモリ/精度トレードオフに対して,CLAがParetoの改善を実現し,シーケンス長とバッチサイズを従来よりも長い推論が可能であることを実証した。

Key-value (KV) caching plays an essential role in accelerating decoding for transformer-based autoregressive large language models (LLMs). However, the amount of memory required to store the KV cache can become prohibitive at long sequence lengths and large batch sizes. Since the invention of the transformer, two of the most effective interventions discovered for reducing the size of the KV cache have been Multi-Query Attention (MQA) and its generalization, Grouped-Query Attention (GQA). MQA and GQA both modify the design of the attention block so that multiple query heads can share a single key/value head, reducing the number of distinct key/value heads by a large factor while only minimally degrading accuracy. In this paper, we show that it is possible to take Multi-Query Attention a step further by also sharing key and value heads between adjacent layers, yielding a new attention design we call Cross-Layer Attention (CLA). With CLA, we find that it is possible to reduce the size of the KV cache by another 2x while maintaining nearly the same accuracy as unmodified MQA. In experiments training 1B- and 3B-parameter models from scratch, we demonstrate that CLA provides a Pareto improvement over the memory/accuracy tradeoffs which are possible with traditional MQA, enabling inference with longer sequence lengths and larger batch sizes than would otherwise be possible
翻訳日:2024-05-22 12:30:44 公開日:2024-05-21
# 大規模言語モデルにおける埋め込みからの情報漏洩

Information Leakage from Embedding in Large Language Models ( http://arxiv.org/abs/2405.11916v2 )

ライセンス: Link先を確認
Zhipeng Wang, Anda Cheng, Yinggui Wang, Lei Wang, (参考訳) 大規模言語モデル(LLM)の普及により、データのプライバシに関する懸念が高まっている。 本研究の目的は,悪意のあるモデルプロバイダが埋め込みからユーザ入力を回復する可能性のある,入力再構成攻撃によるプライバシー侵害の可能性を検討することである。 まず,モデルの隠れ状態からオリジナルテキストを再構築する2つの基本手法を提案する。 これら2つの手法は, 浅い層からの埋め込み攻撃に有効であるが, より深い層からの埋め込み攻撃では効果が低下することがわかった。 この問題に対処するため,Transformer ベースの Embed Parrot を提案し,深層への埋め込みから入力を再構築する。 解析の結果,ChatGLM-6BとLlama2-7Bの隠れ状態からの入力を効果的に再構成し,トークン長やデータ分布の安定な性能を示すことがわかった。 プライバシー侵害のリスクを軽減するため,埋め込み再構築プロセスの悪用を防ぐ防衛機構を導入する。 本研究は,分散学習システムにおけるユーザプライバシ保護の重要性を強調し,そのような環境におけるセキュリティプロトコルの強化に有用な洞察を提供する。

The widespread adoption of large language models (LLMs) has raised concerns regarding data privacy. This study aims to investigate the potential for privacy invasion through input reconstruction attacks, in which a malicious model provider could potentially recover user inputs from embeddings. We first propose two base methods to reconstruct original texts from a model's hidden states. We find that these two methods are effective in attacking the embeddings from shallow layers, but their effectiveness decreases when attacking embeddings from deeper layers. To address this issue, we then present Embed Parrot, a Transformer-based method, to reconstruct input from embeddings in deep layers. Our analysis reveals that Embed Parrot effectively reconstructs original inputs from the hidden states of ChatGLM-6B and Llama2-7B, showcasing stable performance across various token lengths and data distributions. To mitigate the risk of privacy breaches, we introduce a defense mechanism to deter exploitation of the embedding reconstruction process. Our findings emphasize the importance of safeguarding user privacy in distributed learning systems and contribute valuable insights to enhance the security protocols within such environments.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# 多項目質問は効率的かつロバストなLCM評価器である

Multiple-Choice Questions are Efficient and Robust LLM Evaluators ( http://arxiv.org/abs/2405.11966v2 )

ライセンス: Link先を確認
Ziyin Zhang, Lizhen Xu, Zhaokun Jiang, Hongkun Hao, Rui Wang, (参考訳) GSM-MC と MATH-MC は,50以上のオープンソースモデルから GSM8K と MATH の回答と誤予測を収集して構築された2つの多重選択(MC)データセットである。 広範にわたる実験により,これら2つのベンチマークのMCバージョンにおけるLCMの性能は,元のバージョンにおける性能と強く相関し,選択やオプションの順序を逸脱させる可能性が高く,評価時間を最大30倍に短縮できることを示した。 同様の手順に従って,HumanEval と MBPP の2つの LLM 評価ベンチマークから構築した新しいプログラム出力予測MCデータセットである PythonIO も導入した。 私たちのデータとコードはhttps://github.com/Geralt-Targaryen/MC-Evaluation.comで公開されています。

We present GSM-MC and MATH-MC, two multiple-choice (MC) datasets constructed by collecting answers and incorrect predictions on GSM8K and MATH from over 50 open-source models. Through extensive experiments, we show that LLMs' performance on the MC versions of these two popular benchmarks is strongly correlated with their performance on the original versions, and is quite robust to distractor choices and option orders, while the evaluation time is reduced by a factor of up to 30. Following a similar procedure, we also introduce PythonIO, a new program output prediction MC dataset constructed from two other popular LLM evaluation benchmarks HumanEval and MBPP. Our data and code are available at https://github.com/Geralt-Targaryen/MC-Evaluation.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# 全国規模の電気通信インフラにおけるコヒーレント量子通信

Coherent Quantum Communications Across National Scale Telecommunication Infrastructure ( http://arxiv.org/abs/2405.11990v2 )

ライセンス: Link先を確認
Mirko Pittaluga, Yuen San Lo, Adam Brzosko, Robert I. Woodward, Matthew S. Winnel, Thomas Roger, James F. Dynes, Kim A. Owen, Sergio Juarez, Piotr Rydlichowski, Domenico Vicinanza, Guy Roberts, Andrew J. Shields, (参考訳) 量子通信は、重畳や絡み合いのような量子現象を利用して、リモートノード間の情報伝達を強化する。 位相ベースの量子インターネットアーキテクチャに不可欠なコヒーレント量子通信は、ノード間の光コヒーレンスを必要とし、通常は単一光子干渉を伴う。 光コヒーレンス保存や高度な単一光子検出器の統合といった課題は、既存の通信ネットワークへの展開を妨げている。 本研究は、フランクフルトとケールの間の商用通信インフラにおける最初の成功例となる、コヒーレント量子通信を支えるアーキテクチャと技術に対する革新的なアプローチを紹介する。 ツインフィールド量子鍵分配プロトコルを用いて, 110bit/sの暗号鍵分布を254km以上で達成した。 本システムは、測定デバイス非依存特性と非低温冷却検出器を備え、通信インフラにおける最初の効果的な量子リピータ実装であり、これまでで最長の実用的な量子鍵配置であり、位相ベースの量子インターネットアーキテクチャの実現可能性を検証する。

Quantum communications harness quantum phenomena like superposition and entanglement to enhance information transfer between remote nodes. Coherent quantum communications, essential for phase-based quantum internet architecture, require optical coherence among nodes and typically involve single-photon interference. Challenges like preserving optical coherence and integrating advanced single-photon detectors have impeded their deployment in existing telecommunication networks. This study introduces innovative approaches to the architecture and techniques supporting coherent quantum communications, marking their first successful integration within a commercial telecom infrastructure between Frankfurt and Kehl, Germany. Employing the Twin Field Quantum Key Distribution protocol, we achieved encryption key distribution at 110 bit/s over 254 km. This system features measurement-device-independent properties and non-cryogenically cooled detectors, and represents the first effective quantum repeater implementation on telecom infrastructure, the longest practical quantum key distribution deployment to date, and validates the feasibility of a phase-based quantum internet architecture.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# コンフォーマル予測による戦略証明オークション

Strategy-Proof Auctions through Conformal Prediction ( http://arxiv.org/abs/2405.12016v2 )

ライセンス: Link先を確認
Roy Maor Lotan, Inbal Talgam-Cohen, Yaniv Romano, (参考訳) 競売は売り手の収益を最大化し、買い手の間で真剣な入札を確保するための鍵である。 近年、深層学習に基づく微分経済学として知られるアプローチは、複数の項目や参加者に対して最適な競売メカニズムを学習する上で有望であることを示している。 しかし、このアプローチはテスト時に戦略の安全性を保証するものではありません。 戦略保護は、買い手が真のバリュエーションの入札にインセンティブを与えられることを保証し、操作のリスクを伴わずに最適かつ公正なオークションの結果をもたらすため、極めて重要である。 整合予測に基づいて,厳密な統計的保証で戦略の安全性を実現するための新しいアプローチを導入する。 我々の方法の主な特徴は次のとおりである。 一 戦略保護の試験時違反の定量化に使用する後悔予測モデルの定式化及び (II)新たなオークションにおいて、データ駆動機構が高い確率(例:99\%)で戦略保護要件を満たすことを保証するために、予測された後悔を利用するオークション受理規則。 数値実験により,厳密な保証の必要性,理論結果の有効性,提案手法の適用性が確認された。

Auctions are key for maximizing sellers' revenue and ensuring truthful bidding among buyers. Recently, an approach known as differentiable economics based on deep learning shows promise in learning optimal auction mechanisms for multiple items and participants. However, this approach has no guarantee of strategy-proofness at test time. Strategy-proofness is crucial as it ensures that buyers are incentivized to bid their true valuations, leading to optimal and fair auction outcomes without the risk of manipulation. Building on conformal prediction, we introduce a novel approach to achieve strategy-proofness with rigorous statistical guarantees. The key novelties of our method are: (i) the formulation of a regret prediction model, used to quantify at test time violations of strategy-proofness; and (ii) an auction acceptance rule that leverages the predicted regret to ensure that for a new auction, the data-driven mechanism meets the strategy-proofness requirement with high probability (e.g., 99\%). Numerical experiments demonstrate the necessity for rigorous guarantees, the validity of our theoretical results, and the applicability of our proposed method.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# Anchor Gaussian Guided Texture Warping を用いた高忠実度神経上半身アバター

Gaussian Head & Shoulders: High Fidelity Neural Upper Body Avatars with Anchor Gaussian Guided Texture Warping ( http://arxiv.org/abs/2405.12069v2 )

ライセンス: Link先を確認
Tianhao Wu, Jing Yang, Zhilin Guo, Jingyi Wan, Fangcheng Zhong, Cengiz Oztireli, (参考訳) 最新の3次元ガウススプティング表現を3次元モルファスモデル(3DMM)と組み合わせることで、既存の手法は高忠実度で頭部アバターを作成することができる。 しかしながら、既存のほとんどのメソッドは、ボディなしでヘッドを再構築するだけで、アプリケーションのシナリオを著しく制限します。 胸部・肩部モデルにガウシアンを意識的に応用すると, 新規なポーズ下では, ぼやけた再建やうるさびが生じる傾向がみられた。 これはガウス雲と点雲の基本的な制限のためであり、各ガウス雲または点は空間的分散なしに単一の方向の放射しか持たないため、単純な幾何学においても複雑な空間的変化のテクスチャを表現するために必要となる大量のものが必要である。 対照的に、粗い色とポーズ依存の微妙な色からなる神経テクスチャで身体部分をモデル化することを提案する。 画像平面座標をテクスチャ空間にマッピングするニューラルワープフィールドを制約するアンカーとして、各ビューのボディーテクスチャを適切にレンダリングし、正確な幾何学やUVマッピングを使わずに、別の粗いガウスの集合を最適化する。 ガウシアンヘッド&ショルダーは, 被服上半身の高周波細部を高い忠実度で適合させ, 頭部領域の精度と忠実度を向上できる可能性が示唆された。 提案手法をカジュアルな電話・インターネットビデオを用いて評価し, 自己・横断的再現作業において, 再現性や堅牢性に優れることを示す。 さらに,マルチ層パーセプトロン (MLP) クエリを使わずにトレーニングしたモデルの高速化推論手法を提案する。

By equipping the most recent 3D Gaussian Splatting representation with head 3D morphable models (3DMM), existing methods manage to create head avatars with high fidelity. However, most existing methods only reconstruct a head without the body, substantially limiting their application scenarios. We found that naively applying Gaussians to model the clothed chest and shoulders tends to result in blurry reconstruction and noisy floaters under novel poses. This is because of the fundamental limitation of Gaussians and point clouds -- each Gaussian or point can only have a single directional radiance without spatial variance, therefore an unnecessarily large number of them is required to represent complicated spatially varying texture, even for simple geometry. In contrast, we propose to model the body part with a neural texture that consists of coarse and pose-dependent fine colors. To properly render the body texture for each view and pose without accurate geometry nor UV mapping, we optimize another sparse set of Gaussians as anchors that constrain the neural warping field that maps image plane coordinates to the texture space. We demonstrate that Gaussian Head & Shoulders can fit the high-frequency details on the clothed upper body with high fidelity and potentially improve the accuracy and fidelity of the head region. We evaluate our method with casual phone-captured and internet videos and show our method archives superior reconstruction quality and robustness in both self and cross reenactment tasks. To fully utilize the efficient rendering speed of Gaussian splatting, we additionally propose an accelerated inference method of our trained model without Multi-Layer Perceptron (MLP) queries and reach a stable rendering speed of around 130 FPS for any subjects.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# 分子キャビティ光学における集団量子絡み合い

Collective Quantum Entanglement in Molecular Cavity Optomechanics ( http://arxiv.org/abs/2405.12102v2 )

ライセンス: Link先を確認
Jian Huang, Girish S. Agarwal, Zhedong Zhang, (参考訳) 振動分極における量子絡み合いに到達するための光学的スキームを提案する。 このシステムは$N$分子で、その振動はプラズモンの空洞とかなり絡み合っている。 この振動-光子絡み合いは室温で存在し、熱雑音に対して頑丈であることがわかった。 さらに、プラズモニックキャビティを通した振動モード間の量子絡み合いを実証し、非局在性を示し、分子数で信じられないほど高めていることを示す。 絡み合いの基盤となるメカニズムは、集電性を持つ強い振動空洞結合に起因する。 この結果は、ノイズのない量子資源とマクロ量子現象の研究のための有望なプラットフォームを提供する分子オプティメカルスキームを提供する。

We propose an optomechanical scheme for reaching quantum entanglement in vibration polaritons. The system involves $N$ molecules, whose vibrations can be fairly entangled with plasmonic cavities. We find that the vibration-photon entanglement can exist at room temperature and is robust against thermal noise. We further demonstrate the quantum entanglement between the vibrational modes through the plasmonic cavities, which shows a delocalized nature and an incredible enhancement with the number of molecules. The underlying mechanism for the entanglement is attributed to the strong vibration-cavity coupling which possesses collectivity. Our results provide a molecular optomechanical scheme which offers a promising platform for the study of noise-free quantum resources and macroscopic quantum phenomena.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# Sheet Music Transformer ++: ピアノ楽譜のエンド・ツー・エンドフルページ光音楽認識

Sheet Music Transformer ++: End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music ( http://arxiv.org/abs/2405.12105v2 )

ライセンス: Link先を確認
Antonio Ríos-Vila, Jorge Calvo-Zaragoza, David Rizo, Thierry Paquet, (参考訳) 光音楽認識は、効果的に楽譜をデジタル形式に転写する正確なシステムを実現するために、大きく進歩した分野である。 それにもかかわらず、OMRが完全な可能性を達成するのを妨げるいくつかの制限がある。 特に、最先端のOMRは、まだ全ページの転写を行うための多段階パイプラインに依存している。 本研究では,従来のレイアウト解析ステップを必要とせずに,全ページのポリフォニック楽譜の書き起こしが可能なエンドツーエンドモデルであるSheet Music Transformer++を提案する。 これは、合成データ生成による広範なカリキュラムベースの事前学習によって実現される。 公開ポリフォニック転写データセットのフルページ拡張についていくつかの実験を行った。 実験結果は、このモデルが全ページのピアノフォルムスコアの書き起こしに優れており、エンドツーエンドのOMR転写において注目すべきマイルストーンであることを示している。

Optical Music Recognition is a field that has progressed significantly, bringing accurate systems that transcribe effectively music scores into digital formats. Despite this, there are still several limitations that hinder OMR from achieving its full potential. Specifically, state of the art OMR still depends on multi-stage pipelines for performing full-page transcription, as well as it has only been demonstrated in monophonic cases, leaving behind very relevant engravings. In this work, we present the Sheet Music Transformer++, an end-to-end model that is able to transcribe full-page polyphonic music scores without the need of a previous Layout Analysis step. This is done thanks to an extensive curriculum learning-based pretraining with synthetic data generation. We conduct several experiments on a full-page extension of a public polyphonic transcription dataset. The experimental outcomes confirm that the model is competent at transcribing full-page pianoform scores, marking a noteworthy milestone in end-to-end OMR transcription.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# 近似アンロール差分による学習データ帰属

Training Data Attribution via Approximate Unrolled Differentiation ( http://arxiv.org/abs/2405.12186v2 )

ライセンス: Link先を確認
Juhan Bae, Wu Lin, Jonathan Lorraine, Roger Grosse, (参考訳) 多くのトレーニングデータ属性(TDA)メソッドは、トレーニングセットから1つ以上のデータポイントが削除された場合、モデルの振る舞いがどのように変化するかを推定することを目的としている。 影響関数のような暗黙の微分に基づく手法は、計算的に効率的にできるが、不特定性、最適化アルゴリズムの暗黙のバイアス、多段階の訓練パイプラインを考慮できない。 対照的に、アンロールに基づくメソッドはこれらの問題に対処するが、スケーラビリティの課題に直面している。 本研究では、暗黙差分法とアンローリング法を結合し、インフルエンス関数式を用いて計算した近似アンローリング法であるSourceを導入する。 アンローリングベースのアプローチに比べて計算効率は良いが、ソースは非収束モデルやマルチステージトレーニングパイプラインなど、暗黙差分に基づくアプローチが苦戦している場合に適している。 実証的に、ソースは既存のTDA技術よりも、特に暗黙差分法に基づくアプローチが不十分な環境では、対実予測で優れている。

Many training data attribution (TDA) methods aim to estimate how a model's behavior would change if one or more data points were removed from the training set. Methods based on implicit differentiation, such as influence functions, can be made computationally efficient, but fail to account for underspecification, the implicit bias of the optimization algorithm, or multi-stage training pipelines. By contrast, methods based on unrolling address these issues but face scalability challenges. In this work, we connect the implicit-differentiation-based and unrolling-based approaches and combine their benefits by introducing Source, an approximate unrolling-based TDA method that is computed using an influence-function-like formula. While being computationally efficient compared to unrolling-based approaches, Source is suitable in cases where implicit-differentiation-based approaches struggle, such as in non-converged models and multi-stage training pipelines. Empirically, Source outperforms existing TDA techniques in counterfactual prediction, especially in settings where implicit-differentiation-based approaches fall short.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# 近接動作中の未知空間物体の空間推定のためのニューラルラジアンス場の利用

Leveraging Neural Radiance Fields for Pose Estimation of an Unknown Space Object during Proximity Operations ( http://arxiv.org/abs/2405.12728v1 )

ライセンス: Link先を確認
Antoine Legrand, Renaud Detry, Christophe De Vleeschouwer, (参考訳) 本研究では,モノクロカメラに対する未知のターゲット宇宙船の6次元ポーズの推定,自律型ランデブーへの重要なステップ,および将来のアクティブデブリ除去ミッションに必要な近接操作について述べる。 本稿では,ターゲットCADモデルが未知のターゲットに適用可能な「オフ・ザ・シェルフ」宇宙船ポーズ推定器を提案する。 本手法は,自然界で見られる様々な照明条件を表現するために,学習可能な外観埋め込みを用いたニューラル・レージアンス・フィールド(NeRF)を利用する。 対象画像のスパースコレクションを用いてNeRFモデルをトレーニングし,視点と照明の両面で多様な大きなデータセットを生成する。 このデータセットを使用して、ポーズ推定ネットワークをトレーニングする。 我々は,SPEED+のハードウェア・イン・ザ・ループ画像において,軌道上で遭遇した光に近い照明条件をエミュレートする手法を検証する。 本手法は,スパース画像の集合から,市販の宇宙船のポーズ推定ネットワークの訓練に有効であることが実証された。 さらに,本手法を用いてトレーニングしたネットワークは,ターゲットのCADモデルを用いて生成した合成画像に基づいてトレーニングしたモデルと類似して動作することを示す。

We address the estimation of the 6D pose of an unknown target spacecraft relative to a monocular camera, a key step towards the autonomous rendezvous and proximity operations required by future Active Debris Removal missions. We present a novel method that enables an "off-the-shelf" spacecraft pose estimator, which is supposed to known the target CAD model, to be applied on an unknown target. Our method relies on an in-the wild NeRF, i.e., a Neural Radiance Field that employs learnable appearance embeddings to represent varying illumination conditions found in natural scenes. We train the NeRF model using a sparse collection of images that depict the target, and in turn generate a large dataset that is diverse both in terms of viewpoint and illumination. This dataset is then used to train the pose estimation network. We validate our method on the Hardware-In-the-Loop images of SPEED+ that emulate lighting conditions close to those encountered on orbit. We demonstrate that our method successfully enables the training of an off-the-shelf spacecraft pose estimation network from a sparse set of images. Furthermore, we show that a network trained using our method performs similarly to a model trained on synthetic images generated using the CAD model of the target.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# 変形可能な画像登録を改善するための適応的局所境界条件

Adaptive local boundary conditions to improve Deformable Image Registration ( http://arxiv.org/abs/2405.12791v1 )

ライセンス: Link先を確認
Eloïse Inacio, Luc Lafitte, Laurent Facq, Clair Poignard, Baudouin Denis de Senneville, (参考訳) 目的: 医用画像では, 画像誘導療法中の運動を正確に評価し, 補正することが重要であることが多い。 変形可能な画像登録(DIR)は、移動画像と固定画像とを一致させるために必要な空間変換を推定する。 しかし, 解に対する境界条件は, 誤登録の防止に重要であることが認識されている。 登録技術に関する広範な研究にもかかわらず、医学的DIRの文脈における境界条件の問題に対処する研究は比較的少ない。 我々の目指すのは、多様な登録タスクに適合する境界条件のカスタマイズです。 アプローチ: 画像境界上の入出流場に応じて, ディリクレとノイマンの境界条件のバランスをとることができる汎用的, 局所適応型ロビン型条件を提案する。 提案するフレームワークは,エネルギー最小化により最適化されたハイパーパラメータの縮小セットを決定することによって,完全に自動化される。 主な結果: モノモーダルCTと腹部CTとMRIの併用により, 提案手法を検証した。 最初の課題では, 目標登録誤差の12%(平均4%)に対して, 均質ディリクレや均質ノイマンと比較して相対的に改善した。 2つ目のタスクでは、自動フレームワークが最高の達成可能な結果を提供する。 意義:本研究は,画像境界における登録問題の調整の重要性を浮き彫りにする。 本研究では, ボクセル・バイ・ボクセルベースで境界条件を適応させる新しい手法を提案し, モノモーダルCTと腹部CTの2つの異なるタスクにおいて, 最適化された結果を得た。 提案フレームワークは,画像や動きに関する前提条件を使わずに,画像登録における境界条件の最適化を可能にする。

Objective: In medical imaging, it is often crucial to accurately assess and correct movement during image-guided therapy. Deformable image registration (DIR) consists in estimating the required spatial transformation to align a moving image with a fixed one. However, it is acknowledged that, boundary conditions applied to the solution are critical in preventing mis-registration. Despite the extensive research on registration techniques, relatively few have addressed the issue of boundary conditions in the context of medical DIR. Our aim is a step towards customizing boundary conditions to suit the diverse registration tasks at hand. Approach: We propose a generic, locally adaptive, Robin-type condition enabling to balance between Dirichlet and Neumann boundary conditions, depending on incoming/outgoing flow fields on the image boundaries. The proposed framework is entirely automatized through the determination of a reduced set of hyperparameters optimized via energy minimization. Main results: The proposed approach was tested on a mono-modal CT thorax registration task and an abdominal CT to MRI registration task. For the first task, we observed a relative improvement in terms of target registration error of up to 12% (mean 4%), compared to homogeneous Dirichlet and homogeneous Neumann. For the second task, the automatic framework provides results closed to the best achievable. Significance: This study underscores the importance of tailoring the registration problem at the image boundaries. In this research, we introduce a novel method to adapt the boundary conditions on a voxel-by-voxel basis, yielding optimized results in two distinct tasks: mono-modal CT thorax registration and abdominal CT to MRI registration. The proposed framework enables optimized boundary conditions in image registration without any a priori assumptions regarding the images or the motion.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# Talk2Radar: 3次元参照表現理解のための4D mmWave Radarによる自然言語のブリッジ

Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension ( http://arxiv.org/abs/2405.12821v1 )

ライセンス: Link先を確認
Runwei Guan, Ruixiao Zhang, Ningwei Ouyang, Jianan Liu, Ka Lok Man, Xiaohao Cai, Ming Xu, Jeremy Smith, Eng Gee Lim, Yutao Yue, Hui Xiong, (参考訳) 身体的知覚はインテリジェントな車やロボットにとって不可欠であり、より自然なインタラクションとタスク実行を可能にします。 しかし、これらの進歩は、現在視覚レベルを取り入れており、3Dモデリングセンサーの使用にはほとんど焦点を当てていないため、周囲の物体を多粒質の特徴で完全に理解することが制限されている。 近年,4Dミリ波レーダは安価な自動車用センサとして,従来のレーダよりも高密度な点雲を提供し,物体のセマンティック特性と物理的特性の両方を知覚し,認識システムの信頼性を高めている。 3Dグラウンドティングのためのレーダシーンにおける自然言語による文脈理解の発達を促進するために,これらの2つのモードをブリッジする最初のデータセットであるTalk2Radarを構築した。 Talk2Radarは8,682個のプロンプトサンプルと20,558個の参照オブジェクトを含んでいる。 さらに,T-RadarNet for 3D REC on point clouds, achieved the-of-the-art performance on Talk2Radar dataset compared which, which, Deformable-FPN and Gated Graph Fusion are importantly designed for efficient point cloud feature modeling and cross-modalfusion between radar and text features。 さらに、レーダーベースの3D RECについて深い洞察を与えるため、包括的な実験が行われた。 私たちはhttps://github.com/GuanRunwei/Talk2Radar.comでプロジェクトをリリースします。

Embodied perception is essential for intelligent vehicles and robots, enabling more natural interaction and task execution. However, these advancements currently embrace vision level, rarely focusing on using 3D modeling sensors, which limits the full understanding of surrounding objects with multi-granular characteristics. Recently, as a promising automotive sensor with affordable cost, 4D Millimeter-Wave radar provides denser point clouds than conventional radar and perceives both semantic and physical characteristics of objects, thus enhancing the reliability of perception system. To foster the development of natural language-driven context understanding in radar scenes for 3D grounding, we construct the first dataset, Talk2Radar, which bridges these two modalities for 3D Referring Expression Comprehension. Talk2Radar contains 8,682 referring prompt samples with 20,558 referred objects. Moreover, we propose a novel model, T-RadarNet for 3D REC upon point clouds, achieving state-of-the-art performances on Talk2Radar dataset compared with counterparts, where Deformable-FPN and Gated Graph Fusion are meticulously designed for efficient point cloud feature modeling and cross-modal fusion between radar and text features, respectively. Further, comprehensive experiments are conducted to give a deep insight into radar-based 3D REC. We release our project at https://github.com/GuanRunwei/Talk2Radar.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# SmartFlow: LLMを用いたロボットプロセス自動化

SmartFlow: Robotic Process Automation using LLMs ( http://arxiv.org/abs/2405.12842v1 )

ライセンス: Link先を確認
Arushi Jain, Shubham Paliwal, Monika Sharma, Lovekesh Vig, Gautam Shroff, (参考訳) ロボットプロセス自動化(RPA)システムは、高度な人間的な意思決定能力を必要とする複雑なプロセスと多様なスクリーンレイアウトを扱う上で、課題に直面している。 これらのシステムは通常、画面要素の視覚的理解ではなく、Seleniumのようなドラッグアンドドロップや自動化フレームワークを通じてピクセルレベルのエンコーディングを頼りにしている。 本稿では,事前学習された大規模言語モデル(LLM)とディープラーニングに基づく画像理解を組み合わせたAIベースのRPAシステムであるSmartFlowを提案する。 ユーザインタフェースの変更や入力データのバリエーションなど,人間の介入を必要とせずに,新たなシナリオに適応することができる。 SmartFlowはコンピュータビジョンと自然言語処理を使用して、グラフィカルユーザインタフェース(GUI)上の可視要素を認識し、それらをテキスト表現に変換する。 この情報はLLMによって利用され、スクリプティングエンジンによって実行される一連のアクションを生成して、割り当てられたタスクを完了させる。 SmartFlowの有効性を評価するために、さまざまなレイアウトを持つ汎用エンタープライズアプリケーションのセットを含むデータセットを開発しました。 このデータセットに対する評価は、SmartFlowがさまざまなレイアウトやアプリケーションにまたがって堅牢性を示すことを示している。 SmartFlowはフォームフィリング、カスタマーサービス、請求処理、バックオフィス操作など、幅広いビジネスプロセスを自動化することができる。 これにより、SmartFlowは、スクリーンベースのワークフローの大部分を自動化することによって、生産性の向上を支援することができる。 デモビデオとデータセットはhttps://smartflow-4c5a0a.webflow.io/で公開されている。

Robotic Process Automation (RPA) systems face challenges in handling complex processes and diverse screen layouts that require advanced human-like decision-making capabilities. These systems typically rely on pixel-level encoding through drag-and-drop or automation frameworks such as Selenium to create navigation workflows, rather than visual understanding of screen elements. In this context, we present SmartFlow, an AI-based RPA system that uses pre-trained large language models (LLMs) coupled with deep-learning based image understanding. Our system can adapt to new scenarios, including changes in the user interface and variations in input data, without the need for human intervention. SmartFlow uses computer vision and natural language processing to perceive visible elements on the graphical user interface (GUI) and convert them into a textual representation. This information is then utilized by LLMs to generate a sequence of actions that are executed by a scripting engine to complete an assigned task. To assess the effectiveness of SmartFlow, we have developed a dataset that includes a set of generic enterprise applications with diverse layouts, which we are releasing for research use. Our evaluations on this dataset demonstrate that SmartFlow exhibits robustness across different layouts and applications. SmartFlow can automate a wide range of business processes such as form filling, customer service, invoice processing, and back-office operations. SmartFlow can thus assist organizations in enhancing productivity by automating an even larger fraction of screen-based workflows. The demo-video and dataset are available at https://smartflow-4c5a0a.webflow.io/.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# 医用画像における半教師付き異常検出のための空間認識アテンション生成適応ネットワーク

Spatial-aware Attention Generative Adversarial Network for Semi-supervised Anomaly Detection in Medical Image ( http://arxiv.org/abs/2405.12872v1 )

ライセンス: Link先を確認
Zerui Zhang, Zhichao Sun, Zelong Liu, Bo Du, Rui Yu, Zhou Zhao, Yongchao Xu, (参考訳) 医学的異常検出は、診断を助けるために異常画像を認識することを目的とした重要な研究分野であり、既存の方法の多くは、正常なサンプルに合成異常と画像復元を採用して異常を検知している。 正常データと異常データの両方からなるラベルなしデータは、十分に調査されていない。 我々は,一級半教師付き健康画像生成のための空間意識生成ネットワーク(SAGAN)を新たに導入し,位置エンコーディングと注意力を活用し,異常領域の復元や正常領域の保存に的を絞った。 そこで,SAGANは,既存の画像から画像への変換手法の周期的整合性要件を緩和し,正常な画像の再構成と擬似異常画像の復元によって導かれる高品質な健康画像を生成し,その結果,生成した健康画像とオリジナル画像との相違を異常スコアとして活用する。

Medical anomaly detection is a critical research area aimed at recognizing abnormal images to aid in diagnosis.Most existing methods adopt synthetic anomalies and image restoration on normal samples to detect anomaly. The unlabeled data consisting of both normal and abnormal data is not well explored. We introduce a novel Spatial-aware Attention Generative Adversarial Network (SAGAN) for one-class semi-supervised generation of health images.Our core insight is the utilization of position encoding and attention to accurately focus on restoring abnormal regions and preserving normal regions. To fully utilize the unlabelled data, SAGAN relaxes the cyclic consistency requirement of the existing unpaired image-to-image conversion methods, and generates high-quality health images corresponding to unlabeled data, guided by the reconstruction of normal images and restoration of pseudo-anomaly images.Subsequently, the discrepancy between the generated healthy image and the original image is utilized as an anomaly score.Extensive experiments on three medical datasets demonstrate that the proposed SAGAN outperforms the state-of-the-art methods.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# Implicit-ARAP:局所パッチメッシュによる高分解能メッシュとニューラルフィールドの効率的なハンドルガイド変形

Implicit-ARAP: Efficient Handle-Guided Deformation of High-Resolution Meshes and Neural Fields via Local Patch Meshing ( http://arxiv.org/abs/2405.12895v1 )

ライセンス: Link先を確認
Daniele Baieri, Filippo Maggioli, Zorah Lähner, Simone Melzi, Emanuele Rodolà, (参考訳) 本稿では,ニューラルサインされた距離場に対する局所的なパッチメッシュ表現について述べる。 この技術は、SDF情報とその勾配のみを用いて、フラットパッチメッシュをレベルセット表面に投影し変形させることにより、入力SDFのレベルセットの局所領域を識別することができる。 解析の結果,この手法は暗黙の表面を近似する標準的なマーチング立方体アルゴリズムよりも精度が高いことがわかった。 次に、この表現をハンドル誘導変形の設定に適用する: 2つの異なるパイプラインを導入し、与えられた制約の下で高分解能メッシュとニューラルフィールドのAs-Rigid-As-Possible変形を計算する。 提案手法を網羅的に評価し,ニューラルネットワークとメッシュの変形に対する各種ベースラインの評価を行い,両パイプラインが優れた効率と,結果の品質とロバスト性において顕著な改善を達成できることを示した。 我々の新しいパイプラインでは、高分解能メッシュ上で確立された幾何処理問題を解決するためのスケーラブルなアプローチを導入し、局所的なパッチメッシュによって他の幾何タスクを暗黙の曲面の領域に拡張する方法を開拓する。

In this work, we present the local patch mesh representation for neural signed distance fields. This technique allows to discretize local regions of the level sets of an input SDF by projecting and deforming flat patch meshes onto the level set surface, using exclusively the SDF information and its gradient. Our analysis reveals this method to be more accurate than the standard marching cubes algorithm for approximating the implicit surface. Then, we apply this representation in the setting of handle-guided deformation: we introduce two distinct pipelines, which make use of 3D neural fields to compute As-Rigid-As-Possible deformations of both high-resolution meshes and neural fields under a given set of constraints. We run a comprehensive evaluation of our method and various baselines for neural field and mesh deformation which show both pipelines achieve impressive efficiency and notable improvements in terms of quality of results and robustness. With our novel pipeline, we introduce a scalable approach to solve a well-established geometry processing problem on high-resolution meshes, and pave the way for extending other geometric tasks to the domain of implicit surfaces via local patch meshing.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21
# パノモーダルインフォメーションインタラクション

Panmodal Information Interaction ( http://arxiv.org/abs/2405.12923v1 )

ライセンス: Link先を確認
Chirag Shah, Ryen W. White, (参考訳) 生成人工知能(GenAI)の出現は情報相互作用の変容である。 何十年にもわたって、GoogleやBingのような検索エンジンが、一般大衆の関連情報を見つける主要な手段だった。 彼らは検索結果を同じ標準フォーマット(いわゆる「10ブルーリンク」)で提供した。 自然言語でAIベースのエージェントとチャットし、GenAIにリアルタイムで回答を自動的に合成させる能力は、人々が大規模に情報と対話し、消費する方法を変えつつある。 これら2つの情報インタラクションのモダリティ(従来の検索とAIを利用したチャット)は、現在の検索エンジンに共存しており、疎結合(例えば、別のオプション/タブとして)か密結合(例えば、従来の検索結果ページに直接埋め込まれたチャット応答として統合)である。 これら2つの異なるモダリティの存在が,検索体験を再想像し,多くのモダリティの強みを活かし,それらの間のシームレスなフローを支援するシステムや戦略を開発する機会を生み出している,と我々は信じている。 これをパンモーダル体験と呼ぶ。 1つのモダリティしか持たないモノモーダル体験とは異なり、パンモーダル体験は複数のモダリティをユーザ(マルチモーダル)に提供し、モダリティ間の遷移を直接サポートし(クロスモーダル)、モダリティをシームレスに組み合わせてタスクアシストを調整(リモーダル)する。 我々の焦点は検索とチャットであり、最近これらの2つのモダリティに関する共通タスクを行った100人以上の個人による調査から得られた知見から学ぶとともに、複数のモダリティとGenAIの創発的能力を用いた情報インタラクションの未来に対するより一般的なビジョンも提示する。

The emergence of generative artificial intelligence (GenAI) is transforming information interaction. For decades, search engines such as Google and Bing have been the primary means of locating relevant information for the general population. They have provided search results in the same standard format (the so-called "10 blue links"). The recent ability to chat via natural language with AI-based agents and have GenAI automatically synthesize answers in real-time (grounded in top-ranked results) is changing how people interact with and consume information at massive scale. These two information interaction modalities (traditional search and AI-powered chat) coexist in current search engines, either loosely coupled (e.g., as separate options/tabs) or tightly coupled (e.g., integrated as a chat answer embedded directly within a traditional search result page). We believe that the existence of these two different modalities, and potentially many others, is creating an opportunity to re-imagine the search experience, capitalize on the strengths of many modalities, and develop systems and strategies to support seamless flow between them. We refer to these as panmodal experiences. Unlike monomodal experiences, where only one modality is available and/or used for the task at hand, panmodal experiences make multiple modalities available to users (multimodal), directly support transitions between modalities (crossmodal), and seamlessly combine modalities to tailor task assistance (transmodal). While our focus is search and chat, with learnings from insights from a survey of over 100 individuals who have recently performed common tasks on these two modalities, we also present a more general vision for the future of information interaction using multiple modalities and the emergent capabilities of GenAI.
翻訳日:2024-05-22 12:20:58 公開日:2024-05-21