このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240724となっている論文です。

PDF登録状況(公開日: 20240724)

TitleAuthorsAbstract論文公表日・翻訳日
# 生産におけるドメイン固有のガードレールモデルの構築

Building a Domain-specific Guardrail Model in Production ( http://arxiv.org/abs/2408.01452v1 )

ライセンス: Link先を確認
Mohammad Niknazar, Paul V Haley, Latha Ramanan, Sang T. Truong, Yedendra Shrinivasan, Ayan Kumar Bhowmick, Prasenjit Dey, Ashish Jagmohan, Hema Maheshwari, Shom Ponoth, Robert Smith, Aditya Vempaty, Nick Haber, Sanmi Koyejo, Sharad Sundararajan, (参考訳) ジェネレーティブAIは、さまざまなコンシューマーおよびエンタープライズ分野のワークフローに革命をもたらすさまざまな機能を実現するという約束を掲げている。 しかしながら、モデルを本番環境に配置するには、単に出力を生成するだけではない。 モデルが信頼され、安全で、パフォーマンスが保証され、特定のドメインにおけるオペレーションのポリシーに準拠します。 モデルに必要なガードレールは、特に本番環境では、モデルの適切な振る舞いを強制する必要があるために進化しています。 本稿では,ドメイン内のコンテンツの適切性に関する厳密な要件を前提として,教育をユースケースとして,ガードレールモデルをどのようにトレーニングし,本番環境に展開するかを実証する。 具体的には、K-12教育プラットフォーム向けのプロダクショングレードガードレールモデルの構築経験について述べる。 まずは、このセンシティブなドメインへのデプロイメントの要件を定式化することから始めます。 次に、我々のドメイン固有のガードレールモデルのトレーニングとベンチマークについて説明する。これは、プロプライエタリな教育関連ベンチマークや、安全の一般的な側面に関連する公開ベンチマークにおいて、類似および大規模のオープンおよびクローズドな命令調整モデルよりも優れている。 最後に、アーキテクチャに関する選択と、本番環境にデプロイするための最適化について詳述します。これらは、ハードウェアインフラストラクチャからサービス層、言語モデル推論の最適化に至るまで、スタックを越えています。 この論文は、生成型AIと大規模言語モデルに基づいて、プロダクショングレードのドメイン固有サービスを作成しようとしている他の実践者に対して、インストラクティブになることを願っている。

Generative AI holds the promise of enabling a range of sought-after capabilities and revolutionizing workflows in various consumer and enterprise verticals. However, putting a model in production involves much more than just generating an output. It involves ensuring the model is reliable, safe, performant and also adheres to the policy of operation in a particular domain. Guardrails as a necessity for models has evolved around the need to enforce appropriate behavior of models, especially when they are in production. In this paper, we use education as a use case, given its stringent requirements of the appropriateness of content in the domain, to demonstrate how a guardrail model can be trained and deployed in production. Specifically, we describe our experience in building a production-grade guardrail model for a K-12 educational platform. We begin by formulating the requirements for deployment to this sensitive domain. We then describe the training and benchmarking of our domain-specific guardrail model, which outperforms competing open- and closed- instruction-tuned models of similar and larger size, on proprietary education-related benchmarks and public benchmarks related to general aspects of safety. Finally, we detail the choices we made on architecture and the optimizations for deploying this service in production; these range across the stack from the hardware infrastructure to the serving layer to language model inference optimizations. We hope this paper will be instructive to other practitioners looking to create production-grade domain-specific services based on generative AI and large language models.
翻訳日:2024-08-19 04:59:02 公開日:2024-07-24
# 言語モデルにおける環境影響の報告と分析 : 外部知識を用いたコモンセンス質問の事例から

Reporting and Analysing the Environmental Impact of Language Models on the Example of Commonsense Question Answering with External Knowledge ( http://arxiv.org/abs/2408.01453v1 )

ライセンス: Link先を確認
Aida Usmanova, Junbo Huang, Debayan Banerjee, Ricardo Usbeck, (参考訳) 人為的な排出は警戒速度で増加しており、気候や環境全般に既に観測可能な変化をもたらしている。 毎年、温室効果ガス排出量の0.5%が2021年時点でデータセンターによるものと報告されている。 2022年後半のChatGPTのリリースは、大量のパラメータを持つ新しい世代の言語モデルであるLarge Language Models (LLMs)への社会的関心を喚起した。 現在、多くの企業が様々なLSMをフィーチャーした製品をリリースしており、さらに多くのモデルが開発され、リリースを待っている。 ディープラーニングの研究は競争力のある分野であり、最高パフォーマンスに達するモデルだけが注目を集め、利用されています。 したがって、より良い精度と結果を達成することが最優先事項であり、モデルの有効性と研究の環境への影響は無視される。 しかし、LLMは相当な計算資源を必要としており、財政的にも環境的にも訓練に非常に費用がかかる。 意識を高め、アルゴリズムとハードウェアの選択に関する意識的な決定を促進することが不可欠である。 トレーニング時間に関する情報を提供することで、近似二酸化炭素排出量と電力消費は、必要な調整を行い、利用可能な計算資源とモデル要件との整合性を決定する将来の研究に役立つだろう。 本研究では,外部知識でT5 LLMを注入し,質問応答タスクのモデルを微調整した。 さらに,両段階の環境影響を算出し,報告した。 この結果は、小さなモデルが常に持続可能な選択肢であるとは限らないことを示し、トレーニングの増加が必ずしもパフォーマンスを向上するとは限らないことを示唆している。 最も最適な結果は、性能と効率の両要素を慎重に検討することで達成される。

Human-produced emissions are growing at an alarming rate, causing already observable changes in the climate and environment in general. Each year global carbon dioxide emissions hit a new record, and it is reported that 0.5% of total US greenhouse gas emissions are attributed to data centres as of 2021. The release of ChatGPT in late 2022 sparked social interest in Large Language Models (LLMs), the new generation of Language Models with a large number of parameters and trained on massive amounts of data. Currently, numerous companies are releasing products featuring various LLMs, with many more models in development and awaiting release. Deep Learning research is a competitive field, with only models that reach top performance attracting attention and being utilized. Hence, achieving better accuracy and results is often the first priority, while the model's efficiency and the environmental impact of the study are neglected. However, LLMs demand substantial computational resources and are very costly to train, both financially and environmentally. It becomes essential to raise awareness and promote conscious decisions about algorithmic and hardware choices. Providing information on training time, the approximate carbon dioxide emissions and power consumption would assist future studies in making necessary adjustments and determining the compatibility of available computational resources with model requirements. In this study, we infused T5 LLM with external knowledge and fine-tuned the model for Question-Answering task. Furthermore, we calculated and reported the approximate environmental impact for both steps. The findings demonstrate that the smaller models may not always be sustainable options, and increased training does not always imply better performance. The most optimal outcome is achieved by carefully considering both performance and efficiency factors.
翻訳日:2024-08-19 04:59:02 公開日:2024-07-24
# ヨルダンのアムマン市、地上から持続可能な都市へ

Amman City, Jordan: Toward a Sustainable City from the Ground Up ( http://arxiv.org/abs/2408.01454v1 )

ライセンス: Link先を確認
Ra'Fat Al-Msie'deen, (参考訳) 近年,スマートシティ(SC)の考え方が注目されている。 SCパラダイムは、市民の生活の質を改善し、市の環境を保護することを目的としている。 次世代SCの時代に入るにつれ、SCパラダイムのすべての側面を探求することが重要である。 近年,ICT(Information and Communication Technologies)の進歩は,人間の生活をより快適にし,より快適にすることを目指して,日常的な物体を賢く支援する傾向を生んでいる。 SCのパラダイムは、先進的な特徴を持つ未来の都市を構築することへの反応として現れます。 SCはいまだ実装において多くの課題に直面しているが、SCに関する研究がますます増えている。 今日では、様々な都市がサービスや生活の質を高めるためにSC機能を利用している。 この研究は、読者にAmman Smart Cityに関する有用な重要な情報を提供する。

The idea of smart cities (SCs) has gained substantial attention in recent years. The SC paradigm aims to improve citizens' quality of life and protect the city's environment. As we enter the age of next-generation SCs, it is important to explore all relevant aspects of the SC paradigm. In recent years, the advancement of Information and Communication Technologies (ICT) has produced a trend of supporting daily objects with smartness, targeting to make human life easier and more comfortable. The paradigm of SCs appears as a response to the purpose of building the city of the future with advanced features. SCs still face many challenges in their implementation, but increasingly more studies regarding SCs are implemented. Nowadays, different cities are employing SC features to enhance services or the residents quality of life. This work provides readers with useful and important information about Amman Smart City.
翻訳日:2024-08-19 04:59:02 公開日:2024-07-24
# PreciseControl:細粒度属性制御によるテキスト対画像拡散モデルの実現

PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control ( http://arxiv.org/abs/2408.05083v1 )

ライセンス: Link先を確認
Rishubh Parihar, Sachidanand VS, Sabariswaran Mani, Tejan Karmali, R. Venkatesh Babu, (参考訳) 近年,テキスト・ツー・イメージ拡散モデル(T2I)のパーソナライズ手法が急増しており,いくつかの画像を用いて概念を学習している。 顔のパーソナライズに使用される既存のアプローチは、アイデンティティ保存による説得力のある逆転を実現し、生成された顔のセマンティックテキストベースの編集に依存している。 しかし、顔属性の編集にはよりきめ細かい制御が望まれており、テキストのプロンプトだけでは達成が難しい。 対照的に、StyleGANモデルは、よりリッチな顔を学び、潜時操作による微粒化属性編集に対する円滑な制御を可能にする。 この研究は、T2Iモデルを条件付けるためにStyleGANsの非交叉$\mathcal{W+}$空間を使用する。 このアプローチにより、T2Iモデルに固有の粗いテキストベースの制御を保ちながら、スマイルを円滑に導入するなどの顔属性を正確に操作できる。 T2Iモデルの$\mathcal{W+}$空間での条件付けを可能にするため、潜時コードを$\mathcal{W+}$からT2Iモデルのトークン埋め込み空間に変換するために潜時マッパーを訓練する。 提案手法は,属性保存による顔画像の正確な逆変換を最適化し,微粒化属性編集のための連続的な制御を容易にする。 さらに,本手法は,複数の個人を含む構成を生成するために容易に拡張することができる。 顔のパーソナライゼーションと微粒化属性編集の手法を検証するために,広範囲な実験を行った。

Recently, we have seen a surge of personalization methods for text-to-image (T2I) diffusion models to learn a concept using a few images. Existing approaches, when used for face personalization, suffer to achieve convincing inversion with identity preservation and rely on semantic text-based editing of the generated face. However, a more fine-grained control is desired for facial attribute editing, which is challenging to achieve solely with text prompts. In contrast, StyleGAN models learn a rich face prior and enable smooth control towards fine-grained attribute editing by latent manipulation. This work uses the disentangled $\mathcal{W+}$ space of StyleGANs to condition the T2I model. This approach allows us to precisely manipulate facial attributes, such as smoothly introducing a smile, while preserving the existing coarse text-based control inherent in T2I models. To enable conditioning of the T2I model on the $\mathcal{W+}$ space, we train a latent mapper to translate latent codes from $\mathcal{W+}$ to the token embedding space of the T2I model. The proposed approach excels in the precise inversion of face images with attribute preservation and facilitates continuous control for fine-grained attribute editing. Furthermore, our approach can be readily extended to generate compositions involving multiple individuals. We perform extensive experiments to validate our method for face personalization and fine-grained attribute editing.
翻訳日:2024-08-19 04:16:58 公開日:2024-07-24
# ハイブリッドCNN-RNNモデルによる没入運転シナリオの認知負荷予測

Predicting cognitive load in immersive driving scenarios with a hybrid CNN-RNN model ( http://arxiv.org/abs/2408.06350v1 )

ライセンス: Link先を確認
Mehshan Ahmed Khan, Houshyar Asadi, Mohammad Reza Chalak Qazani, Adetokunbo Arogbonlo, Saeid Nahavandi, Chee Peng Lim, (参考訳) 交通安全研究における問題のひとつは、セカンダリタスクからの認知負荷が、運転などの主要なタスク性能を低下させることである。 認知負荷を評価するための運転関連研究に生理的信号が広く用いられているが、認知負荷のシナリオに特に焦点を絞った研究はごくわずかである。 既存のほとんどの研究では、運転シミュレーターで運転中に認知負荷二次課題として3段階のn-backタスクの聴覚バージョンを採用した。 運転とn-backタスクの同時実行中に、認知負荷を3つの異なるレベルで予測するために、fNIRS、視線追跡、運転行動データを記録した。 我々の知る限りでは、このデータソースの組み合わせは今までに一度も使われていない。 従来の認知負荷のバイナリ分類や、交通のない環境での運転などとは違って、3段階の認知負荷を伴い、特に夜間や雨時など、視界の低い通常の交通条件下で運転するドライバが動作していた。 我々は,1次元畳み込みニューラルネットワークとリカレントニューラルネットワークを組み合わせたハイブリッドニューラルネットワークを提案し,認知負荷を予測する。 実験的な再調査により,提案モデルではパラメータが少なく,生理的データを用いて99.82%から99.99%,運転行動データだけで87.26%から92.02%に精度が向上した。 この大幅な改善は、困難条件下での運転時の認知負荷を正確に予測する上で、ハイブリッドニューラルネットワークの有効性を強調します。

One debatable issue in traffic safety research is that cognitive load from sec-ondary tasks reduces primary task performance, such as driving. Although physiological signals have been extensively used in driving-related research to assess cognitive load, only a few studies have specifically focused on high cognitive load scenarios. Most existing studies tend to examine moderate or low levels of cognitive load In this study, we adopted an auditory version of the n-back task of three levels as a cognitively loading secondary task while driving in a driving simulator. During the simultaneous execution of driving and the n-back task, we recorded fNIRS, eye-tracking, and driving behavior data to predict cognitive load at three different levels. To the best of our knowledge, this combination of data sources has never been used before. Un-like most previous studies that utilize binary classification of cognitive load and driving in conditions without traffic, our study involved three levels of cognitive load, with drivers operating in normal traffic conditions under low visibility, specifically during nighttime and rainy weather. We proposed a hybrid neural network combining a 1D Convolutional Neural Network and a Recurrent Neural Network to predict cognitive load. Our experimental re-sults demonstrate that the proposed model, with fewer parameters, increases accuracy from 99.82% to 99.99% using physiological data, and from 87.26% to 92.02% using driving behavior data alone. This significant improvement highlights the effectiveness of our hybrid neural network in accurately pre-dicting cognitive load during driving under challenging conditions.
翻訳日:2024-08-19 03:57:10 公開日:2024-07-24
# 大規模言語モデルを用いたスマートホーム活動認識のための説明可能なモデルの比較

Using Large Language Models to Compare Explainable Models for Smart Home Human Activity Recognition ( http://arxiv.org/abs/2408.06352v1 )

ライセンス: Link先を確認
Michele Fiori, Gabriele Civitarese, Claudio Bettini, (参考訳) スマート環境における邪魔にならないセンサによる日々の行動認識は、様々な医療応用を可能にする。 被験者が自宅でどのように活動し、時間とともに変化していくかを監視することで、認知の低下などの健康上の問題の早期症状が明らかになる可能性がある。 この分野のほとんどのアプローチはディープラーニングモデルを使用し、センサーデータをアクティビティにマッピングするブラックボックスと見なされることが多い。 しかし、臨床医のような専門家でないユーザは、これらのモデルのアウトプットを信頼し理解する必要がある。 このように、人間の活動認識のためのeXplainable AI(XAI)メソッドが登場し、これらのモデルから直感的な自然言語の説明を提供するようになった。 異なるXAI手法は、異なる説明を生み出し、それらの効果は、通常、コストと公平性の点でしばしば困難であるユーザ調査によって評価される。 本稿では,Large Language Models (LLMs) を用いた自動評価手法を提案する。 予備的な結果は,LCMの評価がユーザ調査と一致していることを示唆している。

Recognizing daily activities with unobtrusive sensors in smart environments enables various healthcare applications. Monitoring how subjects perform activities at home and their changes over time can reveal early symptoms of health issues, such as cognitive decline. Most approaches in this field use deep learning models, which are often seen as black boxes mapping sensor data to activities. However, non-expert users like clinicians need to trust and understand these models' outputs. Thus, eXplainable AI (XAI) methods for Human Activity Recognition have emerged to provide intuitive natural language explanations from these models. Different XAI methods generate different explanations, and their effectiveness is typically evaluated through user surveys, that are often challenging in terms of costs and fairness. This paper proposes an automatic evaluation method using Large Language Models (LLMs) to identify, in a pool of candidates, the best XAI approach for non-expert users. Our preliminary results suggest that LLM evaluation aligns with user surveys.
翻訳日:2024-08-19 03:57:10 公開日:2024-07-24
# コンテンツ知識・研究機会を高めるデザインサイエンス研究論文のレビュープロセス

A Process for Reviewing Design Science Research Papers to Enhance Content Knowledge & Research Opportunities ( http://arxiv.org/abs/2408.07230v1 )

ライセンス: Link先を確認
Kweku-Muata Osei-Bryson, (参考訳) 多くの出版されている情報システム研究は、デザイン科学研究(DSR)ではなく行動科学研究(BSR)のカテゴリである。 これは、多くのISの博士課程のBSRの方向性に起因している。 このプログラムには、ICT4D(Information and Communication Technologies for Development)研究者を訓練するISの博士プログラムが含まれる。 このような技術知識がなければ、多くの博士や博士の研究者はDSR研究への参加に自信を持ってはいないだろう。 特定の文脈に適したアーティファクトを設計することの重要性を考えると、ICT4Dや他のIS研究者はどのようにしてISの技術コンテンツ知識とDSRプロセスとの親密性を高めることができるのかが重要な疑問である。 本稿では,技術内容の知識の向上,IS/ITアーティファクトの設計と評価に対する知識とアプローチの理解の向上,新たなDSR機会の識別を容易にすることを目的としたDSR論文のレビュープロセスを提案する。 このプロセスは、米国の研究大学で10年以上にわたって適用されてきた。

Most published Information Systems research are of the behavioral science research (BSR) category rather than the design science research (DSR) category. This is due in part to the BSR orientation of many IS doctoral programs, which often do not involve much technical courses. This includes IS doctoral programs that train Information and Communication Technologies for Development (ICT4D) researchers. Without such technical knowledge many doctoral and postdoctoral researchers will not feel confident in engaging in DSR research. Given the importance of designing artifacts that are appropriate for a given context, an important question is how can ICT4D and other IS researchers increase their IS technical content knowledge and intimacy with the DSR process. In this paper we present, a process for reviewing DSR papers that has as its objectives: enhancing technical content knowledge, increasing knowledge and understanding of approaches to designing and evaluating IS/IT artifacts, and facilitating the identification of new DSR opportunities. This process has been applied for more than a decade at a USA research university.
翻訳日:2024-08-19 03:47:26 公開日:2024-07-24
# 医療における感性推論

Sentiment Reasoning for Healthcare ( http://arxiv.org/abs/2407.21054v1 )

ライセンス: Link先を確認
Khai Le-Duc, Khai-Nguyen Nguyen, Bach Phan Tat, Duy Le, Jerry Ngo, Long Vo-Dang, Anh Totti Nguyen, Truong-Son Hy, (参考訳) AI意思決定の透明性は、エラーによる深刻な結果のため、医療において不可欠であり、感情分析タスクにおいて、AIとユーザ間の信頼を構築する上で重要である。 推論機能を組み込むことで、LLM(Large Language Models)は、より広い文脈における人間の感情を理解し、曖昧であいまいな言語を扱い、明確に述べられていない基本的な感情を推測する。 本研究では,音声とテキストの両モードに対して,新たなタスクであるSentiment Reasoningを導入し,マルチモーダルなマルチタスクフレームワークとデータセットを提案する。 本研究は,有理化訓練により,人文・ASR設定の感情分類におけるモデル性能が向上することを示した。 また、生成した有理数は通常、人為的有理数と比較して異なる語彙を示すが、類似した意味論は維持する。 すべてのコード、データ(英訳、ベトナム語)、モデルはオンラインで公開されている。

Transparency in AI decision-making is crucial in healthcare due to the severe consequences of errors, and this is important for building trust among AI and users in sentiment analysis task. Incorporating reasoning capabilities helps Large Language Models (LLMs) understand human emotions within broader contexts, handle nuanced and ambiguous language, and infer underlying sentiments that may not be explicitly stated. In this work, we introduce a new task - Sentiment Reasoning - for both speech and text modalities, along with our proposed multimodal multitask framework and dataset. Our study showed that rationale-augmented training enhances model performance in sentiment classification across both human transcript and ASR settings. Also, we found that the generated rationales typically exhibit different vocabularies compared to human-generated rationales, but maintain similar semantics. All code, data (English-translated and Vietnamese) and models are published online: https://github.com/leduckhai/MultiMed
翻訳日:2024-08-04 19:28:03 公開日:2024-07-24
# Bailicai: 医療アプリケーションのためのドメイン最適化検索拡張生成フレームワーク

Bailicai: A Domain-Optimized Retrieval-Augmented Generation Framework for Medical Applications ( http://arxiv.org/abs/2407.21055v1 )

ライセンス: Link先を確認
Cui Long, Yongbin Liu, Chunping Ouyang, Ying Yu, (参考訳) 大規模言語モデル(LLM)は、自然言語理解において顕著な熟練性を示し、様々な領域にまたがる潜在的な応用を広範囲に探究するきっかけとなった。 医学領域では、オープンソースLPMはドメイン固有の微調整の後、適度な有効性を示したが、GPT-4やGPT-3.5のようなプロプライエタリなモデルにはかなり劣っている。 これらのオープンソースモデルは、ドメイン固有の知識の包括性に限界に直面し、テキスト生成時の「幻覚」の正当性を示す。 これらの問題を緩和するため、研究者はRetrieval-Augmented Generation (RAG)アプローチを実装した。 しかし、文書ノイズはパフォーマンスに悪影響を及ぼしうるため、医学分野におけるRAGの適用は、まだ初期段階にある。 本研究では,医療領域に最適化された大規模言語モデルと検索強化世代を新たに統合したBailicaiフレームワークを提案する。 Bailicaiフレームワークは、4つのサブモジュールの実装を通じて医学におけるLLMのパフォーマンスを高める。 実験の結果,Bailicai アプローチは既存の医療領域 LLM を超越し,GPT-3.5 よりも高い性能を示した。 さらに、Bailicai法は、LCMの医学的応用における幻覚の問題を効果的に軽減し、無関係または疑似関連文書を処理する際に、従来のRAG技術に関連するノイズ関連課題を改善する。

Large Language Models (LLMs) have exhibited remarkable proficiency in natural language understanding, prompting extensive exploration of their potential applications across diverse domains. In the medical domain, open-source LLMs have demonstrated moderate efficacy following domain-specific fine-tuning; however, they remain substantially inferior to proprietary models such as GPT-4 and GPT-3.5. These open-source models encounter limitations in the comprehensiveness of domain-specific knowledge and exhibit a propensity for 'hallucinations' during text generation. To mitigate these issues, researchers have implemented the Retrieval-Augmented Generation (RAG) approach, which augments LLMs with background information from external knowledge bases while preserving the model's internal parameters. However, document noise can adversely affect performance, and the application of RAG in the medical field remains in its nascent stages. This study presents the Bailicai framework: a novel integration of retrieval-augmented generation with large language models optimized for the medical domain. The Bailicai framework augments the performance of LLMs in medicine through the implementation of four sub-modules. Experimental results demonstrate that the Bailicai approach surpasses existing medical domain LLMs across multiple medical benchmarks and exceeds the performance of GPT-3.5. Furthermore, the Bailicai method effectively attenuates the prevalent issue of hallucinations in medical applications of LLMs and ameliorates the noise-related challenges associated with traditional RAG techniques when processing irrelevant or pseudo-relevant documents.
翻訳日:2024-08-04 19:28:03 公開日:2024-07-24
# 説明の要点:変圧器に着目した説明可能なフェイクレビュー検出に向けて

What Matters in Explanations: Towards Explainable Fake Review Detection Focusing on Transformers ( http://arxiv.org/abs/2407.21056v1 )

ライセンス: Link先を確認
Md Shajalal, Md Atabuzzaman, Alexander Boden, Gunnar Stevens, Delong Du, (参考訳) 顧客のレビューやフィードバックは、Amazon、Zalando、eBayなどの電子商取引(Eコマース)プラットフォームにおいて、他の顧客の購入決定に影響を与える重要な役割を担っている。 しかし、売り手が偽レビューやスパムレビューを投稿し、潜在的な顧客を欺き、製品に関する意見を操作しているという懸念が有力である。 過去10年間で、このような不正なレビューを特定するために機械学習(ML)とディープラーニング(DL)モデルを使うことに大きな関心が寄せられている。 残念なことに、複雑なMLとDLモデル - しばしば 'emph{black-boxes}' として機能する - による決定は、一般ユーザーが理解するのは驚きで難しい。 本稿では,偽レビューを高精度に検出し,説明付き不正コンテンツを特定するためのフレームワークを提案し,経験的ユーザ評価を行うことで,特定の判断を説明する上で最も重要な情報について検討する。 まず,XLNet や DistilBERT などのトランスフォーマーモデルと DL を用いた偽レビュー検出モデルを開発した。 次に,単語のコントリビューションを予測クラスにマッピング可能な説明を生成するためのレイヤワイド関連伝搬(LRP)手法を提案する。 2つのベンチマークによる偽レビュー検出データセットの実験結果から,我々の予測モデルが最先端の性能を達成し,既存手法よりも優れていることが示された。 さらに、生成した説明文の実証的ユーザ評価は、偽レビュー識別の文脈で説明文を生成する際に、どの重要な情報を考慮する必要があるかを結論付けている。

Customers' reviews and feedback play crucial role on electronic commerce~(E-commerce) platforms like Amazon, Zalando, and eBay in influencing other customers' purchasing decisions. However, there is a prevailing concern that sellers often post fake or spam reviews to deceive potential customers and manipulate their opinions about a product. Over the past decade, there has been considerable interest in using machine learning (ML) and deep learning (DL) models to identify such fraudulent reviews. Unfortunately, the decisions made by complex ML and DL models - which often function as \emph{black-boxes} - can be surprising and difficult for general users to comprehend. In this paper, we propose an explainable framework for detecting fake reviews with high precision in identifying fraudulent content with explanations and investigate what information matters most for explaining particular decisions by conducting empirical user evaluation. Initially, we develop fake review detection models using DL and transformer models including XLNet and DistilBERT. We then introduce layer-wise relevance propagation (LRP) technique for generating explanations that can map the contributions of words toward the predicted class. The experimental results on two benchmark fake review detection datasets demonstrate that our predictive models achieve state-of-the-art performance and outperform several existing methods. Furthermore, the empirical user evaluation of the generated explanations concludes which important information needs to be considered in generating explanations in the context of fake review identification.
翻訳日:2024-08-04 19:28:03 公開日:2024-07-24
# キーポイント推定による信号記述の効率的かつ柔軟な深層学習法

An Efficient and Flexible Deep Learning Method for Signal Delineation via Keypoints Estimation ( http://arxiv.org/abs/2407.20258v1 )

ライセンス: Link先を確認
Adrian Atienza, Jakob Bardram, Sadasivan Puthusserypady, (参考訳) 深層学習(DL)法は心電図(ECG)処理に様々なタスクで用いられ、従来の信号処理アルゴリズムと比較して優れた性能を示している。 これらの手法は、アプリオリデータ前処理と機能エンジニアリングを限定した効率的なフレームワークを提供する。 いくつかの研究では、この手法をECG信号のデライン化に用いているが、期待値と実際の結果の間には大きなギャップが持続している。 既存のメソッドはサンプルからサンプルまでの分類器に依存している。 しかし、臨床効果は、それぞれのR-R間隔を構成する異なる波に対する一連のオンセット、オフセット、ピークから構成される。 実際の出力を期待出力に合わせるためには、後処理アルゴリズムを組み込む必要がある。 これらのアルゴリズムは仮定に基づいており、メソッドのパフォーマンスを遅くするためである。 本稿では,KEED(Keypoint Estimation for Electrocardiogram Delineation)というキーポイント推定のための新しいDLモデルを提案する。 従来のサンプルとサンプルの分類器から切り離すことで、2つの利点が得られる。 一 追加の事後処理の必要性を排除し、 二 特定の臨床要件に関する感度特異性トレードオフを考慮したしきい値の調整を可能にするフレキシブルな枠組みを整備すること。 提案手法の性能を最先端(SOTA)信号処理法と比較する。 注目すべきは、非常に限定的な注釈付きデータで最適化されているにもかかわらず、KEEDは大幅にパフォーマンスが向上していることだ。 さらに、KEEDは52xから703xの範囲で推論時間を減少させる。

Deep Learning (DL) methods have been used for electrocardiogram (ECG) processing in a wide variety of tasks, demonstrating good performance compared with traditional signal processing algorithms. These methods offer an efficient framework with a limited need for apriori data pre-processing and feature engineering. While several studies use this approach for ECG signal delineation, a significant gap persists between the expected and the actual outcome. Existing methods rely on a sample-to-sample classifier. However, the clinical expected outcome consists of a set of onset, offset, and peak for the different waves that compose each R-R interval. To align the actual with the expected output, it is necessary to incorporate post-processing algorithms. This counteracts two of the main advantages of DL models, since these algorithms are based on assumptions and slow down the method's performance. In this paper, we present Keypoint Estimation for Electrocardiogram Delineation (KEED), a novel DL model designed for keypoint estimation, which organically offers an output aligned with clinical expectations. By standing apart from the conventional sample-to-sample classifier, we achieve two benefits: (i) Eliminate the need for additional post-processing, and (ii) Establish a flexible framework that allows the adjustment of the threshold value considering the sensitivity-specificity tradeoff regarding the particular clinical requirements. The proposed method's performance is compared with state-of-the-art (SOTA) signal processing methods. Remarkably, KEED significantly outperforms despite being optimized with an extremely limited annotated data. In addition, KEED decreases the inference time by a factor ranging from 52x to 703x.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-24
# スピン格子密度に関する幾何学的視点-Functional Theory

Geometrical Perspective on Spin-Lattice Density-Functional Theory ( http://arxiv.org/abs/2407.20260v1 )

ライセンス: Link先を確認
Markus Penz, Robert van Leeuwen, (参考訳) 縮退領域の概念を中心とした有限相互作用スピン格子系に対する密度汎関数理論の基礎に関する最近の見解を述べる。 これはホヘンベルク・コーンの定理と v-表現可能性を完全に幾何学的に記述することができる。 この現象はアンダーソン不純物モデルやその他の小さな格子の例によって例示される。 断熱的変化の事例と時間依存性の設定についても検討した。

A recently developed viewpoint on the fundamentals of density-functional theory for finite interacting spin-lattice systems that centers around the notion of degeneracy regions is presented. It allows for an entirely geometrical description of the Hohenberg-Kohn theorem and v-representability. The phenomena receive exemplification by an Anderson impurity model and other small-lattice examples. The case of adiabatic change and the time-dependent setting are examined as well.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-24
# CoEFF-KANs:Kansで電解質分野に対処するパラダイム

COEFF-KANs: A Paradigm to Address the Electrolyte Field with KANs ( http://arxiv.org/abs/2407.20265v1 )

ライセンス: Link先を確認
Xinhe Li, Zhuoying Feng, Yezeng Chen, Weichen Dai, Zixu He, Yi Zhou, Shuhong Jiao, (参考訳) 化学研究者の検証作業量を削減し,高エネルギー密度リチウム金属電池の設計と最適化を加速するために,我々は,液体電解質の組成に基づいてクーロン効率(CE)を自動的に予測するモデルを活用することを目的とする。 既存の手法には、主に機械学習とディープラーニングの2つの代表的なパラダイムがある。 しかし、前者はインテリジェントな入力特徴選択と信頼性の高い計算手法を必要としており、特徴推定からモデル予測への誤差伝播につながる一方、後者(例えば、MultiModal-MoLFormer)は、拡張データの多様性の制限による予測性能の低下と過度な適合という課題に直面している。 これらの課題に対処するために, 化学一般モデルの事前学習と下流領域データによる微調整という2つの段階からなるCOEFF(columbic EFficiency prediction via Fine-tuned model)を提案する。 まず, 電解質中の各溶媒および塩の特徴ベクトルを得るために, 利用可能なMoLFormerモデルを採用する。 そして, それぞれの電解質成分比から, 全分子にまたがる各トークンの重み付け平均を導出する。 最後に、得られた電解質の特徴を多層パーセプトロンまたはコルモゴロフ・アルノルドネットワークに入力し、CEを予測する。 実世界のデータセットを用いた実験結果から,本手法はCE予測のためのSOTAを全ベースラインと比較した結果を得た。 この作業で使用されるデータとコードは、論文が公開された後に公開される予定である。

To reduce the experimental validation workload for chemical researchers and accelerate the design and optimization of high-energy-density lithium metal batteries, we aim to leverage models to automatically predict Coulombic Efficiency (CE) based on the composition of liquid electrolytes. There are mainly two representative paradigms in existing methods: machine learning and deep learning. However, the former requires intelligent input feature selection and reliable computational methods, leading to error propagation from feature estimation to model prediction, while the latter (e.g. MultiModal-MoLFormer) faces challenges of poor predictive performance and overfitting due to limited diversity in augmented data. To tackle these issues, we propose a novel method COEFF (COlumbic EFficiency prediction via Fine-tuned models), which consists of two stages: pre-training a chemical general model and fine-tuning on downstream domain data. Firstly, we adopt the publicly available MoLFormer model to obtain feature vectors for each solvent and salt in the electrolyte. Then, we perform a weighted average of embeddings for each token across all molecules, with weights determined by the respective electrolyte component ratios. Finally, we input the obtained electrolyte features into a Multi-layer Perceptron or Kolmogorov-Arnold Network to predict CE. Experimental results on a real-world dataset demonstrate that our method achieves SOTA for predicting CE compared to all baselines. Data and code used in this work will be made publicly available after the paper is published.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-24
# 低ランク分解モデルの高速化

Accelerating the Low-Rank Decomposed Models ( http://arxiv.org/abs/2407.20266v1 )

ライセンス: Link先を確認
Habib Hajimolahoseini, Walid Ahmed, Austin Wen, Yang Liu, (参考訳) テンソル分解はデータ圧縮の数学的支援技術である。 データの冗長性を低減するために、テンソルや行列に何らかの下級分解技法を適用する。 しかし、分解後にアーキテクチャに追加される多数の新しいレイヤにAIモデルをデュオに圧縮する一般的なテクニックではない。 パラメータの数は大幅に減少する可能性があるが、結果としてモデルが2倍以上深くなり、トレーニングや推論に多少の遅延が生じる可能性がある。 本稿では,AIモデルにおける低階分解技術の変更方法に関する総合的研究を行い,高い精度と低メモリ消費の両面から,トレーニングと推論の高速化を図っている。

Tensor decomposition is a mathematically supported technique for data compression. It consists of applying some kind of a Low Rank Decomposition technique on the tensors or matrices in order to reduce the redundancy of the data. However, it is not a popular technique for compressing the AI models duo to the high number of new layers added to the architecture after decomposition. Although the number of parameters could shrink significantly, it could result in the model be more than twice deeper which could add some latency to the training or inference. In this paper, we present a comprehensive study about how to modify low rank decomposition technique in AI models so that we could benefit from both high accuracy and low memory consumption as well as speeding up the training and inference
翻訳日:2024-07-31 19:27:58 公開日:2024-07-24
# 化学言語の基礎モデルのエンコーダ・デコーダ系

A Large Encoder-Decoder Family of Foundation Models For Chemical Language ( http://arxiv.org/abs/2407.20267v1 )

ライセンス: Link先を確認
Eduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt, (参考訳) 化学言語モデルの大規模事前学習手法は、化学情報学のブレークスルーを表している。 これらの手法は、大きな未ラベルコーパス上の自己教師付き学習を通じて入力トークンの文脈化表現を学習することにより、特性予測や分子生成などのタスクに優れる。 通常は、ラベルのないデータで事前トレーニングを行い、特定のタスクを微調整し、注釈付きデータセットへの依存を減らし、化学言語表現の理解を広げる。 本稿では,分子トークン40億個に相当するPubChemから得られた9100万個のSMILESサンプルを事前学習した大規模エンコーダ・デコーダ化学基盤モデルを提案する。 提案した基礎モデルは、量子特性予測を含む様々な複雑なタスクをサポートし、2つの主要な変種(289Mと889M$)で柔軟性を提供する。 複数のベンチマークデータセットにまたがる実験は、様々なタスクに対して最先端の結果を提供する際に提案したモデルのキャパシティを検証する。 また,提案課題の前提条件として,埋め込み空間の構成性を予備評価する。 生成した潜伏空間は、数ショットの学習能力を持つ最先端の学習能力と比較して分離可能であることを実証する。

Large-scale pre-training methodologies for chemical language models represent a breakthrough in cheminformatics. These methods excel in tasks such as property prediction and molecule generation by learning contextualized representations of input tokens through self-supervised learning on large unlabeled corpora. Typically, this involves pre-training on unlabeled data followed by fine-tuning on specific tasks, reducing dependence on annotated datasets and broadening chemical language representation understanding. This paper introduces a large encoder-decoder chemical foundation models pre-trained on a curated dataset of 91 million SMILES samples sourced from PubChem, which is equivalent to 4 billion of molecular tokens. The proposed foundation model supports different complex tasks, including quantum property prediction, and offer flexibility with two main variants (289M and $8\times289M$). Our experiments across multiple benchmark datasets validate the capacity of the proposed model in providing state-of-the-art results for different tasks. We also provide a preliminary assessment of the compositionality of the embedding space as a prerequisite for the reasoning tasks. We demonstrate that the produced latent space is separable compared to the state-of-the-art with few-shot learning capabilities.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-24
# 画像データ拡張と半導体ウエハダイシングによる欠陥の分類のための生成逆ネットワークの利用

Utilizing Generative Adversarial Networks for Image Data Augmentation and Classification of Semiconductor Wafer Dicing Induced Defects ( http://arxiv.org/abs/2407.20268v1 )

ライセンス: Link先を確認
Zhining Hu, Tobias Schlosser, Michael Friedrich, André Luiz Vieira e Silva, Frederik Beuth, Danny Kowerko, (参考訳) 半導体製造において、ウエハダイシングプロセスは中心的だが、欠陥のないチップの比率である収率を著しく損なう欠陥に対して脆弱である。 深層ニューラルネットワーク(Deep Neural Network)は、現在最先端の視覚検査(半自動検査)である。 しかし、モデルトレーニングに特に大量のデータを必要とすることで有名である。 これらの課題に対処するために, 半導体ウェハディキシングによる欠陥の増大と分類にGAN(Generative Adversarial Network)を応用し, 視覚検査システムにおけるトレーニングデータの多様性とバランスを高めることを目的とした。 このアプローチにより、現実世界のダイニング欠陥を模倣する合成的で現実的な画像が生成される。 高分解能画像合成には3つの異なるGAN(Deep Convolutional GAN)、CycleGAN(CycleGAN)、StyleGAN3(StyleGAN)を用いる。 その結果, 評価精度は65.1%(ベースライン実験)から88.2%(DCGAN実験)まで平均23.1%向上し, 生産における収率最適化が可能であった。

In semiconductor manufacturing, the wafer dicing process is central yet vulnerable to defects that significantly impair yield - the proportion of defect-free chips. Deep neural networks are the current state of the art in (semi-)automated visual inspection. However, they are notoriously known to require a particularly large amount of data for model training. To address these challenges, we explore the application of generative adversarial networks (GAN) for image data augmentation and classification of semiconductor wafer dicing induced defects to enhance the variety and balance of training data for visual inspection systems. With this approach, synthetic yet realistic images are generated that mimic real-world dicing defects. We employ three different GAN variants for high-resolution image synthesis: Deep Convolutional GAN (DCGAN), CycleGAN, and StyleGAN3. Our work-in-progress results demonstrate that improved classification accuracies can be obtained, showing an average improvement of up to 23.1 % from 65.1 % (baseline experiment) to 88.2 % (DCGAN experiment) in balanced accuracy, which may enable yield optimization in production.
翻訳日:2024-07-31 19:27:58 公開日:2024-07-24
# セキュアMPCによる低レイテンシプライバシ保護深層学習設計

Low-Latency Privacy-Preserving Deep Learning Design via Secure MPC ( http://arxiv.org/abs/2407.18982v1 )

ライセンス: Link先を確認
Ke Lin, Yasir Glani, Ping Luo, (参考訳) セキュアなマルチパーティ計算(MPC)は、プライベート情報をリークすることなく、複数のパーティ間のプライバシ保護計算を容易にする。 ほとんどのセキュアなディープラーニング技術は、MPC操作を利用して、下流タスクで実現可能なプライバシ保護機械学習を実現するが、計算と通信のオーバーヘッドは依然として現実的な応用を妨げている。 本研究は、MPCプロトコルの実行中に不要な通信ラウンドを減らす、低レイテンシな秘密共有ベースのMPC設計を提案する。 また、多変量乗算と異なるパケットを1つに合体させてネットワーク利用を最大化することにより、ディープラーニングにおける一般的な非線形関数の計算を改善する方法を提案する。 実験結果から,本手法は通信遅延を10\sim20\%$で高速化し,様々な設定で有効であることが示唆された。

Secure multi-party computation (MPC) facilitates privacy-preserving computation between multiple parties without leaking private information. While most secure deep learning techniques utilize MPC operations to achieve feasible privacy-preserving machine learning on downstream tasks, the overhead of the computation and communication still hampers their practical application. This work proposes a low-latency secret-sharing-based MPC design that reduces unnecessary communication rounds during the execution of MPC protocols. We also present a method for improving the computation of commonly used nonlinear functions in deep learning by integrating multivariate multiplication and coalescing different packets into one to maximize network utilization. Our experimental results indicate that our method is effective in a variety of settings, with a speedup in communication latency of $10\sim20\%$.
翻訳日:2024-07-30 20:22:03 公開日:2024-07-24
# 短時間のビデオ付加によるオンラインソーシャルネットワークデータ駆動早期検出

Online Social Network Data-Driven Early Detection on Short-Form Video Addiction ( http://arxiv.org/abs/2407.18277v1 )

ライセンス: Link先を確認
Fang-Yu Kuo, (参考訳) ショート・フォーム・ビデオ(SFV)は近年、世界的なエンターテイメントの形式となり、主要なソーシャルメディアプラットフォームに登場した。 しかし、近年の研究では、短いビデオ中毒は、注意幅の減少や学習意欲の低下など、身体的および心理的健康の両方に多くのネガティブな影響をもたらす可能性が示唆されている。 さらに、SFVA(Short-form Video Addiction)は、現実生活における心理的サポートの欠如、家族や学業のプレッシャー、社会不安といった他の問題と関連付けられている。 現在、SFVAの検出は通常、ユーザがネガティブな結果を経験した後にのみ発生する。 そこで本稿では,ソーシャルネットワークの挙動に基づく短いビデオ中毒データセットの構築と,SFVAの早期検出フレームワークの設計を目的とする。 オンラインソーシャルメディアにおける以前のメンタルヘルス検出研究は、うつ病や自殺傾向の発見に主に焦点を絞っている。 本研究では,SFVA EarlySDの最初の早期検出フレームワークを提案する。 まず,グラフデータセットにおける疎性や欠落するデータの共通問題に対処するために,大規模言語モデル(LLM)を導入する。 一方、ソーシャルネットワークの行動データを異なるモダリティに分類し、不均一なソーシャルネットワーク構造をSFVA検出の基盤として設計する。 自己構築したデータセットを用いて、短いビデオ中毒者の定量的分析を行い、短いビデオ中毒の検出に社会データと異種ソーシャルグラフを用いて、我々の方法であるEarlySDの有効性を検証するための広範な実験を行った。

Short-form video (SFV) has become a globally popular form of entertainment in recent years, appearing on major social media platforms. However, current research indicate that short video addiction can lead to numerous negative effects on both physical and psychological health, such as decreased attention span and reduced motivation to learn. Additionally, Short-form Video Addiction (SFVA) has been linked to other issues such as a lack of psychological support in real life, family or academic pressure, and social anxiety. Currently, the detection of SFVA typically occurs only after users experience negative consequences. Therefore, we aim to construct a short video addiction dataset based on social network behavior and design an early detection framework for SFVA. Previous mental health detection research on online social media has mostly focused on detecting depression and suicidal tendency. In this study, we propose the first early detection framework for SFVA EarlySD. We first introduce large language models (LLMs) to address the common issues of sparsity and missing data in graph datasets. Meanwhile, we categorize social network behavior data into different modalities and design a heterogeneous social network structure as the primary basis for detecting SFVA. We conduct a series of quantitative analysis on short video addicts using our self-constructed dataset, and perform extensive experiments to validate the effectiveness of our method EarlySD, using social data and heterogeneous social graphs in the detection of short video addiction.
翻訳日:2024-07-29 15:18:53 公開日:2024-07-24
# 量子計測系の2つの共鳴量子電磁力学モデル

Two resonant quantum electrodynamics models of quantum measuring systems ( http://arxiv.org/abs/1709.06719v5 )

ライセンス: Link先を確認
Eiji Konishi, (参考訳) 量子電磁力学の2つの共鳴モデルに量子測定スキームが提案されている。 第1のモデルは脳であり、その活動電位の伝播のために、著者によって最近研究された自由電子レーザーのようなコヒーレンス機構を包括的に適用する。 2つ目のモデルはPreparata et alのコヒーレンス領域の集合であり、梅沢らによって提唱された記憶の量子場理論を組み込む。

A quantum measurement scheme is suggested in two resonant models of quantum electrodynamics. The first model is the brain, where, for the propagation of its action potentials, the free electron laser-like coherence mechanism recently investigated by the author is comprehensively applied. The second model is an assembly of Preparata et al.'s coherence domains, in which we incorporate the quantum field theory of memory advocated by Umezawa et al. These two models are remarkably analogous.
翻訳日:2024-07-28 20:44:03 公開日:2024-07-24
# ハバードモデルの初期耐故障性シミュレーション

Early fault-tolerant simulations of the Hubbard model ( http://arxiv.org/abs/2012.09238v4 )

ライセンス: Link先を確認
Earl T. Campbell, (参考訳) ハバードモデルのシミュレーションは、フォールトトレラント量子コンピュータの最初の有用な応用候補である。 最近のHubbardモデルの初期シミュレーションのための量子アルゴリズムの研究によると、$L=2^k$の格子上の高速フェルミオンフーリエ変換(FFFT)とスプリット演算によるトロッター化により、最低のリソースコストが達成された。 長さが$L \neq 2^k$の格子では、FFFTの代わりにアジェンス回転を用いることができるが、資源コストはかなり高い。 本稿では, 離散演算型FFFT法に対してより厳密な境界を与えるトロッタライズによるシミュレーション誤差の有界化に関する新しい解析手法を提案する。 さらに,任意のサイズの格子に作用するプラケットトロッタライゼーションを導入し,改良された誤差境界解析を適用して,競争力のある資源コストを示す。 位相推定タスクとプラケット・トロッタライゼーション(英語版)は、$L=2^k$ではなく、他の格子サイズに対して非常に大きな因子である$L=2^k$の8および$16の最良の推定値に対して、5.5\times$から9 \times$(パラメータ規則に依存する)まで、非クリフォードゲートの数を減少させる。 結論として,約100万のToffoliゲートを用いたフォールトトレラント量子コンピュータには,潜在的に有用な応用があることが判明した。

Simulation of the Hubbard model is a leading candidate for the first useful applications of a fault-tolerant quantum computer. A recent study of quantum algorithms for early simulations of the Hubbard model [Kivlichan \textit{et al.} Quantum 4 296 (2019)] found that the lowest resource costs were achieved by split-operator Trotterization combined with the fast-fermionic Fourier transform (FFFT) on an $L \times L$ lattice with length $L=2^k$. On lattices with length $L \neq 2^k$, Givens rotations can be used instead of the FFFT but lead to considerably higher resource costs. We present a new analytic approach to bounding the simulation error due to Trotterization that provides much tighter bounds for the split-operator FFFT method, leading to $16 \times$ improvement in error bounds. Furthermore, we introduce plaquette Trotterization that works on any size lattice and apply our improved error bound analysis to show competitive resource costs. We consider a phase estimation task and show plaquette Trotterization reduces the number of non-Clifford gates by a factor $5.5\times$ to $9 \times$ (depending on the parameter regime) over the best previous estimates for $8 \times 8$ and $16 \times 16$ lattices and a much larger factor for other lattice sizes not of the form $L=2^k$. In conclusion, we find there is a potentially useful application for fault-tolerant quantum computers using around one million Toffoli gates.
翻訳日:2024-07-28 18:48:53 公開日:2024-07-24
# 工学設計のための説明可能なAI:エネルギー効率の良い建築設計によるシステム工学とコンポーネントベースディープラーニングの統一的アプローチ

Explainable AI for Engineering Design: A Unified Approach of Systems Engineering and Component- Based Deep Learning Demonstrated by Energy- Efficient Building Design ( http://arxiv.org/abs/2108.13836v6 )

ライセンス: Link先を確認
Philipp Geyer, Manav Mahan Singh, Xia Chen, (参考訳) 機械学習によって生成されたデータ駆動モデルは、設計とエンジニアリングのあらゆる分野において重要になる。 彼らは、より優れたパフォーマンスと持続可能性を備えた新しい人工物を作成する際に、意思決定者を支援する高い可能性を持っている。 しかしながら、これらのモデルの限定的な一般化とブラックボックスの性質は、限定的な説明可能性と再利用可能性をもたらす。 そこで我々は,機械学習(ML)による部分的コンポーネントモデル作成のためのコンポーネントベースアプローチを提案する。 このコンポーネントベースのアプローチは、ディープラーニングをシステム、エンジニアリング(SE)と整合させる。 コンポーネントベースのメソッドの重要な貢献は、コンポーネント間のインターフェイスでのアクティベーションが、解釈可能なエンジニアリング量であることである。 このように、階層的なコンポーネントシステムは、エンジニアリングや説明可能性のための情報を統合するディープニューラルネットワーク(DNN)を形成する。 アプローチは、モデル構造をシステム工学とドメイン知識の工学的手法に適応させる。 まず, 予測精度を解析することにより, コンポーネントベース手法のより優れた一般化を, トレーニングデータの外部で観測した。 特に, 構造が異なる代表設計では, 従来のモノリシック法に比べて, はるかに高い精度 (R2 = 0.94) を観測する(R2 = 0.71)。 次に、実例による説明可能性を説明し、SEとルールからの感度情報がどのように工学に役立つかを示す。 第3に、定性的および定量的手法による説明可能性の評価を行い、予備知識とデータ駆動型戦略の整合性を実証し、ホワイトボックスシミュレーション結果と比較して、コンポーネントインターフェースにおけるアクティベーションの正しさを示す(エンベロープコンポーネント: R2 = 0.92..0.99; ゾーン: R2 = 0.78.0.93)。

Data-driven models created by machine learning, gain in importance in all fields of design and engineering. They, have high potential to assist decision-makers in creating novel, artefacts with better performance and sustainability. However,, limited generalization and the black-box nature of these models, lead to limited explainability and reusability. To overcome this, situation, we propose a component-based approach to create, partial component models by machine learning (ML). This, component-based approach aligns deep learning with systems, engineering (SE). The key contribution of the component-based, method is that activations at interfaces between the components, are interpretable engineering quantities. In this way, the, hierarchical component system forms a deep neural network, (DNN) that a priori integrates information for engineering, explainability. The, approach adapts the model structure to engineering methods of, systems engineering and to domain knowledge. We examine the, performance of the approach by the field of energy-efficient, building design: First, we observed better generalization of the, component-based method by analyzing prediction accuracy, outside the training data. Especially for representative designs, different in structure, we observe a much higher accuracy, (R2 = 0.94) compared to conventional monolithic methods, (R2 = 0.71). Second, we illustrate explainability by exemplary, demonstrating how sensitivity information from SE and rules, from low-depth decision trees serve engineering. Third, we, evaluate explainability by qualitative and quantitative methods, demonstrating the matching of preliminary knowledge and data-driven, derived strategies and show correctness of activations at, component interfaces compared to white-box simulation results, (envelope components: R2 = 0.92..0.99; zones: R2 = 0.78..0.93).
翻訳日:2024-07-26 20:16:16 公開日:2024-07-24
# プライベート信頼集合に対するランダム化応答の非パラメトリック拡張

Nonparametric extensions of randomized response for private confidence sets ( http://arxiv.org/abs/2202.08728v4 )

ライセンス: Link先を確認
Ian Waudby-Smith, Zhiwei Steven Wu, Aaditya Ramdas, (参考訳) 本研究は、局所微分プライバシー(LDP)の制約の下で、集団平均の非パラメトリック、非漸近的統計的推測を行う手法を導出する。 有界観測$(X_1, \dots, X_n)$ 平均$\mu^\star$ が、プリミティブ化されたデータへのアクセスのみを与えられるときのみ、$(Z_1, \dots, Z_n)$ と Time-uniform confidence sequences (CS) が与えられる。 これを実現するために、Warnerの有名な 'ランダム化応答' 機構の非パラメトリックかつ逐次的インタラクティブな一般化について検討し、任意の有界な確率変数に対して LDP を満たす。 例えば、我々の結果は、固定時間と時間的一様条件の両方において、ホーフディングの不等式を私的に類似させる。 我々は,これらのHoeffding型CSを拡張して,時間変化のある(静止しない)手段をキャプチャし,これらの手法がオンラインA/Bテストのプライベートな実施にどのように使用できるかを説明する。

This work derives methods for performing nonparametric, nonasymptotic statistical inference for population means under the constraint of local differential privacy (LDP). Given bounded observations $(X_1, \dots, X_n)$ with mean $\mu^\star$ that are privatized into $(Z_1, \dots, Z_n)$, we present confidence intervals (CI) and time-uniform confidence sequences (CS) for $\mu^\star$ when only given access to the privatized data. To achieve this, we study a nonparametric and sequentially interactive generalization of Warner's famous ``randomized response'' mechanism, satisfying LDP for arbitrary bounded random variables, and then provide CIs and CSs for their means given access to the resulting privatized observations. For example, our results yield private analogues of Hoeffding's inequality in both fixed-time and time-uniform regimes. We extend these Hoeffding-type CSs to capture time-varying (non-stationary) means, and conclude by illustrating how these methods can be used to conduct private online A/B tests.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-24
# ニューラルクランプ:ニューラルネットワークキャリブレーションのためのジョイント入力摂動と温度スケーリング

Neural Clamping: Joint Input Perturbation and Temperature Scaling for Neural Network Calibration ( http://arxiv.org/abs/2209.11604v2 )

ライセンス: Link先を確認
Yung-Chen Tang, Pin-Yu Chen, Tsung-Yi Ho, (参考訳) ニューラルネットワークキャリブレーションは、モデル予測の信頼性と真正性確率との整合性を確保するために、ディープラーニングにおいて不可欠なタスクである。 本稿では,学習可能な普遍的な入力摂動と出力温度スケーリングパラメータを用いて,事前学習した分類器に単純な結合入力出力変換を用いたニューラルクランプ方式を提案する。 さらに、なぜニューラルクランプが温度スケーリングよりも確実に優れているのかを理論的に説明する。 BloodMNIST, CIFAR-100, ImageNet画像認識データセットおよび様々なディープニューラルネットワークモデルに基づいて評価した結果,Neural Clampingは最先端の処理後のキャリブレーション手法よりも大幅に優れていることがわかった。 コードはgithub.com/yungchentang/NCToolkitで入手できる。

Neural network calibration is an essential task in deep learning to ensure consistency between the confidence of model prediction and the true correctness likelihood. In this paper, we propose a new post-processing calibration method called Neural Clamping, which employs a simple joint input-output transformation on a pre-trained classifier via a learnable universal input perturbation and an output temperature scaling parameter. Moreover, we provide theoretical explanations on why Neural Clamping is provably better than temperature scaling. Evaluated on BloodMNIST, CIFAR-100, and ImageNet image recognition datasets and a variety of deep neural network models, our empirical results show that Neural Clamping significantly outperforms state-of-the-art post-processing calibration methods. The code is available at github.com/yungchentang/NCToolkit, and the demo is available at huggingface.co/spaces/TrustSafeAI/NCTV.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-24
# RF-based UAV識別のためのワンショット生成分布マッチング

One-shot Generative Distribution Matching for Augmented RF-based UAV Identification ( http://arxiv.org/abs/2301.08403v4 )

ライセンス: Link先を確認
Amir Kazemi, Salar Basiri, Volodymyr Kindratenko, Srinivasa Salapaka, (参考訳) この研究は、限られたRF環境下でRFフィンガープリントを用いて無人航空機(UAV)を特定するという課題に対処する。 RF信号の複雑さと可変性は、環境干渉やハードウェアの不完全性の影響を受け、従来のRFベースの識別手法を効果的にしないことが多い。 これらの合併症に対処するために、変換RF信号の増強にワンショット生成法の厳密な利用を導入し、UAV識別を著しく改善した。 このアプローチは、条件付き生成逆数ネットワーク(GAN)や変分自動エンコーダ(VAE)といった、より深い生成手法よりも優れた、低データレジームにおいて有望であることを示す。 本論文は,限定的なデータ拡張におけるワンショット生成モデルの有効性を理論的に保証し,その応用の先例を限定的なRF環境で設定する。 この研究は、画像やビデオ以外の非典型的な複雑なシーケンスを含む、低データレギュレーションシナリオにおける学習技術に寄与する。 この研究で使用されるデータセットのコードとリンクはhttps://github.com/amir-kazemi/uav-rf-id.comで公開されている。

This work addresses the challenge of identifying Unmanned Aerial Vehicles (UAV) using radiofrequency (RF) fingerprinting in limited RF environments. The complexity and variability of RF signals, influenced by environmental interference and hardware imperfections, often render traditional RF-based identification methods ineffective. To address these complications, the study introduces the rigorous use of one-shot generative methods for augmenting transformed RF signals, offering a significant improvement in UAV identification. This approach shows promise in low-data regimes, outperforming deep generative methods like conditional generative adversarial networks (GANs) and variational auto-encoders (VAEs). The paper provides a theoretical guarantee for the effectiveness of one-shot generative models in augmenting limited data, setting a precedent for their application in limited RF environments. This research contributes to learning techniques in low-data regime scenarios, which may include atypical complex sequences beyond images and videos. The code and links to datasets used in this study are available at https://github.com/amir-kazemi/uav-rf-id.
翻訳日:2024-07-26 20:16:16 公開日:2024-07-24
# 自然勾配ハイブリッド変分推論と深部混合モデルへの応用

Natural Gradient Hybrid Variational Inference with Application to Deep Mixed Models ( http://arxiv.org/abs/2302.13536v2 )

ライセンス: Link先を確認
Weiben Zhang, Michael Stanley Smith, Worapree Maneesoonthorn, Ruben Loaiza-Maya, (参考訳) 大域的パラメータと潜在変数を持つ確率モデルは一般的であり、変動推論(VI)が一般的である。 しかし、既存の手法は、しばしば高次元において遅いか不正確なかのどちらかである。 本稿では,大域的パラメータと潜伏変数の結合後部を対象とする,明確に定義された自然勾配変動最適化を用いた高速かつ高精度なVI法を提案する。 各ステップで大域的パラメータを自然勾配を用いて更新し、その条件付き後部から潜伏変数を生成するハイブリッド手法である。 チコノフ減衰フィッシャー情報行列の高速計算式と再パラメータ化トリックを用いて、安定な自然勾配を与える。 本研究では,不均一性を実現するために,ランダムな出力層係数を持つベイズニューラルネットワークの新たなクラスであるディープ・ミックス・モデルにアプローチを適用する。 いくつかのシミュレーションでは、自然勾配は通常の勾配よりもかなり効率的であり、アプローチは2つの最先端の自然勾配 VI 法よりも高速で精度が高いことが示されている。 金融アプリケーションでは、深層混合モデルを用いた産業レベルの不均一性を考慮した会計により、資産価格モデルの精度が向上することを示す。 メソッドを実装するためのMATLABコードは、https://github.com/WeibenZhang07/NG-HVIにある。

Stochastic models with global parameters and latent variables are common, and for which variational inference (VI) is popular. However, existing methods are often either slow or inaccurate in high dimensions. We suggest a fast and accurate VI method for this case that employs a well-defined natural gradient variational optimization that targets the joint posterior of the global parameters and latent variables. It is a hybrid method, where at each step the global parameters are updated using the natural gradient and the latent variables are generated from their conditional posterior. A fast to compute expression for the Tikhonov damped Fisher information matrix is used, along with the re-parameterization trick, to provide a stable natural gradient. We apply the approach to deep mixed models, which are an emerging class of Bayesian neural networks with random output layer coefficients to allow for heterogeneity. A range of simulations show that using the natural gradient is substantially more efficient than using the ordinary gradient, and that the approach is faster and more accurate than two cutting-edge natural gradient VI methods. In a financial application we show that accounting for industry level heterogeneity using the deep mixed model improves the accuracy of asset pricing models. MATLAB code to implement the method can be found at: https://github.com/WeibenZhang07/NG-HVI.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-24
# ドメインターゲット拡張による自然言語推論モデルへのロバストネスの蒸留

Distilling Robustness into Natural Language Inference Models with Domain-Targeted Augmentation ( http://arxiv.org/abs/2305.13067v3 )

ライセンス: Link先を確認
Joe Stacey, Marek Rei, (参考訳) 知識蒸留は、より小さな学生モデルがより大きな教師モデルと同じように振る舞うことを最適化し、パフォーマンス上の利点のいくつかを保持する。 本手法は, 分布内例の結果を改善することができるが, 必ずしも分布外設定(OOD)に一般化するとは限らない。 OODドメイン上で得られた学生モデルの堅牢性を改善するための2つの補完的手法について検討する。 第一のアプローチは、ターゲットの分布にマッチする未ラベルの例で蒸留を増強する。 第2の方法は、目標分布に類似したトレーニングセット内のデータポイントをサンプリングする。 自然言語推論 (NLI) の課題に適用した場合, MNLI を用いた実験により, これらの修飾による蒸留が従来のロバスト性解よりも優れていることが示された。 また,これらの手法により,OODドメインの性能が目標ドメインを超えて向上していることが判明した。

Knowledge distillation optimises a smaller student model to behave similarly to a larger teacher model, retaining some of the performance benefits. While this method can improve results on in-distribution examples, it does not necessarily generalise to out-of-distribution (OOD) settings. We investigate two complementary methods for improving the robustness of the resulting student models on OOD domains. The first approach augments the distillation with generated unlabelled examples that match the target distribution. The second method upsamples data points among the training set that are similar to the target distribution. When applied on the task of natural language inference (NLI), our experiments on MNLI show that distillation with these modifications outperforms previous robustness solutions. We also find that these methods improve performance on OOD domains even beyond the target domain.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-24
# 最も一般的な原因は

The most likely common cause ( http://arxiv.org/abs/2306.17557v2 )

ライセンス: Link先を確認
A. Hovhannisyan, A. E. Allahverdyan, (参考訳) 2つの確率変数の共通原因原理である$A$と$B$は、それらの共通原因である$C$が存在することが分かっている場合に因果不備の場合に検討されるが、共同確率は$A$と$B$のみである。 その結果、$C$は一意に特定できない(潜在的共同設立問題)。 この状況に対して一般化された最大極大法が適用可能であることを示し、共通原因原理と整合した$C$の同定を可能にする。 これは最大エントロピー原理と密接に関係している。 2つの二項対称変数の研究は、2階相転移を連想させる条件付き確率の非解析的挙動を明らかにする。 これは、観測された確率分布における相関から反相関への遷移中に起こる。 一般化された可能性アプローチと予測可能性や最小共通原因エントロピーといった代替手法との関係を論じる。 3つの観測変数(および1つの隠れた原因)に対する共通原因の考察は、マルコフ条件付き有向非巡回グラフを通して表現を否定する因果構造を明らかにする。

The common cause principle for two random variables $A$ and $B$ is examined in the case of causal insufficiency, when their common cause $C$ is known to exist, but only the joint probability of $A$ and $B$ is observed. As a result, $C$ cannot be uniquely identified (the latent confounder problem). We show that the generalized maximum likelihood method can be applied to this situation and allows identification of $C$ that is consistent with the common cause principle. It closely relates to the maximum entropy principle. Investigation of the two binary symmetric variables reveals a non-analytic behavior of conditional probabilities reminiscent of a second-order phase transition. This occurs during the transition from correlation to anti-correlation in the observed probability distribution. The relation between the generalized likelihood approach and alternative methods, such as predictive likelihood and the minimum common cause entropy, is discussed. The consideration of the common cause for three observed variables (and one hidden cause) uncovers causal structures that defy representation through directed acyclic graphs with the Markov condition.
翻訳日:2024-07-26 20:06:09 公開日:2024-07-24
# POCKET:特徴選択から見た時系列分類のためのランダム畳み込みカーネル

POCKET: Pruning Random Convolution Kernels for Time Series Classification from a Feature Selection Perspective ( http://arxiv.org/abs/2309.08499v4 )

ライセンス: Link先を確認
Shaowu Chen, Weize Sun, Lei Huang, Xiaopeng Li, Qingyuan Wang, Deepu John, (参考訳) 近年、ROCKETとMINIROCKETという2つの競合時系列分類モデルが、トレーニングコストの低さと高い精度で注目されている。 しかし、リソース制約のあるデバイスと互換性のない機能を包括的にキャプチャするために、多数のランダムな1-D畳み込みカーネルに依存している。 冗長カーネルを認識およびプルークするために設計されたヒューリスティックアルゴリズムの開発にもかかわらず、進化的アルゴリズムの本質的な時間的特性は効率的な評価を妨げている。 そこで本研究では,分類器に最小限に寄与する特徴群を除去し,関連するランダムカーネルを直接評価せずに破棄する。 この目的のために、グループレベル(l_{2,1}$-norm)と要素レベル(l_2$-norm)の正規化の両方を分類器に組み込み、プルーニングチャレンジを群弾性ネット分類問題として定式化する。 ADMMに基づくアルゴリズムは、当初はこの問題を解決するために導入されたが、計算集約的である。 ADMMに基づくアルゴリズムをベースとして,タスクを2段階に分割することで処理を著しく高速化するコアアルゴリズムであるPOCKETを提案する。 ステージ1では、PockETは動的に変化するペナルティを利用して分類器内のグループ間隔を効率的に達成し、ゼロウェイトとその対応するカーネルに関連する特徴を除去する。 ステージ2では、残りのカーネルと機能は、パフォーマンスを向上させるために$l2$-regularized classifierに適合するために使用される。 多様な時系列データセットによる実験結果から、POCKETは精度を著しく低下させることなく最大60%のカーネルを産み出し、それよりも11$\times$高速に動作していることがわかった。 私たちのコードはhttps://github.com/ShaowuChen/POCKET.comで公開されています。

In recent years, two competitive time series classification models, namely, ROCKET and MINIROCKET, have garnered considerable attention due to their low training cost and high accuracy. However, they rely on a large number of random 1-D convolutional kernels to comprehensively capture features, which is incompatible with resource-constrained devices. Despite the development of heuristic algorithms designed to recognize and prune redundant kernels, the inherent time-consuming nature of evolutionary algorithms hinders efficient evaluation. To efficiently prune models, this paper eliminates feature groups contributing minimally to the classifier, thereby discarding the associated random kernels without direct evaluation. To this end, we incorporate both group-level ($l_{2,1}$-norm) and element-level ($l_2$-norm) regularizations to the classifier, formulating the pruning challenge as a group elastic net classification problem. An ADMM-based algorithm is initially introduced to solve the problem, but it is computationally intensive. Building on the ADMM-based algorithm, we then propose our core algorithm, POCKET, which significantly speeds up the process by dividing the task into two sequential stages. In Stage 1, POCKET utilizes dynamically varying penalties to efficiently achieve group sparsity within the classifier, removing features associated with zero weights and their corresponding kernels. In Stage 2, the remaining kernels and features are used to refit a $l_2$-regularized classifier for enhanced performance. Experimental results on diverse time series datasets show that POCKET prunes up to 60% of kernels without a significant reduction in accuracy and performs 11$\times$ faster than its counterparts. Our code is publicly available at https://github.com/ShaowuChen/POCKET.
翻訳日:2024-07-26 19:56:25 公開日:2024-07-24
# メタラーニングにおけるアクティブラーニングの探求 - コンテキストセットラベリングの強化

Exploring Active Learning in Meta-Learning: Enhancing Context Set Labeling ( http://arxiv.org/abs/2311.02879v3 )

ライセンス: Link先を確認
Wonho Bae, Jing Wang, Danica J. Sutherland, (参考訳) ほとんどのメタ学習手法は、テスト時に新しいタスクを確立するのに使用される(非常に小さい)コンテキストセットが受動的に提供されると仮定する。 しかし、ある設定では、どのポイントをラベルにするかを積極的に選択することは可能であり、慎重に選択することによる潜在的な利益は相当であるが、典型的なアクティブな学習設定との大きな違いが必要である。 メタラーニングプロセスのどの部分がアクティブラーニングを使用するかによって、アクティブなメタラーニングを用いてコンテキストセットをラベル付けする方法を明確にする。 本枠組みでは,ラベルのどの点を選択するかを選択するため,ガウス混合に適合した自然なアルゴリズムを提案する。 提案アルゴリズムは、複数のベンチマークデータセットにまたがる様々なメタラーニングアルゴリズムを使用する場合、最先端のアクティブラーニング手法より優れている。

Most meta-learning methods assume that the (very small) context set used to establish a new task at test time is passively provided. In some settings, however, it is feasible to actively select which points to label; the potential gain from a careful choice is substantial, but the setting requires major differences from typical active learning setups. We clarify the ways in which active meta-learning can be used to label a context set, depending on which parts of the meta-learning process use active learning. Within this framework, we propose a natural algorithm based on fitting Gaussian mixtures for selecting which points to label; though simple, the algorithm also has theoretical motivation. The proposed algorithm outperforms state-of-the-art active learning methods when used with various meta-learning algorithms across several benchmark datasets.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-24
# 連続クラスタリングによるLiDARセンサの低レイテンシインスタンス分割

Low Latency Instance Segmentation by Continuous Clustering for LiDAR Sensors ( http://arxiv.org/abs/2311.13976v2 )

ライセンス: Link先を確認
Andreas Reich, Mirko Maehlisch, (参考訳) LiDARポイントクラウドの低レイテンシインスタンスセグメンテーションは、ロボットの知覚パイプラインにおいて、初期的で頻繁に使用されるビルディングブロックとして機能するため、現実世界のアプリケーションでは不可欠である。 特に動的環境において、この全遅延は、高速道路のシナリオに見られるように、動的物体のかなりの位置オフセットをもたらす。 この問題に対処するために、私たちは継続的クラスタリングと呼ばれる新しいテクニックを採用しています。 LiDARセンサーの完全な革命を利用する既存のクラスタリングアプローチとは異なり、データストリームを連続的かつシームレスに処理します。 我々のアプローチは、複数の離散レンジイメージを持つ完全あるいは部分的なセンサー回転の概念に依存しず、その代わりに、レンジイメージを単一かつ無限に水平に成長するエンティティと見なしている。 この連続範囲画像の新しい列は、利用可能になったらすぐに処理される。 障害物ポイントは、既存のインスタンスにリアルタイムでクラスタ化され、革命の完了や他の統合期間を待たずに公開するために、インスタンスが完了する高周波でチェックされる。 回転センサの場合、終端点とスキャン開始点との間に問題のある不連続性はみられない。 本研究では, 連続クラスタリングのための2層データ構造とそれに対応するアルゴリズムについて述べる。 クラスタ内のすべてのポイントの最新のタイムスタンプに対して、平均レイテンシを5ミリ秒で達成することができる。 ソースコードはhttps://github.com/UniBwTAS/continuous_clustering.comで公開しています。

Low-latency instance segmentation of LiDAR point clouds is crucial in real-world applications because it serves as an initial and frequently-used building block in a robot's perception pipeline, where every task adds further delay. Particularly in dynamic environments, this total delay can result in significant positional offsets of dynamic objects, as seen in highway scenarios. To address this issue, we employ a new technique, which we call continuous clustering. Unlike most existing clustering approaches, which use a full revolution of the LiDAR sensor, we process the data stream in a continuous and seamless fashion. Our approach does not rely on the concept of complete or partial sensor rotations with multiple discrete range images; instead, it views the range image as a single and infinitely horizontally growing entity. Each new column of this continuous range image is processed as soon it is available. Obstacle points are clustered to existing instances in real-time and it is checked at a high-frequency which instances are completed in order to publish them without waiting for the completion of the revolution or some other integration period. In the case of rotating sensors, no problematic discontinuities between the points of the end and the start of a scan are observed. In this work we describe the two-layered data structure and the corresponding algorithm for continuous clustering. It is able to achieve an average latency of just 5 ms with respect to the latest timestamp of all points in the cluster. We are publishing the source code at https://github.com/UniBwTAS/continuous_clustering.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-24
# スマートフォン用ディープハイブリッドカメラ

Deep Hybrid Camera Deblurring for Smartphone Cameras ( http://arxiv.org/abs/2312.13317v2 )

ライセンス: Link先を確認
Jaesung Rim, Junyong Lee, Heemin Yang, Sunghyun Cho, (参考訳) モバイルカメラは、大きな進歩にもかかわらず、コンパクトなセンサーやレンズによって低照度の撮像が難しいため、露出が長くなり、動きがぼやけてしまう。 従来のブラインドデコンボリューション法や学習ベースのデブロワーリング法は、ぼやけを取り除く潜在的な解決策となり得る。 しかし、実際的なパフォーマンスを達成することは依然として課題である。 そこで我々は,広角・超広角カメラをハイブリッドカメラシステムとして活用した,スマートフォン用学習型デブロアリングフレームワークを提案する。 広視野画像と短視野バースト画像とを同時に撮影し,そのバースト画像を用いて広視野画像を損なう。 バースト超広視野画像をフル活用するために,新しいデブロアリングネットワーク,HC-DNet,HC-FNetを含む実用的なデブロアリングフレームワークであるHCDeblurを提案する。 HC-DNetは、バースト画像から抽出した動き情報を利用して広視野画像を復号し、HC-FNetはバースト画像を基準画像として利用して、デブリ出力をさらに強化する。 提案手法を訓練し,評価するために,合成および実世界のデータセットからなるHCBlurデータセットを提案する。 実験により, HCDeblurは最先端の劣化品質を達成できることが示された。 コードとデータセットはhttps://cg.postech.ac.kr/research/HCDeblur.orgで公開されている。

Mobile cameras, despite their significant advancements, still have difficulty in low-light imaging due to compact sensors and lenses, leading to longer exposures and motion blur. Traditional blind deconvolution methods and learning-based deblurring methods can be potential solutions to remove blur. However, achieving practical performance still remains a challenge. To address this, we propose a learning-based deblurring framework for smartphones, utilizing wide and ultra-wide cameras as a hybrid camera system. We simultaneously capture a long-exposure wide image and short-exposure burst ultra-wide images, and utilize the burst images to deblur the wide image. To fully exploit burst ultra-wide images, we present HCDeblur, a practical deblurring framework that includes novel deblurring networks, HC-DNet and HC-FNet. HC-DNet utilizes motion information extracted from burst images to deblur a wide image, and HC-FNet leverages burst images as reference images to further enhance a deblurred output. For training and evaluating the proposed method, we introduce the HCBlur dataset, which consists of synthetic and real-world datasets. Our experiments demonstrate that HCDeblur achieves state-of-the-art deblurring quality. Code and datasets are available at https://cg.postech.ac.kr/research/HCDeblur.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-24
# 産業4.0における統一産業大知識モデルフレームワークとスマートマニュファクチャリング

A Unified Industrial Large Knowledge Model Framework in Industry 4.0 and Smart Manufacturing ( http://arxiv.org/abs/2312.14428v3 )

ライセンス: Link先を確認
Jay Lee, Hanqi Su, (参考訳) 近年の大規模言語モデル(LLM)の出現は、人工知能の可能性を示し、産業4.0とスマート製造の新しい機会を明らかにしている。 しかし、これらのLSMを産業に適用する際、主にドメイン固有の知識ではなく、一般的な知識に関するトレーニングのために顕著なギャップが存在する。 このような専門的なドメイン知識は、産業アプリケーションの複雑なニーズに効果的に対処するために不可欠である。 このギャップを埋めるために,本稿では,将来の産業に革命をもたらす可能性を強調する統一産業大知識モデル(ILKM)フレームワークを提案する。 さらに、ILKMとLLMは8つの視点から比較される。 最後に、ILKM開発のガイドラインとして「6S原則」が提案され、産業用4.0およびスマート製造におけるILKMの展開の可能性をいくつか強調されている。

The recent emergence of large language models (LLMs) demonstrates the potential for artificial general intelligence, revealing new opportunities in Industry 4.0 and smart manufacturing. However, a notable gap exists in applying these LLMs in industry, primarily due to their training on general knowledge rather than domain-specific knowledge. Such specialized domain knowledge is vital for effectively addressing the complex needs of industrial applications. To bridge this gap, this paper proposes a unified industrial large knowledge model (ILKM) framework, emphasizing its potential to revolutionize future industries. In addition, ILKMs and LLMs are compared from eight perspectives. Finally, the "6S Principle" is proposed as the guideline for ILKM development, and several potential opportunities are highlighted for ILKM deployment in Industry 4.0 and smart manufacturing.
翻訳日:2024-07-26 19:46:37 公開日:2024-07-24
# 音声テキスト分類のためのカスケードクロスモード変換器

Cascaded Cross-Modal Transformer for Audio-Textual Classification ( http://arxiv.org/abs/2401.07575v2 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Andrei Anghel, Radu Tudor Ionescu, (参考訳) 音声分類タスクは、有用な特徴を把握するために強力な言語理解モデルを必要とすることが多い。 音声認識(ASR)モデルを用いて音声を翻訳し、事前訓練された翻訳モデルを用いて異なる言語に翻訳することで、より優れた分類性能を実現するために、マルチモーダル表現の固有値を活用することを提案する。 これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。 その後、言語固有の双方向エンコーダ表現(BERT)とWav2Vec2.0オーディオ機能を、新しいケースドクロスモーダルトランス(CCMT)を介して組み合わせる。 我々のモデルは2つのカスケードトランスブロックに基づいている。 1つは異なる言語からテキスト固有の特徴を合成し、もう1つは第1のトランスフォーマーブロックによって以前に学習された多言語特徴と音響特徴を結合する。 我々は,ACM Multimedia 2023 Computational Paralinguistics Challengeの要求サブアーキテクチャに,我々のシステムを採用した。 CCMTは、それぞれ65.41%と85.87%の非重み付き平均リコール(UAR)を得たと宣言された。 さらに,我々のフレームワークを音声コマンド v2 と HarperValleyBank のダイアログデータセットに適用した。 私たちのコードは、https://github.com/ristea/ccmt.comから無料でダウンロードできます。

Speech classification tasks often require powerful language understanding models to grasp useful features, which becomes problematic when limited training data is available. To attain superior classification performance, we propose to harness the inherent value of multimodal representations by transcribing speech using automatic speech recognition (ASR) models and translating the transcripts into different languages via pretrained translation models. We thus obtain an audio-textual (multimodal) representation for each data sample. Subsequently, we combine language-specific Bidirectional Encoder Representations from Transformers (BERT) with Wav2Vec2.0 audio features via a novel cascaded cross-modal transformer (CCMT). Our model is based on two cascaded transformer blocks. The first one combines text-specific features from distinct languages, while the second one combines acoustic features with multilingual features previously learned by the first transformer block. We employed our system in the Requests Sub-Challenge of the ACM Multimedia 2023 Computational Paralinguistics Challenge. CCMT was declared the winning solution, obtaining an unweighted average recall (UAR) of 65.41% and 85.87% for complaint and request detection, respectively. Moreover, we applied our framework on the Speech Commands v2 and HarperValleyBank dialog data sets, surpassing previous studies reporting results on these benchmarks. Our code is freely available for download at: https://github.com/ristea/ccmt.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-24
# 自由なプルーネ:初期化時のプルーニングに対する情報理論障壁

No Free Prune: Information-Theoretic Barriers to Pruning at Initialization ( http://arxiv.org/abs/2402.01089v2 )

ライセンス: Link先を確認
Tanishq Kumar, Kevin Luo, Mark Sellke, (参考訳) ローンチケット」arXiv:1803.03635の存在は、ディープラーニングに大規模なモデルが必要なのか、あるいは、それらを含む密密なモデルを訓練することなく、スパースネットワークを素早く識別し、訓練することができるのかという具体的な疑問を提起する。 しかし、これらの粗いサブネットを訓練せずに見つける試み(初期化時に打ち切る)は、arXiv:2009.08576で広く失敗している。 そこで我々は, モデルの有効性パラメータカウントである$p_\text{eff}$に基づいて, 最終ネットワークにおける非ゼロ重み数と空間マスクとデータ間の相互情報との和から, 理論的に説明を行った。 我々は、arXiv:2105.12806のロバスト性法則を、通常のパラメータカウントを$p_\text{eff}$に置き換えたスパースネットワークに拡張する。 トレーニング前後のプルーニングは初期化時にプルーニングしたマスクよりも高い相互情報を有するマスクを出力する。 したがって、2つのネットワークは同じ間隔を持つかもしれないが、トレーニング方法によって有効パラメータ数が異なる。 これは、初期化に近いプルーニングは実現不可能であり、なぜ宝くじがあるのかを説明するが、高速に見つけることができない(すなわち、完全なネットワークを訓練せずに)。 ニューラルネットワークの実験では、トレーニング中に得られた情報がモデル能力に影響を与える可能性があることが確認されている。

The existence of "lottery tickets" arXiv:1803.03635 at or near initialization raises the tantalizing question of whether large models are necessary in deep learning, or whether sparse networks can be quickly identified and trained without ever training the dense models that contain them. However, efforts to find these sparse subnetworks without training the dense model ("pruning at initialization") have been broadly unsuccessful arXiv:2009.08576. We put forward a theoretical explanation for this, based on the model's effective parameter count, $p_\text{eff}$, given by the sum of the number of non-zero weights in the final network and the mutual information between the sparsity mask and the data. We show the Law of Robustness of arXiv:2105.12806 extends to sparse networks with the usual parameter count replaced by $p_\text{eff}$, meaning a sparse neural network which robustly interpolates noisy data requires a heavily data-dependent mask. We posit that pruning during and after training outputs masks with higher mutual information than those produced by pruning at initialization. Thus two networks may have the same sparsities, but differ in effective parameter count based on how they were trained. This suggests that pruning near initialization may be infeasible and explains why lottery tickets exist, but cannot be found fast (i.e. without training the full network). Experiments on neural networks confirm that information gained during training may indeed affect model capacity.
翻訳日:2024-07-26 19:36:52 公開日:2024-07-24
# Vec2TextのDense Retrievalシステムに対する脅威の理解と軽減

Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems ( http://arxiv.org/abs/2402.12784v2 )

ライセンス: Link先を確認
Shengyao Zhuang, Bevan Koopman, Xiaoran Chu, Guido Zuccon, (参考訳) テキスト埋め込みのインバージョン方法であるVec2Textの出現は、OpenAIやCohereが提供するようなテキスト埋め込みを使用する高密度検索システムに対して、深刻なプライバシー上の懸念を提起している。 この脅威は、悪意のある攻撃者が埋め込みにアクセスして元のテキストを再構築する能力に起因している。 本稿では,Vec2Textによるテキスト復元に影響を及ぼすであろう埋め込みモデルに関連する諸要因について検討する。 本稿では,従来のVec2Text論文では考慮されていなかった距離測定,プール機能,ボトルネック事前学習,ノイズ付加によるトレーニング,量子化の埋め込み,埋め込み次元などの要因について検討する。 これらの要因の包括的分析を通じて,本研究の目的は,高密度検索システムのテキスト復元可能性と検索効率のトレードオフに影響を与える重要な要素を深く理解することであり,プライバシーに配慮した高密度検索システムを設計する実践者に対して洞察を提供することである。 また,リカバリ可能性のリスクを軽減しつつ,同等のランク付けを保証できる簡易な埋め込み変換修正を提案する。 全体としては、Vec2Textは現在の高密度検索システムに脅威をもたらす可能性があるが、そのようなシステムにパッチを当てる効果的な方法がいくつかある。

The emergence of Vec2Text -- a method for text embedding inversion -- has raised serious privacy concerns for dense retrieval systems which use text embeddings, such as those offered by OpenAI and Cohere. This threat comes from the ability for a malicious attacker with access to embeddings to reconstruct the original text. In this paper, we investigate various factors related to embedding models that may impact text recoverability via Vec2Text. We explore factors such as distance metrics, pooling functions, bottleneck pre-training, training with noise addition, embedding quantization, and embedding dimensions, which were not considered in the original Vec2Text paper. Through a comprehensive analysis of these factors, our objective is to gain a deeper understanding of the key elements that affect the trade-offs between the text recoverability and retrieval effectiveness of dense retrieval systems, offering insights for practitioners designing privacy-aware dense retrieval systems. We also propose a simple embedding transformation fix that guarantees equal ranking effectiveness while mitigating the recoverability risk. Overall, this study reveals that Vec2Text could pose a threat to current dense retrieval systems, but there are some effective methods to patch such systems.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-24
# 医用画像データセットの自己教師型可視化

Self-supervised Visualisation of Medical Image Datasets ( http://arxiv.org/abs/2402.14566v2 )

ライセンス: Link先を確認
Ifeoma Veronica Nwabufo, Jan Niklas Böhm, Philipp Berens, Dmitry Kobak, (参考訳) SimCLR、BYOL、DINOなどのデータ拡張に基づく自己教師付き学習手法により、画像データセットの意味論的意味のある表現が得られ、教師付き微調整の前に広く使用される。 最近の自己教師型学習手法である$t$-SimCNEは、コントラスト学習を用いて、視覚化に適した2D表現を直接訓練する。 自然画像データセットに適用すると、$t$-SimCNEは意味論的に意味のあるクラスタを持つ2Dヴィジュアライゼーションが得られる。 本研究では、皮膚科学、組織学、血液顕微鏡などの医療画像データセットの可視化に$t$-SimCNEを使用しました。 その結果、任意の回転を含むデータ拡張の集合の増加は、自然画像に使用されるデータ拡張と比較して、クラス分離性の観点から結果を改善した。 我々の2D表現は、医学的に関係のある構造を示し、データ探索とアノテーションを補助し、データの可視化のための一般的なアプローチを改善するために使用することができる。

Self-supervised learning methods based on data augmentations, such as SimCLR, BYOL, or DINO, allow obtaining semantically meaningful representations of image datasets and are widely used prior to supervised fine-tuning. A recent self-supervised learning method, $t$-SimCNE, uses contrastive learning to directly train a 2D representation suitable for visualisation. When applied to natural image datasets, $t$-SimCNE yields 2D visualisations with semantically meaningful clusters. In this work, we used $t$-SimCNE to visualise medical image datasets, including examples from dermatology, histology, and blood microscopy. We found that increasing the set of data augmentations to include arbitrary rotations improved the results in terms of class separability, compared to data augmentations used for natural images. Our 2D representations show medically relevant structures and can be used to aid data exploration and annotation, improving on common approaches for data visualisation.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-24
# DiCoM -- 胸部X線研究における一般化性向上に向けた異種概念モデリング

DiCoM -- Diverse Concept Modeling towards Enhancing Generalizability in Chest X-Ray Studies ( http://arxiv.org/abs/2402.15534v2 )

ライセンス: Link先を確認
Abhijeet Parida, Daniel Capellan-Martin, Sara Atito, Muhammad Awais, Maria J. Ledesma-Carbayo, Marius G. Linguraru, Syed Muhammad Anwar, (参考訳) 胸部X線(CXR)は,様々な肺・心疾患の診断・予後において重要な役割を担っている。 従来の自動臨床診断ツールの設計戦略は、放射線診断の読み書きと教師付き学習に依存しており、高品質な注釈付きトレーニングデータの面倒な要求が伴う。 この課題に対処するために、セルフ教師付き事前訓練は、多くの下流視覚タスクにおいて教師付き事前訓練よりも優れており、この分野における大きなブレークスルーを示している。 しかし, 臨床画像の特徴から, 自然画像(例えば, ImageNet)の事前訓練とは, 医用画像の事前訓練とは大きく異なる。 本稿では,多様な概念を学習し,CXRデータを効果的に表現するために,学生教師の枠組みを活用する,新しい自己指導型学習パラダイムであるDiverse Concept Modeling(DiCoM)を紹介する。 したがって、画像内の1つのプライマリラベルをモデル化するだけでなく、CXRに固有のすべての概念からの情報を効果的に活用することができる。 事前訓練されたモデルはその後、さまざまなドメイン固有のタスクに対処するように微調整される。 提案するパラダイムは,複数のデータセット上で複数のダウンストリームタスクにまたがるロバストなパフォーマンスを一貫して示しており,事前学習戦略の成功と一般化性を強調している。 本手法の有効性を確立するため,学習した表現のパワーとモデルの収束速度(SoC)を解析した。 さまざまなデータやタスクに対して、DiCoMは他の最先端の事前トレーニング戦略と比較して、ほとんどのケースでより良い結果を得ることができる。 これにより、高いSoCと一般化能力が組み合わさって、広く使われている画像モダリティであるCXRの基礎モデルとしてDiCoMが確立される。

Chest X-Ray (CXR) is a widely used clinical imaging modality and has a pivotal role in the diagnosis and prognosis of various lung and heart related conditions. Conventional automated clinical diagnostic tool design strategies relying on radiology reads and supervised learning, entail the cumbersome requirement of high quality annotated training data. To address this challenge, self-supervised pre-training has proven to outperform supervised pre-training in numerous downstream vision tasks, representing a significant breakthrough in the field. However, medical imaging pre-training significantly differs from pre-training with natural images (e.g., ImageNet) due to unique attributes of clinical images. In this context, we introduce Diverse Concept Modeling (DiCoM), a novel self-supervised training paradigm that leverages a student teacher framework for learning diverse concepts and hence effective representation of the CXR data. Hence, expanding beyond merely modeling a single primary label within an image, instead, effectively harnessing the information from all the concepts inherent in the CXR. The pre-trained model is subsequently fine-tuned to address diverse domain-specific tasks. Our proposed paradigm consistently demonstrates robust performance across multiple downstream tasks on multiple datasets, highlighting the success and generalizability of the pre-training strategy. To establish the efficacy of our methods we analyze both the power of learned representations and the speed of convergence (SoC) of our models. For diverse data and tasks, DiCoM is able to achieve in most cases better results compared to other state-of-the-art pre-training strategies. This when combined with the higher SoC and generalization capabilities positions DiCoM to be established as a foundation model for CXRs, a widely used imaging modality.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-24
# アンシラ支援によるランダウアー限界を超える量子情報の消去

Ancilla-assisted erasure of quantum information beyond Landauer's limit ( http://arxiv.org/abs/2402.15812v2 )

ライセンス: Link先を確認
Carlos Octavio A. Ribeiro Neto, Bertúlio de Lima Bernardo, (参考訳) ランダウアーの原理は、1つの古典的な情報のビットがメモリから消去されたときに放熱される熱の基本的な限界を定め、そのため情報理論と熱力学の直接的なリンクを確立する。 しかし、量子技術の出現とともに、原理を克服する戦略が存在するかどうかという問題が自然に現れる。 本研究では,任意の量子ビット状態を単位確率で消去し,ランダウアーの極限を超えた動作が可能な量子チャネルを提案する。 メモリと対話するためにアンシラキュービットを必要とするこの方法は、CNOTゲートのみに基づいている。 ランダウアー境界の違反は、貯水池温度が所定の限界温度以上で、室温よりかなり低い場合に検証される。

Landauer's principle sets a fundamental limit on the heat dissipated when one classical bit of information is erased from a memory, therefore establishing a direct link between information theory and thermodynamics. However, with the advent of quantum technologies, the question of whether there is a strategy to overcome the principle naturally emerges. In this work, we present a quantum channel that erases any qubit state with unit probability, and is capable of operating beyond Landauer's limit. The method, which requires an ancilla qubit to interact with the memory, is based only on CNOT gates. The violation of the Landauer bound is verified when the reservoir temperature is above a given limit temperature, which can be well below room temperature.
翻訳日:2024-07-26 19:26:49 公開日:2024-07-24
# 病院最適容量管理のための対話型意思決定支援ダッシュボード

An Interactive Decision-Support Dashboard for Optimal Hospital Capacity Management ( http://arxiv.org/abs/2403.15634v3 )

ライセンス: Link先を確認
Felix Parker, Diego A. Martínez, James Scheulen, Kimia Ghobadi, (参考訳) データ駆動型最適化モデルは、特に需要急増時に、キャパシティの効果的な割り当てが最も重要かつ困難な場合に、病院のキャパシティ管理を大幅に改善する可能性がある。 しかし、価値を提供する方法で既存のプロセスにモデルを統合するには、病院管理者が最終的にキャパシティ管理の決定を行う責任があることを認識し、信頼に足る、アクセス可能なツールを慎重に構築する必要がある。 本研究では,サージ期間中に病院の容量管理決定を通知するためのインタラクティブでユーザフレンドリな電子ダッシュボードを開発する。 ダッシュボードには、リアルタイム病院データ、予測分析、最適化モデルが統合されている。 病院の管理者は対話的にパラメータをカスタマイズでき、さまざまなシナリオを探索できる。 ダッシュボードは参加型設計プロセスを通じて作成され、開発チームの病院管理者が実用的な実用性、信頼性、透明性、説明可能性、ユーザビリティを保証する。 新型コロナウイルスのパンデミックの最盛期には、ジョンズホプキンス健康システムにダッシュボードを配置しました。 日常的に使用され、その結果は定期的に病院の指導層に伝達された。 本研究は,病院システム能力管理のためのデータ駆動型対話型意思決定支援ツールの実用化を実証するものである。

Data-driven optimization models have the potential to significantly improve hospital capacity management, particularly during demand surges, when effective allocation of capacity is most critical and challenging. However, integrating models into existing processes in a way that provides value requires recognizing that hospital administrators are ultimately responsible for making capacity management decisions, and carefully building trustworthy and accessible tools for them. In this study, we develop an interactive, user-friendly, electronic dashboard for informing hospital capacity management decisions during surge periods. The dashboard integrates real-time hospital data, predictive analytics, and optimization models. It allows hospital administrators to interactively customize parameters, enabling them to explore a range of scenarios, and provides real-time updates on recommended optimal decisions. The dashboard was created through a participatory design process, involving hospital administrators in the development team to ensure practical utility, trustworthiness, transparency, explainability, and usability. We successfully deployed our dashboard within the Johns Hopkins Health System during the height of the COVID-19 pandemic, addressing the increased need for tools to inform hospital capacity management. It was used on a daily basis, with results regularly communicated to hospital leadership. This study demonstrates the practical application of a prospective, data-driven, interactive decision-support tool for hospital system capacity management.
翻訳日:2024-07-26 19:17:05 公開日:2024-07-24
# AIエージェントによるバイオメディカルディスカバリの強化

Empowering Biomedical Discovery with AI Agents ( http://arxiv.org/abs/2404.02831v2 )

ライセンス: Link先を確認
Shanghua Gao, Ada Fang, Yepeng Huang, Valentina Giunchiglia, Ayush Noori, Jonathan Richard Schwarz, Yasha Ektefaie, Jovana Kondic, Marinka Zitnik, (参考訳) 我々は「AI科学者」を、AIモデルとバイオメディカルツールを実験プラットフォームに統合する協調エージェントを通じて、生物医学研究を促進する懐疑的な学習と推論のシステムとして想定する。 バイオメディカルAIエージェントは、人間の創造性と専門知識と、大規模なデータセットを分析し、仮説空間をナビゲートし、反復的なタスクを実行するAIの能力を組み合わせる。 AIエージェントは、さまざまなタスクに精通し、発見ワークフローを計画し、知識のギャップを特定し緩和するために自己評価を行う。 これらのエージェントは、大きな言語モデルと生成モデルを使用して、継続的な学習のために構造化された記憶を特徴付け、科学知識、生物学的原理、理論を組み込むために機械学習ツールを使用する。 AIエージェントは、仮想細胞シミュレーション、プログラム可能な表現型の制御、細胞回路の設計、新しい治療法の開発など、幅広い領域に影響を与える可能性がある。

We envision "AI scientists" as systems capable of skeptical learning and reasoning that empower biomedical research through collaborative agents that integrate AI models and biomedical tools with experimental platforms. Rather than taking humans out of the discovery process, biomedical AI agents combine human creativity and expertise with AI's ability to analyze large datasets, navigate hypothesis spaces, and execute repetitive tasks. AI agents are poised to be proficient in various tasks, planning discovery workflows and performing self-assessment to identify and mitigate gaps in their knowledge. These agents use large language models and generative models to feature structured memory for continual learning and use machine learning tools to incorporate scientific knowledge, biological principles, and theories. AI agents can impact areas ranging from virtual cell simulation, programmable control of phenotypes, and the design of cellular circuits to developing new therapies.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-24
# AgentKit: 動的グラフによる構造化LLM推論

AgentKit: Structured LLM Reasoning with Dynamic Graphs ( http://arxiv.org/abs/2404.11483v2 )

ライセンス: Link先を確認
Yue Wu, Yewen Fan, So Yeon Min, Shrimai Prabhumoye, Stephen McAleer, Yonatan Bisk, Ruslan Salakhutdinov, Yuanzhi Li, Tom Mitchell, (参考訳) 多機能エージェントのための直感的なLCMプロンプトフレームワーク(AgentKit)を提案する。 AgentKitは、単純な自然言語プロンプトから複雑な"思考プロセス"を明示的に構築するための統一されたフレームワークを提供する。 AgentKitの基本的なビルディングブロックはノードであり、特定のサブタスクの自然言語プロンプトを含んでいる。 ユーザーはLEGOの部品を積み重ねるなど、一連のノードを組み立てる。 ノードの連鎖は、自然に構造化された「思考プロセス」を明示的に強制するように設計することができる。 例えば、論文を書くタスクは、まず思考のプロセスから始めることができる。 1)コアメッセージを識別する。 2 先行研究ギャップ等を特定すること。 AgentKitのノードは、オンザフライの階層的計画、リフレクション、インタラクションからの学習など、さまざまな方法で複数の高度な機能を実装することができる。 加えて、モジュール的な性質と、明示的な人間の思考過程をシミュレートする直感的な設計のため、基本的なエージェントはサブタスクのプロンプトのリストのようにシンプルに実装することができ、プログラミング経験のない人によって設計および調整が可能である。 定量的に、AgentKitによって設計されたエージェントがWebShopおよびCrafter上でSOTA性能を達成することを示す。 これらの進歩は、広範囲のアプリケーションでLLMエージェントを効果的かつアクセスしやすくするAgentKitの可能性を浮き彫りにした。 https://github.com/holmeswww/AgentKit

We propose an intuitive LLM prompting framework (AgentKit) for multifunctional agents. AgentKit offers a unified framework for explicitly constructing a complex "thought process" from simple natural language prompts. The basic building block in AgentKit is a node, containing a natural language prompt for a specific subtask. The user then puts together chains of nodes, like stacking LEGO pieces. The chains of nodes can be designed to explicitly enforce a naturally structured "thought process". For example, for the task of writing a paper, one may start with the thought process of 1) identify a core message, 2) identify prior research gaps, etc. The nodes in AgentKit can be designed and combined in different ways to implement multiple advanced capabilities including on-the-fly hierarchical planning, reflection, and learning from interactions. In addition, due to the modular nature and the intuitive design to simulate explicit human thought process, a basic agent could be implemented as simple as a list of prompts for the subtasks and therefore could be designed and tuned by someone without any programming experience. Quantitatively, we show that agents designed through AgentKit achieve SOTA performance on WebShop and Crafter. These advances underscore AgentKit's potential in making LLM agents effective and accessible for a wider range of applications. https://github.com/holmeswww/AgentKit
翻訳日:2024-07-26 19:07:19 公開日:2024-07-24
# インシデント応答GPT:生成人工知能を用いた交通事故対応計画の作成

IncidentResponseGPT: Generating Traffic Incident Response Plans with Generative Artificial Intelligence ( http://arxiv.org/abs/2404.18550v3 )

ライセンス: Link先を確認
Artur Grigorev, Adriana-Simona Mihaita Khaled Saleh, Yuming Ou, (参考訳) InductionResponseGPTフレームワーク - 生成人工知能(AI)を適用して、トラフィックインシデント応答の効率性と有効性を高める新しいシステムである。 本モデルでは,交通管理当局の意思決定を迅速化することを目的として,地域固有の事故対応ガイドラインを合成し,特定地域に対応するインシデント対応計画を生成する。 本手法は,都市交通ネットワークの全体的影響を最小限に抑えるため,様々な推奨事項(例えば,最適リルーティング戦略,資源ニーズ推定など)を提案することで,インシデント解決時間を短縮することを目的としている。 このシステムは、動的車線閉鎖、最適化されたリルーティング、適切な緊急リソースの派遣など、特定の行動を提案する。 インシデントレスポンセGPTは、人間に提案されたソリューションに近づいた影響最小化や資源効率といった基準に基づいて、生成した応答計画のランク付けを行う。

The proposed IncidentResponseGPT framework - a novel system that applies generative artificial intelligence (AI) to potentially enhance the efficiency and effectiveness of traffic incident response. This model allows for synthesis of region-specific incident response guidelines and generates incident response plans adapted to specific area, aiming to expedite decision-making for traffic management authorities. This approach aims to accelerate incident resolution times by suggesting various recommendations (e.g. optimal rerouting strategies, estimating resource needs) to minimize the overall impact on the urban traffic network. The system suggests specific actions, including dynamic lane closures, optimized rerouting and dispatching appropriate emergency resources. IncidentResponseGPT employs the Technique for Order Preference by Similarity to Ideal Solution (TOPSIS) to rank generated response plans based on criteria like impact minimization and resource efficiency based on their proximity to an human-proposed solution.
翻訳日:2024-07-26 19:07:19 公開日:2024-07-24
# 雑音系における量子化量子論のための変分量子状態準備

Variational quantum state preparation for quantum-enhanced metrology in noisy systems ( http://arxiv.org/abs/2406.01859v2 )

ライセンス: Link先を確認
Juan C. Zuñiga Castro, Jeffrey Larson, Sri Hari Krishna Narayanan, Victor E. Colussi, Michael A. Perlin, Robert J. Lewis-Swan, (参考訳) 雑音環境における量子気象学応用のための最適化された量子状態準備について検討する。 QFI-Optパッケージを用いて,大域回転列からなる低深さ変動量子回路(VQC)を,重畳雑音を受ける量子ビットの連鎖に適用したエンタングリング演算をシミュレートする。 VQCを制御するパラメータは、量子フィッシャー情報を最大化するために数値的に最適化される。 VQCで実装されたエンタングリング操作の詳細にかかわらず、最適量子状態は、異なるデファスレートに関連する定性的な状態、すなわちキャット様、スクイード様、および積状態の3つに広く分類することができる。 本研究は,ノイズやデコヒーレンスの存在下での最先端性能の実現を目的とした,時間・周波数標準や磁気センサなどの絡み合いを利用した次世代量子センサの最適状態調整戦略の設計に関係している。

We investigate optimized quantum state preparation for quantum metrology applications in noisy environments. Using the QFI-Opt package, we simulate a low-depth variational quantum circuit (VQC) composed of a sequence of global rotations and entangling operations applied to a chain of qubits that are subject to dephasing noise. The parameters controlling the VQC are numerically optimized to maximize the quantum Fisher information, which characterizes the ultimate metrological sensitivity of a quantum state with respect to a global rotation. We find that regardless of the details of the entangling operation implemented in the VQC, the optimal quantum states can be broadly classified into a trio of qualitative regimes--cat-like, squeezed-like, and product states--associated with different dephasing rates. Our findings are relevant for designing optimal state-preparation strategies for next-generation quantum sensors exploiting entanglement, such as time and frequency standards and magnetometers, aimed at achieving state-of-the-art performance in the presence of noise and decoherence.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-24
# セルラーニューラルネットワークのための説明生成

Generating Explanations for Cellular Neural Networks ( http://arxiv.org/abs/2406.03253v3 )

ライセンス: Link先を確認
Akshit Sinha, Sreeram Vennam, Charu Sharma, Ponnurangam Kumaraguru, (参考訳) グラフ学習の最近の進歩は、グラフニューラルネットワークによって生成された予測の説明に寄与した。 しかし、既存の方法論は、実世界のデータセットに適用すると、しばしば不足する。 我々は,高次関係のモデル化に長けているセルコンプレックスを用いて高次構造をキャプチャするフレームワークHOGEを紹介する。 実世界では、高次構造は分子やソーシャルネットワークのようにユビキタスであるため、我々の研究はグラフ説明の実用性を大幅に向上させる。 HOGEは従来の方法よりも明確で正確な説明をすることができる。 私たちのメソッドは既存のすべてのグラフ説明器と統合することができ、現在のフレームワークへのシームレスな統合を保証できます。 我々は、GraphXAIベンチマークデータセットを評価し、HOGEは最小の計算オーバーヘッドで改善または同等のパフォーマンスを達成する。 アブレーション研究では、観察された性能向上は、細胞複合体の導入による高次構造に起因することが示されている。

Recent advancements in graph learning contributed to explaining predictions generated by Graph Neural Networks. However, existing methodologies often fall short when applied to real-world datasets. We introduce HOGE, a framework to capture higher-order structures using cell complexes, which excel at modeling higher-order relationships. In the real world, higher-order structures are ubiquitous like in molecules or social networks, thus our work significantly enhances the practical applicability of graph explanations. HOGE produces clearer and more accurate explanations compared to prior methods. Our method can be integrated with all existing graph explainers, ensuring seamless integration into current frameworks. We evaluate on GraphXAI benchmark datasets, HOGE achieves improved or comparable performance with minimal computational overhead. Ablation studies show that the performance gain observed can be attributed to the higher-order structures that come from introducing cell complexes.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-24
# 大規模言語モデルを用いた対話型テキスト・画像検索:プラグ・アンド・プレイアプローチ

Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach ( http://arxiv.org/abs/2406.03411v2 )

ライセンス: Link先を確認
Saehyung Lee, Sangwon Yu, Junsung Park, Jihun Yi, Sungroh Yoon, (参考訳) 本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に主に対処する。 提案手法であるPlugIRは,LLMの一般的な命令追従能力を2つの方法で積極的に活用する。 まず,対話形式の文脈を再構成することにより,既存の視覚的対話データに対して検索モデルを微調整する必要をなくし,任意のブラックボックスモデルの使用を可能にする。 第2に、現在の文脈における検索候補画像の情報に基づいて、目標画像の属性に関する非冗長な質問を生成する。 このアプローチは、生成された質問におけるノイズと冗長性の問題を緩和する。 提案手法の他に,インタラクティブ検索システムの総合的な評価を行うため,新たな評価基準であるBest log Rank Integral (BRI)を提案する。 PlugIRは、さまざまなベンチマークでゼロショットベースラインと微調整ベースラインの両方と比較して、優れたパフォーマンスを示している。 また、PlugIRを含む2つの方法論は、様々な状況において、柔軟に、または別々に適用することができる。 私たちのコードはhttps://github.com/Saehyung-Lee/PlugIR.comで公開されています。

In this paper, we primarily address the issue of dialogue-form context query within the interactive text-to-image retrieval task. Our methodology, PlugIR, actively utilizes the general instruction-following capability of LLMs in two ways. First, by reformulating the dialogue-form context, we eliminate the necessity of fine-tuning a retrieval model on existing visual dialogue data, thereby enabling the use of any arbitrary black-box model. Second, we construct the LLM questioner to generate non-redundant questions about the attributes of the target image, based on the information of retrieval candidate images in the current context. This approach mitigates the issues of noisiness and redundancy in the generated questions. Beyond our methodology, we propose a novel evaluation metric, Best log Rank Integral (BRI), for a comprehensive assessment of the interactive retrieval system. PlugIR demonstrates superior performance compared to both zero-shot and fine-tuned baselines in various benchmarks. Additionally, the two methodologies comprising PlugIR can be flexibly applied together or separately in various situations. Our codes are available at https://github.com/Saehyung-Lee/PlugIR.
翻訳日:2024-07-26 18:57:36 公開日:2024-07-24
# Npix2Cpix: 歴史的文書画像からの透かし検索のための検索分類統合を備えたGANベースの画像変換ネットワーク

Npix2Cpix: A GAN-based Image-to-Image Translation Network with Retrieval-Classification Integration for Watermark Retrieval from Historical Document Images ( http://arxiv.org/abs/2406.03556v2 )

ライセンス: Link先を確認
Utsab Saha, Sawradip Saha, Shaikh Anowarul Fattah, Mohammad Saquib, (参考訳) 古代の透かしの識別と復元は、長い間、コーディコロジーと歴史の主要なトピックであった。 透かしに基づく歴史文書の分類は、その多様性、ノイズのあるサンプル、複数の表現モード、クラスとクラス内変異の微妙な区別により困難である。 本稿では,Npix2Cpixと命名されたU-netベースの条件付き逆数生成ネットワーク(GAN)を改良し,劣化した(ノイズの多い)ピクセルからクリーンなピクセルへの画像変換を行うことにより,ノイズの多い歴史的透かし画像からクリーンで手書きの透かしのない透かし画像に変換する。 画像と画像の変換と敵対学習を用いて、透かしの復元と分類のためのクラッタフリーな画像を生成する。 提案したGANのジェネレータと判別器は、画像間の距離に基づいて2つの損失関数を用いて訓練し、入力ノイズ画像から出力クリーン画像へのマッピングを学習する。 提案したGANを用いて、ノイズの多い透かし画像の事前処理を行った後、シームズをベースとしたワンショット学習が透かし分類に使用される。 大規模な歴史的透かしデータセットの実験結果は、ノイズの多い透かし画像のクリーニングが、高いワンショット分類精度を達成するのに役立つことを証明している。 得られた透かし画像の質的,定量的評価は,提案手法の有効性を明らかにするものである。

The identification and restoration of ancient watermarks have long been a major topic in codicology and history. Classifying historical documents based on watermarks is challenging due to their diversity, noisy samples, multiple representation modes, and minor distinctions between classes and intra-class variations. This paper proposes a modified U-net-based conditional generative adversarial network (GAN) named Npix2Cpix to translate noisy raw historical watermarked images into clean, handwriting-free watermarked images by performing image translation from degraded (noisy) pixels to clean pixels. Using image-to-image translation and adversarial learning, the network creates clutter-free images for watermark restoration and categorization. The generator and discriminator of the proposed GAN are trained using two separate loss functions, each based on the distance between images, to learn the mapping from the input noisy image to the output clean image. After using the proposed GAN to pre-process noisy watermarked images, Siamese-based one-shot learning is employed for watermark classification. Experimental results on a large-scale historical watermark dataset demonstrate that cleaning the noisy watermarked images can help to achieve high one-shot classification accuracy. The qualitative and quantitative evaluation of the retrieved watermarked image highlights the effectiveness of the proposed approach.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-24
# 非構造化データに対する多段階推論

Multi-step Inference over Unstructured Data ( http://arxiv.org/abs/2406.17987v4 )

ライセンス: Link先を確認
Aditya Kalyanpur, Kailash Karthik Saravanakumar, Victor Barres, CJ McFate, Lori Moon, Nati Seifu, Maksim Eremeev, Jose Barrera, Abraham Bautista-Castillo, Eric Brown, David Ferrucci, (参考訳) 大規模言語モデル(LLM)と生成AIの出現は、さまざまな領域にわたる自然言語アプリケーションに革命をもたらした。 しかし、医学、法学、金融などの分野における高い意思決定タスクは、純粋なLLMやRAG(Retrieval-Augmented-Generation)アプローチが提供できないような精度、包括性、論理的一貫性のレベルを必要とする。 Elemental Cognition (EC)では,これらの問題に対処するニューロシンボリックAIプラットフォームを開発した。 このプラットフォームは、知識抽出とアライメントのための微調整LDMと、論理推論、計画、対話的制約解決のための堅牢なシンボリック推論エンジンを統合している。 このプラットフォーム上に構築されたコラボレーティブリサーチアシスタントであるColaについて説明する。 本稿では,これらの領域に固有の多段階推論の課題について論じ,既存のLCM手法の限界を批判し,Coraのニューロシンボリックアプローチがこれらの問題にどのように効果的に対処するかを示す。 本稿では,システムアーキテクチャの概要,知識抽出と形式推論の鍵となるアルゴリズム,そしてCoraの優れた性能をよく知られたLCMやRAGのベースラインと比較した予備評価結果について述べる。

The advent of Large Language Models (LLMs) and Generative AI has revolutionized natural language applications across various domains. However, high-stakes decision-making tasks in fields such as medical, legal and finance require a level of precision, comprehensiveness, and logical consistency that pure LLM or Retrieval-Augmented-Generation (RAG) approaches often fail to deliver. At Elemental Cognition (EC), we have developed a neuro-symbolic AI platform to tackle these problems. The platform integrates fine-tuned LLMs for knowledge extraction and alignment with a robust symbolic reasoning engine for logical inference, planning and interactive constraint solving. We describe Cora, a Collaborative Research Assistant built on this platform, that is designed to perform complex research and discovery tasks in high-stakes domains. This paper discusses the multi-step inference challenges inherent in such domains, critiques the limitations of existing LLM-based methods, and demonstrates how Cora's neuro-symbolic approach effectively addresses these issues. We provide an overview of the system architecture, key algorithms for knowledge extraction and formal reasoning, and present preliminary evaluation results that highlight Cora's superior performance compared to well-known LLM and RAG baselines.
翻訳日:2024-07-26 18:47:24 公開日:2024-07-24
# 非対称メムプールDoSセキュリティ:形式的定義と予測可能なセキュア設計

Asymmetric Mempool DoS Security: Formal Definitions and Provable Secure Designs ( http://arxiv.org/abs/2407.03543v2 )

ライセンス: Link先を確認
Wanning Ding, Yibo Wang, Yuzhe Tang, (参考訳) メムプールはブロックチェーンシステムにおいて、実行前にトランザクションを保留するバッファゾーンとして重要な役割を果たす。 しかし、既存の研究は主に、既に特定された現実世界の攻撃に対する防御を緩和することに焦点を当てている。 本稿では,非対称なDoS攻撃に対して防御可能なセキュアなブロックチェーン・メムプール設計を提案する。 我々は,エビクションに基づく攻撃ベクトルの下で,メムプールの正式なセキュリティ定義を確立する。 提案アルゴリズムは, 排除DoS攻撃の実行コストに対して, 証明可能な低境界を提供することにより, 消去セキュリティを確保する。 実際のトランザクショントレースリプレイによる評価を通じて、‘textsc{saferAd-CP}’は、任意の排除攻撃に対する無視可能なレイテンシと極めて低いバウンダリを示し、ブロックチェーンメムプールの安全性と堅牢性を強調している。

The mempool plays a crucial role in blockchain systems as a buffer zone for pending transactions before they are executed and included in a block. However, existing works primarily focus on mitigating defenses against already identified real-world attacks. This paper introduces secure blockchain-mempool designs capable of defending against any form of asymmetric eviction DoS attacks. We establish formal security definitions for mempools under the eviction-based attack vector. Our proposed secure transaction admission algorithm, named \textsc{saferAd-CP}, ensures eviction-security by providing a provable lower bound on the cost of executing eviction DoS attacks. Through evaluation with real transaction trace replays, \textsc{saferAd-CP} demonstrates negligible latency and significantly high lower bounds against any eviction attack, highlighting its effectiveness and robustness in securing blockchain mempools.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-24
# システム2からシステム1へ

Distilling System 2 into System 1 ( http://arxiv.org/abs/2407.06023v3 )

ライセンス: Link先を確認
Ping Yu, Jing Xu, Jason Weston, Ilia Kulikov, (参考訳) 大規模言語モデル(LLM)は、中間的な思考を生成するために推論中に余分な計算に費やし、より優れた最終応答を生成するのに役立つ。 Chain-of-Thought (Wei et al , 2022)以降、Rephrase and Respond (Deng et al , 2023a)、System 2 Attention (Weston and Sukhbaatar, 2023)、Branch-Solve-Merge (Saha et al , 2023)など多くのシステム2技術が提案されている。 本研究は,システム2において,中間的推論トークンシーケンスを使わずに,システム2技術からLLM世代への高品質出力を<compile'(希釈)する自己指導手法について検討する。 1. 従来の System 1 の性能に比べ, 性能が向上し, 推論コストも System 1 よりも低い結果が得られた。 2. このようなシステム2の蒸留は,今後継続的に学習するAIシステムにとって重要な特徴であり,システム2の能力は,まだうまくいかない推論タスクに焦点を合わせることができると仮定する。

Large language models (LLMs) can spend extra compute during inference to generate intermediate thoughts, which helps to produce better final responses. Since Chain-of-Thought (Wei et al., 2022), many such System 2 techniques have been proposed such as Rephrase and Respond (Deng et al., 2023a), System 2 Attention (Weston and Sukhbaatar, 2023) and Branch-Solve-Merge (Saha et al., 2023). In this work we investigate self-supervised methods to ``compile'' (distill) higher quality outputs from System 2 techniques back into LLM generations without intermediate reasoning token sequences, as this reasoning has been distilled into System 1. We show that several such techniques can be successfully distilled, resulting in improved results compared to the original System 1 performance, and with less inference cost than System 2. We posit that such System 2 distillation will be an important feature of future continually learning AI systems, enabling them to focus System 2 capabilities on the reasoning tasks that they cannot yet do well.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-24
# 大規模スペクトルヌーディングによる数値気象予測技術向上のためのデータ駆動気象モデルの導入

Leveraging data-driven weather models for improving numerical weather prediction skill through large-scale spectral nudging ( http://arxiv.org/abs/2407.06100v2 )

ライセンス: Link先を確認
Syed Zahid Husain, Leo Separovic, Jean-François Caron, Rabah Aider, Mark Buehner, Stéphane Chamberland, Ervig Lapalme, Ron McTaggart-Cowan, Christopher Subich, Paul A. Vaillancourt, Jing Yang, Ayrton Zadra, (参考訳) 運用気象予報は物理学に基づく数値気象予報(NWP)モデルに依存してきた。 近年、データ駆動型人工知能(AI)ベースの気象モデルが出現し、計算性能と競争予測能力が著しく向上し、この状況は混乱に直面している。 しかし、中距離予測のためのデータ駆動モデルは一般的に、低い有効解像度や予測変数の狭い範囲を含む大きな制限に悩まされる。 本研究は、GEM(Global Environmental Multiscale)モデルとGraphCastモデルを用いて、これらの競合するパラダイムの相対的な強みと弱みを示し、それぞれ物理ベースのアプローチとAIベースのアプローチを示す。 物理空間とスペクトル空間の両方における観測と解析に対する2つのモデルからのグローバルな予測を解析することにより、グラフCast予測による大規模予測が、特に長いリード時間においてGEMより優れていることを示す。 この知見に基づくハイブリッドNWP-AIシステムを提案し,GEM予測された大規模状態変数をGraphCast予測に対してスペクトル的に評価し,GEMが気象極端に重要な細部を自由に生成できるようにする。 その結果,このハイブリッド手法は,GEMモデルの予測能力を高めるために,GraphCastの強みを活用できることが示唆された。 重要なことは、トロピカルサイクロンの軌道は、強度に大きな変化を伴わずに精度を上げて予測される。 さらに、この新しいハイブリッドシステムにより、気象学者は、高影響の気象イベントに関連するものを含む、予測変数の完全なセットにアクセスできるようになる。

Operational meteorological forecasting has long relied on physics-based numerical weather prediction (NWP) models. Recently, this landscape is facing disruption by the advent of data-driven artificial intelligence (AI)-based weather models, which offer tremendous computational performance and competitive forecasting skill. However, data-driven models for medium-range forecasting generally suffer from major limitations, including low effective resolution and a narrow range of predicted variables. This study illustrates the relative strengths and weaknesses of these competing paradigms using the GEM (Global Environmental Multiscale) and GraphCast models to represent physics-based and AI-based approaches, respectively. By analyzing global predictions from these two models against observations and analyses in both physical and spectral spaces, this study demonstrates that GraphCast-predicted large scales outperform GEM, particularly for longer lead times. Building on this insight, a hybrid NWP-AI system is proposed, wherein GEM-predicted large-scale state variables are spectrally nudged toward GraphCast predictions, while allowing GEM to freely generate fine-scale details critical for weather extremes. Results indicate that this hybrid approach is capable of leveraging the strengths of GraphCast to enhance the prediction skill of the GEM model. Importantly, trajectories of tropical cyclones are predicted with enhanced accuracy without significant changes in intensity. Furthermore, this new hybrid system ensures that meteorologists have access to a complete set of forecast variables, including those relevant for high-impact weather events.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-24
# 美学を超えて: テキスト・画像モデルにおける文化的能力

Beyond Aesthetics: Cultural Competence in Text-to-Image Models ( http://arxiv.org/abs/2407.06863v3 )

ライセンス: Link先を確認
Nithish Kannen, Arif Ahmad, Marco Andreetto, Vinodkumar Prabhakaran, Utsav Prabhu, Adji Bousso Dieng, Pushpak Bhattacharyya, Shachi Dave, (参考訳) テキスト・ツー・イメージ(T2I)モデルは、さまざまなグローバルなコミュニティで採用され、独自の文化を視覚的に表現するようになっている。 現在のT2Iベンチマークは主に、文化的な能力の重要な側面を見越して、生成した画像の忠実さ、美学、リアリズムに焦点を当てている。 本稿では,文化意識と文化多様性という2つの重要な側面に沿って,T2Iモデルの文化的能力を評価する枠組みを導入するとともに,構造化知識ベースと大規模言語モデルを組み合わせたスケーラブルなアプローチを用いて,この評価を実現する。 特に,本手法を,T2Iモデルの文化的能力を評価するための第1級ベンチマークであるCUBE(Cutural BEnchmark for Text-to-Image Model)の構築に適用する。 CUBEは、異なる地理的文化圏の8か国、および3つの概念(料理、ランドマーク、芸術)に関連する文化的アーティファクトをカバーしている。 CUBEは 1)CUBE-1Kは、文化意識の評価を可能にする高品質なプロンプトのセットであり、 2)CUBE-CSpaceは、文化的多様性を評価するための基盤となる文化的アーティファクトのより大きなデータセットである。 品質重み付きベンディスコアを活用した新しいT2I評価コンポーネントとして,文化多様性も導入する。 本評価は,T2Iアウトプットの文化的多様性を,未指定のプロンプトに対して有意義な洞察を与えるとともに,既存モデルの文化的意識に重大なギャップを生じさせるものである。 我々の方法論は、他の文化地域や概念にも拡張可能であり、世界の人口により良いT2Iモデルの開発を促進することができる。

Text-to-Image (T2I) models are being increasingly adopted in diverse global communities where they create visual representations of their unique cultures. Current T2I benchmarks primarily focus on faithfulness, aesthetics, and realism of generated images, overlooking the critical dimension of cultural competence. In this work, we introduce a framework to evaluate cultural competence of T2I models along two crucial dimensions: cultural awareness and cultural diversity, and present a scalable approach using a combination of structured knowledge bases and large language models to build a large dataset of cultural artifacts to enable this evaluation. In particular, we apply this approach to build CUBE (CUltural BEnchmark for Text-to-Image models), a first-of-its-kind benchmark to evaluate cultural competence of T2I models. CUBE covers cultural artifacts associated with 8 countries across different geo-cultural regions and along 3 concepts: cuisine, landmarks, and art. CUBE consists of 1) CUBE-1K, a set of high-quality prompts that enable the evaluation of cultural awareness, and 2) CUBE-CSpace, a larger dataset of cultural artifacts that serves as grounding to evaluate cultural diversity. We also introduce cultural diversity as a novel T2I evaluation component, leveraging quality-weighted Vendi score. Our evaluations reveal significant gaps in the cultural awareness of existing models across countries and provide valuable insights into the cultural diversity of T2I outputs for under-specified prompts. Our methodology is extendable to other cultural regions and concepts, and can facilitate the development of T2I models that better cater to the global population.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-24
# 半監督的時間的行動定位のための適応的擬似ラベル学習に向けて

Towards Adaptive Pseudo-label Learning for Semi-Supervised Temporal Action Localization ( http://arxiv.org/abs/2407.07673v3 )

ライセンス: Link先を確認
Feixiang Zhou, Bryan Williams, Hossein Rahmani, (参考訳) ノイズを緩和する擬似ラベルは、セミスーパーバイズド・テンポラル・アクション・ローカライゼーション(SS-TAL)において重要な課題である。 既存の手法はしばしば厳密な条件に基づいて擬似ラベルをフィルタリングするが、典型的には分類とローカライゼーションの質を別々に評価し、最適でない擬似ラベルのランク付けと選択に繋がる。 特に、選択された正のラベルの中に不正確な擬似ラベルがあり、信頼されたラベルは誤って負のラベルに割り当てられる。 これらの問題に対処するため, 擬似ラベル選択を容易にするために, 適応型擬似ラベル学習(APL)フレームワークを提案する。 具体的には、ランキング品質を改善するために、分類信頼性と局所化信頼性を協調的に学習し、次いで、共同スコアに基づいて擬似ラベルを動的に選択する適応ラベル品質評価(ALQA)を提案する。 さらに、インスタンスレベルの一貫性判別器(ICD)を提案し、不明瞭な正と潜在的な正を同時に除去し、インスタンス間固有の一貫性に基づいて、より正確な選択をもたらす。 さらに,行動と背景の区別を高めるために,一般教師なしの行動対応コントラスト事前訓練(ACP)を導入し,SS-TALの恩恵を受ける。 THUMOS14とActivityNet v1.3の広範囲な実験により,様々な半教師付き環境下での最先端性能が実証された。

Alleviating noisy pseudo labels remains a key challenge in Semi-Supervised Temporal Action Localization (SS-TAL). Existing methods often filter pseudo labels based on strict conditions, but they typically assess classification and localization quality separately, leading to suboptimal pseudo-label ranking and selection. In particular, there might be inaccurate pseudo labels within selected positives, alongside reliable counterparts erroneously assigned to negatives. To tackle these problems, we propose a novel Adaptive Pseudo-label Learning (APL) framework to facilitate better pseudo-label selection. Specifically, to improve the ranking quality, Adaptive Label Quality Assessment (ALQA) is proposed to jointly learn classification confidence and localization reliability, followed by dynamically selecting pseudo labels based on the joint score. Additionally, we propose an Instance-level Consistency Discriminator (ICD) for eliminating ambiguous positives and mining potential positives simultaneously based on inter-instance intrinsic consistency, thereby leading to a more precise selection. We further introduce a general unsupervised Action-aware Contrastive Pre-training (ACP) to enhance the discrimination both within actions and between actions and backgrounds, which benefits SS-TAL. Extensive experiments on THUMOS14 and ActivityNet v1.3 demonstrate that our method achieves state-of-the-art performance under various semi-supervised settings.
翻訳日:2024-07-26 18:37:36 公開日:2024-07-24
# 非拘束映像における時間的グラウンドインストラクショナルダイアグラム

Temporally Grounding Instructional Diagrams in Unconstrained Videos ( http://arxiv.org/abs/2407.12066v2 )

ライセンス: Link先を確認
Jiahao Zhang, Frederic Z. Zhang, Cristian Rodriguez, Yizhak Ben-Shabat, Anoop Cherian, Stephen Gould, (参考訳) ビデオ中の命令図の形式でクエリのシーケンスを同時にローカライズするという課題について検討する。 これは個々のクエリだけでなく、相互関係も理解する必要がある。 しかし、既存のほとんどの手法は、汎用的な相互排他性や時間的順序といったクエリの固有の構造を無視して、一度に1つのクエリを基底にすることに焦点を当てている。 これにより、異なるステップダイアグラムの予測タイムパンが著しく重複したり、時間順序に反したりし、精度を損なう可能性がある。 本稿では,一連のステップ図を同時に構築することにより,この問題に対処する。 具体的には、ステップダイアグラムの視覚的特徴と学習可能な定数の位置埋め込みとを徹底的に組み合わせて構築した複合クエリを提案する。 コンテントの特徴が異なる複合クエリ間の自己アテンションが抑制され,予測の時間的重複が減少するのに対して,クロスアテンションはコンテンツと位置ジョイントガイダンスによって時間的ミスアライメントを補正する。 ステップダイアグラムのグラウンド化のためのIAWデータセットと自然言語クエリのグラウンド化のためのYouCook2ベンチマークに対するアプローチの有効性を示す。

We study the challenging problem of simultaneously localizing a sequence of queries in the form of instructional diagrams in a video. This requires understanding not only the individual queries but also their interrelationships. However, most existing methods focus on grounding one query at a time, ignoring the inherent structures among queries such as the general mutual exclusiveness and the temporal order. Consequently, the predicted timespans of different step diagrams may overlap considerably or violate the temporal order, thus harming the accuracy. In this paper, we tackle this issue by simultaneously grounding a sequence of step diagrams. Specifically, we propose composite queries, constructed by exhaustively pairing up the visual content features of the step diagrams and a fixed number of learnable positional embeddings. Our insight is that self-attention among composite queries carrying different content features suppress each other to reduce timespan overlaps in predictions, while the cross-attention corrects the temporal misalignment via content and position joint guidance. We demonstrate the effectiveness of our approach on the IAW dataset for grounding step diagrams and the YouCook2 benchmark for grounding natural language queries, significantly outperforming existing methods while simultaneously grounding multiple queries.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-24
# よりロバストな低予算能動学習のための一般化被覆

Generalized Coverage for More Robust Low-Budget Active Learning ( http://arxiv.org/abs/2407.12212v2 )

ライセンス: Link先を確認
Wonho Bae, Junhyug Noh, Danica J. Sutherland, (参考訳) Yehuda et al の ProbCover 法は低予算体制下での活発な学習のためのよく動機付けられたアルゴリズムであり、与えられた半径の球でデータ分布を探索しようとするものである。 しかし,本アルゴリズムの性能は,この半径ハイパーパラメータの選択に極めて敏感であり,チューニングは非常に困難であり,本来のヒューリスティックは頻繁に失敗することを示した。 したがって、特殊ケースとしてのProbCoverの目的を含む一般化された「被覆」の概念を導入する(そして理論的に動機づける)が、超パラメータ選択に対してはるかに堅牢な滑らかな概念を可能にする。 本稿では、このカバレッジを最適化し、ProbCoverのアルゴリズムを一般化する効率的なグリージー手法を提案する。 この目的は、$k$-medoidsの変種によって非グレードに最適化され、他の低予算のアクティブな学習方法との関係を明確にすることができる。 総合的な実験では、MaxHerdingは複数の低予算画像分類ベンチマークにまたがる既存のアクティブな学習手法を超越し、ほとんどの競争的手法よりも計算コストが低い。

The ProbCover method of Yehuda et al. is a well-motivated algorithm for active learning in low-budget regimes, which attempts to "cover" the data distribution with balls of a given radius at selected data points. We demonstrate, however, that the performance of this algorithm is extremely sensitive to the choice of this radius hyper-parameter, and that tuning it is quite difficult, with the original heuristic frequently failing. We thus introduce (and theoretically motivate) a generalized notion of "coverage," including ProbCover's objective as a special case, but also allowing smoother notions that are far more robust to hyper-parameter choice. We propose an efficient greedy method to optimize this coverage, generalizing ProbCover's algorithm; due to its close connection to kernel herding, we call it "MaxHerding." The objective can also be optimized non-greedily through a variant of $k$-medoids, clarifying the relationship to other low-budget active learning methods. In comprehensive experiments, MaxHerding surpasses existing active learning methods across multiple low-budget image classification benchmarks, and does so with less computational cost than most competitive methods.
翻訳日:2024-07-26 18:27:52 公開日:2024-07-24
# 能率・デバイス非依存能動量子状態認証

Efficient and Device-Independent Active Quantum State Certification ( http://arxiv.org/abs/2407.13913v2 )

ライセンス: Link先を確認
Michael Antesberger, Mariana M. E. Schmid, Huan Cao, Borivoje Dakić, Lee A. Rozema, Philip Walther, (参考訳) 絡み合った量子状態は多くの量子技術にとって必須の要素であるが、それらを使用する前に検証する必要がある。 最近の研究は、リソース集約化が禁止されているため、いくつかの興味のあるパラメータを効率的に抽出する手法の開発に重点を置いている。 既存のほとんどのアプローチは、名目上は同一かつ独立な(IID)量子状態のアンサンブルを作成し、その後、アンサンブルの各コピーを測定することに基づいている。 しかし、これは意図した量子タスクに残される状態を残しておらず、IID仮定は常に実験的に成り立つわけではない。 これらの課題を克服するために、我々は、残りの状態の忠実さを証明し、アンサンブルのサブセットのみを測定する量子状態認証(QSC)を実験的に実装した。 能動光スイッチを用いて、2光子ベル状態と3光子GHZ状態の源からランダムにサンプリングし、全アンサンブルを破壊せずに統計的に音質をリアルタイムで報告する。 さらに、当社のQSCプロトコルは、状態が同一であり、デバイス非依存であり、N^{-1}$スケールに近い状態を、測定された$N$の数で達成できるという仮定を取り除いている。 これらの利点により、我々のQSCプロトコルは、大規模量子コンピューティングデバイスのベンチマークに適しており、標準状況と対向状況の両方における絡み合いに依存して、量子通信をデプロイする。

Entangled quantum states are essential ingredients for many quantum technologies, but they must be validated before they are used. As a full characterization is prohibitively resource-intensive, recent work has focused on developing methods to efficiently extract a few parameters of interest, in a so-called verification framework. Most existing approaches are based on preparing an ensemble of nominally identical and independent (IID) quantum states, and then measuring each copy of the ensemble. However, this leaves no states left for the intended quantum tasks and the IID assumptions do not always hold experimentally. To overcome these challenges, we experimentally implement quantum state certification (QSC), which measures only a subset of the ensemble, certifying the fidelity of the remaining states. We use active optical switches to randomly sample from sources of two-photon Bell states and three-photon GHZ states, reporting statistically-sound fidelities in real time without destroying the entire ensemble. Additionally, our QSC protocol removes the assumption that the states are identical, is device-independent, and can achieve close $N^{-1}$ scaling, in the number of states measured $N$. Altogether, these benefits make our QSC protocol suitable for benchmarking large-scale quantum computing devices and deployed quantum communication setups relying on entanglement in both standard and adversarial situations.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-24
# GPT-4は研究論文の要約における動きを学習できるか?

Can GPT-4 learn to analyze moves in research article abstracts? ( http://arxiv.org/abs/2407.15612v2 )

ライセンス: Link先を確認
Danni Yu, Marina Bondi, Ken Hyland, (参考訳) 記述された談話分析において最も強力で永続的な考えの1つは、ジャンルが作家の目的を構成する動きの観点で説明できることである。 重要な研究は、これらの異なるコミュニケーション行為を特定することを目的としているが、分析は主観性、信頼性、そして複数のコーダが分析を確認するのに時間がかかるという問題によって始められた。 本稿では,自然言語のプロンプトを用いてアノテーション処理を自動化するため,GPT-4の余裕を生かした。 応用言語学雑誌4誌の記事の要約に焦点をあてて,モデルが効果的に動きを識別できるプロンプトを考案した。 これらのプロンプトの注釈付き出力は、2つの評価者によって評価され、3番目の不一致に対処した。 その結果、8発のプロンプトは2回より有効であることが示され、可変性の領域を具体化することで、単一の文中の複数の動きを認識でき、テキスト位置に関するバイアスを低減できることが確認された。 我々は,GPT-4がこのアノテーションプロセスの自動化に有意な可能性を示唆する。

One of the most powerful and enduring ideas in written discourse analysis is that genres can be described in terms of the moves which structure a writer's purpose. Considerable research has sought to identify these distinct communicative acts, but analyses have been beset by problems of subjectivity, reliability and the time-consuming need for multiple coders to confirm analyses. In this paper we employ the affordances of GPT-4 to automate the annotation process by using natural language prompts. Focusing on abstracts from articles in four applied linguistics journals, we devise prompts which enable the model to identify moves effectively. The annotated outputs of these prompts were evaluated by two assessors with a third addressing disagreements. The results show that an 8-shot prompt was more effective than one using two, confirming that the inclusion of examples illustrating areas of variability can enhance GPT-4's ability to recognize multiple moves in a single sentence and reduce bias related to textual position. We suggest that GPT-4 offers considerable potential in automating this annotation process, when human actors with domain specific linguistic expertise inform the prompting process.
翻訳日:2024-07-26 18:18:09 公開日:2024-07-24
# Craft: プロンプトチューニングのロバスト性を改善するクロスモーダルアライメント機能

Craft: Cross-modal Aligned Features Improve Robustness of Prompt Tuning ( http://arxiv.org/abs/2407.15894v2 )

ライセンス: Link先を確認
Jingchen Sun, Rohan Sharma, Vishnu Suresh Lokhande, Changyou Chen, (参考訳) Prompt Tuningは、様々な下流タスクに視覚言語モデルを適用するための顕著な研究パラダイムとして登場した。 しかし、最近の研究では、訓練サンプルが限られているため、迅速なチューニングが過度に適合することが多いことが示唆されている。 本稿では,この問題に対処するクロスモーダルアラインド・フィーチャーチューニング(Craft)手法を提案する。 クロスモーダルアライメントは、まず代替ドメインからアンカーを選択し、選択されたアンカーに対する埋め込みの相対表現を導出することによって行われる。 アンカーアライメントされたテキストと画像のモダリティに対する特徴アライメント損失の最適化は、より統一されたテキストイメージの共通スペースを生成する。 即時チューニングにおけるオーバーフィッティングは、アウト・オブ・ディストリビューション・サンプルのモデル性能を低下させる。 そこで本研究では, ドメインシフトを軽減するために, アンカー整列した特徴空間上での最大平均離散性(MMD)を最小化することを提案する。 4つの異なるプロンプトチューニング構造に対する実験は、Base-to-Novelの一般化タスクで最大6.1\%、グループロバストネスタスクで5.8\%、アウト・オブ・ディストリビューションタスクで2.7\%、という方法の改善を一貫して示している。 コードはhttps://github.com/Jingchensun/Craftで入手できる。

Prompt Tuning has emerged as a prominent research paradigm for adapting vision-language models to various downstream tasks. However, recent research indicates that prompt tuning methods often lead to overfitting due to limited training samples. In this paper, we propose a Cross-modal Aligned Feature Tuning (Craft) method to address this issue. Cross-modal alignment is conducted by first selecting anchors from the alternative domain and deriving relative representations of the embeddings for the selected anchors. Optimizing for a feature alignment loss over anchor-aligned text and image modalities creates a more unified text-image common space. Overfitting in prompt tuning also deteriorates model performance on out-of-distribution samples. To further improve the prompt model's robustness, we propose minimizing Maximum Mean Discrepancy (MMD) over the anchor-aligned feature spaces to mitigate domain shift. The experiment on four different prompt tuning structures consistently shows the improvement of our method, with increases of up to $6.1\%$ in the Base-to-Novel generalization task, $5.8\%$ in the group robustness task, and $2.7\%$ in the out-of-distribution tasks. The code will be available at https://github.com/Jingchensun/Craft
翻訳日:2024-07-26 18:18:09 公開日:2024-07-24
# メビウスゲーム:一般相対性理論の量子に触発されたテスト

The Möbius Game: A Quantum-Inspired Test of General Relativity ( http://arxiv.org/abs/2407.17203v1 )

ライセンス: Link先を確認
Eleftherios-Ermis Tselentis, Ämin Baumeler, (参考訳) 時空の動的性質をテストするための厳密な不等式を示す。 この不等式に対する一般相対論的違反は曲率の変化を証明し、ベルの不等式に対する量子力学的違反は絡み合いの源を証明している。 不等式はベル集合の最小の一般化から生じる。 これは、M\"obius graph上でプレイされる協調マルチエージェントゲームの勝利確率の限界を表す。 他のゲームを含むこのレターの長いバージョンと、これらのゲームが祝われる量子スイッチの動的特性を認証する方法は、arXiv:2309.15752 [gr-qc]としてアクセス可能である。

We present a tight inequality to test the dynamical nature of spacetime. A general-relativistic violation of that inequality certifies change of curvature, in the same sense as a quantum-mechanical violation of a Bell inequality certifies a source of entanglement. The inequality arises from a minimal generalization of the Bell setup. It represents a limit on the winning chance of a collaborative multi-agent game played on the M\"obius graph. A long version of this Letter including other games and how these games certify the dynamical character of the celebrated quantum switch is accessible as arXiv:2309.15752 [gr-qc].
翻訳日:2024-07-26 18:08:23 公開日:2024-07-24
# 歯科における創造的人工知能 : 現状と今後の課題

Generative artificial intelligence in dentistry: Current approaches and future challenges ( http://arxiv.org/abs/2407.17532v1 )

ライセンス: Link先を確認
Fabián Villena, Claudia Véliz, Rosario García-Huidobro, Sebastián Aguayo, (参考訳) 人工知能(AI)は、複雑なモデルと対話する自然言語インターフェースを提供することによって、AIのユーザビリティギャップを橋渡しする生成的AI(GenAI)モデルの出現により、人々のコモディティになりつつある。 これらのGenAIモデルは、双方向チャットシステムのようなテキスト生成から、ユーザーが入力したテキスト記述から画像やビデオの生成まで幅広い。 これらのAIの進歩は、歯科医療に様々な面で影響を与えている。 歯科教育では、GenAIモデルのみを刺激し、数秒で答えを得られることで、多くの疑問を解決できる。 GenAIモデルは、実践者が迅速かつ効率的に知識を集めるのを助けることで、より良い患者医療を提供するのに役立つ。 最後に、GenAIは歯科医学研究にも利用でき、新しい薬物発見から学術的な執筆支援まで幅広い応用がある。 このレビューでは、まずGenAIモデルを定義し、その多重世代モダリティを記述し、次に、歯学におけるそれらの現在および潜在的応用について説明し、議論し、最後に、これらの新技術が我々の領域に課す課題について説明する。

Artificial intelligence (AI) has become a commodity for people because of the advent of generative AI (GenAI) models that bridge the usability gap of AI by providing a natural language interface to interact with complex models. These GenAI models range from text generation - such as two-way chat systems - to the generation of image or video from textual descriptions input by a user. These advancements in AI have impacted Dentistry in multiple aspects. In dental education, the student now has the opportunity to solve a plethora of questions by only prompting a GenAI model and have the answer in a matter of seconds. GenAI models can help us deliver better patient healthcare by helping practitioners gather knowledge quickly and efficiently. Finally, GenAI can also be used in dental research, where the applications range from new drug discovery to assistance in academic writing. In this review, we first define GenAI models and describe their multiple generation modalities; then, we explain and discuss their current and potential applications in Dentistry; and finally, we describe the challenges these new technologies impose in our area.
翻訳日:2024-07-26 18:08:23 公開日:2024-07-24
# SFPrompt: リソース制限デバイス上での大規模事前学習モデルのための通信効率の良い分割ファインタニング

SFPrompt: Communication-Efficient Split Federated Fine-Tuning for Large Pre-Trained Models over Resource-Limited Devices ( http://arxiv.org/abs/2407.17533v1 )

ライセンス: Link先を確認
Linxiao Cao, Yifei Zhu, Wei Gong, (参考訳) 訓練済みの大きなモデルは、様々な領域で顕著な成果を上げている。 これらのモデルに関連するかなりのトレーニングコストは、下流タスクを効果的に活用するための微調整の幅広い研究に繋がった。 しかし、従来の微調整アプローチは、モデルがプライバシー上の懸念から下流データにアクセスできない場合、実現不可能になる。 新たなフェデレーション学習フレームワークに微調整のアプローチを統合することで、通信オーバーヘッドが大きくなり、ローカルコンピューティングリソースに高い需要が生じるため、一般的なリソース制限デバイスでは現実的ではない。 本稿では、生データの直接アップロードが禁止され、ローカルデバイスがリソースに制約され、完全に事前訓練されたモデルを実行するというフェデレーション設定に適した、革新的なプライバシー保護細調整手法であるSFPromptを紹介する。 本質的には、SFPromptは分割学習と連合学習を組み合わせてこれらの課題に対処する。 具体的には、事前訓練されたモデルをまずクライアントとサーバコンポーネントに分割し、クライアントサイドモデルを合理化し、ローカルリソースに対する計算要求を大幅に緩和する。 SFPromptはその後、フェデレートされたモデルにソフトプロンプトを導入し、微調整性能を向上させる。 通信コストをさらに削減するため、ファインチューニングプロセス中に、新しいデータセットプルーニングアルゴリズムとローカルロス更新戦略が考案された。 大規模な実験により、SFPromptは、わずか0.46%のローカルコンピューティングリソースを消費し、通信コストを53%削減しながら、完全な微調整アプローチとして競争力を発揮することを示した。

Large pre-trained models have exhibited remarkable achievements across various domains. The substantial training costs associated with these models have led to wide studies of fine-tuning for effectively harnessing their capabilities in solving downstream tasks. Yet, conventional fine-tuning approaches become infeasible when the model lacks access to downstream data due to privacy concerns. Naively integrating fine-tuning approaches with the emerging federated learning frameworks incurs substantial communication overhead and exerts high demand on local computing resources, making it impractical for common resource-limited devices. In this paper, we introduce SFPrompt, an innovative privacy-preserving fine-tuning method tailored for the federated setting where direct uploading of raw data is prohibited and local devices are resource-constrained to run a complete pre-trained model. In essence, SFPrompt judiciously combines split learning with federated learning to handle these challenges. Specifically, the pre-trained model is first partitioned into client and server components, thereby streamlining the client-side model and substantially alleviating computational demands on local resources. SFPrompt then introduces soft prompts into the federated model to enhance the fine-tuning performance. To further reduce communication costs, a novel dataset pruning algorithm and a local-loss update strategy are devised during the fine-tuning process. Extensive experiments demonstrate that SFPrompt delivers competitive performance as the federated full fine-tuning approach while consuming a mere 0.46% of local computing resources and incurring 53% less communication cost.
翻訳日:2024-07-26 18:08:23 公開日:2024-07-24
# LAMBDA: 大規模モデルベースデータエージェント

LAMBDA: A Large Model Based Data Agent ( http://arxiv.org/abs/2407.17535v1 )

ライセンス: Link先を確認
Maojun Sun, Ruijian Han, Binyan Jiang, Houduo Qi, Defeng Sun, Yancheng Yuan, Jian Huang, (参考訳) 我々は,大規模モデルのパワーを利用する,新しいオープンソースのコードフリーマルチエージェントデータ分析システムである `LAMBDA を紹介する。 LAMBDAは、自然言語を用いて反復的で生成的に動作する革新的なデータエージェントを使用することによって、複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。 LAMBDAの中核には、プログラマとインスペクタという、2つの重要なエージェントの役割がある。 具体的には、高度なモデルによって強化された、ユーザの指示とドメイン固有の知識に基づいて、プログラマがコードを生成する。 一方、インスペクタは必要に応じてコードをデバッグする。 堅牢性を確保し、有害なシナリオに対処するため、LAMBDAは運用ループに直接ユーザーを介入できるユーザインターフェースを備えている。 さらに、LAMBDAは知識統合機構を通じて、外部モデルとアルゴリズムを柔軟に統合することができ、カスタマイズされたデータ分析の必要性に対応できます。 LAMBDAは、さまざまな機械学習データセットで強力なパフォーマンスを示している。 それは、人間と人工知能をシームレスに統合することで、データサイエンスの実践と分析パラダイムを強化する可能性があり、多様なバックグラウンドを持つ個人にとってよりアクセスしやすく、効果的、効率的である。 データサイエンス問題の解決におけるLAMBDAの強い性能は、いくつかのケーススタディで実証され、これは \url{https://www.polyu.edu.hk/ama/cmfai/lambda.html} で示されている。

We introduce ``LAMBDA," a novel open-source, code-free multi-agent data analysis system that that harnesses the power of large models. LAMBDA is designed to address data analysis challenges in complex data-driven applications through the use of innovatively designed data agents that operate iteratively and generatively using natural language. At the core of LAMBDA are two key agent roles: the programmer and the inspector, which are engineered to work together seamlessly. Specifically, the programmer generates code based on the user's instructions and domain-specific knowledge, enhanced by advanced models. Meanwhile, the inspector debugs the code when necessary. To ensure robustness and handle adverse scenarios, LAMBDA features a user interface that allows direct user intervention in the operational loop. Additionally, LAMBDA can flexibly integrate external models and algorithms through our knowledge integration mechanism, catering to the needs of customized data analysis. LAMBDA has demonstrated strong performance on various machine learning datasets. It has the potential to enhance data science practice and analysis paradigm by seamlessly integrating human and artificial intelligence, making it more accessible, effective, and efficient for individuals from diverse backgrounds. The strong performance of LAMBDA in solving data science problems is demonstrated in several case studies, which are presented at \url{https://www.polyu.edu.hk/ama/cmfai/lambda.html}.
翻訳日:2024-07-26 18:08:23 公開日:2024-07-24
# 多エージェント動的てんかんシステムのためのプロセス代数的枠組み

A process algebraic framework for multi-agent dynamic epistemic systems ( http://arxiv.org/abs/2407.17537v1 )

ライセンス: Link先を確認
Alessandro Aldini, (参考訳) 本稿では,ラベル付き遷移システムの古典的モデルと,知識の推論のための認識モデルを組み合わせる。 その結果、マルチエージェント、知識ベース、動的システムのモデリングと分析のための統合フレームワークが実現した。 モデリング側では,このようなフレームワークを実用的な目的に使いやすくするプロセス代数的,エージェント指向の仕様言語を提案する。 検証面では、時間的およびてんかん的演算子を含むモーダル論理を定義する。

This paper combines the classical model of labeled transition systems with the epistemic model for reasoning about knowledge. The result is a unifying framework for modeling and analyzing multi-agent, knowledge-based, dynamic systems. On the modeling side, we propose a process algebraic, agent-oriented specification language that makes such a framework easy to use for practical purposes. On the verification side, we define a modal logic encompassing temporal and epistemic operators.
翻訳日:2024-07-26 18:08:23 公開日:2024-07-24
# ニューラルシフト固有直交分解を用いた自動輸送分離

Automated transport separation using the neural shifted proper orthogonal decomposition ( http://arxiv.org/abs/2407.17539v1 )

ライセンス: Link先を確認
Beata Zorawski, Shubhaditya Burela, Philipp Krah, Arthur Marmin, Kai Schneider, (参考訳) 本稿では,SPOD を用いた輸送支配領域の分解のためのニューラルネットワークに基づく手法を提案する。 古典的なsPOD法は通常、移動場を決定するために輸送作用素の事前知識を必要とする。 しかし、現実の多くの問題において、そのような知識は入手が困難または不可能であり、sPODの適用性と利点を制限している。 この問題に対処するために,我々はニューラルネットワークを用いて移動場と協調移動場を同時に推定する。 これは、輸送と共同移動の分野を学ぶための2つのサブネットワークをトレーニングすることで達成される。 合成データや野生の火災モデルへの応用は、このニューラルsPODアプローチの能力と効率を示し、異なるフィールドを効果的に分離する能力を示している。

This paper presents a neural network-based methodology for the decomposition of transport-dominated fields using the shifted proper orthogonal decomposition (sPOD). Classical sPOD methods typically require an a priori knowledge of the transport operators to determine the co-moving fields. However, in many real-life problems, such knowledge is difficult or even impossible to obtain, limiting the applicability and benefits of the sPOD. To address this issue, our approach estimates both the transport and co-moving fields simultaneously using neural networks. This is achieved by training two sub-networks dedicated to learning the transports and the co-moving fields, respectively. Applications to synthetic data and a wildland fire model illustrate the capabilities and efficiency of this neural sPOD approach, demonstrating its ability to separate the different fields effectively.
翻訳日:2024-07-26 18:08:23 公開日:2024-07-24
# データセット分布がモデルフェアネスに影響を及ぼす:シングル対マルチタスク学習

Dataset Distribution Impacts Model Fairness: Single vs. Multi-Task Learning ( http://arxiv.org/abs/2407.17543v1 )

ライセンス: Link先を確認
Ralf Raumanns, Gerard Schouten, Josien P. W. Pluim, Veronika Cheplygina, (参考訳) モデル予測の公平性に対するデータセットのバイアスの影響は、様々な分野で進行中の研究のトピックである。 ResNetベースのCNNを用いて皮膚病変分類の性能を評価し,トレーニングデータにおける患者性差と3つの異なる学習戦略に着目した。 本稿では,これらの変数間の相関を考慮し,患者性別とクラスラベルの異なるデータセットを生成する線形プログラミング手法を提案する。 我々は,3つの異なる学習戦略を用いて,モデル性能を評価した: 単一タスクモデル,強化マルチタスクモデル,および逆学習方式である。 私たちの観察には以下のものがある。 1)性特化トレーニングデータは、より良い結果をもたらす。 2)シングルタスクモデルは性バイアスを示す。 3)強化アプローチは性バイアスを除去しない。 4) 対人モデルでは、女性患者のみを含む場合の性的偏見を排除し、 5) 男性患者を含むデータセットは, 女性患者が多数派である場合でも, 男性サブグループのモデル性能を高める。 これらの知見を一般化するために、今後の研究では、年齢などの人口統計学的特性や、皮膚の色や皮膚病変のアーチファクトといった、おそらく不明瞭な要因について検討する。 私たちはすべてのデータとモデルをGitHubで公開しています。

The influence of bias in datasets on the fairness of model predictions is a topic of ongoing research in various fields. We evaluate the performance of skin lesion classification using ResNet-based CNNs, focusing on patient sex variations in training data and three different learning strategies. We present a linear programming method for generating datasets with varying patient sex and class labels, taking into account the correlations between these variables. We evaluated the model performance using three different learning strategies: a single-task model, a reinforcing multi-task model, and an adversarial learning scheme. Our observations include: 1) sex-specific training data yields better results, 2) single-task models exhibit sex bias, 3) the reinforcement approach does not remove sex bias, 4) the adversarial model eliminates sex bias in cases involving only female patients, and 5) datasets that include male patients enhance model performance for the male subgroup, even when female patients are the majority. To generalise these findings, in future research, we will examine more demographic attributes, like age, and other possibly confounding factors, such as skin colour and artefacts in the skin lesions. We make all data and models available on GitHub.
翻訳日:2024-07-26 18:08:23 公開日:2024-07-24
# ルータ機構に基づくドメインロバスト軽量リワードモデルの探索

Exploring Domain Robust Lightweight Reward Models based on Router Mechanism ( http://arxiv.org/abs/2407.17546v1 )

ライセンス: Link先を確認
Hyuk Namgoong, Jeesu Jung, Sangkeun Jung, Yoonhyung Roh, (参考訳) 近年の大規模言語モデルの進歩は、人間からのフィードバックを微調整するための強化学習から得られる大きな報酬モデルに大きく依存している。 しかし、様々なドメインにまたがる単一の報酬モデルの使用は必ずしも最適とは限りません。 これらの課題に対処するために、我々は、ルータ機構に基づいたドメイン固有の操作を行う小さな言語モデルの利用について検討する。 私たちの3つのアプローチは以下のとおりです。 1)内部ルータとエキスパートをモジュール化することにより、専門家の混在を利用して単一の報酬モデルを形成する。 2)複数のドメイン固有モデルから適切な報酬モデルを選択するために外部ルータを用いる。 3) このフレームワークは, 報酬モデルとルータアダプタを, アダプタを用いた単一小言語モデルにロードすることで, パラメータサイズを小さくする。 実験により,本手法の有効性を実証し,基本手法に匹敵する性能を示すとともに,パラメータの総和も低減した。

Recent advancements in large language models have heavily relied on the large reward model from reinforcement learning from human feedback for fine-tuning. However, the use of a single reward model across various domains may not always be optimal, often requiring retraining from scratch when new domain data is introduced. To address these challenges, we explore the utilization of small language models operating in a domain-specific manner based on router mechanisms. Our three approaches are: 1) utilize mixture of experts to form a single reward model by modularizing an internal router and experts, 2) employing external router to select the appropriate reward model from multiple domain-specific models, and 3) the framework reduces parameter size by loading reward models and router adapters onto a single small language model using adapters. Experimental validation underscores the effectiveness of our approach, demonstrating performance comparable to baseline methods while also reducing the total parameter size.
翻訳日:2024-07-26 18:08:23 公開日:2024-07-24
# MathViz-E: ドメイン特化ツール利用エージェントのケーススタディ

MathViz-E: A Case-study in Domain-Specialized Tool-Using Agents ( http://arxiv.org/abs/2407.17544v1 )

ライセンス: Link先を確認
Arya Bulusu, Brandon Man, Ashish Jagmohan, Aditya Vempaty, Jennifer Mari-Wyka, Deepak Akkil, (参考訳) LLMを多段階の推論、計画、ツール利用を通じてソフトウェアシステムを制御することに、近年大きな関心が寄せられている。 いくつかの有望な結果が得られたが、特定のドメインへの適用は、特殊なドメインツールの制御、トレーニングと評価のための既存のデータセットの欠如、自動システム評価と改善の非自明さなど、いくつかの一般的な問題を提起している。 本稿では,これらの問題を特定のドメインの文脈で検証するケーススタディを提案する。 具体的には,数学教育のための算数ビジュアライザと解法システムを提案する。 このシステムは数学的解法と数学グラフツールを編成し、単純な自然言語コマンドから正確な視覚化を生成する。 本稿では,特殊データセットの作成について述べるとともに,その出力を接地構造表現と比較して評価する自動評価器を開発する。 我々は提案システムのためのデータセットとコードをオープンソース化した。

There has been significant recent interest in harnessing LLMs to control software systems through multi-step reasoning, planning and tool-usage. While some promising results have been obtained, application to specific domains raises several general issues including the control of specialized domain tools, the lack of existing datasets for training and evaluation, and the non-triviality of automated system evaluation and improvement. In this paper, we present a case-study where we examine these issues in the context of a specific domain. Specifically, we present an automated math visualizer and solver system for mathematical pedagogy. The system orchestrates mathematical solvers and math graphing tools to produce accurate visualizations from simple natural language commands. We describe the creation of specialized data-sets, and also develop an auto-evaluator to easily evaluate the outputs of our system by comparing them to ground-truth expressions. We have open sourced the data-sets and code for the proposed system.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# 計算ワークフローにおける異常検出のための大規模言語モデル:教師付き微調整から文脈内学習へ

Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning ( http://arxiv.org/abs/2407.17545v1 )

ライセンス: Link先を確認
Hongwei Jin, George Papadimitriou, Krishnan Raghavan, Pawel Zuk, Prasanna Balaprakash, Cong Wang, Anirban Mandal, Ewa Deelman, (参考訳) 計算ワークフローにおける異常検出は、システムの信頼性とセキュリティを確保するために重要である。 しかし、従来のルールベースの手法は、新しい異常を検出するのに苦労している。 本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。 2つのアプローチが検討されている。 1) 教師付き微調整(SFT)では,文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し,異常を識別する。 2) テキスト内学習(ICL)では, タスク記述や例を含むプロンプトが, 微調整の必要なく, 数発の異常検出を行う。 本稿では、SFTモデルの性能、効率、一般化を評価し、ゼロショットおよび少数ショットのICLプロンプトとチェーン・オブ・シークレット・プロンプトによる解釈可能性の向上について検討する。 複数のワークフローデータセットにまたがる実験は、複雑な実行における効果的な異常検出のためのLLMの有望な可能性を示している。

Anomaly detection in computational workflows is critical for ensuring system reliability and security. However, traditional rule-based methods struggle to detect novel anomalies. This paper leverages large language models (LLMs) for workflow anomaly detection by exploiting their ability to learn complex data patterns. Two approaches are investigated: 1) supervised fine-tuning (SFT), where pre-trained LLMs are fine-tuned on labeled data for sentence classification to identify anomalies, and 2) in-context learning (ICL) where prompts containing task descriptions and examples guide LLMs in few-shot anomaly detection without fine-tuning. The paper evaluates the performance, efficiency, generalization of SFT models, and explores zero-shot and few-shot ICL prompts and interpretability enhancement via chain-of-thought prompting. Experiments across multiple workflow datasets demonstrate the promising potential of LLMs for effective anomaly detection in complex executions.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# ヘテロティックストリングと量子絡み合い

Heterotic Strings and Quantum Entanglement ( http://arxiv.org/abs/2407.17553v1 )

ライセンス: Link先を確認
Atish Dabholkar, Upamanyu Moitra, (参考訳) 量子エンタングルメントエントロピーの計算のための弦的レプリカ法を実装するのに適した10次元ヘテロティック弦理論を$\mathbb{Z}_N$オービフォールドで構成する。 ヘテロティック弦の新たな特徴は、ゲージ対称性がモジュラー不変性を保証するためにウィルソン線によって破られなければならないことである。 我々は対称性の破れのパターンを完全に分類する。 すべての場合におけるタキオン寄与は、リンドラー地平線上の絡み合いのエントロピーを計算するのに関係のある領域$0<N \leq 1$の有限解で解析的に継続できることを示す。 結果の身体的意味について論じる。

We construct $\mathbb{Z}_N$ orbifolds of the ten-dimensional heterotic string theories appropriate for implementing the stringy replica method for the calculation of quantum entanglement entropy. A novel feature for the heterotic string is that the gauge symmetry must be broken by a Wilson line to ensure modular invariance. We completely classify the patterns of symmetry breaking. We show that the tachyonic contributions in all cases can be analytically continued, with a finite answer in the domain $0<N \leq 1$, relevant for calculating entanglement entropy across the Rindler horizon. We discuss the physical implications of our results.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# スピン1リドバーグ原子配列における超固相と単純相

Supersolidity and Simplex Phases in Spin-1 Rydberg Atom Arrays ( http://arxiv.org/abs/2407.17554v1 )

ライセンス: Link先を確認
Vincent S. Liu, Marcus Bintz, Maxwell Block, Rhine Samajdar, Jack Kemp, Norman Y. Yao, (参考訳) ニュートラル原子は、電子がゆるく束縛されたリドベルク状態に励起されると強く相互作用する。 実効的なスピン-1自由度をエンコードするために3つのリドバーグ準位を用いる2次元原子配列に現れる物質の強相関量子位相について検討する。 このようなスピン-1リドバーグ原子間の双極子交換は、自然に2つの異なるモデルを生成する。 (i)ハードコアボソンモデルと2種のハードコアボソンモデル (II) 双極子スピン-1 XYモデルであるF\"オースター共鳴近傍でのチューニング。 大規模で大規模な無限密度行列再正規化群計算を通じて、これらのモデルから生じる量子位相を、正方形、三角形、加合目、およびルビーの様々な格子上で予測する広範なロードマップを提供する。 格子超固体や単純な相を含む相関状態の豊富な状態を特定し、これら全ては短期実験で自然に実現できる。

Neutral atoms become strongly interacting when their electrons are excited to loosely bound Rydberg states. We investigate the strongly correlated quantum phases of matter that emerge in two-dimensional atom arrays where three Rydberg levels are used to encode an effective spin-1 degree of freedom. Dipolar exchange between such spin-1 Rydberg atoms naturally yields two distinct models: (i) a two-species hardcore boson model, and (ii) upon tuning near a F\"orster resonance, a dipolar spin-1 XY model. Through extensive, large-scale infinite density matrix renormalization group calculations, we provide a broad roadmap predicting the quantum phases that emerge from these models on a variety of lattice geometries: square, triangular, kagome, and ruby. We identify a wealth of correlated states, including lattice supersolids and simplex phases, all of which can be naturally realized in near-term experiments.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# 量子最適制御を用いた格子場理論の状態準備

State preparation of lattice field theories using quantum optimal control ( http://arxiv.org/abs/2407.17556v1 )

ライセンス: Link先を確認
Jack Y. Araz, Siddhanth Bhowmick, Matt Grau, Thomas J. McEntire, Felix Ringer, (参考訳) 本稿では,量子コンピュータ上での格子場理論作成のための量子最適制御(QOC)技術の適用について検討する。 最初の例として、1+1次元の量子電磁力学であるシュウィンガーモデルに焦点を当てる。 長距離相互作用を持つモデルであっても,QOCはゲートベースの手法と比較して基底状態の準備を著しく高速化できることを示す。 古典的シミュレーションを用いて,量子間結合強度とデバイス接続性への依存について検討し,ノイズの存在下での最適化について検討する。 シミュレーションは潜在的なスピードアップを示すが、結果はデバイス仕様に強く依存する。 また,熱状態の調製に関する探索的研究を行った。 本研究は,基礎物理学における量子シミュレーションの文脈におけるQOC手法のさらなる研究を動機づけるものである。

We explore the application of quantum optimal control (QOC) techniques to state preparation of lattice field theories on quantum computers. As a first example, we focus on the Schwinger model, quantum electrodynamics in 1+1 dimensions. We demonstrate that QOC can significantly speed up the ground state preparation compared to gate-based methods, even for models with long-range interactions. Using classical simulations, we explore the dependence on the inter-qubit coupling strength and the device connectivity, and we study the optimization in the presence of noise. While our simulations indicate potential speedups, the results strongly depend on the device specifications. In addition, we perform exploratory studies on the preparation of thermal states. Our results motivate further studies of QOC techniques in the context of quantum simulations for fundamental physics.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# 不安定なボースガス中の超流動と音波伝搬

Superfluidity and sound propagation in disordered Bose gases ( http://arxiv.org/abs/2407.17558v1 )

ライセンス: Link先を確認
Kevin T. Geier, Jeff Maki, Alberto Biella, Franco Dalfovo, Stefano Giorgini, Sandro Stringari, (参考訳) 超流動性は、摩擦なしで量子物質が流れる能力を記述する。 多くの輸送現象における基本的な役割のため、超流動特性の外部摂動に対する堅牢性を理解することが不可欠である。 ここでは, 2次元ボース・アインシュタイン凝縮体における音波伝播に及ぼすスペックル障害の影響を理論的に検討する。 我々は障害の有無でGross-Pitaevskii方程式を数値的に解き、音の伝搬における圧縮性および超流動率の役割を解明するために超流動的アプローチを用いる。 その結果、障害は超流動率を減少させ、音速を低下させ、減衰やモード結合も導入する。 弱い障害の限界では、音速とその減衰率の予測は二次摂動理論によってよく再現される。 流体力学的記述は幅広いパラメータに対して有効であるが、障害が強くなりすぎると相違が明らかになるが、その影響は1つの空間方向にのみ適用される障害に対してより重要である。 我々の予測は最先端のコールド原子実験の到達範囲内であり、より一般的な疾患のポテンシャルに受け継がれている。

Superfluidity describes the ability of quantum matter to flow without friction. Due to its fundamental role in many transport phenomena, it is crucial to understand the robustness of superfluid properties to external perturbations. Here, we theoretically study the effects of speckle disorder on the propagation of sound waves in a two-dimensional Bose-Einstein condensate at zero temperature. We numerically solve the Gross-Pitaevskii equation in the presence of disorder and employ a superfluid hydrodynamic approach to elucidate the role of the compressibility and superfluid fraction on the propagation of sound. A key result is that disorder reduces the superfluid fraction and hence the speed of sound; it also introduces damping and mode coupling. In the limit of weak disorder, the predictions for the speed of sound and its damping rate are well reproduced by a quadratic perturbation theory. The hydrodynamic description is valid over a wide range of parameters, while discrepancies become evident if the disorder becomes too strong, the effect being more significant for disorder applied in only one spatial direction. Our predictions are well within the reach of state-of-the-art cold-atom experiments and carry over to more general disorder potentials.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# 対称・非対称・反対称プロジェクタの実現のための量子アルゴリズム

Quantum Algorithms for Realizing Symmetric, Asymmetric, and Antisymmetric Projectors ( http://arxiv.org/abs/2407.17563v1 )

ライセンス: Link先を確認
Margarite L. LaBorde, Soorya Rethinasamy, Mark M. Wilde, (参考訳) 量子コンピューティングにおいて、与えられたシステムや状態が従うか従うか従わないかを知ることは、しばしば有用である。 例えば、ハミルトン対称性は、機械学習アプリケーションにおける許容状態遷移を制限するか、学習パラメータを単純化する。 対称性テストアルゴリズムは、群の表現に関してこれらの特性を識別し、定量化する手段を提供する。 本稿では、量子系の対称部分空間と非対称部分空間への射影を実現する量子アルゴリズムの集合について述べる。 反対称射影を実現するためにこれをどう修正するかを述べるとともに、単一の量子回路において様々な射影を効果的に計測する体系的な方法でプロジェクターを組み合わせる方法を示す。 これらの構造を用いて、Werner状態対称性のテストや、IBM量子システムによる実験データによって支援された二部状態のSchmidtランクの推定などの応用を実演する。 この研究は、量子計算の単純化と量子情報処理の進歩における対称性の重要な役割を浮き彫りにしている。

In quantum computing, knowing the symmetries a given system or state obeys or disobeys is often useful. For example, Hamiltonian symmetries may limit allowed state transitions or simplify learning parameters in machine learning applications, and certain asymmetric quantum states are known to be resourceful in various applications. Symmetry testing algorithms provide a means to identify and quantify these properties with respect to a representation of a group. In this paper, we present a collection of quantum algorithms that realize projections onto the symmetric subspace, as well as the asymmetric subspace, of quantum systems. We describe how this can be modified to realize an antisymmetric projection as well, and we show how projectors can be combined in a systematic way to effectively measure various projections in a single quantum circuit. Using these constructions, we demonstrate applications such as testing for Werner-state symmetry and estimating Schmidt ranks of bipartite states, supported by experimental data from IBM Quantum systems. This work underscores the pivotal role of symmetry in simplifying quantum calculations and advancing quantum information tasks.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# マルチタスク生成モデルのための拡散モデル

Diffusion Models for Multi-Task Generative Modeling ( http://arxiv.org/abs/2407.17571v1 )

ライセンス: Link先を確認
Changyou Chen, Han Ding, Bunyamin Sisman, Yi Xu, Ouye Xie, Benjamin Z. Yao, Son Dinh Tran, Belinda Zeng, (参考訳) 拡散に基づく生成モデリングは、様々な生成タスクにおいて最先端の結果を達成している。 しかし、ほとんどの拡散モデルは単一世代モデリングに限られている。 より一般化可能なモデリングのための多モード生成学習能力を備えた拡散モデルを一般化できるか? 本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。 本稿では,複数種類のタスクデータ,例えば生成タスクの画像,分類タスクのラベルから情報収集を行うことで,前方拡散過程を駆動する。 逆のプロセスでは、共有バックボーン復調ネットワークを追加のモダリティ固有デコーダヘッドでパラメータ化することで、情報共有を強制する。 このような構造は、標準拡散モデルを一般化する新しいマルチモーダル変動下界から派生したマルチタスク損失を持つ異なるタイプのマルチモーダルデータを生成することを同時に学習することができる。 本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。 ImageNetの大規模な実験結果から,より将来の探査にふさわしい重要な研究方向であると考えられる多モード生成モデルに対する我々のフレームワークの有効性が示唆された。

Diffusion-based generative modeling has been achieving state-of-the-art results on various generation tasks. Most diffusion models, however, are limited to a single-generation modeling. Can we generalize diffusion models with the ability of multi-modal generative training for more generalizable modeling? In this paper, we propose a principled way to define a diffusion model by constructing a unified multi-modal diffusion model in a common diffusion space. We define the forward diffusion process to be driven by an information aggregation from multiple types of task-data, e.g., images for a generation task and labels for a classification task. In the reverse process, we enforce information sharing by parameterizing a shared backbone denoising network with additional modality-specific decoder heads. Such a structure can simultaneously learn to generate different types of multi-modal data with a multi-task loss, which is derived from a new multi-modal variational lower bound that generalizes the standard diffusion model. We propose several multimodal generation settings to verify our framework, including image transition, masked-image training, joint image-label and joint image-representation generative modeling. Extensive experimental results on ImageNet indicate the effectiveness of our framework for various multi-modal generative modeling, which we believe is an important research direction worthy of more future explorations.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# CityX: 無制限3D都市のための制御可能な手続き型コンテンツ生成

CityX: Controllable Procedural Content Generation for Unbounded 3D Cities ( http://arxiv.org/abs/2407.17572v1 )

ライセンス: Link先を確認
Shougao Zhang, Mengqi Zhou, Yuxi Wang, Chuanchen Luo, Rongyu Wang, Yiwei Li, Xucheng Yin, Zhaoxiang Zhang, Junran Peng, (参考訳) 現実的で大規模な3D仮想都市を生成することは、多くの3D資産、様々な都市スタイル、厳格なレイアウト制約が関与しているため、依然として複雑な課題である。 既存のアプローチは、Blenderエージェントを使用して大規模なシーンを作成するための手続き的コンテンツ生成のための有望な試みを提供する。 しかし、生成能力のスケールアップの難しさや、セマンティックレイアウトのレベルできめ細かい制御を実現するといった、重要な問題に直面している。 このような問題に対処するために,OSM,セマンティックマップ,衛星画像などを含む複数レイアウト条件でガイドされるリアルで非有界な3D都市生成を向上する,CityXという,マルチモーダル制御可能なプロシージャコンテンツ生成手法を提案する。 具体的には、様々なPCGプラグインを統合するための一般的なプロトコルと、命令を実行可能なBlenderアクションに変換するためのマルチエージェントフレームワークを含む。 この効果的な枠組みを通じて、CityXは、生成された資産の品質と産業要件のギャップを埋めることで、3Dシーン生成のための革新的なエコシステムを構築する可能性を示している。 マルチモーダル条件で案内された高品質・多様・無制限の都市を創出する上で,本手法の有効性を実証した。 プロジェクトページはhttps://cityx-lab.github.ioです。

Generating a realistic, large-scale 3D virtual city remains a complex challenge due to the involvement of numerous 3D assets, various city styles, and strict layout constraints. Existing approaches provide promising attempts at procedural content generation to create large-scale scenes using Blender agents. However, they face crucial issues such as difficulties in scaling up generation capability and achieving fine-grained control at the semantic layout level. To address these problems, we propose a novel multi-modal controllable procedural content generation method, named CityX, which enhances realistic, unbounded 3D city generation guided by multiple layout conditions, including OSM, semantic maps, and satellite images. Specifically, the proposed method contains a general protocol for integrating various PCG plugins and a multi-agent framework for transforming instructions into executable Blender actions. Through this effective framework, CityX shows the potential to build an innovative ecosystem for 3D scene generation by bridging the gap between the quality of generated assets and industrial requirements. Extensive experiments have demonstrated the effectiveness of our method in creating high-quality, diverse, and unbounded cities guided by multi-modal conditions. Our project page: https://cityx-lab.github.io.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# 品質保証:AIイメージングにおけるアノテーション戦略の再考

Quality Assured: Rethinking Annotation Strategies in Imaging AI ( http://arxiv.org/abs/2407.17596v1 )

ライセンス: Link先を確認
Tim Rädsch, Annika Reinke, Vivienn Weru, Minu D. Tizabi, Nicholas Heller, Fabian Isensee, Annette Kopp-Schneider, Lena Maier-Hein, (参考訳) 本稿では,新しい手法について述べる。 代わりに、信頼性の高いベンチマークと、最終的にはAIベースの画像分析の現実的な応用のための重要な基盤、すなわち高品質な参照アノテーションを生成する。 これまでの研究は、アノテーションをアウトソーシングする手段としてクラウドソーシングに重点を置いてきた。 しかしながら、アノテーション会社、特に内部品質保証(QA)プロセスについてはほとんど注目されていない。 そこで本研究の目的は、アノテーション会社によるQAがアノテーションの品質に与える影響を評価し、データアノテーションの有効性を最大化するための方法論を考案することである。 アノテーション会社4社とアマゾン・メカニカル・トルク(MTurk)の計924社と34人のQAワーカーから得られた57,648件のインスタンス分割画像から,(1)アノテーション会社は,広く使用されているMTurkと比較して,量と品質の両面で優れているという知見を得た。 2 アノテーション会社の内部QAは、もしあれば、限界的な改善しか提供しない。 しかし、QAに投資する代わりにラベリング命令を改善することで、アノテーションのパフォーマンスを大幅に向上させることができる。 3) 内部QAの利点は, 特定の画像特性に依存する。 我々の研究により、研究者は固定されたアノテーション予算からかなり多くの価値を導き出し、アノテーション会社が内部のQAを行う方法を変えることができます。

This paper does not describe a novel method. Instead, it studies an essential foundation for reliable benchmarking and ultimately real-world application of AI-based image analysis: generating high-quality reference annotations. Previous research has focused on crowdsourcing as a means of outsourcing annotations. However, little attention has so far been given to annotation companies, specifically regarding their internal quality assurance (QA) processes. Therefore, our aim is to evaluate the influence of QA employed by annotation companies on annotation quality and devise methodologies for maximizing data annotation efficacy. Based on a total of 57,648 instance segmented images obtained from a total of 924 annotators and 34 QA workers from four annotation companies and Amazon Mechanical Turk (MTurk), we derived the following insights: (1) Annotation companies perform better both in terms of quantity and quality compared to the widely used platform MTurk. (2) Annotation companies' internal QA only provides marginal improvements, if any. However, improving labeling instructions instead of investing in QA can substantially boost annotation performance. (3) The benefit of internal QA depends on specific image characteristics. Our work could enable researchers to derive substantially more value from a fixed annotation budget and change the way annotation companies conduct internal QA.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# 下流テキストモデルを用いた音声エンコーダの結合

Coupling Speech Encoders with Downstream Text Models ( http://arxiv.org/abs/2407.17605v1 )

ライセンス: Link先を確認
Ciprian Chelba, Johan Schalkwyk, (参考訳) 本稿では,与えられたタスクに対して,最先端音声認識(ASR)とテキスト翻訳(MT)性能を保ちながら,得られたモデルが最上位のカスケードベースラインに劣らないことを保証したカスケード音声翻訳(AST)モデルを構築するためのモジュール方式を提案する。 我々の新しいコントリビューションは、L2-lossの下でトレーニングされた‘exporter’レイヤを使用して、ASR埋め込みとMTトークン埋め込みの1-bestシーケンスとの強い一致を保証することです。 出力埋め込みは、1-bestトークン埋め込みの代わりにMTモデルに直接供給され、その結果のモデルが1-bestカスケードベースラインよりも悪くなることを保証すると同時に、MTモデルからASRコンポーネントへのバックプロパゲーション勾配を許容する。 MTモデルのインクリメンタルトレーニングがオプションではなく,ASTタスクで提供されるデータ(音声,転写,翻訳)を活用して品質の向上を目指すシナリオにおいて,マッチング埋め込みのカスケードアーキテクチャは,その1-bestよりも大幅に改善されている。 MTモデルがASTタスクで利用可能な並列テキストデータに基づいて漸進的にトレーニングされると、ゲインは消滅する。 このアプローチは、大きな言語モデル(LLM)のような、ASRエンコーダと不変テキストモデルを結合しようとする他のシナリオを約束する。

We present a modular approach to building cascade speech translation (AST) models that guarantees that the resulting model performs no worse than the 1-best cascade baseline while preserving state-of-the-art speech recognition (ASR) and text translation (MT) performance for a given task. Our novel contribution is the use of an ``exporter'' layer that is trained under L2-loss to ensure a strong match between ASR embeddings and the MT token embeddings for the 1-best sequence. The ``exporter'' output embeddings are fed directly to the MT model in lieu of 1-best token embeddings, thus guaranteeing that the resulting model performs no worse than the 1-best cascade baseline, while allowing back-propagation gradient to flow from the MT model into the ASR components. The matched-embeddings cascade architecture provide a significant improvement over its 1-best counterpart in scenarios where incremental training of the MT model is not an option and yet we seek to improve quality by leveraging (speech, transcription, translated transcription) data provided with the AST task. The gain disappears when the MT model is incrementally trained on the parallel text data available with the AST task. The approach holds promise for other scenarios that seek to couple ASR encoders and immutable text models, such at large language models (LLM).
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# 格子依存型物理インフォームドコルモゴロフ・アルノルドネットワークの適応学習

Adaptive Training of Grid-Dependent Physics-Informed Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.17611v1 )

ライセンス: Link先を確認
Spyros Rigas, Michalis Papachristou, Theofilos Papadopoulos, Fotios Anagnostopoulos, Georgios Alexandridis, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ニューラルネットワークを介して解を近似し、損失関数に物理に基づく制約を課することにより、部分微分方程式(PDE)を解決するための堅牢なフレームワークとして登場した。 伝統的に、マルチレイヤパーセプトロン(MLP)は選択されたニューラルネットワークであり、トレーニングを最適化する上で大きな進歩を遂げている。 近年、KAN(Kolmogorov-Arnold Networks)が実現可能な代替手段として導入され、より優れた解釈可能性と効率を提供すると同時に、パラメータを少なくする可能性があった。 本稿では,PDEを解くために,グリッド依存のKolmogorov-Arnold Networks (PIKANs) の高速 JAX ベースの実装を提案する。 本稿では,MPPベースのPINN技術を導入し,グリッド更新間の損失関数ピークを回避するための適応状態遷移スキームを導入し,代替基底関数を用いたPIKANの設計手法を提案する。 比較実験により、これらの適応的特徴がトレーニング効率と解の精度を大幅に向上させることを示した。 本研究は,PDEソリューションの性能向上にPIKANが有効であることを示すとともに,科学的・工学的応用において優れた代替手段としての可能性を明らかにするものである。

Physics-Informed Neural Networks (PINNs) have emerged as a robust framework for solving Partial Differential Equations (PDEs) by approximating their solutions via neural networks and imposing physics-based constraints on the loss function. Traditionally, Multilayer Perceptrons (MLPs) are the neural network of choice, and significant progress has been made in optimizing their training. Recently, Kolmogorov-Arnold Networks (KANs) were introduced as a viable alternative, with the potential of offering better interpretability and efficiency while requiring fewer parameters. In this paper, we present a fast JAX-based implementation of grid-dependent Physics-Informed Kolmogorov-Arnold Networks (PIKANs) for solving PDEs. We propose an adaptive training scheme for PIKANs, incorporating known MLP-based PINN techniques, introducing an adaptive state transition scheme to avoid loss function peaks between grid updates, and proposing a methodology for designing PIKANs with alternative basis functions. Through comparative experiments we demonstrate that these adaptive features significantly enhance training efficiency and solution accuracy. Our results illustrate the effectiveness of PIKANs in improving performance for PDE solutions, highlighting their potential as a superior alternative in scientific and engineering applications.
翻訳日:2024-07-26 16:09:00 公開日:2024-07-24
# 低次元におけるニューラル演算子の事前学習

Pretraining a Neural Operator in Lower Dimensions ( http://arxiv.org/abs/2407.17616v1 )

ライセンス: Link先を確認
AmirPouya Hemmasian, Amir Barati Farimani, (参考訳) 近年,大規模事前学習による基礎的偏微分方程式 (PDE) 解法やニューラル演算子の開発に注目が集まっている。 しかしながら、事前トレーニングに豊富で安価な(ラベルなし)データを使用する視覚や言語モデルとは異なり、これらのニューラルソルバは通常シミュレーションされたPDEデータに依存しており、特に高次元のPDEでは入手するのにコストがかかる。 本研究では,データ収集が最安値である低次元PDE(PreLowD)上でのプレトレーニング型ニューラルPDEソルバを提案する。 同様のPDEにおけるプレトレーニング戦略の有効性を高い次元で評価した。 我々は任意の空間次元のPDEデータに適用するために必要な柔軟性を持ち、低次元のトレーニングパラメータを再利用するため、Factized Fourier Neural Operator (FFNO) を用いる。 さらに,本研究は,この事前学習戦略を最大限に活用するために,微調整構成の効果に光を当てている。

There has recently been increasing attention towards developing foundational neural Partial Differential Equation (PDE) solvers and neural operators through large-scale pretraining. However, unlike vision and language models that make use of abundant and inexpensive (unlabeled) data for pretraining, these neural solvers usually rely on simulated PDE data, which can be costly to obtain, especially for high-dimensional PDEs. In this work, we aim to Pretrain neural PDE solvers on Lower Dimensional PDEs (PreLowD) where data collection is the least expensive. We evaluated the effectiveness of this pretraining strategy in similar PDEs in higher dimensions. We use the Factorized Fourier Neural Operator (FFNO) due to having the necessary flexibility to be applied to PDE data of arbitrary spatial dimensions and reuse trained parameters in lower dimensions. In addition, our work sheds light on the effect of the fine-tuning configuration to make the most of this pretraining strategy.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# 生産的な自己/排他的体:自己追跡、オーバーワーク文化、矛盾したデータプラクティス

Productive self/vulnerable body: self-tracking, overworking culture, and conflicted data practices ( http://arxiv.org/abs/2407.17618v1 )

ライセンス: Link先を確認
Elise Li Zheng, (参考訳) 自己追跡、個人データの収集、分析、解釈は、人々が規範を内在化することによって責任ある自己を構築するよう要求されるように、個人化された健康管理の方法を示す。 しかし、技術的約束はしばしば、厳しいスケジュール、モチベーションの欠如、ストレス、不安といった様々な社会的要因と矛盾する。 本論文は,中国における過作業文化における自己追跡を再現し,過作業者に対する半構造化・深層インタビューに基づいて,ユーザインタラクションのパターンを明らかにするとともに,自己追跡データを用いた解釈を行う。 それは現在の自己追跡の文献に基づいており、特に科学技術研究(Lupton 2016)や技術仲介(Verbeek 2005)の理論と関わり、マイクロ(データ読み込み、可視化、デザインにおける感情的要素)とマクロ(職場、職場、社会経済、政治背景)の自己追跡の文脈を結びつける文脈化された方法で自己追跡を研究する。 この論文は、自己追跡技術のユーザが内在、反映、抵抗する社会的文脈の調査に基づいて、生産性と価値指向の仮定と職場文化が、集中的な(時には不可能な)セルフケアと健康の想像を形作っている、と論じている。 ユーザは、異なるデザイン要素と社会的コンテキストを制定して、セルフトラッキングの2つのユニークなデータプラクティスをフレーム化する。

Self-tracking, the collection, analysis, and interpretation of personal data, signifies an individualized way of health governance as people are demanded to build a responsible self by internalizing norms. However, the technological promises often bear conflicts with various social factors such as a strenuous schedule, a lack of motivation, stress, and anxieties, which fail to deliver health outcomes. To re-problematize the phenomenon, this paper situates self-tracking in an overworking culture in China and draws on semi structured and in depth interviews with overworking individuals to reveal the patterns in users interactions and interpretations with self-tracking data. It builds on the current literature of self-tracking and engages with theories from Science and Technology Studies, especially sociomaterial assemblages (Lupton 2016) and technological mediation (Verbeek 2005), to study self-tracking in a contextualized way which connects the micro (data reading, visualization, and affective elements in design) with the macro (work and workplaces, socioeconomic and political background) contexts of self-tracking. Drawing on investigation of the social context that users of self-tracking technologies internalize, reflect, or resist, the paper argues that the productivity and value oriented assumptions and workplace culture shape the imaginary of intensive (and sometimes impossible) self-care and health, an involution of competence embedded in the technological design and users affective experiences. Users respond by enacting different design elements and social contexts to frame two distinctive data practices of self-tracking.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# 連続リリースモデルにおけるグラフスカラー化の力

The Power of Graph Sparsification in the Continual Release Model ( http://arxiv.org/abs/2407.17619v1 )

ライセンス: Link先を確認
Alessandro Epasto, Quanquan C. Liu, Tamalika Mukherjee, Felix Zhou, (参考訳) 差分プライバシーのグラフ継続リリースモデルは、更新毎に新しいプライベートソリューションがリリースされる一連の更新の下で、グラフ問題に対する差分プライベートソリューションを作成しようとしている。 プライベートでない文献でグラフアルゴリズムをストリーミングすることは、ストリームに更新を提供したときに(およそ)正確なソリューションも生成しますが、他にも2つの目標を達成しようと試みています。 1)問題の近似解として頂点またはエッジ部分集合を出力し(実測値だけでなく)、 2) エッジ数や頂点数に準線形な空間を使用する。 これまでのところ、連続リリース設定におけるグラフ問題に対するエッジ微分プライベートアルゴリズムはすべて、上記のベンチマークを満たしていない。 その代わりに、入力[SLMVC18, FHO21, JSW24]の正確なグラフ統計を計算する必要がある。 本稿では,スパシフィケーションを活用し,上記の問題点に対処する。 我々のエッジ微分プライベートアルゴリズムは、グラフ内のエッジ数に関して部分線型空間を使用し、またグラフ内の頂点数における部分線型空間も達成する。 さらに、ほとんどの問題に対して、微分的にプライベートな頂点部分集合も出力する。 我々は,非プライベートなストリーミングアルゴリズムと静的グラフアルゴリズムによるスペーシフィケーション手法を新たに活用し,高密度部分グラフ,$k$-core分解,最大マッチング,頂点被覆などの様々な問題に対する連続的なリリース設定,サブ線形空間における新しい結果を実現する。 エッジ差分プライバシー結果に加えて、ノード差分プライバシー設定における一連の結果を得るために、空白度に基づくグラフスペーシフィケーションを使用し、空間の最小化を超えて、スペーシフィケーションとプライバシの新たな接続を図示します。 完全動的設定におけるエッジプライバシーに対する多項式加法誤差の下限を結論とする。

The graph continual release model of differential privacy seeks to produce differentially private solutions to graph problems under a stream of updates where new private solutions are released after each update. Streaming graph algorithms in the non-private literature also produce (approximately) accurate solutions when provided updates in a stream, but they additionally try to achieve two other goals: 1) output vertex or edge subsets as approximate solutions to the problem (not just real-valued estimates) and 2) use space that is sublinear in the number of edges or the number of vertices. Thus far, all previously known edge-differentially private algorithms for graph problems in the continual release setting do not meet the above benchmarks. Instead, they require computing exact graph statistics on the input [SLMVC18, FHO21, JSW24]. In this paper, we leverage sparsification to address the above shortcomings. Our edge-differentially private algorithms use sublinear space with respect to the number of edges in the graph while some also achieve sublinear space in the number of vertices in the graph. In addition, for most of our problems, we also output differentially private vertex subsets. We make novel use of assorted sparsification techniques from the non-private streaming and static graph algorithms literature and achieve new results in the sublinear space, continual release setting for a variety of problems including densest subgraph, $k$-core decomposition, maximum matching, and vertex cover. In addition to our edge-differential privacy results, we use graph sparsification based on arboricity to obtain a set of results in the node-differential privacy setting, illustrating a new connection between sparsification and privacy beyond minimizing space. We conclude with polynomial additive error lower bounds for edge-privacy in the fully dynamic setting.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# CoMoTo:生合成における不対向型クロスモーダル病変蒸留による乳房病変の検出の改善

CoMoTo: Unpaired Cross-Modal Lesion Distillation Improves Breast Lesion Detection in Tomosynthesis ( http://arxiv.org/abs/2407.17620v1 )

ライセンス: Link先を確認
Muhammad Alberb, Marawan Elbatel, Aya Elgebaly, Ricardo Montoya-del-Angel, Xiaomeng Li, Robert Martí, (参考訳) 乳房造影法(DBT)は,より長い読影時間のトレードオフはあるものの,従来のマンモグラフィと比較すると,病変検出精度が良好である進行乳房画像法である。 ディープラーニングを用いたDBTからの病変検出の高速化は、データ可用性の制限と膨大なアノテーションコストによって妨げられる。 この問題の可能性のある解決策は、マンモグラフィーのようなより広く利用可能なモダリティによって提供された情報を活用して、DBT病変の検出を強化することである。 本稿では,DBTの病変検出を改善するための新しいフレームワークであるCoMoToを提案する。 本フレームワークは,DBTモデルのトレーニングを強化するために,不整合マンモグラフィデータを活用し,推論時のマンモグラフィの必要性を排除し,実用性を向上させる。 具体的には,LsKD (Lesion-specific Knowledge Distillation) とImPA (Intra-modal Point Alignment) の2つの新しい構成要素を提案する。 LsKDは,マンモグラフィーの教師モデルからDBTの学生モデルまで,背景の特徴を無視して病変の特徴を選択的に蒸留する。 さらにImPAは、生徒に知識を蒸留する前に、教師内の病変の特徴のアライメントを確保することでLsKDをさらに強化する。 総合評価の結果,CoMoToは従来の事前学習や画像レベルのKDよりも優れており,低データ環境下での平均感度が7%向上していることがわかった。 私たちのコードはhttps://github.com/Muhammad-Al-Barbary/CoMoToで利用可能です。

Digital Breast Tomosynthesis (DBT) is an advanced breast imaging modality that offers superior lesion detection accuracy compared to conventional mammography, albeit at the trade-off of longer reading time. Accelerating lesion detection from DBT using deep learning is hindered by limited data availability and huge annotation costs. A possible solution to this issue could be to leverage the information provided by a more widely available modality, such as mammography, to enhance DBT lesion detection. In this paper, we present a novel framework, CoMoTo, for improving lesion detection in DBT. Our framework leverages unpaired mammography data to enhance the training of a DBT model, improving practicality by eliminating the need for mammography during inference. Specifically, we propose two novel components, Lesion-specific Knowledge Distillation (LsKD) and Intra-modal Point Alignment (ImPA). LsKD selectively distills lesion features from a mammography teacher model to a DBT student model, disregarding background features. ImPA further enriches LsKD by ensuring the alignment of lesion features within the teacher before distilling knowledge to the student. Our comprehensive evaluation shows that CoMoTo is superior to traditional pretraining and image-level KD, improving performance by 7% Mean Sensitivity under low-data setting. Our code is available at https://github.com/Muhammad-Al-Barbary/CoMoTo .
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# 量子エンタングルメント、量子テレポーテーション、多線形多項式と幾何学

Quantum Entanglement, Quantum Teleportation, Multilinear Polynomials and Geometry ( http://arxiv.org/abs/2407.17621v1 )

ライセンス: Link先を確認
Juan M. Romero, Emiliano Montoya-Gonzalez, Oscar Velazquez-Alvarado, (参考訳) 量子絡み合い状態は、分解できない多線型多項式と関連していることを示す。 特に、多線型多項式は幾何学的表現を持つので、交絡状態に対する同様の幾何学的表現を提案できる。 特に、ベル状態は3次元曲面で幾何学的に表現できる非分解可能実多重線型多項式と関連していることを示す。 さらに、平面幾何学の幾何学変換として量子回路を見ることができる。 この現象は、物質が時空を曲がる重力と類似していることに注意。 さらに、量子テレポーテーションと多線型多項式を含む演算の類似性を示す。

We show that quantum entanglement states are associated with multilinear polynomials that cannot be factored. Notice that, since multilinear polynomials have a geometric representation, we can propose a similar geometric representation for entanglement states. In particular, we show that the Bell's states are associated with non-factorable real multilinear polynomial, which can be represented geometrically by three-dimensional surfaces. Furthermore, we show that a quantum circuit can be seen as a geometric transformations of plane geometry. Notice that this phenomenon is analogous to gravity, where matter curves space-time. In addition, we show an analogy between quantum teleportation and operations involving multilinear polynomials.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# ニューラルネットワークによる人間による動的意思決定の認知モデルに向けて

Towards Neural Network based Cognitive Models of Dynamic Decision-Making by Humans ( http://arxiv.org/abs/2407.17622v1 )

ライセンス: Link先を確認
Changyu Chen, Shashank Reddy Chirra, Maria José Ferreira, Cleotilde Gonzalez, Arunesh Sinha, Pradeep Varakantham, (参考訳) 人間の認知プロセスを動的意思決定タスクでモデル化することは、AIにおける長年の取り組みである。 初期のいくつかの研究はニューラルネットワーク(および大きな言語モデル)の利用を試みたが、全ての人間にとって共通のモデルとして想定され、集約された人間の振る舞いをエミュレートすることを目的としている。 しかし、個々の人間の行動は異質であり、特定のタスクにおける特定の過去の経験に依存している。 そのために、私たちはよく知られた認知モデル、すなわちインスタンスベースの学習(IBL)を構築します。 動的環境下での人間の意思決定をモデル化するための2つの新しい注意ベースニューラルネットワークモデルを提案する。 我々は、人間の被験者実験データから収集された2つの異なるデータセットを実験し、1つは、人間によるフィッシングメールの検出に焦点を当て、もう1つは、サイバーセキュリティ設定で攻撃者として行動し、攻撃オプションを決定するものである。 IBLとGPT3.5という2つのニューラルネットワークモデルによる広範な実験を行い、私たちのニューラルネットワークモデルのうちの1つが、人間の意思決定を表現する上で最高のパフォーマンスを達成することを実証した。 すべてのモデルが人間の判断をより良く予測する興味深い傾向が見つかります。 また、予測において我々のモデルが重要であると考えるものに基づいて、人間の意思決定の説明についても検討する。 全体として、我々の研究は、人間の意思決定の認知モデリングにニューラルネットワークをさらに活用するための有望な結果をもたらす。 私たちのコードはhttps://github.com/shshnkreddy/NCM-HDMで利用可能です。

Modelling human cognitive processes in dynamic decision-making tasks has been an endeavor in AI for a long time. Some initial works have attempted to utilize neural networks (and large language models) but often assume one common model for all humans and aim to emulate human behavior in aggregate. However, behavior of each human is distinct, heterogeneous and relies on specific past experiences in specific tasks. To that end, we build on a well known model of cognition, namely Instance Based Learning (IBL), that posits that decisions are made based on similar situations encountered in the past. We propose two new attention based neural network models to model human decision-making in dynamic settings. We experiment with two distinct datasets gathered from human subject experiment data, one focusing on detection of phishing email by humans and another where humans act as attackers in a cybersecurity setting and decide on an attack option. We conduct extensive experiments with our two neural network models, IBL, and GPT3.5, and demonstrate that one of our neural network models achieves the best performance in representing human decision-making. We find an interesting trend that all models predict a human's decision better if that human is better at the task. We also explore explanation of human decisions based on what our model considers important in prediction. Overall, our work yields promising results for further use of neural networks in cognitive modelling of human decision making. Our code is available at https://github.com/shshnkreddy/NCM-HDM.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# SAfEPaTh:畳み込みニューラルネットワーク加速器の効率と熱推定のためのシステムレベルアプローチ

SAfEPaTh: A System-Level Approach for Efficient Power and Thermal Estimation of Convolutional Neural Network Accelerator ( http://arxiv.org/abs/2407.17623v1 )

ライセンス: Link先を確認
Yukai Chen, Simei Yang, Debjyoti Bhattacharjee, Francky Catthoor, Arindam Mallik, (参考訳) エネルギー効率、高性能、信頼性の高い畳み込みニューラルネットワーク(CNN)アクセラレータの設計には、複雑な電力と熱管理の問題による重大な課題が伴う。 本稿では,タイル型CNN加速器の電力と温度を正確に推定するシステムレベルのアプローチであるSAfEPaThを紹介する。 定常シナリオと過渡状態シナリオの両方に対処することにより、SAfEPaThは、層間パイプラインにおけるパイプラインバブルの動的効果を効果的にキャプチャし、実際のCNNワークロードを使用して包括的な評価を行う。 従来の方法とは異なり、回路レベルのシミュレーションやオンチップの測定は不要である。 提案手法は,アナログインメモリコンピューティングコアとデジタルコアを併用した,最先端のハイブリッドデジタルアナログタイルベースのアクセラレータであるTANIAを利用する。 ResNet18モデルを用いた厳密なシミュレーションの結果、500秒以内の電力と温度を正確に推定できるSAfEPaThの能力を実証し、CNNモデル加速器マッピング探索と詳細な電力と熱推定を含むことを示した。 この効率性と精度により、SAfEPaThは設計者にとって貴重なツールとなり、厳格なパワーと熱的制約に固執しながら性能を最適化できる。 さらに、SAfEPaThの適応性は、様々なCNNモデルやアクセラレーターアーキテクチャにまたがってその実用性を拡張し、この分野における幅広い適用性を示している。 本研究は, エネルギー効率・信頼性の高いCNN加速器の設計の進歩に大きく貢献し, ダイナミックパワーと熱管理における重要な課題に対処する。

The design of energy-efficient, high-performance, and reliable Convolutional Neural Network (CNN) accelerators involves significant challenges due to complex power and thermal management issues. This paper introduces SAfEPaTh, a novel system-level approach for accurately estimating power and temperature in tile-based CNN accelerators. By addressing both steady-state and transient-state scenarios, SAfEPaTh effectively captures the dynamic effects of pipeline bubbles in interlayer pipelines, utilizing real CNN workloads for comprehensive evaluation. Unlike traditional methods, it eliminates the need for circuit-level simulations or on-chip measurements. Our methodology leverages TANIA, a cutting-edge hybrid digital-analog tile-based accelerator featuring analog-in-memory computing cores alongside digital cores. Through rigorous simulation results using the ResNet18 model, we demonstrate SAfEPaTh's capability to accurately estimate power and temperature within 500 seconds, encompassing CNN model accelerator mapping exploration and detailed power and thermal estimations. This efficiency and accuracy make SAfEPaTh an invaluable tool for designers, enabling them to optimize performance while adhering to stringent power and thermal constraints. Furthermore, SAfEPaTh's adaptability extends its utility across various CNN models and accelerator architectures, underscoring its broad applicability in the field. This study contributes significantly to the advancement of energy-efficient and reliable CNN accelerator designs, addressing critical challenges in dynamic power and thermal management.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# クレジットレーティング予測におけるジェネレーティブLLMの性能向上手法

Traditional Methods Outperform Generative LLMs at Forecasting Credit Ratings ( http://arxiv.org/abs/2407.17624v1 )

ライセンス: Link先を確認
Felix Drinkall, Janet B. Pierrehumbert, Stefan Zohren, (参考訳) 大規模言語モデル(LLM)は多くの下流タスクでうまく機能することが示されている。 トランスファーラーニングは、LLMが事前トレーニング中にターゲットにならなかったスキルを習得することを可能にする。 金融の文脈では、LLMはよく確立されたベンチマークに打ち勝つことがある。 本稿では,企業信用格付け予測におけるLCMの業績について検討する。 LLMはテキスト情報の符号化に優れていますが、数値やマルチモーダルデータの符号化に関しては、従来の手法は依然として非常に競争力があります。 我々のタスクでは、基本データとマクロ経済データと高密度テキストベースの埋め込み機能を組み合わせた従来のXGBoostアーキテクチャよりも性能が劣る。

Large Language Models (LLMs) have been shown to perform well for many downstream tasks. Transfer learning can enable LLMs to acquire skills that were not targeted during pre-training. In financial contexts, LLMs can sometimes beat well-established benchmarks. This paper investigates how well LLMs perform in the task of forecasting corporate credit ratings. We show that while LLMs are very good at encoding textual information, traditional methods are still very competitive when it comes to encoding numeric and multimodal data. For our task, current LLMs perform worse than a more traditional XGBoost architecture that combines fundamental and macroeconomic data with high-density text-based embedding features.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# PEEKABOO: 教師なしオブジェクトローカライゼーションのための画像の一部を保持する

PEEKABOO: Hiding parts of an image for unsupervised object localization ( http://arxiv.org/abs/2407.17628v1 )

ライセンス: Link先を確認
Hasib Zunair, A. Ben Hamza, (参考訳) 教師なしの方法でオブジェクトをローカライズすることは、外見、型、オブジェクトの数といった重要な視覚情報がないことや、教師付き設定で一般的に利用できるラベル付きオブジェクトクラスがないことなど、大きな課題を引き起こす。 教師なしオブジェクトローカライゼーションへの近年のアプローチは、自己教師付き視覚表現を活用することで大きな進歩を示しているが、それらはしばしば計算集約的なトレーニングプロセスを必要とし、計算、学習可能なパラメータ、データの観点から高いリソース要求をもたらす。 また、視覚的コンテキストの明示的なモデリングが欠如しており、オブジェクトのローカライゼーションにおける精度を制限している可能性がある。 これらの課題に対処するために、画像マスキングにより、局所オブジェクトのピクセルレベルと形状レベルの両方でコンテキストベースの表現を学習することにより、教師なしオブジェクトローカライゼーションのための単段階学習フレームワークPEEKABOOを提案する。 キーとなるアイデアは、画像の一部を選択的に隠し、残りの画像情報を活用して、明示的な監督なしにオブジェクトの位置を推測することである。 各種ベンチマークデータセットの定量化と定性的化の両面から, 単一物体検出と非教師対象検出の両タスクにおける最先端手法と比較して, アプローチの単純さ, 有効性, 競合性能を実証した。 コードおよび事前トレーニングされたモデルは、https://github.com/hasibzunair/peekaboo.comで利用可能である。

Localizing objects in an unsupervised manner poses significant challenges due to the absence of key visual information such as the appearance, type and number of objects, as well as the lack of labeled object classes typically available in supervised settings. While recent approaches to unsupervised object localization have demonstrated significant progress by leveraging self-supervised visual representations, they often require computationally intensive training processes, resulting in high resource demands in terms of computation, learnable parameters, and data. They also lack explicit modeling of visual context, potentially limiting their accuracy in object localization. To tackle these challenges, we propose a single-stage learning framework, dubbed PEEKABOO, for unsupervised object localization by learning context-based representations at both the pixel- and shape-level of the localized objects through image masking. The key idea is to selectively hide parts of an image and leverage the remaining image information to infer the location of objects without explicit supervision. The experimental results, both quantitative and qualitative, across various benchmark datasets, demonstrate the simplicity, effectiveness and competitive performance of our approach compared to state-of-the-art methods in both single object discovery and unsupervised salient object detection tasks. Code and pre-trained models are available at: https://github.com/hasibzunair/peekaboo
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# DAGPap24のパピルシオン : 紙かイリューシオンか?AIによる科学論文の検出

Papilusion at DAGPap24: Paper or Illusion? Detecting AI-generated Scientific Papers ( http://arxiv.org/abs/2407.17629v1 )

ライセンス: Link先を確認
Nikita Andreev, Alexander Shirnin, Vladislav Mikhailov, Ekaterina Artemova, (参考訳) 本稿では,DAGPap24共有タスク内で開発されたAI生成科学テキスト検出装置であるPapilusionについて述べる。 本稿では,アンサンブルに基づくアプローチを提案し,検知器の構成が性能に与える影響を分析するためのアブレーション研究を行う。 パピルシオンは6位にランクインし、公式テストセットでF1スコアの99.46(+9.63)を達成した。

This paper presents Papilusion, an AI-generated scientific text detector developed within the DAGPap24 shared task on detecting automatically generated scientific papers. We propose an ensemble-based approach and conduct ablation studies to analyze the effect of the detector configurations on the performance. Papilusion is ranked 6th on the leaderboard, and we improve our performance after the competition ended, achieving 99.46 (+9.63) of the F1-score on the official test set.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# CNNのロバスト性からみた部分ラベル問題の再検討

Revising the Problem of Partial Labels from the Perspective of CNNs' Robustness ( http://arxiv.org/abs/2407.17630v1 )

ライセンス: Link先を確認
Xin Zhang, Yuqi Song, Wyatt McCurdy, Xiaofeng Wang, Fei Zuo, (参考訳) 畳み込みニューラルネットワーク(CNN)は、近年人気を高め、多様なドメインで応用されている。 これらの顕著な成果は、正確なラベルを持つ広範なデータセットのサポートに大きく貢献している。 しかし、特にマルチラベルデータセットの場合、画像データセットの注釈付けは複雑で複雑である。 したがって、アノテーションコストを削減するために部分ラベル設定の概念が提案され、多くの対応するソリューションが導入された。 これらの既存ソリューションの評価方法は、主に精度に基づいている。 つまり、彼らのパフォーマンスは、テストセットの予測精度によって評価されます。 しかし、このような評価は不十分であり一方的なものであると主張する。 一方、テストセットの品質は評価されていないため、評価結果は信頼性が低い。 一方、部分ラベル問題は敵攻撃によっても引き起こされる可能性がある。 したがって、評価システムにロバストさを取り入れることが重要である。 そこで我々はまず,ラベルの欠落率の異なる複数の部分ラベルデータセットを生成する2つの攻撃モデルを提案する。 次に,擬似ラベル手法と設計された損失関数を用いた軽量な部分ラベル解を提案する。 そこで,提案手法と既存手法の両方をD-Scoreを用いて解析し,精度を向上しながら頑健性を向上できるかどうかを判定する。 大規模な実験の結果、ある方法によって精度が向上するが、ロバスト性の向上は重要ではなく、場合によっては低下する。

Convolutional neural networks (CNNs) have gained increasing popularity and versatility in recent decades, finding applications in diverse domains. These remarkable achievements are greatly attributed to the support of extensive datasets with precise labels. However, annotating image datasets is intricate and complex, particularly in the case of multi-label datasets. Hence, the concept of partial-label setting has been proposed to reduce annotation costs, and numerous corresponding solutions have been introduced. The evaluation methods for these existing solutions have been primarily based on accuracy. That is, their performance is assessed by their predictive accuracy on the test set. However, we insist that such an evaluation is insufficient and one-sided. On one hand, since the quality of the test set has not been evaluated, the assessment results are unreliable. On the other hand, the partial-label problem may also be raised by undergoing adversarial attacks. Therefore, incorporating robustness into the evaluation system is crucial. For this purpose, we first propose two attack models to generate multiple partial-label datasets with varying degrees of label missing rates. Subsequently, we introduce a lightweight partial-label solution using pseudo-labeling techniques and a designed loss function. Then, we employ D-Score to analyze both the proposed and existing methods to determine whether they can enhance robustness while improving accuracy. Extensive experimental results demonstrate that while certain methods may improve accuracy, the enhancement in robustness is not significant, and in some cases, it even diminishes.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# BLAZE:動的チャンキングとハードケースラーニングによるクロスランゲージとクロスプロジェクトバグローカライゼーション

BLAZE: Cross-Language and Cross-Project Bug Localization via Dynamic Chunking and Hard Example Learning ( http://arxiv.org/abs/2407.17631v1 )

ライセンス: Link先を確認
Partha Chakraborty, Mahmoud Alfadel, Meiyappan Nagappan, (参考訳) ソフトウェアバグは、開発者がそれを識別し、解決するために多大な努力をしなければなりません。 バグローカライゼーション(バグローカライゼーション)は、修正が必要な正確なソースコードファイルをピンポイントするプロセスであり、この作業の削減に不可欠である。 既存のバグローカライゼーションツールは、一般的にディープラーニング技術に依存しており、多言語環境におけるクロスプロジェクトの適用性と有効性に制限に直面している。 LLM(Large Language Models)による最近の進歩は、バグローカライゼーションのための詳細な表現を提供する。 しかし、コンテキストウィンドウやマッピングの精度が制限された問題に直面している。 これらの問題に対処するために,動的チャンキングとハードサンプル学習を用いたBLAZEを提案する。 まず、BLAZEはソースコードを動的に分割し、連続損失を最小限にする。 次に、BLAZEは、プロジェクト横断および言語横断のバグローカライゼーションを強化するために、困難なバグケースを使用してGPTベースのモデルを微調整する。 BLAZEの機能をサポートするために、BEETLEBOXデータセットを作成しました。これは、29の大規模で繁栄するオープンソースプロジェクト(Java、C++、Python、Go、JavaScript)から26,321のバグで構成されています。 BEETLEBOX, SWE-Bench, Ye et al の3つのベンチマークデータセットに対する BLAZE の評価は, 最先端の6つのベースラインと比較して著しく改善されている。 具体的には、BLAZEはトップ1の精度で120%、平均平均精度(MAP)で144%、平均相互ランク(MRR)で100%向上する。 大規模なアブレーション調査では、パイプラインコンポーネントの全体的なパフォーマンス向上への貢献を確認しています。

Software bugs require developers to exert significant effort to identify and resolve them, often consuming about one-third of their time. Bug localization, the process of pinpointing the exact source code files that need modification, is crucial in reducing this effort. Existing bug localization tools, typically reliant on deep learning techniques, face limitations in cross-project applicability and effectiveness in multi-language environments. Recent advancements with Large Language Models (LLMs) offer detailed representations for bug localization. However, they encounter challenges with limited context windows and mapping accuracy. To address these issues, we propose BLAZE, an approach that employs dynamic chunking and hard example learning. First, BLAZE dynamically segments source code to minimize continuity loss. Then, BLAZE fine-tunes a GPT-based model using challenging bug cases, in order to enhance cross-project and cross-language bug localization. To support the capability of BLAZE, we create the BEETLEBOX dataset, which comprises 26,321 bugs from 29 large and thriving open-source projects across five different programming languages (Java, C++, Python, Go, and JavaScript). Our evaluations of BLAZE on three benchmark datasets BEETLEBOX, SWE-Bench, and Ye et al. demonstrate substantial improvements compared to six state-of-the-art baselines. Specifically, BLAZE achieves up to an increase of 120% in Top 1 accuracy, 144% in Mean Average Precision (MAP), and 100% in Mean Reciprocal Rank (MRR). An extensive ablation study confirms the contributions of our pipeline components to the overall performance enhancement.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# PICA: ピアインストラクションと継続的アセスメントのためのデータ駆動型合成

PICA: A Data-driven Synthesis of Peer Instruction and Continuous Assessment ( http://arxiv.org/abs/2407.17633v1 )

ライセンス: Link先を確認
Steve Geinitz, (参考訳) Peer Instruction (PI) とContinuous Assessment (CA) は2つの異なる教育手法であり、その効果を実証している。 ここでは、PIとCAを組み合わせて、学生をペアにして、CAタスクで協力するPIセッションを行う。 ペアリング手法を通知するために使用されるデータは、独立して完了した最も古いCAタスク学生に限られる。 このデータ駆動型協調学習の動機は、学生の学習、コミュニケーション、エンゲージメントを改善することである。 検討の結果, PICAタスクに対する評価スコアは改善したが, 個人CAタスクに対する肯定的な効果の証拠は, 期待したほど統計的に有意ではなかった。 しかし,学生の認知は肯定的であり,エンゲージメントも高かった。 これらの質的な観察は、学生のエンゲージメントとコミュニケーションの改善(例えば、所有感の向上、社会資本の増大など)に関する一般的な研究とともに、学生アセスメントデータを用いて、小学生の学習コミュニティの構築と評価についてさらなる研究を行うのにふさわしい方法である。

Peer Instruction (PI) and Continuous Assessment(CA) are two distinct educational techniques with extensive research demonstrating their effectiveness. The work herein combines PI and CA in a deliberate and novel manner to pair students together for a PI session in which they collaborate on a CA task. The data used to inform the pairing method is restricted to the most previous CA task students completed independently. The motivation for this data-driven collaborative learning is to improve student learning, communication, and engagement. Quantitative results from an investigation of the method show improved assessment scores on the PI CA tasks, although evidence of a positive effect on subsequent individual CA tasks was not statistically significant as anticipated. However, student perceptions were positive, engagement was high, and students interacted with a broader set of peers than is typical. These qualitative observations, together with extant research on the general benefits of improving student engagement and communication (e.g. improved sense of belonging, increased social capital, etc.), render the method worthy for further research into building and evaluating small student learning communities using student assessment data.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# 着火イグニティブ・イノベーター「ディスチャージ・ミー!」: 放電サマリ用大規模言語モデルへのチェーン・オブ・ソート・インストラクション

IgnitionInnovators at "Discharge Me!": Chain-of-Thought Instruction Finetuning Large Language Models for Discharge Summaries ( http://arxiv.org/abs/2407.17636v1 )

ライセンス: Link先を確認
An Quang Tang, Xiuzhen Zhang, Minh Ngoc Dinh, (参考訳) 本稿では,23th Workshop on Biomedical Natural Language Processing (BioNLP) と共同で提案した,Design Me!共有タスクへのアプローチについて述べる。 本研究は, 退院要領(Brief Hospital Course)と, 退院要領(Discharge Instructions)の2つの重要な目標区間を生成する, 退院要領(DSD)課題を解決するためのLCMベースのフレームワークを開発する。 近年のLDMにおける命令ファインタニングプロセスの合理化により,DSDの特定の生成タスクにLLMを最適に適応させるいくつかの手順を探索する。 実験結果から,一連の包括的チェーン・オブ・ソート(CoT)質問に補完された明確な出力構造を提供することで,モデルの推論能力を効果的に向上し,生成したテキストにおける臨床情報の構造的正しさと忠実性を高めることが示唆された。 ソースコードは、https://github.com/antangrocket1312/Discharge_LLMで入手できる。

This paper presents our proposed approach to the Discharge Me! shared task, collocated with the 23th Workshop on Biomedical Natural Language Processing (BioNLP). In this work, we develop an LLM-based framework for solving the Discharge Summary Documentation (DSD) task, i.e., generating the two critical target sections `Brief Hospital Course' and `Discharge Instructions' in the discharge summary. By streamlining the recent instruction-finetuning process on LLMs, we explore several prompting strategies for optimally adapting LLMs to specific generation task of DSD. Experimental results show that providing a clear output structure, complimented by a set of comprehensive Chain-of-Thoughts (CoT) questions, effectively improves the model's reasoning capability, and thereby, enhancing the structural correctness and faithfulness of clinical information in the generated text. Source code is available at: https://github.com/antangrocket1312/Discharge_LLM
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# 時間的問題:バイオメディカル言語モデルにおける時間的効果の検討

Time Matters: Examine Temporal Effects on Biomedical Language Models ( http://arxiv.org/abs/2407.17638v1 )

ライセンス: Link先を確認
Weisi Liu, Zhe He, Xiaolei Huang, (参考訳) バイオメディカル・アプリケーションに言語モデルを適用する際の時間根: モデルは過去のデータに基づいてトレーニングされ、新しいデータや将来のデータのためにデプロイされる。 バイオメディカル・タスクの増加には最先端の言語モデルが採用されているが、通常、データが開発や展開にまたがる場合のバイオメディカル・モデルに対する時間的影響を調査する研究はほとんどない。 本研究は,3つのバイオメディカルタスクにおける言語モデルの性能とデータシフトの関係を統計的に検証することによって,ギャップを埋めるものである。 生物医学的言語モデルにおける時間的影響を定量的に評価するための多様な指標、データドリフト計測のための距離法、統計的手法を配置する。 本研究は,バイオメディカル言語モデルの展開に要する時間を,バイオメディカルタスクや統計量化手法によって性能劣化の程度が異なることを示す。 本研究は,バイオメディカル言語モデルの展開における時間的効果を評価・評価するための確固たるベンチマークを確立できると考えている。

Time roots in applying language models for biomedical applications: models are trained on historical data and will be deployed for new or future data, which may vary from training data. While increasing biomedical tasks have employed state-of-the-art language models, there are very few studies have examined temporal effects on biomedical models when data usually shifts across development and deployment. This study fills the gap by statistically probing relations between language model performance and data shifts across three biomedical tasks. We deploy diverse metrics to evaluate model performance, distance methods to measure data drifts, and statistical methods to quantify temporal effects on biomedical language models. Our study shows that time matters for deploying biomedical language models, while the degree of performance degradation varies by biomedical tasks and statistical quantification approaches. We believe this study can establish a solid benchmark to evaluate and assess temporal effects on deploying biomedical language models.
翻訳日:2024-07-26 15:57:05 公開日:2024-07-24
# 正規言語量子状態

Regular language quantum states ( http://arxiv.org/abs/2407.17641v1 )

ライセンス: Link先を確認
Marta Florido-Llinàs, Álvaro M. Alhambra, David Pérez-García, J. Ignacio Cirac, (参考訳) 量子多体状態の族である正規言語状態を導入する。 それらは、コンピュータ科学の分野で徹底的に研究されている正規言語と呼ばれる特殊な形式言語から構築されている。 これらは正規言語における全ての単語の重ね合わせとして理解することができ、GHZ-、W-、Dicke-statesのような物理的に関連する状態を含む。 正規言語の理論を活用することにより、それらの記述のための理論的枠組みを開発する。 まず、行列積状態の観点から表現し、それらを認識するための効率的な基準を提供する。 次に、局所ユニタリ演算を含む正規言語状態の同値性に関する基本定理を定式化できる標準形式を開発する。 また、テンソルネットワークの理論を利用して、正規言語がシフト不変であるタイミングを決定する効率的な基準を求める。

We introduce regular language states, a family of quantum many-body states. They are built from a special class of formal languages, called regular, which has been thoroughly studied in the field of computer science. They can be understood as the superposition of all the words in a regular language and encompass physically relevant states such as the GHZ-, W- or Dicke-states. By leveraging the theory of regular languages, we develop a theoretical framework to describe them. First, we express them in terms of matrix product states, providing efficient criteria to recognize them. We then develop a canonical form which allows us to formulate a fundamental theorem for the equivalence of regular language states, including under local unitary operations. We also exploit the theory of tensor networks to find an efficient criterion to determine when regular languages are shift-invariant.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# SMA-Hyper:交通事故予測のための時空間多視点融合ハイパーグラフ学習

SMA-Hyper: Spatiotemporal Multi-View Fusion Hypergraph Learning for Traffic Accident Prediction ( http://arxiv.org/abs/2407.17642v1 )

ライセンス: Link先を確認
Xiaowei Gao, James Haworth, Ilya Ilyankou, Xianghui Zhang, Tao Cheng, Stephen Law, Huanfa Chen, (参考訳) 交通事故の予測は持続可能な都市管理の鍵であり、都市の動的かつ複雑な時空間特性を効果的に把握する必要がある。 現在のデータ駆動モデルは、しばしばデータ空間に苦しむが、通常、多様な都市データソースとそれらの中の高次依存関係の統合を見落としている。 さらに、事前に定義されたトポロジや重みにしばしば依存し、時空間予測における適応性を制限する。 これらの問題に対処するために,交通事故予測用に設計された動的ディープラーニングフレームワークである時空間多視点適応型ハイパーグラフ学習(SMA-Hyper)モデルを導入する。 従来の研究に基づいて、この革新的なモデルでは、ハイパーグラフによる高次クロスリージョン学習と、進化する都市データへの動的適応を可能にする、双対適応時空間グラフ学習機構が組み込まれている。 コントラスト学習を利用して、スパースデータセットにおけるグローバルデータとローカルデータの表現を強化し、事故データと都市機能の特徴の複数のビューを融合させる事前注意機構を用いて、リスク要因の文脈的理解を深める。 ロンドン交通事故データセットの大規模なテストでは、SMA-Hyperモデルは、様々な時間的地平線と多段階のアウトプットでベースラインモデルよりも大幅に優れており、マルチビュー融合と適応学習戦略の有効性が確認されている。 この結果の解釈可能性はさらに,複雑な時空間的都市データを活用し,多様な都市環境に適応可能なスケーラブルな枠組みを提供することにより,都市交通管理と安全性を向上させる可能性を示している。

Predicting traffic accidents is the key to sustainable city management, which requires effective address of the dynamic and complex spatiotemporal characteristics of cities. Current data-driven models often struggle with data sparsity and typically overlook the integration of diverse urban data sources and the high-order dependencies within them. Additionally, they frequently rely on predefined topologies or weights, limiting their adaptability in spatiotemporal predictions. To address these issues, we introduce the Spatiotemporal Multiview Adaptive HyperGraph Learning (SMA-Hyper) model, a dynamic deep learning framework designed for traffic accident prediction. Building on previous research, this innovative model incorporates dual adaptive spatiotemporal graph learning mechanisms that enable high-order cross-regional learning through hypergraphs and dynamic adaptation to evolving urban data. It also utilises contrastive learning to enhance global and local data representations in sparse datasets and employs an advance attention mechanism to fuse multiple views of accident data and urban functional features, thereby enriching the contextual understanding of risk factors. Extensive testing on the London traffic accident dataset demonstrates that the SMA-Hyper model significantly outperforms baseline models across various temporal horizons and multistep outputs, affirming the effectiveness of its multiview fusion and adaptive learning strategies. The interpretability of the results further underscores its potential to improve urban traffic management and safety by leveraging complex spatiotemporal urban data, offering a scalable framework adaptable to diverse urban environments.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# アセットアロケーションのためのホップフィールドネットワーク

Hopfield Networks for Asset Allocation ( http://arxiv.org/abs/2407.17645v1 )

ライセンス: Link先を確認
Carlo Nicolini, Monisha Gopalan, Jacopo Staiano, Bruno Lepri, (参考訳) 本稿では,ポートフォリオ最適化問題に対する最近のホップフィールドネットワークの最初の応用について述べる。 本研究は,複数データセットにまたがる組み合わせによるクロスバリデーションに基づく広範な研究を行い,ポートフォリオ選択のための従来の手法とディープラーニングベースの手法を比較した。 長短項記憶ネットワークやトランスフォーマーのような最先端のディープラーニング手法と比較して、提案手法はより高速なトレーニング時間とより優れた安定性を提供しながら、同等以上のパフォーマンスを実現していることがわかった。 この結果から,現代ホップフィールドネットワークはポートフォリオ最適化への有望なアプローチであり,アセットアロケーションやリスク管理,動的リバランシングといった,効率的でスケーラブルで堅牢なソリューションを実現することが示唆された。

We present the first application of modern Hopfield networks to the problem of portfolio optimization. We performed an extensive study based on combinatorial purged cross-validation over several datasets and compared our results to both traditional and deep-learning-based methods for portfolio selection. Compared to state-of-the-art deep-learning methods such as Long-Short Term Memory networks and Transformers, we find that the proposed approach performs on par or better, while providing faster training times and better stability. Our results show that Modern Hopfield Networks represent a promising approach to portfolio optimization, allowing for an efficient, scalable, and robust solution for asset allocation, risk management, and dynamic rebalancing.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# 表現論的多重性のための量子アルゴリズム

Quantum Algorithms for Representation-Theoretic Multiplicities ( http://arxiv.org/abs/2407.17649v1 )

ライセンス: Link先を確認
Martin Larocca, Vojtech Havlicek, (参考訳) Kostka, Littlewood-Richardson, Plethysm および Kronecker 係数は、既約の制限と積における対称群の既約表現(不規則)の多重性である。 それらは表現論において重要な役割を担い、計算が難しいことで知られている。 表現の次元の比が多項式であれば、これらの係数を効率的に計算する量子アルゴリズムを与える。 コストカ数は組合せ解釈を許容するので、多項式有界コストカ数に対する効率的な古典的アルゴリズムと、リトルウッド・リチャードソン係数に対する同様のアルゴリズムの存在が示される。 同じ古典的アルゴリズムがプレトヒズム係数やクロネッカー係数に対して直接作用しない理由を論じ、我々の量子アルゴリズムが計算の困難さをいかに回避するかを証明し、この問題がいくつかの入力における超多項式量子スピードアップに繋がるかを推測する。 最終的にフロベニウスの相互性を用いて別の量子アルゴリズムを導出し、誘導法を用いてこれらの係数を推定し、異なるコスト対インプット依存を持つ。

Kostka, Littlewood-Richardson, Plethysm and Kronecker coefficients are multiplicities of irreducible representations (irreps) of the symmetric group in restrictions and products of irreps. They play an important role in representation theory and are notoriously hard to compute. We give quantum algorithms that efficiently compute these coefficients whenever the ratio of dimensions of the representations is polynomial. Using that the Kostka numbers admit combinatorial interpretation, we show that there is an efficient classical algorithm for polynomially-bounded Kostka numbers and conjecture existence of a similar algorithm for the Littlewood-Richardson coefficients. We argue why the same classical algorithm does not straightforwardly work for the Plethysm and Kronecker coefficients, give evidence on how our quantum algorithm may avoid some hardness obstructions in their computation, and conjecture that the problem could lead to superpolynomial quantum speedups on some inputs. We finally use Frobenius reciprocity to derive another quantum algorithm that estimates these coefficients using induction and has a different cost-to-input dependence.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# 米軍車両故障シミュレーションのための生成学習

Generative Learning for Simulation of US Army Vehicle Faults ( http://arxiv.org/abs/2407.17654v1 )

ライセンス: Link先を確認
Patrick Kuiper, Sirui Lin, Jose Blanchet, Vahid Tarokh, (参考訳) 本研究では,車両の健康と予測故障をシミュレートする新しい生成モデルを開発した。 このモデルは、アメリカ陸軍の予測ロジスティックスプログラムのデータに基づいて訓練され、予測保守をサポートすることを目的としている。 故障が起こる前にメンテナンスの介入を行うのに十分な欠陥を事前に予測する。 このモデルには、車の健康に影響を与える現実世界の要因が組み込まれている。 また、運転データを分析し、各車両を個別の状態に特徴付けることで、車両の状態を理解することもできる。 重要なことは、そのモデルは高い精度で最初の故障の時期を予測することである。 私たちは、そのパフォーマンスを他のモデルと比較し、そのトレーニングの成功例を示します。

We develop a novel generative model to simulate vehicle health and forecast faults, conditioned on practical operational considerations. The model, trained on data from the US Army's Predictive Logistics program, aims to support predictive maintenance. It forecasts faults far enough in advance to execute a maintenance intervention before a breakdown occurs. The model incorporates real-world factors that affect vehicle health. It also allows us to understand the vehicle's condition by analyzing operating data, and characterizing each vehicle into discrete states. Importantly, the model predicts the time to first fault with high accuracy. We compare its performance to other models and demonstrate its successful training.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# 変分量子アルゴリズムにおける離散量子抽出探索

Discretized Quantum Exhaustive Search for Variational Quantum Algorithms ( http://arxiv.org/abs/2407.17659v1 )

ライセンス: Link先を確認
Dekel Meirom, Ittay Alfassi, Tal Mor, (参考訳) 量子コンピュータは、古典的コンピュータよりも大きな計算上の優位性を約束するが、現在利用可能な量子デバイスは、限られた量子ビットと高いレベルのノイズしか持たず、それらのデバイスで正確に解決できる問題のサイズを制限している。 変動量子アルゴリズム (VQA) は、浅層深度回路の測定結果に基づいてコスト関数を最適化することにより、これらの制限に対処する主要な戦略として登場した。 しかし、最適化プロセスは通常、局所的なミニマや不毛の台地など、指数関数的に大きい探索空間の結果として、厳しい訓練性の問題に悩まされる。 本稿では,変分量子アルゴリズムを改良する新しい手法,<discretized quantum exhaustive search'を提案する。 古典的コンピュータでは、網羅的な探索もブルートフォースと呼ばれ、小型のNP完全およびNP困難問題を解く。 探索的探索と効率的な部分的探索は、簡単な部分ケースや良い近似を見つけることで、より大規模な問題を解決するためのヒューリスティックや正確なアルゴリズムを設計するのに役立つ。 我々はこの手法を量子領域に適用し、2^n$次元ヒルベルト空間に対して互いに偏りのない基底を頼りにしている。 我々は、小さな問題に対してうまく機能する離散化された量子包絡探索を定義する。 本稿では,従来のツールを量子コンピューティング領域に拡張するために,より大規模な問題に対する効率的な部分的離散化量子徹底探索の例を示す。 提案手法は,NP完全問題,NP完全問題,および量子メルリン・アーサー問題(QMA)完全問題,QMAハード問題に対する直観を得ることを可能にする。 様々な問題に対してエネルギーランドスケープを提供し、VQAを介して2種類のエネルギー曲線を提示する。

Quantum computers promise a great computational advantage over classical computers, yet currently available quantum devices have only a limited amount of qubits and a high level of noise, limiting the size of problems that can be solved accurately with those devices. Variational Quantum Algorithms (VQAs) have emerged as a leading strategy to address these limitations by optimizing cost functions based on measurement results of shallow-depth circuits. However, the optimization process usually suffers from severe trainability issues as a result of the exponentially large search space, mainly local minima and barren plateaus. Here we propose a novel method that can improve variational quantum algorithms -- ``discretized quantum exhaustive search''. On classical computers, exhaustive search, also named brute force, solves small-size NP complete and NP hard problems. Exhaustive search and efficient partial exhaustive search help designing heuristics and exact algorithms for solving larger-size problems by finding easy subcases or good approximations. We adopt this method to the quantum domain, by relying on mutually unbiased bases for the $2^n$-dimensional Hilbert space. We define a discretized quantum exhaustive search that works well for small size problems. We provide an example of an efficient partial discretized quantum exhaustive search for larger-size problems, in order to extend classical tools to the quantum computing domain, for near future and far future goals. Our method enables obtaining intuition on NP-complete and NP-hard problems as well as on Quantum Merlin Arthur (QMA)-complete and QMA-hard problems. We demonstrate our ideas in many simple cases, providing the energy landscape for various problems and presenting two types of energy curves via VQAs.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# モデルの説明、データ保護:メンバーシップ推論によるホック後のモデル説明におけるデータプライバシリスクの調査と緩和

Explaining the Model, Protecting Your Data: Revealing and Mitigating the Data Privacy Risks of Post-Hoc Model Explanations via Membership Inference ( http://arxiv.org/abs/2407.17663v1 )

ライセンス: Link先を確認
Catherine Huang, Martin Pawelczyk, Himabindu Lakkaraju, (参考訳) 予測機械学習モデルは、機密性の高い個人データを含む高レベルのコンテキストにますますデプロイされている。 本研究では,画像分類の微調整の基礎モデルに焦点をあてて,ポストホックモデルの説明の予期せぬプライバシーリスクを明らかにするとともに,そのようなリスクに対する緩和戦略を提案する。 まず,VAR-LRTとL1/L2-LRTの2つの新たなメンバーシップ推論攻撃を構築した。 第2に、最適化された微分プライベート微調整が、上記の攻撃の成功を著しく減少させ、高いモデル精度を維持しながら、実証的に見いだす。 5つのヴィジュアルトランスフォーマーアーキテクチャ、5つのベンチマークデータセット、4つの最先端のポストホックな説明方法、4つのプライバシの強度設定による2つの新たな攻撃について、システマティックな調査を行っている。

Predictive machine learning models are becoming increasingly deployed in high-stakes contexts involving sensitive personal data; in these contexts, there is a trade-off between model explainability and data privacy. In this work, we push the boundaries of this trade-off: with a focus on foundation models for image classification fine-tuning, we reveal unforeseen privacy risks of post-hoc model explanations and subsequently offer mitigation strategies for such risks. First, we construct VAR-LRT and L1/L2-LRT, two new membership inference attacks based on feature attribution explanations that are significantly more successful than existing explanation-leveraging attacks, particularly in the low false-positive rate regime that allows an adversary to identify specific training set members with confidence. Second, we find empirically that optimized differentially private fine-tuning substantially diminishes the success of the aforementioned attacks, while maintaining high model accuracy. We carry out a systematic empirical investigation of our 2 new attacks with 5 vision transformer architectures, 5 benchmark datasets, 4 state-of-the-art post-hoc explanation methods, and 4 privacy strength settings.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# SDLNet: オブジェクトの同時検出と同定のための統計的深層学習ネットワーク

SDLNet: Statistical Deep Learning Network for Co-Occurring Object Detection and Identification ( http://arxiv.org/abs/2407.17664v1 )

ライセンス: Link先を確認
Binay Kumar Singh, Niels Da Vitoria Lobo, (参考訳) ディープラーニングベースの技術の進歩により、共起オブジェクトの検出と識別は、セキュリティや監視といった分野で多くの応用が期待できる課題である。 本稿では,SDLNet- Statistical Analysis with Deep Learning Networkという新しいフレームワークを提案する。 提案手法のパイプラインは,SDLNetの第1段階においてラベル発見のためのマルチラベル検出器を扱い,第2段階では共起行列解析を行う。 共起行列解析では,基本クラスの設定と頻出クラスの設定により共起統計を学習し,その後,関連ルールを構築し,頻発パターンを生成する。 SDLNetの重要な部分は、ベースクラスを認識し、共起クラスについて考慮することである。 最後に、頻繁なパターンに基づいて生成された共起行列は、基底クラスとその対応する共起クラスを示す。 SDLNetはPascal VOCとMS-COCOの2つの公開データセットで評価されている。 これらのベンチマークデータセットの実験結果はSec 4.0で報告されている。

With the growing advances in deep learning based technologies the detection and identification of co-occurring objects is a challenging task which has many applications in areas such as, security and surveillance. In this paper, we propose a novel framework called SDLNet- Statistical analysis with Deep Learning Network that identifies co-occurring objects in conjunction with base objects in multilabel object categories. The pipeline of proposed work is implemented in two stages: in the first stage of SDLNet we deal with multilabel detectors for discovering labels, and in the second stage we perform co-occurrence matrix analysis. In co-occurrence matrix analysis, we learn co-occurrence statistics by setting base classes and frequently occurring classes, following this we build association rules and generate frequent patterns. The crucial part of SDLNet is recognizing base classes and making consideration for co-occurring classes. Finally, the generated co-occurrence matrix based on frequent patterns will show base classes and their corresponding co-occurring classes. SDLNet is evaluated on two publicly available datasets: Pascal VOC and MS-COCO. The experimental results on these benchmark datasets are reported in Sec 4.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# 分散シフトの問題に対処する:逆問題に対する不特定・高次元データ駆動優先事項の修正

Tackling the Problem of Distributional Shifts: Correcting Misspecified, High-Dimensional Data-Driven Priors for Inverse Problems ( http://arxiv.org/abs/2407.17667v1 )

ライセンス: Link先を確認
Gabriel Missael Barco, Alexandre Adam, Connor Stone, Yashar Hezaveh, Laurence Perreault-Levasseur, (参考訳) 逆問題に対するベイズ的推論は、事前の選択に批判的に依存する。 特定の事前情報がない場合、人口レベルの分布は興味のあるパラメーターの効果的な事前情報として機能する。 機械学習の出現に伴い、さまざまな逆問題における単純なパラメトリック事前の代替として、データ駆動人口レベルの分布(例えば、訓練されたディープニューラルネットワークでエンコードされる)を前者として使用するようになった。 しかし、多くの天体物理学的な応用において、これらのモデルを訓練するために、基礎となるデータ生成プロセスから独立して同一に分散されたサンプルを取得することはしばしば困難または不可能である。 これらのケースでは、破損したデータやサロゲート(シミュレーターなど)がトレーニングサンプルを作成するためにしばしば使用され、不特定な事前情報を得るリスクがある。 これにより、推測された後部を定量化が難しい方法でバイアスし、現実のシナリオにおけるこれらのモデルの適用可能性を制限することができる。 本研究では,異なる観測セットの後方サンプルを用いてモデルを再学習することで,人口分布を反復的に更新することでこの問題に対処することを提案し,スコアベースモデルをデータ駆動型先行モデルとして使用する場合,強力な重力レンズによる背景画像再構成の問題に対する本手法の可能性を示す。 本研究は, 事前分布の不特定から, 更新された分布が下位の個体群分布に徐々に近づき, 得られた後続標本は, 数回の更新後にバイアスを減少させることを示した。

Bayesian inference for inverse problems hinges critically on the choice of priors. In the absence of specific prior information, population-level distributions can serve as effective priors for parameters of interest. With the advent of machine learning, the use of data-driven population-level distributions (encoded, e.g., in a trained deep neural network) as priors is emerging as an appealing alternative to simple parametric priors in a variety of inverse problems. However, in many astrophysical applications, it is often difficult or even impossible to acquire independent and identically distributed samples from the underlying data-generating process of interest to train these models. In these cases, corrupted data or a surrogate, e.g. a simulator, is often used to produce training samples, meaning that there is a risk of obtaining misspecified priors. This, in turn, can bias the inferred posteriors in ways that are difficult to quantify, which limits the potential applicability of these models in real-world scenarios. In this work, we propose addressing this issue by iteratively updating the population-level distributions by retraining the model with posterior samples from different sets of observations and showcase the potential of this method on the problem of background image reconstruction in strong gravitational lensing when score-based models are used as data-driven priors. We show that starting from a misspecified prior distribution, the updated distribution becomes progressively closer to the underlying population-level distribution, and the resulting posterior samples exhibit reduced bias after several updates.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# 断熱超球面表現における中性子豊富なヘリウム同位体の共鳴と衝突特性

Resonances and collisional properties of neutron-rich helium isotopes in the adiabatic hyperspherical representation ( http://arxiv.org/abs/2407.17668v1 )

ライセンス: Link先を確認
Michael D. Higgins, Chris H. Greene, (参考訳) この研究は、$^{4}{\mathrm{He}}$核と相互作用する中性子からなる少数の天体系を扱う。 Adiabatic hyperspherical representation is used to solve the $N$-body Schr$\ddot{\mathrm{o}}$dinger equation for the three-body systems and four-body systems, and treated both $^{6}{\mathrm{He}}$ and $^{7}{\mathrm{He}}$ nuclear。 $^{4}{\mathrm{He}}-n$相互作用の単純化された中心ポテンシャルモデルはスピン依存の3体相互作用と組み合わせて$^{6}{\mathrm{He}}$境界状態と共鳴特性を再現し、基底状態の$^{8}{\mathrm{He}}$核の性質も再現する。 このハミルトニアンで、アディアバティック超球面表現は、$^{6}{\mathrm{He}}$と$^{7}{\mathrm{He}}$核の有界および散乱状態を計算するために用いられる。 $^{6}{\mathrm{He}}$系では、$0^{+}$と$2^{+}$状態の間の電気四極子遷移が研究される。 $^{7}{\mathrm{He}}$システムでは、$^{6}{\mathrm{He}}+n$弾性散乱を4体組換えプロセス$^{4}{\mathrm{He}}+n+n+n\rightarrow$$^{6}{\mathrm{He}}+n\rightarrow$$^{6}{\mathrm{He}}+n\rightarrow$$^{4}{\mathrm{He}}+n+n$と共に検討する。

This work treats few-body systems consisting of neutrons interacting with a $^{4}{\mathrm{He}}$ nucleus. The adiabatic hyperspherical representation is utilized to solve the $N$-body Schr$\ddot{\mathrm{o}}$dinger equation for the three- and four-body systems, treating both $^{6}{\mathrm{He}}$ and $^{7}{\mathrm{He}}$ nuclei. A simplified central potential model for the $^{4}{\mathrm{He}}-n$ interaction is used in conjunction with a spin-dependent three-body interaction to reproduce $^{6}{\mathrm{He}}$ bound-state and resonance properties as well as properties for the $^{8}{\mathrm{He}}$ nucleus in its ground-state. With this Hamiltonian, the adiabatic hyperspherical representation is used to compute bound and scattering states for both $^{6}{\mathrm{He}}$ and $^{7}{\mathrm{He}}$ nuclei. For the $^{6}{\mathrm{He}}$ system, the electric quadrupole transition between the $0^{+}$ and $2^{+}$ state is investigated. For the $^{7}{\mathrm{He}}$ system, $^{6}{\mathrm{He}}+n$ elastic scattering is investigated along with the four-body recombination process $^{4}{\mathrm{He}}+n+n+n\rightarrow$$^{6}{\mathrm{He}}+n$ and breakup process $^{6}{\mathrm{He}}+n\rightarrow$$^{4}{\mathrm{He}}+n+n+n$.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# リッチ表現を学習するUnsqueeze [CLS] Bottleneck

Unsqueeze [CLS] Bottleneck to Learn Rich Representations ( http://arxiv.org/abs/2407.17671v1 )

ライセンス: Link先を確認
Qing Su, Shihao Ji, (参考訳) 蒸留に基づく自己教師付き学習は、急進的なクラスタリングプロセスとよりシャープなターゲット分布の実装により、一般的により圧縮された表現をもたらす。 この制限を克服し、より多くの情報を入力から保存するために、Unsqueezed Distillation-based self-supervised learning (SSL)として概念化されたUDIを導入する。 UDIは、階層化サンプリングによって導出される局所予測の統合プロファイルから抽出されたマルチモーダル予測を奨励することにより、学習された表現を豊かにする。 評価の結果, UDIは画像分類において, 意味的に意味のある表現を推進し, 最先端のSSL手法に優れた結果をもたらすだけでなく, 入力のニュアンスを効果的に保ち, オブジェクト検出やセグメンテーションなどの密接な予測タスクを大幅に改善することが示された。 さらに、UDIはローショット画像分類において競合的に機能し、共同埋め込みパイプラインのスケーラビリティを向上させる。 UDIの背後にあるメカニズムをさらに解明するために、様々な可視化とアブレーション研究が提示されている。 ソースコードはhttps://github.com/ISL-CV/udi.comで公開されています。

Distillation-based self-supervised learning typically leads to more compressed representations due to its radical clustering process and the implementation of a sharper target distribution. To overcome this limitation and preserve more information from input, we introduce UDI, conceptualized as Unsqueezed Distillation-based self-supervised learning (SSL). UDI enriches the learned representation by encouraging multimodal prediction distilled from a consolidated profile of local predictions that are derived via stratified sampling. Our evaluations show that UDI not only promotes semantically meaningful representations at instance level, delivering superior or competitive results to state-of-the-art SSL methods in image classification, but also effectively preserves the nuisance of input, which yields significant improvement in dense prediction tasks, including object detection and segmentation. Additionally, UDI performs competitively in low-shot image classification, improving the scalability of joint-embedding pipelines. Various visualizations and ablation studies are presented to further elucidate the mechanisms behind UDI. Our source code is available at https://github.com/ISL-CV/udi.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# 垂直的フェデレーション学習におけるニューラルネットワークのスパイク:パフォーマンストレードオフ

Spiking Neural Networks in Vertical Federated Learning: Performance Trade-offs ( http://arxiv.org/abs/2407.17672v1 )

ライセンス: Link先を確認
Maryam Abbasihafshejani, Anindya Maiti, Murtuza Jadliwala, (参考訳) フェデレートされた機械学習は、データのプライバシを維持しながら、複数のクライアントにわたるモデルトレーニングを可能にする。 Vertical Federated Learning (VFL)は、クライアントが同じサンプルの異なる機能セットを持つインスタンスを特に扱う。 フェデレーション学習モデルは効率性と適応性の向上を目的としているため、スパイキングニューラルネットワーク(SNN)のような革新的なニューラルネットワークアーキテクチャを活用して、エッジでの高速かつ正確な処理を可能にしている。 ニューラルネットワーク(ANN)よりも効率的であることが知られているSNNは、これまでVFLへの適用性について分析されていない。 本稿では,SNNモデルを用いた垂直連邦学習環境における利点とトレードオフについて検討する。 モデル分割とモデル分割のない2つの異なるフェデレーション学習アーキテクチャを実装する。 CIFAR-10およびCIFAR-100ベンチマークデータセットとVGG9およびResNET分類モデルのSNN実装を用いて設定を評価する。 比較評価により、SNNモデルの精度はVFLアプリケーションにおける従来のANNの精度に匹敵するが、エネルギー効率は著しく向上することが示された。

Federated machine learning enables model training across multiple clients while maintaining data privacy. Vertical Federated Learning (VFL) specifically deals with instances where the clients have different feature sets of the same samples. As federated learning models aim to improve efficiency and adaptability, innovative neural network architectures like Spiking Neural Networks (SNNs) are being leveraged to enable fast and accurate processing at the edge. SNNs, known for their efficiency over Artificial Neural Networks (ANNs), have not been analyzed for their applicability in VFL, thus far. In this paper, we investigate the benefits and trade-offs of using SNN models in a vertical federated learning setting. We implement two different federated learning architectures -- with model splitting and without model splitting -- that have different privacy and performance implications. We evaluate the setup using CIFAR-10 and CIFAR-100 benchmark datasets along with SNN implementations of VGG9 and ResNET classification models. Comparative evaluations demonstrate that the accuracy of SNN models is comparable to that of traditional ANNs for VFL applications, albeit significantly more energy efficient.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# CRASAR-U-DROID:ジオリフィケーションSUAS画像における建物配向と損傷評価のための大規模ベンチマークデータセット

CRASAR-U-DROIDs: A Large Scale Benchmark Dataset for Building Alignment and Damage Assessment in Georectified sUAS Imagery ( http://arxiv.org/abs/2407.17673v1 )

ライセンス: Link先を確認
Thomas Manzini, Priyankari Perali, Raisa Karnik, Robin Murphy, (参考訳) 本論文は,小型無人航空システム(SUAS)の地理空間画像から収集した損傷評価と空間アライメントのためのロボット支援捜索救助センター(Center for Robot Assisted Search and Rescue - Uncrewed Aerial Systems - Disaster Response Overhead Inspection Dataset,CRASAR-U-DROIDs)について述べる。 このデータセットは、災害対応におけるsUASの利用の増加と、機械学習とコンピュータビジョンモデルに高解像度の地理空間sUAS画像を利用するための以前の作業の欠如、運用上のユースケースとの整合性の欠如、および、sUASと衛星画像の間のさらなる調査を可能にすることを目標としている。 CRASAR-U-DRIODsデータセットは、連邦が宣言した10の災害(ハリケーン・イアン、ハリケーン・アイダ、ハリケーン・ハービー、ハリケーン・アイダリア、ハリケーン・ラウラ、ハリケーン・マイケル、ムセット・バイユー・ファイア、メイフィールド・トルナド、キラウエア・噴火、シャンプレーン・タワーズ・コラプス)のうち、67.98平方キロメートル (26.245 平方マイル)、21,716ビルのポリゴンと損傷ラベルを含む。 この画像は、損傷の人為的な判断を共同損傷尺度に従って提供した130個のアノテーターのプールに、オーバーレイ建築ポリゴンと組み合わせて撮影され、展示された。 これらのアノテーションは2段階のレビュープロセスを通じてレビューされ、ポリゴン損傷ラベルの構築はまず個別に、次に委員会によってレビューされた。 さらに、ビルディングポリゴンは、より高性能な機械学習モデルをトレーニングできるように、画像と正確に重なり合うように空間的に整列されている。 CRASAR-U-DRIODsは、SUASオルソモザイク画像の最大のラベル付きデータセットである。

This document presents the Center for Robot Assisted Search And Rescue - Uncrewed Aerial Systems - Disaster Response Overhead Inspection Dataset (CRASAR-U-DROIDs) for building damage assessment and spatial alignment collected from small uncrewed aerial systems (sUAS) geospatial imagery. This dataset is motivated by the increasing use of sUAS in disaster response and the lack of previous work in utilizing high-resolution geospatial sUAS imagery for machine learning and computer vision models, the lack of alignment with operational use cases, and with hopes of enabling further investigations between sUAS and satellite imagery. The CRASAR-U-DRIODs dataset consists of fifty-two (52) orthomosaics from ten (10) federally declared disasters (Hurricane Ian, Hurricane Ida, Hurricane Harvey, Hurricane Idalia, Hurricane Laura, Hurricane Michael, Musset Bayou Fire, Mayfield Tornado, Kilauea Eruption, and Champlain Towers Collapse) spanning 67.98 square kilometers (26.245 square miles), containing 21,716 building polygons and damage labels, and 7,880 adjustment annotations. The imagery was tiled and presented in conjunction with overlaid building polygons to a pool of 130 annotators who provided human judgments of damage according to the Joint Damage Scale. These annotations were then reviewed via a two-stage review process in which building polygon damage labels were first reviewed individually and then again by committee. Additionally, the building polygons have been aligned spatially to precisely overlap with the imagery to enable more performant machine learning models to be trained. It appears that CRASAR-U-DRIODs is the largest labeled dataset of sUAS orthomosaic imagery.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# 生成逆ネットワークを用いた合成高分解能Cryo-EM密度マップ

Synthetic High-resolution Cryo-EM Density Maps with Generative Adversarial Networks ( http://arxiv.org/abs/2407.17674v1 )

ライセンス: Link先を確認
Chenwei Zhang, Anne Condon, Khanh Dao Duc, (参考訳) 分子構造から合成低温電子顕微鏡(cryo-EM)3次元密度マップを生成することは、構造生物学において潜在的に重要な応用である。 しかし、既存のシミュレーションに基づく手法は、二次構造要素のような実験地図に存在するすべての複雑な特徴を模倣することはできない。 分子構造から高分解能な実験ライクな密度マップを作成するために,GAN(Generative Adversarial Network)を用いた新しいデータ駆動手法であるstruc2mapGANを提案する。 より具体的には、struc2mapGANはU-Net++アーキテクチャをジェネレータとして使用し、L1損失項を追加し、学習効率を高めるために生の実験マップをさらに処理する。 struc2mapGANは、訓練後に迅速にマップを生成することができるが、様々な評価指標において、既存のシミュレーションベースの手法よりも優れていることを示す。 私たちのコードはhttps://github.com/chenwei-zhang/struc2mapGAN.comで公開されています。

Generating synthetic cryogenic electron microscopy (cryo-EM) 3D density maps from molecular structures has potential important applications in structural biology. Yet existing simulation-based methods cannot mimic all the complex features present in experimental maps, such as secondary structure elements. As an alternative, we propose struc2mapGAN, a novel data-driven method that employs a generative adversarial network (GAN) to produce high-resolution experimental-like density maps from molecular structures. More specifically, struc2mapGAN uses a U-Net++ architecture as the generator, with an additional L1 loss term and further processing of raw experimental maps to enhance learning efficiency. While struc2mapGAN can promptly generate maps after training, we demonstrate that it outperforms existing simulation-based methods for a wide array of tested maps and across various evaluation metrics. Our code is available at https://github.com/chenwei-zhang/struc2mapGAN.
翻訳日:2024-07-26 15:47:21 公開日:2024-07-24
# データ混合推論:BPEトークン作成者はトレーニングデータについて何を知っているか?

Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? ( http://arxiv.org/abs/2407.16607v2 )

ライセンス: Link先を確認
Jonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith, (参考訳) 今日の最強言語モデルの事前学習データは不透明であり、特に様々なドメインや言語の割合についてはほとんど知られていない。 本研究では,学習データの分布的構成を明らかにすることを目的として,データ混合推論と呼ばれる課題に取り組む。 従来見過ごされていた情報源であるバイトペア符号化(BPE)トークン化器をベースとした,現代的な言語モデルの大部分で使用されている新たな攻撃手法を提案する。 我々の重要な洞察は、BPEトークンエータが学習したマージ規則の順序リストが、そのトレーニングデータ中のトークン周波数に関する情報を自然に明らかにすることである: 第一マージは最も一般的なバイトペアであり、第二マージは第一トークンをマージした後で最も一般的なペアである。 トークンライザのマージリストと興味のあるカテゴリ毎のデータサンプルが与えられた場合、トークンライザのトレーニングセット内の各カテゴリの比率を解決する線形プログラムを定式化する。 重要なことは、トークンエータのトレーニングデータが事前学習データの代表である範囲において、間接的に事前学習データについて学ぶことである。 制御された実験では、自然言語、プログラミング言語、データソースの既知の混合に基づいて訓練されたトークン化剤に対して、高い精度で混合比を回復することを示した。 次に、最近のLMでリリースされたオフ・ザ・シェルフトークンーザに適用する。 GPT-4oのトークンライザは前任者よりもはるかに多言語的であり、39%の非英語データでのトレーニング、Llama3は多言語(48%)の使用のためにGPT-3.5のトークンライザを拡張し、GPT-3.5とClaudeのトークンライザは主としてコード(~60%)でトレーニングされている。 私たちは、データ事前トレーニングの現在の設計プラクティスに光を当て、LMのデータ混合推論に関する継続的な研究を刺激することを期待しています。

The pretraining data of today's strongest language models is opaque; in particular, little is known about the proportions of various domains or languages represented. In this work, we tackle a task which we call data mixture inference, which aims to uncover the distributional make-up of training data. We introduce a novel attack based on a previously overlooked source of information -- byte-pair encoding (BPE) tokenizers, used by the vast majority of modern language models. Our key insight is that the ordered list of merge rules learned by a BPE tokenizer naturally reveals information about the token frequencies in its training data: the first merge is the most common byte pair, the second is the most common pair after merging the first token, and so on. Given a tokenizer's merge list along with data samples for each category of interest, we formulate a linear program that solves for the proportion of each category in the tokenizer's training set. Importantly, to the extent to which tokenizer training data is representative of the pretraining data, we indirectly learn about pretraining data. In controlled experiments, we show that our attack recovers mixture ratios with high precision for tokenizers trained on known mixtures of natural languages, programming languages, and data sources. We then apply our approach to off-the-shelf tokenizers released with recent LMs. We confirm much publicly disclosed information about these models, and also make several new inferences: GPT-4o's tokenizer is much more multilingual than its predecessors, training on 39% non-English data; Llama3 extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and Claude's tokenizers are trained on predominantly code (~60%). We hope our work sheds light on current design practices for pretraining data, and inspires continued research into data mixture inference for LMs.
翻訳日:2024-07-26 12:59:24 公開日:2024-07-24
# 大量観測データに基づく患者レベルの予測のためのロジスティック回帰モデル:全データが必要か?

Logistic regression models for patient-level prediction based on massive observational data: Do we need all data? ( http://arxiv.org/abs/2008.07361v2 )

ライセンス: Link先を確認
Luis H. John, Jan A. Kors, Jenna M. Reps, Patrick B. Ryan, Peter R. Rijnbeek, (参考訳) 目的: 適切なサンプルサイズを実証的に確立することにより、予測モデルを開発するためのサンプルサイズ検討に関するガイダンスを提供する。 対象と方法:3つの大観測健康データベースにおける81の予測問題(抑うつコホートで予測される23の結果,高血圧コホートで予測される58の結果)の学習曲線を生成することにより,サンプルサイズが予測性能およびモデル複雑さに与える影響を実験的に評価し,予測モデル17,248のトレーニングを必要とする。 適切なサンプルサイズを,モデルの性能が最小しきい値に等しくなるサンプルサイズとして定義した。 結果: 適切な試料サイズは, それぞれ0.001, 0.005, 0.01, 0.02の観測値に対して, 9.5%, 37.3%, 58.5%, 78.5%の観測値の中央値の減少を達成している。 モデルにおける予測値の中央値は、それぞれ0.001、0.005、0.001、0.02の閾値に対して8.6%、32.2%、48.2%、68.3%であった。 考察:本研究の結果から,今後の予測作業において,サンプルサイズとモデル複雑性の保守的かつ重要な削減が期待できる。 しかし、研究者が学習曲線を生成しようとすると、結果に依存した大きな変数によって示唆されるように、モデルの複雑さが大幅に減少する可能性がある。 結論: 結果から, 利用可能なデータのごく一部しか, 完全なデータセット上で開発されたモデルの性能に近いモデルを生成することができないことが示唆された。

Objective: Provide guidance on sample size considerations for developing predictive models by empirically establishing the adequate sample size, which balances the competing objectives of improving model performance and reducing model complexity as well as computational requirements. Materials and Methods: We empirically assess the effect of sample size on prediction performance and model complexity by generating learning curves for 81 prediction problems (23 outcomes predicted in a depression cohort, 58 outcomes predicted in a hypertension cohort) in three large observational health databases, requiring training of 17,248 prediction models. The adequate sample size was defined as the sample size for which the performance of a model equalled the maximum model performance minus a small threshold value. Results: The adequate sample size achieves a median reduction of the number of observations of 9.5%, 37.3%, 58.5%, and 78.5% for the thresholds of 0.001, 0.005, 0.01, and 0.02, respectively. The median reduction of the number of predictors in the models was 8.6%, 32.2%, 48.2%, and 68.3% for the thresholds of 0.001, 0.005, 0.01, and 0.02, respectively. Discussion: Based on our results a conservative, yet significant, reduction in sample size and model complexity can be estimated for future prediction work. Though, if a researcher is willing to generate a learning curve a much larger reduction of the model complexity may be possible as suggested by a large outcome-dependent variability. Conclusion: Our results suggest that in most cases only a fraction of the available data was sufficient to produce a model close to the performance of one developed on the full data set, but with a substantially reduced model complexity.
翻訳日:2024-07-25 20:17:42 公開日:2024-07-24
# 多様性保存型K-Armedバンド、再検討

Diversity-Preserving K-Armed Bandits, Revisited ( http://arxiv.org/abs/2010.01874v3 )

ライセンス: Link先を確認
Hédi Hadiji, Sébastien Gerchinovitz, Jean-Michel Loubes, Gilles Stoltz, (参考訳) 我々は,Celis et al (2019) が導入した多様性保存レコメンデーションのためのバンディットベースのフレームワークについて考察する。 設定の特定の構造を用いてUPBアルゴリズムを設計し、最適混合作用が全ての作用(つまり多様性が望ましい場合)に確率質量を課す場合、自然の場合において分布依存的後悔を享受することを示す。 後悔の低い境界は、そうでなければ、少なくともモデルが平均非有界であるとき、$\ln T$ 後悔が損なわれることを示している。 また、ポリトープの特別な場合以外の例についても論じる。

We consider the bandit-based framework for diversity-preserving recommendations introduced by Celis et al. (2019), who approached it in the case of a polytope mainly by a reduction to the setting of linear bandits. We design a UCB algorithm using the specific structure of the setting and show that it enjoys a bounded distribution-dependent regret in the natural cases when the optimal mixed actions put some probability mass on all actions (i.e., when diversity is desirable). The regret lower bounds provided show that otherwise, at least when the model is mean-unbounded, a $\ln T$ regret is suffered. We also discuss an example beyond the special case of polytopes.
翻訳日:2024-07-25 20:17:42 公開日:2024-07-24
# 縮尺・外乱推定を用いた学習力学における軌道追従の保証

Guaranteed Trajectory Tracking under Learned Dynamics with Contraction Metrics and Disturbance Estimation ( http://arxiv.org/abs/2112.08222v5 )

ライセンス: Link先を確認
Pan Zhao, Ziyao Guo, Yikun Cheng, Aditya Gahlawat, Hyungsoo Kang, Naira Hovakimyan, (参考訳) 本稿では,不確実性を考慮した非線形システムの縮小指標と外乱推定に基づく軌道中心学習制御へのアプローチを提案する。 このアプローチでは、ディープラーニングを使用して不確実なダイナミクスを学習し、学習フェーズ全体を通して過渡的なトラッキングパフォーマンスを保証している。 提案手法では,不確実性のポイントワイド値を予め計算可能な推定誤差境界(EEBs)で推定する。 学習力学、推定外乱、EEBは、学習フェーズを通して実際の軌道の指数収束を保証する制御則を計算するために頑健なリーマンエネルギー条件に組み込まれる。 一方、精度の向上により、学習モデルは、例えば入力遅延に対するトラッキングコントローラのロバスト性の向上に役立ち、より良いトラジェクトリを計画するために、例えば、エネルギー消費の低減、旅行時間の短縮など、より優れたトラジェクトリを構築するために組み込むことが可能である。

This paper presents an approach to trajectory-centric learning control based on contraction metrics and disturbance estimation for nonlinear systems subject to matched uncertainties. The approach uses deep neural networks to learn uncertain dynamics while still providing guarantees of transient tracking performance throughout the learning phase. Within the proposed approach, a disturbance estimation law is adopted to estimate the pointwise value of the uncertainty, with pre-computable estimation error bounds (EEBs). The learned dynamics, the estimated disturbances, and the EEBs are then incorporated in a robust Riemann energy condition to compute the control law that guarantees exponential convergence of actual trajectories to desired ones throughout the learning phase, even when the learned model is poor. On the other hand, with improved accuracy, the learned model can help improve the robustness of the tracking controller, e.g., against input delays, and can be incorporated to plan better trajectories with improved performance, e.g., lower energy consumption and shorter travel time.The proposed framework is validated on a planar quadrotor example.
翻訳日:2024-07-25 20:17:42 公開日:2024-07-24
# Dot製品カーネルのランダム化機能の改善

Improved Random Features for Dot Product Kernels ( http://arxiv.org/abs/2201.08712v3 )

ライセンス: Link先を確認
Jonas Wacker, Motonobu Kanagawa, Maurizio Filippone, (参考訳) 多項式や指数関数(ソフトマックス)カーネルなどのDot製品カーネルは、コンピュータビジョン、自然言語処理、レコメンダシステムといったアプリケーションにおいて重要な入力特徴間の相互作用をモデル化できるため、機械学習において最も広く使われているカーネルの一つである。 我々は、ドット製品カーネルのランダムな特徴近似の効率を改善するために、これらのカーネルを大規模学習に役立てるために、いくつかの新しい貢献をしている。 まず,Radecher や Gaussian のスケッチや TensorSRHT などの多項式カーネルに対して,複素値のランダムな特徴を用いた既存のランダムな特徴近似を一般化する。 複雑な特徴の利用はこれらの近似のばらつきを著しく減少させることができることを実証的に示す。 第2に,様々な乱数特徴量の近似の効率に影響を与える因子を,その分散に対する閉形式表現を導出することにより,理論的解析を行う。 これらの分散公式は、ある近似(例えば、TensorSRHT)が他よりも低い分散(例えば、Rademacherのスケッチ)を達成する条件を解明する。 第三に、これらの分散式を実際に評価できるので、一般のドット製品カーネルのランダムな特徴近似を改善するためのデータ駆動最適化手法を開発し、ガウスカーネルにも適用できる。 これらの貢献によってもたらされた改善と、さまざまなタスクやデータセットに関する広範な実験について説明する。

Dot product kernels, such as polynomial and exponential (softmax) kernels, are among the most widely used kernels in machine learning, as they enable modeling the interactions between input features, which is crucial in applications like computer vision, natural language processing, and recommender systems. We make several novel contributions for improving the efficiency of random feature approximations for dot product kernels, to make these kernels more useful in large scale learning. First, we present a generalization of existing random feature approximations for polynomial kernels, such as Rademacher and Gaussian sketches and TensorSRHT, using complex-valued random features. We show empirically that the use of complex features can significantly reduce the variances of these approximations. Second, we provide a theoretical analysis for understanding the factors affecting the efficiency of various random feature approximations, by deriving closed-form expressions for their variances. These variance formulas elucidate conditions under which certain approximations (e.g., TensorSRHT) achieve lower variances than others (e.g., Rademacher sketches), and conditions under which the use of complex features leads to lower variances than real features. Third, by using these variance formulas, which can be evaluated in practice, we develop a data-driven optimization approach to improve random feature approximations for general dot product kernels, which is also applicable to the Gaussian kernel. We describe the improvements brought by these contributions with extensive experiments on a variety of tasks and datasets.
翻訳日:2024-07-25 20:17:42 公開日:2024-07-24
# 非エルミタン充電による量子電池

Quantum battery with non-Hermitian charging ( http://arxiv.org/abs/2203.09497v2 )

ライセンス: Link先を確認
Tanoy Kanti Konar, Leela Ganesh Chandra Lakkaraju, Aditi Sen De, (参考訳) 我々は、非エルミートハミルトニアンを充電器として利用する量子電池の設計を提案する。 特に、相互作用する(相互作用しない)ハミルトニアンを電池として地面または熱状態から始めると、電池の充電はパリティ時間(PT)および回転時間(RT)対称ハミルトニアンを介して行われ、エネルギーを貯蔵する。 非エルミートハミルトニアンとの焼入れは、エルミート充電器の電池と比較して出力が増大する。 パラメータ空間内の領域を同定し、性能を向上する。 また,PT対称充電器とRT対称充電器を併用した電池のシステムサイズ向上にともなって改善が持続することを示した。 PT対称の場合、XYモデルの異方性は性能に寄与しないが、非エルミート帯電器を持つ電池としてのXXZモデルは、特定の相互作用強度を持つXXモデルよりも優れた性能を示す。 また、初期状態の有限温度においても、非ハーミティシティの利点が有効であることを示す。

We propose a design of a quantum battery exploiting the non-Hermitian Hamiltonian as a charger. In particular, starting with the ground or the thermal state of the interacting (non-interacting) Hamiltonian as the battery, the charging of the battery is performed via parity-time (PT)- and rotational-time (RT)-symmetric Hamiltonian to store energy. We report that such a quenching with a non-Hermitian Hamiltonian leads to an enhanced power output compared to a battery with a Hermitian charger. We identify the region in the parameter space which provides the gain in performance. We also demonstrate that the improvements persist with the increase of system size for batteries with both PT- and RT-symmetric chargers. In the PT-symmetric case, although the anisotropy of the XY model does not help in the performance, we show that the XXZ model as a battery with a non-Hermitian charger performs better than that of the XX model having certain interaction strengths. We also exhibit that the advantage of non-Hermiticity remains valid even at finite temperatures in the initial states.
翻訳日:2024-07-25 20:17:42 公開日:2024-07-24
# 超線形メモリを必要とする効率的な凸最適化

Efficient Convex Optimization Requires Superlinear Memory ( http://arxiv.org/abs/2203.15260v2 )

ライセンス: Link先を確認
Annie Marsden, Vatsal Sharan, Aaron Sidford, Gregory Valiant, (参考訳) メモリ制約のある1次アルゴリズムは、単位球上の1/\mathrm{poly}(d)$精度で1/\mathrm{poly}(d)$の精度で$d^{1.25 - \delta}$の精度で、少なくとも$\tilde{\Omega}(d^{1 + (4/3)\delta})$の1次クエリ(任意の定数$\delta \in [0, 1/4]$)を最小化する。 したがって、そのようなメモリ制約アルゴリズムの性能は、$\tilde{O}(d)$メモリを使用する平面メソッドを切断することによって得られるこの問題に対して最適な$\tilde{O}(d)$クエリ境界よりも悪い多項式係数である。 これにより、COLT 2019のWoodworthとSrebroのオープンな問題が解決される。

We show that any memory-constrained, first-order algorithm which minimizes $d$-dimensional, $1$-Lipschitz convex functions over the unit ball to $1/\mathrm{poly}(d)$ accuracy using at most $d^{1.25 - \delta}$ bits of memory must make at least $\tilde{\Omega}(d^{1 + (4/3)\delta})$ first-order queries (for any constant $\delta \in [0, 1/4]$). Consequently, the performance of such memory-constrained algorithms are a polynomial factor worse than the optimal $\tilde{O}(d)$ query bound for this problem obtained by cutting plane methods that use $\tilde{O}(d^2)$ memory. This resolves a COLT 2019 open problem of Woodworth and Srebro.
翻訳日:2024-07-25 20:17:42 公開日:2024-07-24
# EXACT: 正確さのトレーニング方法

EXACT: How to Train Your Accuracy ( http://arxiv.org/abs/2205.09615v5 )

ライセンス: Link先を確認
Ivan Karpukhin, Stanislav Dereka, Sergey Kolesnikov, (参考訳) 分類タスクは通常、精度の観点から評価される。 しかし、精度は不連続であり、勾配法による直接最適化はできない。 一般的な手法は、クロスエントロピー、ヒンジ損失、その他の代理損失を最小限に抑え、最適以下の結果をもたらす可能性がある。 本稿では,モデルの出力に確率性を導入し,予測精度,すなわち確率モデルの精度を最適化することで,新しい最適化手法を提案する。 線形モデルと深部画像分類に関する大規模な実験により,提案手法は広く用いられている分類損失の強力な代替手段であることが示された。

Classification tasks are usually evaluated in terms of accuracy. However, accuracy is discontinuous and cannot be directly optimized using gradient ascent. Popular methods minimize cross-entropy, hinge loss, or other surrogate losses, which can lead to suboptimal results. In this paper, we propose a new optimization framework by introducing stochasticity to a model's output and optimizing expected accuracy, i.e. accuracy of the stochastic model. Extensive experiments on linear models and deep image classification show that the proposed optimization method is a powerful alternative to widely used classification losses.
翻訳日:2024-07-25 20:17:42 公開日:2024-07-24
# 包接イオン中の複合パルスラムゼイ分光法によるローレンツ違反の抑制

Improved bounds on Lorentz violation from composite-pulse Ramsey spectroscopy in a trapped ion ( http://arxiv.org/abs/2206.00570v4 )

ライセンス: Link先を確認
Laura S. Dreissen, Chih-Han Yeh, Henning A. Fürst, Kai C. Grensemann, Tanja E. Mehlstäubler, (参考訳) 単一の量子一貫性理論における4つの既知の基本力を統一しようとする試みにおいて、ローレンツ対称性はプランクスケールで破られる可能性があることが示唆されている。 ここでは、ミッチェルソン・モーリー型実験において、直交配向原子軌道の比較により、低エネルギー限界におけるローレンツ違反を探索する。 我々は、Yb$^+$イオンの$^2F_{7/2}$多様体にロバストな高周波複合パルス列を適用し、コヒーレンス時間を200ドル\mu$sから1秒以上まで延長する。 このようにして、$^2F_{7/2}$状態の本質的な高い感受性をフル活用し、非常に長い寿命を生かす。 我々は、前回のローレンツ対称性試験の安定性をほぼ1桁早く一致させ、対称性破壊係数の制約を10$^{-21}$レベルに改善する。 これらの結果は、この種のローレンツ違反の最も厳密な試験である。 実証された方法は、さらにイオンクーロン結晶に拡張することができる。

In attempts to unify the four known fundamental forces in a single quantum-consistent theory, it is suggested that Lorentz symmetry may be broken at the Planck scale. Here we search for Lorentz violation at the low-energy limit by comparing orthogonally oriented atomic orbitals in a Michelson-Morley-type experiment. We apply a robust radiofrequency composite pulse sequence in the $^2F_{7/2}$ manifold of an Yb$^+$ ion, extending the coherence time from 200 $\mu$s to more than 1 s. In this manner, we fully exploit the high intrinsic susceptibility of the $^2F_{7/2}$ state and take advantage of its exceptionally long lifetime. We match the stability of the previous best Lorentz symmetry test nearly an order of magnitude faster and improve the constraints on the symmetry breaking coefficients to the 10$^{-21}$ level. These results represent the most stringent test of this type of Lorentz violation. The demonstrated method can be further extended to ion Coulomb crystals.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-24
# 有限範囲相互作用による長距離ハミルトニアンの量子相関の緩和

Mimicking quantum correlation of a long-range Hamiltonian by finite-range interactions ( http://arxiv.org/abs/2206.09199v2 )

ライセンス: Link先を確認
Leela Ganesh Chandra Lakkaraju, Srijon Ghosh, Debasis Sadhukan, Aditi Sen De, (参考訳) 量子長距離拡張イジングモデルは、対応する短距離モデルでは観測できないいくつかの顕著な特徴を持つ。 本稿では,長距離モデルの任意の2つの部位間の絡み合いから得られるパターンが,相互作用強度が適度であれば,相互作用範囲が有限であるモデルによって模倣可能であることを報告する。 一方, 相互作用が強い場合, 長距離モデルの絡み合い分布は, 相互作用の少ないモデルのクラスと一致しないことを示す。 また,一夫一婦制の絡み合いは,対の絡み合いの挙動とよく一致していることを示す。 具体的には、有限レンジハミルトニアンの絡み合いが長距離モデルと同様に振る舞うときに飽和し、代数的に崩壊する。

The quantum long-range extended Ising model possesses several striking features that cannot be observed in the corresponding short-range model. We report that the pattern obtained from the entanglement between any two arbitrary sites of the long-range model can be mimicked by the model having a finite range of interactions provided the interaction strength is moderate. On the other hand, we illustrate that when the interactions are strong, the entanglement distribution in the long-range model does not match the class of a model with a few interactions. We also show that the monogamy score of entanglement is in good agreement with the behavior of pairwise entanglement. Specifically, it saturates when the entanglement in the finite-range Hamiltonian behaves similarly to the long-range model, while it decays algebraically otherwise.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-24
# 最適輸送による量子詳細バランスの拡張

Extending quantum detailed balance through optimal transport ( http://arxiv.org/abs/2206.15287v2 )

ライセンス: Link先を確認
Rocco Duvenhage, Samuel Skosana, Machiel Snyman, (参考訳) 本研究では、量子力学系のクラスを特定の性質を持つ系に近く、構造的に類似した構成で設定し、研究するための一般的なアプローチを開発する。 これは、おそらく異なる可観測代数上の系間の輸送計画とワッサーシュタイン距離の観点から行われる。

We develop a general approach to setting up and studying classes of quantum dynamical systems close to and structurally similar to systems having specified properties, in particular detailed balance. This is done in terms of transport plans and Wasserstein distances between systems on possibly different observable algebras.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-24
# $$-DVAE:非構造化データ同化のための物理インフォームド動的変分オートエンコーダ

$Φ$-DVAE: Physics-Informed Dynamical Variational Autoencoders for Unstructured Data Assimilation ( http://arxiv.org/abs/2209.15609v3 )

ライセンス: Link先を確認
Alex Glyn-Davies, Connor Duffin, Ö. Deniz Akyildiz, Mark Girolami, (参考訳) 物理モデルに非構造化データを組み込むことは、データ同化において難しい問題である。 伝統的なアプローチは、機能形式が一般に知られていると仮定されるよく定義された観測作用素に焦点を当てている。 これにより、データ空間からモデル空間へのマッピングが未知な設定で、一貫性のあるモデルデータ合成が達成できない。 これらの欠点に対処するために、微分方程式によって記述される時間進化物理系に多様なデータストリームを埋め込む物理インフォームな動的変分オートエンコーダ(DVAE)を開発する。 我々の手法は、非構造化データを潜在力学系に同化するために、潜在状態空間モデルのための標準的な非線形フィルタとVOEを組み合わせたものである。 我々の例では、非構造化データはビデオデータと速度場測定の形式で提供されるが、この手法は任意の未知の観測演算子を許容するために適宜汎用的である。 変分ベイズフレームワークは、符号化、潜時状態、未知のシステムパラメータの合同推定に使用される。 この方法を実証するために、ローレンツ-63常微分方程式のケーススタディと、対流とコルテヴェーグ-ド・ブリーズ偏微分方程式を提案する。 合成データを用いた結果,$\Phi$-DVAEは標準手法と競合するデータ効率のよいダイナミックス符号化手法を提供することがわかった。 未知のパラメータは不確実な定量化によって回収され、未知のデータは正確に予測される。

Incorporating unstructured data into physical models is a challenging problem that is emerging in data assimilation. Traditional approaches focus on well-defined observation operators whose functional forms are typically assumed to be known. This prevents these methods from achieving a consistent model-data synthesis in configurations where the mapping from data-space to model-space is unknown. To address these shortcomings, in this paper we develop a physics-informed dynamical variational autoencoder ($\Phi$-DVAE) to embed diverse data streams into time-evolving physical systems described by differential equations. Our approach combines a standard, possibly nonlinear, filter for the latent state-space model and a VAE, to assimilate the unstructured data into the latent dynamical system. Unstructured data, in our example systems, comes in the form of video data and velocity field measurements, however the methodology is suitably generic to allow for arbitrary unknown observation operators. A variational Bayesian framework is used for the joint estimation of the encoding, latent states, and unknown system parameters. To demonstrate the method, we provide case studies with the Lorenz-63 ordinary differential equation, and the advection and Korteweg-de Vries partial differential equations. Our results, with synthetic data, show that $\Phi$-DVAE provides a data efficient dynamics encoding methodology which is competitive with standard approaches. Unknown parameters are recovered with uncertainty quantification, and unseen data are accurately predicted.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-24
# スカラー湯川結合のディジタル量子シミュレーション

Digital Quantum Simulation of Scalar Yukawa Coupling ( http://arxiv.org/abs/2211.02684v3 )

ライセンス: Link先を確認
Thierry N. Kaldenbach, Matthias Heller, Gernot Alber, Vladimir M. Stojanovic, (参考訳) 我々は,中高エネルギー物理現象のディジタルシミュレーションへの関心の高まりから,IBM Q上の湯川相互作用クエンチによる力学を考察し,スカラー湯川結合モデルのゼロ次元バージョンを出発点として採用し,その力学を最大3ボソンでシミュレーションした低深さ量子回路を設計する。 1ボソンの場合、回路圧縮、すなわち2つの制御NOT(CNOT)ゲートのみを含む定数深さ回路を実証する。 より複雑な3ボソンの場合、1つのトロッターステップが8ドルCNOTを含む回路を設計する。 また、旅行・セールマン問題と類似した手法を用いて、より高いボソン数トランケーションに対するCNOTコストの推定を行う。 これらの回路に基づいて、クエンチ後の任意の時間におけるボソン数と初期真空状態の生存確率(Loschmidt echo)を評価し、システム力学を定量化する。 また、これらの回路を用いて断熱遷移を駆動し、検討されたモデルの基底および第一励起状態のエネルギーを計算する。 最後に、誤差緩和(ゼロノイズ外挿)を通じて、数値的にエクササイズな古典的ベンチマークで結果の良好な一致を示す。

Motivated by the revitalized interest in the digital simulation of medium- and high-energy physics phenomena, we investigate the dynamics following a Yukawa-interaction quench on IBM Q. Adopting the zero-dimensional version of the scalar Yukawa-coupling model as our point of departure, we design low-depth quantum circuits emulating its dynamics with up to three bosons. In the one-boson case we demonstrate circuit compression, i.e., a constant-depth circuit containing only two controlled-NOT (CNOT) gates. In the more complex three-boson case, we design a circuit in which one Trotter step entails $8$ CNOTs. Using an analogy with the traveling-salesman problem, we also provide a CNOT-cost estimate for higher boson-number truncations. Based on these circuits, we quantify the system dynamics by evaluating the expected boson number at an arbitrary time after the quench and the survival probability of the initial vacuum state (the Loschmidt echo). We also utilize these circuits to drive adiabatic transitions and compute the energies of the ground- and first-excited states of the considered model. Finally, through error mitigation -- i.e, zero-noise extrapolation -- we demonstrate a good agreement of our results with a numerically-exact classical benchmark.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-24
# マルチモーダルクエリ誘導オブジェクトローカライゼーション

Multimodal Query-guided Object Localization ( http://arxiv.org/abs/2212.00749v2 )

ライセンス: Link先を確認
Aditay Tripathi, Rajath R Dani, Anand Mishra, Anirban Chakraborty, (参考訳) オブジェクトのイメージもオブジェクトのカテゴリ名もクエリとして利用できない、ワンショットのクエリ誘導オブジェクトローカライゼーションのシナリオを考えてみましょう。 このようなシナリオでは、オブジェクトの手書きのスケッチがクエリの選択になる可能性がある。 しかし、手描きの粗雑なスケッチだけでは、クエリーとして使うと、オブジェクトのローカライゼーションには曖昧である可能性がある。 一方、このカテゴリの言語的定義である「例えば、小さめのポータブルコンピュータ」は、スケッチクエリとともに、オブジェクトのローカライゼーションにより良い視覚的および意味的な手がかりを提供する。 本研究では,複数モーダルなクエリ誘導オブジェクトローカライズ手法を提案する。 特に、オブジェクトのローカライゼーションを行うために、手書きのスケッチとオブジェクトの記述(グロスとしても知られる)という2つのモードからのクエリを使用します。 マルチモーダルなクエリ誘導オブジェクトローカライゼーションは、特にクエリと自然画像の間に大きなドメインギャップが存在する場合や、クエリ全体に存在する補完的情報と最小限の情報を組み合わせることによる課題である。 例えば、手描きの粗スケッチにはオブジェクトの抽象的な形状情報が含まれており、テキスト記述は、与えられたオブジェクトカテゴリに関する部分的な意味情報をキャプチャすることが多い。 上記の課題に対処するために、入力クエリに関連するオブジェクト提案を生成するために領域提案ネットワークを誘導する新しいクロスモーダルアテンションスキームと、クエリに対して各提案をスコアリングし、最終的なローカライズ結果を得る新しい直交プロジェクションベースの提案スコアリング技術を提案する。 はぁ...。

Consider a scenario in one-shot query-guided object localization where neither an image of the object nor the object category name is available as a query. In such a scenario, a hand-drawn sketch of the object could be a choice for a query. However, hand-drawn crude sketches alone, when used as queries, might be ambiguous for object localization, e.g., a sketch of a laptop could be confused for a sofa. On the other hand, a linguistic definition of the category, e.g., a small portable computer small enough to use in your lap" along with the sketch query, gives better visual and semantic cues for object localization. In this work, we present a multimodal query-guided object localization approach under the challenging open-set setting. In particular, we use queries from two modalities, namely, hand-drawn sketch and description of the object (also known as gloss), to perform object localization. Multimodal query-guided object localization is a challenging task, especially when a large domain gap exists between the queries and the natural images, as well as due to the challenge of combining the complementary and minimal information present across the queries. For example, hand-drawn crude sketches contain abstract shape information of an object, while the text descriptions often capture partial semantic information about a given object category. To address the aforementioned challenges, we present a novel cross-modal attention scheme that guides the region proposal network to generate object proposals relevant to the input queries and a novel orthogonal projection-based proposal scoring technique that scores each proposal with respect to the queries, thereby yielding the final localization results. ...
翻訳日:2024-07-25 20:09:44 公開日:2024-07-24
# 単位結合クラスタアンサッツのFTQC前における平均ゲート近似誤差と性能

Averaging gate approximation error and performance of Unitary Coupled Cluster ansatz in Pre-FTQC Era ( http://arxiv.org/abs/2301.04150v2 )

ライセンス: Link先を確認
Kohdai Kuroiwa, Yuya O. Nakagawa, (参考訳) フォールトトレラント量子計算(FTQC)は、ノイズ耐性のある方法で量子アルゴリズムを実装するために不可欠であり、ノイズがあっても量子コンピュータの利点を享受する。 FTQCでは、量子回路は普遍ゲートに分解され、例えばClifford+$T$ゲートのようにフォールトトレラントに実装できる。 ここでは、$T$ gateは古典的コンピュータでは効率的に動作をシミュレートすることができず、フォールトトレラントな実装が実験的に困難であるため、一般に量子計算の必須資源とみなされる。 実際には、近い将来、限られた数のT$ゲートしか利用できない可能性が高い。 FTQC以前は、利用可能なリソースの制約のため、回路全体の分解誤差を正確に推定することが不可欠であった。 本稿では,多数の量子ゲートを含む所定の量子回路に対するClifford+$T$分解誤差を,回路内の各量子ゲートの分解誤差を平均化することにより,デポーラ化ノイズとしてモデル化できることを提案する。 我々は、量子コンピュータの量子化学への応用に使用されるユニタリ結合クラスタ(UCC)アンサッツを例に挙げてこれを実証する。 Clifford+$T$ゲートに分解した場合のUCCアンザッツの近似誤差を理論的に評価し,本モデルがアンザッツの総分解誤差をうまく説明していることを多種多様な分子の数値シミュレーションにより検証した。 この結果から,量子コンピュータの早期応用における量子資源の正確かつ効率的な利用が可能となり,今後の量子計算の実現に向けたさらなる研究が進められる。

Fault-tolerant quantum computation (FTQC) is essential to implement quantum algorithms in a noise-resilient way, and thus to enjoy advantages of quantum computers even with presence of noise. In FTQC, a quantum circuit is decomposed into universal gates that can be fault-tolerantly implemented, for example, Clifford+$T$ gates. Here, $T$ gate is usually regarded as an essential resource for quantum computation because its action cannot be simulated efficiently on classical computers and it is experimentally difficult to implement fault-tolerantly. Practically, it is highly likely that only a limited number of $T$ gates are available in the near future. Pre-FTQC era, due to the constraint on available resources, it is vital to precisely estimate the decomposition error of a whole circuit. In this paper, we propose that the Clifford+$T$ decomposition error for a given quantum circuit containing a large number of quantum gates can be modeled as the depolarizing noise by averaging the decomposition error for each quantum gate in the circuit, and our model provides more accurate error estimation than the naive estimation. We exemplify this by taking unitary coupled-cluster (UCC) ansatz used in the applications of quantum computers to quantum chemistry as an example. We theoretically evaluate the approximation error of UCC ansatz when decomposed into Clifford+$T$ gates, and the numerical simulation for a wide variety of molecules verified that our model well explains the total decomposition error of the ansatz. Our results enable the precise and efficient usage of quantum resources in the early-stage applications of quantum computers and fuel further research towards what quantum computation can achieve in the upcoming future.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-24
# 不確実性量子化を用いた物理系モデリングのための物理情報場理論

Physics-informed Information Field Theory for Modeling Physical Systems with Uncertainty Quantification ( http://arxiv.org/abs/2301.07609v5 )

ライセンス: Link先を確認
Alex Alberts, Ilias Bilionis, (参考訳) データ駆動アプローチと物理知識は、システムをモデル化するための強力なテクニックである。 このようなモデルの目標は、測定を既知の物理法則と組み合わせることで、基礎となる分野を効率的に解くことである。 多くの系は、欠落パラメータ、ノイズデータ、不完全物理法則などの未知の要素を含むため、これは不確実な定量化問題として広くアプローチされている。 すべての変数を扱う一般的な手法は、一般に後部を近似するために使用される数値スキームに依存しており、そのような離散化とは無関係な方法を持つことが望ましい。 情報場理論(IFT)は、必ずしもガウス的ではない分野の統計を行うために必要なツールを提供する。 IFT を物理インフォームド IFT (PIFT) に拡張し,フィールドを記述する物理法則に関する情報を符号化する。 このPIFTから派生した後部は、任意の数値スキームとは独立であり、複数のモードをキャプチャできるため、不適切な問題の解が可能である。 Klein-Gordon方程式を含む解析的な例を通して、我々のアプローチを実証する。 次に、確率勾配ランゲヴィン力学の変種を開発し、場の上の関節後部からサンプルとモデルパラメータを描画する。 本研究では, モデル形状誤差の異なる数値例に適用し, 非線形微分方程式を含む逆問題に適用する。 加算として、後部がモデル形式の不確実性を自動的に定量化できるメートル法を備える。 このため, 数値実験により, この手法は十分なデータが得られる物理の誤った表現に対してさえも頑健であることが明らかとなった。 本手法は,物理が信頼できないことを正確に認識し,その場合,フィールドの学習を回帰問題として自動的に処理する。

Data-driven approaches coupled with physical knowledge are powerful techniques to model systems. The goal of such models is to efficiently solve for the underlying field by combining measurements with known physical laws. As many systems contain unknown elements, such as missing parameters, noisy data, or incomplete physical laws, this is widely approached as an uncertainty quantification problem. The common techniques to handle all the variables typically depend on the numerical scheme used to approximate the posterior, and it is desirable to have a method which is independent of any such discretization. Information field theory (IFT) provides the tools necessary to perform statistics over fields that are not necessarily Gaussian. We extend IFT to physics-informed IFT (PIFT) by encoding the functional priors with information about the physical laws which describe the field. The posteriors derived from this PIFT remain independent of any numerical scheme and can capture multiple modes, allowing for the solution of problems which are ill-posed. We demonstrate our approach through an analytical example involving the Klein-Gordon equation. We then develop a variant of stochastic gradient Langevin dynamics to draw samples from the joint posterior over the field and model parameters. We apply our method to numerical examples with various degrees of model-form error and to inverse problems involving nonlinear differential equations. As an addendum, the method is equipped with a metric which allows the posterior to automatically quantify model-form uncertainty. Because of this, our numerical experiments show that the method remains robust to even an incorrect representation of the physics given sufficient data. We numerically demonstrate that the method correctly identifies when the physics cannot be trusted, in which case it automatically treats learning the field as a regression problem.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-24
# ラベル効率のよい時系列表現学習

Label-efficient Time Series Representation Learning: A Review ( http://arxiv.org/abs/2302.06433v4 )

ライセンス: Link先を確認
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, Xiaoli Li, (参考訳) ラベル付きデータで効率的な表現を学習することを目的としたラベル効率のよい時系列表現学習は、現実世界のアプリケーションにディープラーニングモデルをデプロイするために不可欠である。 ラベル付き時系列データの不足に対処するため,移動学習,自己教師型学習,半教師型学習などの様々な戦略が開発されている。 本調査では,外部データソースに依存しているか否かに基づいて,既存のアプローチをドメイン内あるいはクロスドメインとして分類する,新しい分類法を初めて導入する。 さらに,各戦略の最近の進歩を概観し,現在の方法論の限界を結論づけ,今後の研究方向性を提案する。

Label-efficient time series representation learning, which aims to learn effective representations with limited labeled data, is crucial for deploying deep learning models in real-world applications. To address the scarcity of labeled time series data, various strategies, e.g., transfer learning, self-supervised learning, and semi-supervised learning, have been developed. In this survey, we introduce a novel taxonomy for the first time, categorizing existing approaches as in-domain or cross-domain, based on their reliance on external data sources or not. Furthermore, we present a review of the recent advances in each strategy, conclude the limitations of current methodologies, and suggest future research directions that promise further improvements in the field.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-24
# 薬物発見のための知識強化グラフ機械学習:サーベイ

Knowledge-augmented Graph Machine Learning for Drug Discovery: A Survey ( http://arxiv.org/abs/2302.08261v3 )

ライセンス: Link先を確認
Zhiqiang Zhong, Anastasia Barkova, Davide Mottin, (参考訳) 人工知能(AI)の創薬分野への統合は、学際的な科学研究の領域として成長している。 しかし、従来のAIモデルは、2Dや3Dタンパク質や分子構造のような複雑な生体医学構造を扱うことに大きく制限されており、出力の解釈を提供しており、その実用的な応用を妨げている。 近年、グラフ機械学習(GML)は、グラフ構造化バイオメディカルデータをモデル化し、それらの特性と機能的関係を調査する能力において、非常に注目されている。 広範囲にわたる努力にもかかわらず、GMLの手法は依然としていくつかの欠陥に悩まされている。例えば、監督の空間性を扱う能力の制限や、学習と推論プロセスにおける解釈可能性の提供、関連するドメイン知識の活用におけるそれらの非効率性などである。 これに対し、最近の研究では、限られたトレーニングインスタンスでより正確で解釈可能な薬物発見を実現するために、外部のバイオメディカル知識をGMLパイプラインに統合することを提案した。 しかし、この急成長する研究方向の体系的な定義はまだ確立されていない。 本調査では,長期間にわたる薬物発見の原則を概観し,グラフ構造化データおよび知識データベースの基礎概念と最先端技術を提供し,薬物発見のための知識強化グラフ機械学習(KaGML)を正式に要約する。 そこで本研究では,精巧に設計された探索手法に従って収集された関連するKaGML作品の網羅的なレビューを行い,新しい分類法に従って4つのカテゴリに分類する。 この急激な新興分野の研究を促進するために、我々は、インテリジェントな薬物発見に有用な収集された実践的資源を共有し、今後の発展に向けての潜在的な道筋について深く議論する。

The integration of Artificial Intelligence (AI) into the field of drug discovery has been a growing area of interdisciplinary scientific research. However, conventional AI models are heavily limited in handling complex biomedical structures (such as 2D or 3D protein and molecule structures) and providing interpretations for outputs, which hinders their practical application. As of late, Graph Machine Learning (GML) has gained considerable attention for its exceptional ability to model graph-structured biomedical data and investigate their properties and functional relationships. Despite extensive efforts, GML methods still suffer from several deficiencies, such as the limited ability to handle supervision sparsity and provide interpretability in learning and inference processes, and their ineffectiveness in utilising relevant domain knowledge. In response, recent studies have proposed integrating external biomedical knowledge into the GML pipeline to realise more precise and interpretable drug discovery with limited training instances. However, a systematic definition for this burgeoning research direction is yet to be established. This survey presents a comprehensive overview of long-standing drug discovery principles, provides the foundational concepts and cutting-edge techniques for graph-structured data and knowledge databases, and formally summarises Knowledge-augmented Graph Machine Learning (KaGML) for drug discovery. we propose a thorough review of related KaGML works, collected following a carefully designed search methodology, and organise them into four categories following a novel-defined taxonomy. To facilitate research in this promptly emerging field, we also share collected practical resources that are valuable for intelligent drug discovery and provide an in-depth discussion of the potential avenues for future advancements.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-24
# Fourier-MIONet: 地質炭素沈降の多相モデリングのためのフーリエ強化多重入力ニューラル演算子

Fourier-MIONet: Fourier-enhanced multiple-input neural operators for multiphase modeling of geological carbon sequestration ( http://arxiv.org/abs/2303.04778v2 )

ライセンス: Link先を確認
Zhongyi Jiang, Min Zhu, Lu Lu, (参考訳) 地質炭素隔離(英: Geological carbon sequestration、GCS)は、大気中の二酸化炭素の量を減らすことを目的とした安全上重要な技術である。 多孔質媒質中の多相流は、GCSに付随する表面におけるCO$2$マイグレーションと圧力場を理解するために不可欠である。 しかし、高非線形支配偏微分方程式(PDE)の多物理性や多スケール性のため、4Dにおけるそのような問題の数値シミュレーションは計算的に困難で費用がかかる。 これにより、複数の地下シナリオを考慮し、リアルタイムの最適化を行うことができない。 本稿では,多孔質媒体における多相流問題の解演算子を学習するために,フーリエ強化多入力ニューラル演算子(フーリエ・ミオネット)を開発した。 Fourier-MIONetは、最近開発されたマルチインプットディープニューラル演算子(MIONet)のフレームワークを使用し、ネットワークアーキテクチャにフーリエニューラル演算子(FNO)を組み込んでいる。 フーリエ・ミオネットを訓練すると、透水性や多孔質不均一性、異方性、射出構成、多相流特性などの様々な条件下での多相流の飽和と圧力の進化を予測することができる。 拡張されたFNO (U-FNO) と比較すると、提案されたフーリエ・マイノネットは未知のパラメータが90%少なく、CPUメモリがかなり少ない(約3.5倍高速)時間でトレーニングできる。 計算コストの削減に加えて、Fourier-MIONetは30年間、PDEソリューションを予測するためにたった6つのスナップショットでトレーニングすることができる。 フーリエ・マイオネットの優れた一般化性は、PDEの解が時間とともに連続であるという物理原理に固執することによって実現される。

Geologic carbon sequestration (GCS) is a safety-critical technology that aims to reduce the amount of carbon dioxide in the atmosphere, which also places high demands on reliability. Multiphase flow in porous media is essential to understand CO$_2$ migration and pressure fields in the subsurface associated with GCS. However, numerical simulation for such problems in 4D is computationally challenging and expensive, due to the multiphysics and multiscale nature of the highly nonlinear governing partial differential equations (PDEs). It prevents us from considering multiple subsurface scenarios and conducting real-time optimization. Here, we develop a Fourier-enhanced multiple-input neural operator (Fourier-MIONet) to learn the solution operator of the problem of multiphase flow in porous media. Fourier-MIONet utilizes the recently developed framework of the multiple-input deep neural operators (MIONet) and incorporates the Fourier neural operator (FNO) in the network architecture. Once Fourier-MIONet is trained, it can predict the evolution of saturation and pressure of the multiphase flow under various reservoir conditions, such as permeability and porosity heterogeneity, anisotropy, injection configurations, and multiphase flow properties. Compared to the enhanced FNO (U-FNO), the proposed Fourier-MIONet has 90% fewer unknown parameters, and it can be trained in significantly less time (about 3.5 times faster) with much lower CPU memory ($<$ 15%) and GPU memory ($<$ 35%) requirements, to achieve similar prediction accuracy. In addition to the lower computational cost, Fourier-MIONet can be trained with only 6 snapshots of time to predict the PDE solutions for 30 years. The excellent generalizability of Fourier-MIONet is enabled by its adherence to the physical principle that the solution to a PDE is continuous over time.
翻訳日:2024-07-25 20:09:44 公開日:2024-07-24
# トポロジカルデータ解析のためのオイラー特性ツール

Euler Characteristic Tools For Topological Data Analysis ( http://arxiv.org/abs/2303.14040v3 )

ライセンス: Link先を確認
Olympio Hacquard, Vadim Lebovici, (参考訳) 本稿では,トポロジカルデータ解析におけるオイラー特性技術について検討する。 データから構築された単純複体族のオイラー特性をポイントワイドに計算すると、いわゆるオイラー特性プロファイルが生まれる。 この単純な記述子は、教師付きタスクにおける最先端の性能を非常に低い計算コストで達成できることを示す。 信号解析にインスパイアされた我々は、オイラー特性プロファイルのハイブリッド変換を計算する。 これらの積分変換はオイラー特性とルベーグ積分を混合し、トポロジカル信号の高効率な圧縮機を提供する。 その結果、教師なしの設定で顕著なパフォーマンスを示した。 定性的側では、オイラープロファイルとそれらのハイブリッド変換によって得られた位相的および幾何学的情報に関する多くのヒューリスティックを提供する。 最後に、これらの記述子に対する安定性と、ランダムな設定における漸近的保証を証明した。

In this article, we study Euler characteristic techniques in topological data analysis. Pointwise computing the Euler characteristic of a family of simplicial complexes built from data gives rise to the so-called Euler characteristic profile. We show that this simple descriptor achieve state-of-the-art performance in supervised tasks at a very low computational cost. Inspired by signal analysis, we compute hybrid transforms of Euler characteristic profiles. These integral transforms mix Euler characteristic techniques with Lebesgue integration to provide highly efficient compressors of topological signals. As a consequence, they show remarkable performances in unsupervised settings. On the qualitative side, we provide numerous heuristics on the topological and geometric information captured by Euler profiles and their hybrid transforms. Finally, we prove stability results for these descriptors as well as asymptotic guarantees in random settings.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# DarSwin: ラジアル・スウィン・トランスフォーマーに注意

DarSwin: Distortion Aware Radial Swin Transformer ( http://arxiv.org/abs/2304.09691v5 )

ライセンス: Link先を確認
Akshaya Athwale, Arman Afrasiyabi, Justin Lagüe, Ichrak Shili, Ola Ahmad, Jean-François Lalonde, (参考訳) 広角レンズは、広い視野を必要とする知覚タスクで一般的に使用される。 残念ながら、これらのレンズは大きな歪みを生じさせ、歪み効果を無視する従来のモデルは広角画像に適応できない。 本稿では,広角レンズが生み出す歪みに自動的に適応するトランスフォーマーモデルを提案する。 提案した画像エンコーダアーキテクチャはDarSwinと呼ばれ、放射歪みプロファイルによって解析的に定義されたレンズの物理特性を利用する。 従来のトランスフォーマーベースのアーキテクチャとは対照的に、DarSwinは、ラジアルパッチ分割、トークン埋め込みを作成する歪みベースのサンプリング技術、ラジアルパッチマージのための角位置符号化を含む。 他のベースラインと比較すると、DarSwinは、境界レベルの歪み(非常に低、低、中、高)をトレーニングし、アウト・オブ・ディストリビューションの歪みを含むすべてでテストした場合、異なるデータセット上で最高の結果を得る。 基礎となるDarSwinアーキテクチャは、放射歪みプロファイルの知識を必要とするが、入力画像自体からそのようなプロファイルを推定する自己校正ネットワークと組み合わせることで、完全に校正されていないパイプラインが得られることを示す。 最後に、DarSwinを拡張したDarSwin-Unetを、ピクセルレベルのタスクに適したエンコーダデコーダアーキテクチャに提示する。 本研究では,DarSwin-Unet による広角レンズの歪みに対するゼロショット適応が可能であることを示す。 コードとモデルはhttps://lvsn.github.io/darswin/で公開されている。

Wide-angle lenses are commonly used in perception tasks requiring a large field of view. Unfortunately, these lenses produce significant distortions, making conventional models that ignore the distortion effects unable to adapt to wide-angle images. In this paper, we present a novel transformer-based model that automatically adapts to the distortion produced by wide-angle lenses. Our proposed image encoder architecture, dubbed DarSwin, leverages the physical characteristics of such lenses analytically defined by the radial distortion profile. In contrast to conventional transformer-based architectures, DarSwin comprises a radial patch partitioning, a distortion-based sampling technique for creating token embeddings, and an angular position encoding for radial patch merging. Compared to other baselines, DarSwin achieves the best results on different datasets with significant gains when trained on bounded levels of distortions (very low, low, medium, and high) and tested on all, including out-of-distribution distortions. While the base DarSwin architecture requires knowledge of the radial distortion profile, we show it can be combined with a self-calibration network that estimates such a profile from the input image itself, resulting in a completely uncalibrated pipeline. Finally, we also present DarSwin-Unet, which extends DarSwin, to an encoder-decoder architecture suitable for pixel-level tasks. We demonstrate its performance on depth estimation and show through extensive experiments that DarSwin-Unet can perform zero-shot adaptation to unseen distortions of different wide-angle lenses. The code and models are publicly available at https://lvsn.github.io/darswin/
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# 記述に基づくテキストの類似性

Description-Based Text Similarity ( http://arxiv.org/abs/2305.12517v5 )

ライセンス: Link先を確認
Shauli Ravfogel, Valentina Pyatkin, Amir DN Cohen, Avshalom Manevich, Yoav Goldberg, (参考訳) 与えられたセマンティクスでテキストを識別することは、多くの情報検索シナリオの中心である。 ベクトル埋め込みに対する類似性探索は、この能力の中心にあるように見えるが、現在のテキスト埋め込みに反映される類似性はコーパス駆動であり、多くのユースケースでは矛盾し、準最適である。 では、テキストを効果的に検索する上で、類似性のよい概念は何だろうか? 我々は,その内容の抽象的な記述とそれに対応する「emph{description based similarity}」の概念に基づいて,テキストの検索の必要性を特定する。 本稿では,現在のテキスト埋め込みの不適切さを実証し,近隣の標準的な検索で使用する場合の精度を向上する代替モデルを提案する。 モデルはLLMのプロンプトを通じて、正と負のペアを使ってトレーニングされ、LLMからのデータを使って、元のモデルではすぐには不可能な新しい機能を作成する方法を示している。

Identifying texts with a given semantics is central for many information seeking scenarios. Similarity search over vector embeddings appear to be central to this ability, yet the similarity reflected in current text embeddings is corpus-driven, and is inconsistent and sub-optimal for many use cases. What, then, is a good notion of similarity for effective retrieval of text? We identify the need to search for texts based on abstract descriptions of their content, and the corresponding notion of \emph{description based similarity}. We demonstrate the inadequacy of current text embeddings and propose an alternative model that significantly improves when used in standard nearest neighbor search. The model is trained using positive and negative pairs sourced through prompting a LLM, demonstrating how data from LLMs can be used for creating new capabilities not immediately possible using the original model.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# 多出力ニューラルネットワークの変動空間:マルチタスク学習とネットワーク圧縮に関する考察

Variation Spaces for Multi-Output Neural Networks: Insights on Multi-Task Learning and Network Compression ( http://arxiv.org/abs/2305.16534v3 )

ライセンス: Link先を確認
Joseph Shenouda, Rahul Parhi, Kangwook Lee, Robert D. Nowak, (参考訳) 本稿では,ベクトル値変動空間,新しい再生カーネルバナッハ空間の開発を通じて,ベクトル値ニューラルネットワークの解析のための新しい理論的枠組みを提案する。 これらの空間は、正規化線形単位(ReLU)のような活性化を伴うトレーニングネットワークにおける重み劣化の正規化効果の研究から生まれる。 このフレームワークは、マルチアウトプットネットワークとその関数空間特性のより深い理解を提供する。 この研究の重要な貢献は、ベクトル値変動空間に対する表現定理の開発である。 この代表者定理は、浅いベクトル値ニューラルネットワークがこれらの無限次元空間上のデータ適合問題の解であり、ネットワーク幅はトレーニングデータの2乗によって制限されていることを証明している。 この観察により、ベクトル値の変動空間に関連するノルムが、複数のタスクに有用な特徴の学習を促進し、ニューラルネットワークによるマルチタスク学習に新たな光を放つことが明らかとなった。 最後に,重み付きデカイ正則化とマルチタスクラッソ問題との関係について述べる。 この接続は、トレーニングデータ表現の本質的な次元に依存するディープネットワークにおける層幅の新たな境界をもたらす。 この洞察は、ディープネットワークアーキテクチャ要求の理解を深めるだけでなく、ディープニューラルネットワーク圧縮のための単純な凸最適化手法も提供する。 この圧縮処理の性能は様々なアーキテクチャで評価される。

This paper introduces a novel theoretical framework for the analysis of vector-valued neural networks through the development of vector-valued variation spaces, a new class of reproducing kernel Banach spaces. These spaces emerge from studying the regularization effect of weight decay in training networks with activations like the rectified linear unit (ReLU). This framework offers a deeper understanding of multi-output networks and their function-space characteristics. A key contribution of this work is the development of a representer theorem for the vector-valued variation spaces. This representer theorem establishes that shallow vector-valued neural networks are the solutions to data-fitting problems over these infinite-dimensional spaces, where the network widths are bounded by the square of the number of training data. This observation reveals that the norm associated with these vector-valued variation spaces encourages the learning of features that are useful for multiple tasks, shedding new light on multi-task learning with neural networks. Finally, this paper develops a connection between weight-decay regularization and the multi-task lasso problem. This connection leads to novel bounds for layer widths in deep networks that depend on the intrinsic dimensions of the training data representations. This insight not only deepens the understanding of the deep network architectural requirements, but also yields a simple convex optimization method for deep neural network compression. The performance of this compression procedure is evaluated on various architectures.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# 階層型コミュニティ検出においてボトムアップはいつトップダウンになるのか?

When Does Bottom-up Beat Top-down in Hierarchical Community Detection? ( http://arxiv.org/abs/2306.00833v2 )

ライセンス: Link先を確認
Maximilien Dreveton, Daichi Kuroda, Matthias Grossglauser, Patrick Thiran, (参考訳) 階層的なネットワークのクラスタリングは、階層の低いレベルがよりきめ細かいコミュニティ構造を明らかにするように、コミュニティのツリーを見つけることで構成される。 この問題に対処するアルゴリズムには2つの主要なクラスがある。 Divisive ($\textit{top-down}$)アルゴリズムはノードを2つのコミュニティに再帰的に分割する。 これとは対照的に、agglomerative$\textit{bottom-up}$)アルゴリズムは、まず最小のコミュニティ構造を特定し、次に$\textit{linkage}$メソッドを使ってコミュニティを何度もマージする。 本稿では,階層的確率ブロックモデルの階層木回復とコミュニティ構造をボトムアップアルゴリズムにより理論的に保証する。 また、このボトムアップアルゴリズムは、階層の中間レベルにおいて正確な回復のための情報理論しきい値を得る。 特に、これらのリカバリ条件は、トップダウンアルゴリズムで存在するものに比べて制限が小さい。 これはボトムアップアルゴリズムが中間レベルで正確な回復を達成するために実現可能な領域を拡張していることを示している。 合成データセットと実データセットの数値実験により、トップダウンアルゴリズムよりもボトムアップアルゴリズムの方が優れていることが確認された。 また、トップダウンアルゴリズムがインバージョン付きデンドログラムを生成可能であることも観察した。 これらの知見は階層的クラスタリング技術とそのネットワーク解析への応用の理解に寄与する。

Hierarchical clustering of networks consists in finding a tree of communities, such that lower levels of the hierarchy reveal finer-grained community structures. There are two main classes of algorithms tackling this problem. Divisive ($\textit{top-down}$) algorithms recursively partition the nodes into two communities, until a stopping rule indicates that no further split is needed. In contrast, agglomerative ($\textit{bottom-up}$) algorithms first identify the smallest community structure and then repeatedly merge the communities using a $\textit{linkage}$ method. In this article, we establish theoretical guarantees for the recovery of the hierarchical tree and community structure of a Hierarchical Stochastic Block Model by a bottom-up algorithm. We also establish that this bottom-up algorithm attains the information-theoretic threshold for exact recovery at intermediate levels of the hierarchy. Notably, these recovery conditions are less restrictive compared to those existing for top-down algorithms. This shows that bottom-up algorithms extend the feasible region for achieving exact recovery at intermediate levels. Numerical experiments on both synthetic and real data sets confirm the superiority of bottom-up algorithms over top-down algorithms. We also observe that top-down algorithms can produce dendrograms with inversions. These findings contribute to a better understanding of hierarchical clustering techniques and their applications in network analysis.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# PhenoBench -- 農業領域における意味的画像解釈のための大規模データセットとベンチマーク

PhenoBench -- A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Domain ( http://arxiv.org/abs/2306.04557v2 )

ライセンス: Link先を確認
Jan Weyler, Federico Magistri, Elias Marks, Yue Linn Chong, Matteo Sodano, Gianmarco Roggiolani, Nived Chebrolu, Cyrill Stachniss, Jens Behley, (参考訳) 食料、食料、繊維、燃料の生産は農業の重要な課題であり、今後数十年で多くの課題に対処しなければならない。 ビジョンシステムは、より良い、より持続可能なフィールド管理決定を支援するだけでなく、時間的に密度が高く再現可能な測定を可能にすることで、新しい作物の品種の育成を支援することができる。 近年、農業ロボット工学は、前述の労働者不足に対処し、より持続可能な生産を可能にするための有望な道であり、ビジョンとロボティクスのコミュニティへの関心が高まっている。 他の領域の大規模なデータセットやベンチマークは容易に利用でき、大幅な進歩を可能にするが、農業データセットやベンチマークは極めて稀である。 本稿では,実際の農業分野の意味論的解釈のための注釈付きデータセットとベンチマークを提案する。 UAVで記録したデータセットは、作物や雑草の高品質でピクセル単位のアノテーションを提供するだけでなく、作物の葉のインスタンスも同時に提供する。 さらに、トレーニングデータでカバーされた既知のフィールドと、完全に見えないフィールドという、さまざまなフィールドで構成された隠れテストセット上で、さまざまなタスクのベンチマークを提供する。 私たちのデータセット、ベンチマーク、コードは、 \url{https://www.phenobench.org}で利用可能です。

The production of food, feed, fiber, and fuel is a key task of agriculture, which has to cope with many challenges in the upcoming decades, e.g., a higher demand, climate change, lack of workers, and the availability of arable land. Vision systems can support making better and more sustainable field management decisions, but also support the breeding of new crop varieties by allowing temporally dense and reproducible measurements. Recently, agricultural robotics got an increasing interest in the vision and robotics communities since it is a promising avenue for coping with the aforementioned lack of workers and enabling more sustainable production. While large datasets and benchmarks in other domains are readily available and enable significant progress, agricultural datasets and benchmarks are comparably rare. We present an annotated dataset and benchmarks for the semantic interpretation of real agricultural fields. Our dataset recorded with a UAV provides high-quality, pixel-wise annotations of crops and weeds, but also crop leaf instances at the same time. Furthermore, we provide benchmarks for various tasks on a hidden test set comprised of different fields: known fields covered by the training data and a completely unseen field. Our dataset, benchmarks, and code are available at \url{https://www.phenobench.org}.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# Histogram Oriented Gradient Based Support Vector Machine を用いた遅発性トマト病の早期診断

Early Detection of Late Blight Tomato Disease using Histogram Oriented Gradient based Support Vector Machine ( http://arxiv.org/abs/2306.08326v3 )

ライセンス: Link先を確認
Yousef Alhwaiti, Muhammad Ishaq, Muhammad Hameed Siddiqi, Muhammad Waqas, Madallah Alruwaili, Saad Alanazi, Asfandyar Khan, Faheem Khan, (参考訳) トマトは地球上で最も重要な果物の1つである。 農業生産において重要な役割を担っている。 本研究は,トマトにおける遅発性病の早期発見のための新しいスマート手法を提案する。 本研究は,フィールド(植物村のデータセット)からのイメージの増加によるデータセットの改善と,遅延トマト病のリアルタイム検出のためのサポートベクターマシン(SVM)とヒストグラム指向勾配(HOG)からなるハイブリッドアルゴリズムを提案する。 遅発性トマト葉病を早期に検出するためのHOGに基づくSVMモデルを提案する。 MSE,精度,精度,リコールの観点から,提案モデルの性能を決定木やKNNと比較する。 農業における先進技術の統合は、産業に革命をもたらす可能性があり、より効率的、持続可能、利益をもたらす。 トマト病の早期発見に関する研究は、スマート農業の重要性の高まり、気候に配慮した農業の必要性、天然資源をより効率的に活用する必要性の高まり、収穫高の需要に寄与する。 提案したSVMとHOGのハイブリッドアルゴリズムは,トマトの遅発性病の早期発見に有意な可能性を秘めている。 決定木とKNNアルゴリズムに対して提案したモデルの性能と,将来のアプリケーションに最適なアルゴリズムを選択するのに有効である。 この研究は、農家が作物の収量と品質を最適化し、農業慣行の環境への影響を減らし、データ駆動による決定を下すのに役立つ。

The tomato is one of the most important fruits on earth. It plays an important and useful role in the agricultural production of any country. This research propose a novel smart technique for early detection of late blight diseases in tomatoes. This work improve the dataset with an increase in images from the field (the Plant Village dataset) and proposed a hybrid algorithm composed of support vector machines (SVM) and histogram-oriented gradients (HOG) for real-time detection of late blight tomato disease. To propose a HOG-based SVM model for early detection of late blight tomato leaf disease. To check the performance of the proposed model in terms of MSE, accuracy, precision, and recall as compared to Decision Tree and KNN. The integration of advanced technology in agriculture has the potential to revolutionize the industry, making it more efficient, sustainable, and profitable. This research work on the early detection of tomato diseases contributes to the growing importance of smart farming, the need for climate-smart agriculture, the rising need to more efficiently utilize natural resources, and the demand for higher crop yields. The proposed hybrid algorithm of SVM and HOG has significant potential for the early detection of late blight disease in tomato plants. The performance of the proposed model against decision tree and KNN algorithms and the results may assist in selecting the best algorithm for future applications. The research work can help farmers make data-driven decisions to optimize crop yield and quality while also reducing the environmental impact of farming practices.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# Optimizerの情報基準: データ駆動最適化におけるバイアスの分離と修正

Optimizer's Information Criterion: Dissecting and Correcting Bias in Data-Driven Optimization ( http://arxiv.org/abs/2306.10081v3 )

ライセンス: Link先を確認
Garud Iyengar, Henry Lam, Tianyu Wang, (参考訳) データ駆動最適化では、得られた決定のサンプル性能は、通常、真のパフォーマンスに対して楽観的なバイアスを生じさせ、オプティマイザのカースとして知られる現象は、機械学習における過度な適合と密接に関連している。 クロスバリデーションのようなこのバイアスを修正する一般的な手法は、追加の最適化問題を繰り返し解決する必要があるため、計算コストがかかる。 我々はOIC(Optimizer's Information Criterion)と呼ばれる一般的なバイアス補正手法を開発し、一階偏差を直接近似し、追加の最適化問題を解く必要がない。 我々のOICは、データ駆動最適化における目的性能を評価するために、Akaike Information Criterionを一般化している。 そのため、モデル選択のみでなく、決定選択に使用できる。 我々は,実験モデルとパラメトリックモデル,正規化モデル,さらに文脈最適化を含む,データ駆動型最適化の定式化にアプローチを適用した。 最後に、合成および実世界のデータセット下でのアプローチの優れた性能に関する数値検証を行う。

In data-driven optimization, the sample performance of the obtained decision typically incurs an optimistic bias against the true performance, a phenomenon commonly known as the Optimizer's Curse and intimately related to overfitting in machine learning. Common techniques to correct this bias, such as cross-validation, require repeatedly solving additional optimization problems and are therefore computationally expensive. We develop a general bias correction approach, building on what we call Optimizer's Information Criterion (OIC), that directly approximates the first-order bias and does not require solving any additional optimization problems. Our OIC generalizes the celebrated Akaike Information Criterion to evaluate the objective performance in data-driven optimization, which crucially involves not only model fitting but also its interplay with the downstream optimization. As such it can be used for decision selection instead of only model selection. We apply our approach to a range of data-driven optimization formulations comprising empirical and parametric models, their regularized counterparts, and furthermore contextual optimization. Finally, we provide numerical validation on the superior performance of our approach under synthetic and real-world datasets.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# 共変符号を用いた量子誤り訂正符号

Quantum error-correcting codes with a covariant encoding ( http://arxiv.org/abs/2306.11621v4 )

ライセンス: Link先を確認
Aurélie Denys, Anthony Leverrier, (参考訳) 例えばクリフォード群のような論理ゲートの群$G$が与えられたとき、これらの論理ゲートが単純な物理演算によって実装できる量子エンコーディングは、$G$の物理表現によって説明されるのか? 本研究では,このような符号化マップの一般形式を構築することにより,この問題を考察する。 例えば、$[[5,1,3]] と Steane の符号はそれぞれ二進四面体と二進八面体群の超越的な実装を認めていることを回復する。 ボソニックエンコーディングでは、適切な群と本質的に最も単純な物理実装を考慮し、GKP および cat qudit エンコーディングを得る方法を示す。 さらに、48個のコヒーレントな状態の星座から定義される2モードのボソニック符号を導入し、全ての単一量子クリフォードゲートが受動ガウスユニタリに対応することを示す。

Given some group $G$ of logical gates, for instance the Clifford group, what are the quantum encodings for which these logical gates can be implemented by simple physical operations, described by some physical representation of $G$? We study this question by constructing a general form of such encoding maps. For instance, we recover that the $[[5,1,3]]$ and Steane codes admit transversal implementations of the binary tetrahedral and binary octahedral groups, respectively. For bosonic encodings, we show how to obtain the GKP and cat qudit encodings by considering the appropriate groups, and essentially the simplest physical implementations. We further illustrate this approach by introducing a 2-mode bosonic code defined from a constellation of 48 coherent states, for which all single-qubit Clifford gates correspond to passive Gaussian unitaries.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# 機械学習を用いた音声信号のスロート癌検出:スコーピング文献レビュー

Detecting Throat Cancer from Speech Signals using Machine Learning: A Scoping Literature Review ( http://arxiv.org/abs/2307.09230v2 )

ライセンス: Link先を確認
Mary Paterson, James Moor, Luisa Cutillo, (参考訳) 紹介:喉がんの症例は世界中で増加している。 後段では生存率が著しく低下するので、早期発見は不可欠である。 人工知能(AI)と機械学習(ML)は、患者の音声から喉がんを検出する可能性があり、早期診断を容易にし、オーバーストレッチされた医療システムの負担を軽減する。 しかし、音声から喉がんを検出するためのAIとMLの使用について包括的なレビューは行われていない。 このレビューは、これらの技術がどのように機能するかを評価し、今後の研究で解決すべき課題を特定することで、このギャップを埋めることを目的としている。 資料と方法: スコパス, Web of Science, PubMed の3つのデータベースを対象としたスコーピング文献レビューを行った。 対象は,機械学習を用いて音声を分類し,喉がん患者をデータに含ませた記事を含む。 記事は二進分類か多進分類かに基づいて分類された。 結果: 包含基準に適合する27項目, バイナリ分類12項目, 多クラス分類13項目, 多クラス分類2項目が得られた。 最も一般的な分類法はニューラルネットワークであり、最も頻繁に抽出される特徴はメル・スペクトログラムである。 また,前処理手法や分類器の性能も文書化した。 各項目をTRIPOD-AIチェックリストと比較したところ,オープンサイエンスの欠如を示し,コードを共有する記事は1つ,オープンアクセスデータを使用する記事は3つに過ぎなかった。 結論: オープンソースコードは、この分野で外部の検証とさらなる開発に不可欠です。 本研究は, 咽喉頭癌検出において, 一つの方法, 特定の特徴が, 常に他者より優れていることを示唆するものである。 今後の研究は、方法論の標準化と結果の再現性の向上に焦点を当てるべきである。

Introduction: Cases of throat cancer are rising worldwide. With survival decreasing significantly at later stages, early detection is vital. Artificial intelligence (AI) and machine learning (ML) have the potential to detect throat cancer from patient speech, facilitating earlier diagnosis and reducing the burden on overstretched healthcare systems. However, no comprehensive review has explored the use of AI and ML for detecting throat cancer from speech. This review aims to fill this gap by evaluating how these technologies perform and identifying issues that need to be addressed in future research. Materials and Methods: We conducted a scoping literature review across three databases: Scopus,Web of Science, and PubMed. We included articles that classified speech using machine learning and specified the inclusion of throat cancer patients in their data. Articles were categorized based on whether they performed binary or multi-class classification. Results: We found 27 articles fitting our inclusion criteria, 12 performing binary classification, 13 performing multi-class classification, and two that do both binary and multiclass classification. The most common classification method used was neural networks, and the most frequently extracted feature was mel-spectrograms. We also documented pre-processing methods and classifier performance. We compared each article against the TRIPOD-AI checklist, which showed a significant lack of open science, with only one article sharing code and only three using open-access data. Conclusion: Open-source code is essential for external validation and further development in this field. Our review indicates that no single method or specific feature consistently outperforms others in detecting throat cancer from speech. Future research should focus on standardizing methodologies and improving the reproducibility of results.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# 量子貯水池探査 : 量子多体物理の探索のための量子貯水池計算の逆パラダイム

Quantum reservoir probing: an inverse paradigm of quantum reservoir computing for exploring quantum many-body physics ( http://arxiv.org/abs/2308.00898v4 )

ライセンス: Link先を確認
Kaito Kobayashi, Yukitoshi Motome, (参考訳) 量子貯水池コンピューティング (QRC) は脳にインスパイアされた計算パラダイムであり、情報処理のために量子システムの自然力学を利用する。 現在までに、多くの量子系がQRCで利用されており、それに応じて様々な計算能力が実証されている。 本研究では,QRCフレームワークにおける情報処理性能を通じて,量子システム自体を探索する相互研究の方向性を提案する。 この概念に基づいて、QRCの逆拡張である量子貯水池探索(QRP)を開発する。 QRPは、物理特性と計算性能の間の演算子レベルの結合を確立する。 この対応を体系的にスキャンすると、計算と情報の観点から貯水池系の固有量子力学が明らかになる。 量子情報と量子物質を統合することで、QRPは量子多体物理学の様々な側面を探索するための強力なツールとして大きな可能性を秘めている。 本研究では,一次元量子イジングチェーンにおける情報伝達の解析に特に応用する。 我々は,QRPが弾道的情報伝達と拡散的情報伝達を区別するだけでなく,システム固有の情報伝達チャネルを識別することを示した。

Quantum reservoir computing (QRC) is a brain-inspired computational paradigm, exploiting natural dynamics of a quantum system for information processing. To date, a multitude of quantum systems have been utilized in the QRC, with diverse computational capabilities demonstrated accordingly. This study proposes a reciprocal research direction: probing quantum systems themselves through their information processing performance in the QRC framework. Building upon this concept, here we develop quantum reservoir probing (QRP), an inverse extension of the QRC. The QRP establishes an operator-level linkage between physical properties and performance in computing. A systematic scan of this correspondence reveals intrinsic quantum dynamics of the reservoir system from computational and informational perspectives. Unifying quantum information and quantum matter, the QRP holds great promise as a potent tool for exploring various aspects of quantum many-body physics. In this study, we specifically apply it to analyze information propagation in a one-dimensional quantum Ising chain. We demonstrate that the QRP not only distinguishes between ballistic and diffusive information propagation, reflecting the system's dynamical characteristics, but also identifies system-specific information propagation channels, a distinct advantage over conventional methods.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# EventBind: イベントベースのオープンワールド理解のためのバインディングテーマの統一表現学習

EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding ( http://arxiv.org/abs/2308.03135v6 )

ライセンス: Link先を確認
Jiazhou Zhou, Xu Zheng, Yuanhuiyi Lyu, Lin Wang, (参考訳) 本稿では,大規模イベントベースデータセットの欠如を補うために,イベントベース認識のための視覚言語モデル(VLM)の可能性を明らかにする,新しい効果的なフレームワークであるEventBindを提案する。 特に、画像テキストデータとの相違と大規模データセットの欠如により、画像、テキスト、イベントの共通表現空間を学習するのは簡単ではない。 1)CLIPの視覚エンコーダをイベントデータに一般化する方法。 2)マルチモーダル埋め込み、すなわち画像、テキスト、イベントを効果的に整列する方法。 そこで我々はまず,イベントから時間情報を微妙にモデル化する新しいイベントエンコーダを導入するとともに,モダリティブリッジのためのイベントプロンプトを生成する。 提案するイベントエンコーダ,テキストエンコーダ,画像エンコーダを用いて,新たな階層型三重コントラストアライメント(HTCA)モジュールを導入し,相関関係の最適化と3つのモード間の効率的な知識伝達を実現する。 N-Caltech101 (+5.34%と+1.70%) や N-Imagenet (+5.65%と+1.99%) といった,微調整と20ショットの設定で, 従来手法と比較して, 新たな最先端の精度を実現している。 さらに、私たちのEventBindは、テキストまたは画像クエリを使用して、イベント検索タスクに柔軟に拡張することができ、妥当なパフォーマンスを示します。 プロジェクトページ:https://vlislab22.github.io/EventBind/。

In this paper, we propose EventBind, a novel and effective framework that unleashes the potential of vision-language models (VLMs) for event-based recognition to compensate for the lack of large-scale event-based datasets. In particular, due to the distinct modality gap with the image-text data and the lack of large-scale datasets, learning a common representation space for images, texts, and events is non-trivial.Intuitively, we need to address two key challenges: 1) how to generalize CLIP's visual encoder to event data while fully leveraging events' unique properties, e.g., sparsity and high temporal resolution; 2) how to effectively align the multi-modal embeddings, i.e., image, text, and events. Accordingly, we first introduce a novel event encoder that subtly models the temporal information from events and meanwhile, generates event prompts for modality bridging. We then design a text encoder that generates content prompts and utilizes hybrid text prompts to enhance EventBind's generalization ability across diverse datasets.With the proposed event encoder, text encoder, and image encoder, a novel Hierarchical Triple Contrastive Alignment (HTCA) module is introduced to jointly optimize the correlation and enable efficient knowledge transfer among the three modalities. We evaluate various settings, including fine-tuning and few-shot on three benchmarks, and our EventBind achieves new state-of-the-art accuracy compared with the previous methods, such as on N-Caltech101 (+5.34% and +1.70%) and N-Imagenet (+5.65% and +1.99%) with fine-tuning and 20-shot settings, respectively. Moreover, our EventBind can be flexibly extended to the event retrieval task using text or image queries, showing plausible performance. Project page:https://vlislab22.github.io/EventBind/.
翻訳日:2024-07-25 19:59:51 公開日:2024-07-24
# マルチ教師の知識蒸留によるビデオにおける時間文の効率的な接地

Efficient Temporal Sentence Grounding in Videos with Multi-Teacher Knowledge Distillation ( http://arxiv.org/abs/2308.03725v2 )

ライセンス: Link先を確認
Renjie Liang, Yiming Yang, Hui Lu, Li Li, (参考訳) TSGV(Temporal Sentence Grounding in Videos)は、未トリミングビデオから自然言語クエリによって記述されたイベントタイムスタンプを検出することを目的としている。 本稿では,TSGVモデルにおいて高い性能を維持しながら効率的な計算を実現することの課題について論じる。 既存のアプローチのほとんどは、非効率性と重厚さに苦しむ余分なレイヤと損失で精度を向上させるために、非常に複雑なアーキテクチャを設計しています。 このことに気付いた研究はいくつかあるが、機能融合層の問題に過ぎず、ネットワーク全体の高速なメリットを享受することができない。 そこで本研究では,知識蒸留に基づく新しい多教師モデル(EMTM)を提案し,異種ネットワークと異型ネットワークの両方から多様な知識を伝達する。 具体的には、まず異種モデルの異なる出力を1つの形式にまとめる。 次に,複数の教師から高品質なソフトラベルを取得するために,知識集約ユニット(KAU)を構築した。 その後、KAUモジュールは、マルチスケールのビデオおよびグローバルクエリ情報を利用して、異なる教師の重みを適応的に決定する。 共有エンコーダ戦略は、学生の浅層層が教師の利益をほとんど得られないという問題を解決するために提案される。 3つの一般的なTSGVベンチマークによる大規模な実験結果から,ベルやホイッスルを使わずに本手法が有効かつ効果的であることが確認された。

Temporal Sentence Grounding in Videos (TSGV) aims to detect the event timestamps described by the natural language query from untrimmed videos. This paper discusses the challenge of achieving efficient computation in TSGV models while maintaining high performance. Most existing approaches exquisitely design complex architectures to improve accuracy with extra layers and loss, suffering from inefficiency and heaviness. Although some works have noticed that, they only make an issue of feature fusion layers, which can hardly enjoy the highspeed merit in the whole clunky network. To tackle this problem, we propose a novel efficient multi-teacher model (EMTM) based on knowledge distillation to transfer diverse knowledge from both heterogeneous and isomorphic networks. Specifically, We first unify different outputs of the heterogeneous models into one single form. Next, a Knowledge Aggregation Unit (KAU) is built to acquire high-quality integrated soft labels from multiple teachers. After that, the KAU module leverages the multi-scale video and global query information to adaptively determine the weights of different teachers. A Shared Encoder strategy is then proposed to solve the problem that the student shallow layers hardly benefit from teachers, in which an isomorphic teacher is collaboratively trained with the student to align their hidden states. Extensive experimental results on three popular TSGV benchmarks demonstrate that our method is both effective and efficient without bells and whistles.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# Harrow-Hassidim-Lloydアルゴリズムにおける量子資源

Quantum resources in Harrow-Hassidim-Lloyd algorithm ( http://arxiv.org/abs/2308.04021v2 )

ライセンス: Link先を確認
Pradeep Kumar, Tanoy Kanti Konar, Leela Ganesh Chandra Lakkaraju, Aditi Sen De, (参考訳) 量子アルゴリズムは、古典的なアルゴリズムの能力を超えたタスク実行のランタイムを削減できる。 したがって、量子的優位性の原因となる資源を特定することは興味深い試みである。 HHL(Harrow-Hassidim-Lloyd)アルゴリズムにおいて、非自明な線形方程式系を解くためには、二分法と真多分法の両方の非消滅量子相関が不可欠であることを示す。 さらに,システム全体とレジスタキュービットの非消滅量子コヒーレンスが,アルゴリズムの成功確率に関係していることが判明した。 量子資源の定量的解析により、各ステップでかなりの量の二部交絡が生成され、このアルゴリズムに必要な一方で、多部交絡内容は性能指標に逆比例することが明らかとなった。 さらに,ガウス分布から選択された不完全性が制御された回転に組み込まれると,障害の強さによって多部交絡が増加し,二部交絡とコヒーレンスも減少する一方で,二部交絡とコヒーレンスも増加し,このアルゴリズムにおける二部交絡とコヒーレンスの有効性が確かめられる。

Quantum algorithms have the ability to reduce runtime for executing tasks beyond the capabilities of classical algorithms. Therefore, identifying the resources responsible for quantum advantages is an interesting endeavour. We prove that nonvanishing quantum correlations, both bipartite and genuine multipartite entanglement, are required for solving nontrivial linear systems of equations in the Harrow-Hassidim-Lloyd (HHL) algorithm. Moreover, we find a nonvanishing l1-norm quantum coherence of the entire system and the register qubit which turns out to be related to the success probability of the algorithm. Quantitative analysis of the quantum resources reveals that while a significant amount of bipartite entanglement is generated in each step and required for this algorithm, multipartite entanglement content is inversely proportional to the performance indicator. In addition, we report that when imperfections chosen from Gaussian distribution are incorporated in controlled rotations, multipartite entanglement increases with the strength of the disorder, albeit error also increases while bipartite entanglement and coherence decreases, confirming the beneficial role of bipartite entanglement and coherence in this algorithm.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# MovePose: モバイルおよびエッジデバイス上での高性能なヒューマンポース推定アルゴリズム

MovePose: A High-performance Human Pose Estimation Algorithm on Mobile and Edge Devices ( http://arxiv.org/abs/2308.09084v4 )

ライセンス: Link先を確認
Dongyang Yu, Haoyue Zhang, Ruisheng Zhao, Guoqi Chen, Wangpeng An, Yanhong Yang, (参考訳) 我々は、CPUベースのモバイルデバイス上でのリアルタイムボディポーズ推定に特化して設計された、軽量畳み込みニューラルネットワークであるMovePoseを紹介する。 現在のソリューションは人間の姿勢推定に十分な精度とスピードを提供しておらず、MovePoseはこのギャップに対処しています。 モバイルデバイスの姿勢推定の精度を向上しつつ、リアルタイムのパフォーマンスを維持することを目的としている。 我々のMovePoseアルゴリズムはCOCO \cite{cocodata}バリデーションデータセットで平均平均精度(mAP)スコアが68.0に達した。 MovePoseアルゴリズムは、Intel i9-10920x CPU上で動作する場合、効率は69フレーム/秒(fps)以上であった。 さらに、NVIDIA RTX3090 GPU上で452以上のfpsのパフォーマンスも向上した。 Snapdragon 8 + 4Gプロセッサを搭載したAndroidスマートフォンでは、fpsは11.7GHz以上に達した。 精度を高めるために,デコンボリューション,大規模カーネルコンボリューション,コーディネート分類という3つの手法を取り入れた。 基本的なアップサンプリングと比較して、デコンボリューションはトレーニング可能で、モデルのキャパシティが向上し、受容野が向上する。 大きなカーネルの畳み込みは計算コストを下げてこれらの特性を強化する。 要約すると、MovePoseは高精度でリアルタイムのパフォーマンスを提供しており、モバイル側の人間の姿勢推定など、さまざまなアプリケーションにとって潜在的なツールである。 このアルゴリズムのコードとモデルは一般に公開される。

We present MovePose, an optimized lightweight convolutional neural network designed specifically for real-time body pose estimation on CPU-based mobile devices. The current solutions do not provide satisfactory accuracy and speed for human posture estimation, and MovePose addresses this gap. It aims to maintain real-time performance while improving the accuracy of human posture estimation for mobile devices. Our MovePose algorithm has attained an Mean Average Precision (mAP) score of 68.0 on the COCO \cite{cocodata} validation dataset. The MovePose algorithm displayed efficiency with a performance of 69+ frames per second (fps) when run on an Intel i9-10920x CPU. Additionally, it showcased an increased performance of 452+ fps on an NVIDIA RTX3090 GPU. On an Android phone equipped with a Snapdragon 8 + 4G processor, the fps reached above 11. To enhance accuracy, we incorporated three techniques: deconvolution, large kernel convolution, and coordinate classification methods. Compared to basic upsampling, deconvolution is trainable, improves model capacity, and enhances the receptive field. Large kernel convolution strengthens these properties at a decreased computational cost. In summary, MovePose provides high accuracy and real-time performance, marking it a potential tool for a variety of applications, including those focused on mobile-side human posture estimation. The code and models for this algorithm will be made publicly accessible.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# 社会的関連分野におけるIoTデバイスのアーキテクチャと応用

Architecture and Applications of IoT Devices in Socially Relevant Fields ( http://arxiv.org/abs/2308.09195v2 )

ライセンス: Link先を確認
S. Anush Lakshman, S. Akash, J. Cynthia, R. Gautam, D. Ebenezer, (参考訳) 毎年多くのIoTデバイスが試みられ、導入されているが、これらのデバイスは市場の可能性が大きいため、IoTによって生成されたスペースを収益化しようとする研究や企業の間では、健全な競争が続いている。 デバイスが扱うデータの種類と機密性に応じて、さまざまなIoTアーキテクチャ、通信プロトコル、コンポーネントが選択され、そのパフォーマンスが評価される。 本稿は、医療、農業、ファイアファイアファイアファイアウォール、女性と個人間の安全/呼び出し、ヘルプ/ハーム警告、ホーム監視、マッピングなど、社会的な重要な分野において、そのアーキテクチャ、通信プロトコル、機能に基づいたIoTデバイスをレビューする。 驚くことに、すでにかなりの数のデバイスがこれらの分野で報告されており、そのパフォーマンスは有望である。 また,これらの機器を信頼性の高いものにするためには,各分野の課題についても概説する。

Number of IoT enabled devices are being tried and introduced every year and there is a healthy competition among researched and businesses to capitalize the space created by IoT, as these devices have a great market potential. Depending on the type of task involved and sensitive nature of data that the device handles, various IoT architectures, communication protocols and components are chosen and their performance is evaluated. This paper reviews such IoT enabled devices based on their architecture, communication protocols and functions in few key socially relevant fields like health care, farming, firefighting, women/individual safety/call for help/harm alert, home surveillance and mapping as these fields involve majority of the general public. It can be seen, to one's amazement, that already significant number of devices are being reported on these fields and their performance is promising. This paper also outlines the challenges involved in each of these fields that require solutions to make these devices reliable
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# サウジアラビアにおけるGoogleアカウント保有者のプライバシー認識と行動

Privacy Perceptions and Behaviors of Google Personal Account Holders in Saudi Arabia ( http://arxiv.org/abs/2308.10148v4 )

ライセンス: Link先を確認
Eman Alashwali, Lorrie Faith Cranor, (参考訳) 西洋社会ではプライバシーの認識や行動が研究されているが、非西洋社会ではこれらの問題についてはほとんど分かっていない。 このギャップを埋めるために、私たちはサウジアラビアのGoogleアカウント保有者30人に、Googleが保存した活動データに関するプライバシーの認識と行動についてインタビューした。 我々の研究は、ユーザーがWeb \& App Activity、Location History、YouTube Historyを保存できるかどうかを制御できるGoogleのActivity Controlsに焦点を当てている。 我々の結果によると、ほとんどの参加者はGoogleのデータプラクティスやアクティビティコントロールについてある程度の意識を持っているが、多くは曖昧な認識しか持っておらず、大多数は利用可能なコントロールを使用していない。 参加者が保存した活動データを見たとき、多くの人が救われたことに驚きました。 多くの参加者は、Googleが提供したサービスを改善するためにデータを使用することを容認しているが、大多数は広告目的でデータを使用することを容認できないと考えている。 サウジアラビアの参加者は、米国の研究では、プライバシー意識、態度、好み、関心、行動に類似した傾向とパターンを示しています。 我々の結果は以下の必要性を強調している。 1) ユーザに対して,アカウント登録時のプライバシ設定を通知し,ユーザに対して設定を通知し,プライバシ設定に対する意識を高める技術の改善。 2)プライバシー設定インタフェースの改善により、多くのユーザーが設定を変更するのを妨げているコストを削減する。 3)非西洋文化におけるプライバシーに関するさらなる研究。

While privacy perceptions and behaviors have been investigated in Western societies, little is known about these issues in non-Western societies. To bridge this gap, we interviewed 30 Google personal account holders in Saudi Arabia about their privacy perceptions and behaviors regarding the activity data that Google saves about them. Our study focuses on Google's Activity Controls, which enable users to control whether, and how, Google saves their Web \& App Activity, Location History, and YouTube History. Our results show that although most participants have some level of awareness about Google's data practices and the Activity Controls, many have only vague awareness, and the majority have not used the available controls. When participants viewed their saved activity data, many were surprised by what had been saved. While many participants find Google's use of their data to improve the services provided to them acceptable, the majority find the use of their data for ad purposes unacceptable. We observe that our Saudi participants exhibit similar trends and patterns in privacy awareness, attitudes, preferences, concerns, and behaviors to what has been found in studies in the US. Our results emphasize the need for: 1) improved techniques to inform users about privacy settings during account sign-up, to remind users about their settings, and to raise awareness about privacy settings; 2) improved privacy setting interfaces to reduce the costs that deter many users from changing the settings; and 3) further research to explore privacy concerns in non-Western cultures.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# GitHubの課題はアプリレビューの分類に役立つか?

Can GitHub Issues Help in App Review Classifications? ( http://arxiv.org/abs/2308.14211v3 )

ライセンス: Link先を確認
Yasaman Abedini, Abbas Heydarnoori, (参考訳) アプリのレビューは、メンテナンスタスクの計画に役立つさまざまなユーザ要件を反映している。 近年,ユーザレビューの自動分類手法は機械学習アルゴリズムに依存している。 前回の研究では、既存のラベル付きデータセットでトレーニングされたモデルは、新しいデータセットを予測する際のパフォーマンスが低かったことが示されていた。 したがって、より正確なモデルをトレーニングするためには、包括的なラベル付きデータセットが不可欠である。 本稿では,ユーザ要求に関する貴重な情報を含むGitHubイシューの追加ソースから抽出した情報を活用することで,ラベル付きデータセットの強化を支援する新しいアプローチを提案する。 まず、イシューラベルを調べることにより、レビュー意図(バグレポート、機能要求など)に関する問題を特定する。 そして,課題を解析し,対象情報を抽出する19の言語パターンを定義する。 最後に、手動でラベル付けされたレビューデータセットを、Inside-App、Inside-Context、Interface-App Analysisメソッドを通じて、処理された問題のサブセットで拡張します。 提案手法を評価するためにいくつかの実験を行った。 以上の結果から,データ拡張にラベル付き問題を用いることで,F1スコアが6.3,機能要求が7.2に向上することが示された。 さらに, 補助音量に対して0.3~0.7の有効範囲を同定し, 性能改善を図る。

App reviews reflect various user requirements that can aid in planning maintenance tasks. Recently, proposed approaches for automatically classifying user reviews rely on machine learning algorithms. A previous study demonstrated that models trained on existing labeled datasets exhibit poor performance when predicting new ones. Therefore, a comprehensive labeled dataset is essential to train a more precise model. In this paper, we propose a novel approach that assists in augmenting labeled datasets by utilizing information extracted from an additional source, GitHub issues, that contains valuable information about user requirements. First, we identify issues concerning review intentions (bug reports, feature requests, and others) by examining the issue labels. Then, we analyze issue bodies and define 19 language patterns for extracting targeted information. Finally, we augment the manually labeled review dataset with a subset of processed issues through the Within-App, Within-Context, and Between-App Analysis methods. We conducted several experiments to evaluate the proposed approach. Our results demonstrate that using labeled issues for data augmentation can improve the F1-score to 6.3 in bug reports and 7.2 in feature requests. Furthermore, we identify an effective range of 0.3 to 0.7 for the auxiliary volume, which provides better performance improvements.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# 変圧器を用いたX(Twitter)上のボットのマルチモーダル検出

Multimodal Detection of Bots on X (Twitter) using Transformers ( http://arxiv.org/abs/2308.14484v2 )

ライセンス: Link先を確認
Loukas Ilias, Ioannis Michail Kazelidis, Dimitris Askounis, (参考訳) 全てのボットは悪意があるわけではないが、ほとんどのボットは誤報を広め、いくつかの問題(選挙など)に関する世論を操作する責任がある。 したがって、ボットの早期発見は不可欠である。 ソーシャルメディア上でボットを検出する方法が提案されているが、依然としてかなりの制限がある。 例えば、既存の研究イニシアチブは依然として多数の機能を抽出し、従来の機械学習アルゴリズムをトレーニングしたり、GloVe埋め込みを使用してLSTMをトレーニングします。 しかし、機能抽出はドメインの専門知識を必要とする面倒な手続きである。 また、トランスを用いた言語モデルはLSTMよりも優れていることが証明されている。 他のアプローチでは、大きなグラフを作成し、この方法で計算リソースのトレーニングとアクセスに何時間も要するグラフニューラルネットワークをトレーニングする。 これらの制限に対処するため、ユーザーによるツイートのタイプと内容を表す3つのチャンネルのユーザ記述フィールドと画像のみを用いた最初の研究である。 まず、デジタルDNA配列を作成し、3D画像に変換し、EfficientNet、AlexNet、VGG16などを含む視覚領域の事前訓練されたモデルを適用する。 次に、ユーザ記述フィールドのテキスト表現を得るためにTwHIN-BERTを用い、画像モダリティの視覚表現を得るためにVGG16を用いるマルチモーダルアプローチを提案する。 本稿では, 結合, ゲートマルチモーダルユニット, クロスモーダルアテンションの3つの異なる融合法を提案し, 異なるモダリティを融合させ, それらの性能を比較する。 最後に,最良性能モデルの挙動を定性的に解析する。 Cresci'17とTwiBot-20データセットで実施された大規模な実験は、最先端のデータセットに対する私たちの導入アプローチのメリットを実証している。

Although not all bots are malicious, the vast majority of them are responsible for spreading misinformation and manipulating the public opinion about several issues, i.e., elections and many more. Therefore, the early detection of bots is crucial. Although there have been proposed methods for detecting bots in social media, there are still substantial limitations. For instance, existing research initiatives still extract a large number of features and train traditional machine learning algorithms or use GloVe embeddings and train LSTMs. However, feature extraction is a tedious procedure demanding domain expertise. Also, language models based on transformers have been proved to be better than LSTMs. Other approaches create large graphs and train graph neural networks requiring in this way many hours for training and access to computational resources. To tackle these limitations, this is the first study employing only the user description field and images of three channels denoting the type and content of tweets posted by the users. Firstly, we create digital DNA sequences, transform them to 3d images, and apply pretrained models of the vision domain, including EfficientNet, AlexNet, VGG16, etc. Next, we propose a multimodal approach, where we use TwHIN-BERT for getting the textual representation of the user description field and employ VGG16 for acquiring the visual representation for the image modality. We propose three different fusion methods, namely concatenation, gated multimodal unit, and crossmodal attention, for fusing the different modalities and compare their performances. Finally, we present a qualitative analysis of the behavior of our best performing model. Extensive experiments conducted on the Cresci'17 and TwiBot-20 datasets demonstrate valuable advantages of our introduced approaches over state-of-the-art ones.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# 特許インフォームドバイオメディカル知識グラフの学習 : 医薬品再配置候補の技術的可能性

Learning a Patent-Informed Biomedical Knowledge Graph Reveals Technological Potential of Drug Repositioning Candidates ( http://arxiv.org/abs/2309.03227v2 )

ライセンス: Link先を確認
Yongseung Jegal, Jaewoong Choi, Jiho Lee, Ki-Su Park, Seyoung Lee, Janghyeok Yoon, (参考訳) 薬物再配置は、既存の薬物の新しい治療法を発見するための有望な戦略であり、バイオメディカルデータベースを用いた計算科学文献で研究が進められている。 しかし、薬物再配置候補の技術的可能性はしばしば見過ごされている。 本研究は, 医薬品特許やバイオメディカルデータベースなどの諸資料を包括的に分析し, 薬物再配置候補を, 技術的可能性と科学的証拠の両方で同定するための新しいプロトコルを提案する。 そこで我々はまず, 薬物, 疾患, および生物医学データベースから得られた遺伝子を関連づけた, 科学的バイオメディカル知識グラフ(s-BKG)を構築した。 本プロトコルでは, 標的疾患と限られた関連性を示す薬物を, s-BKGの薬剤候補として同定する。 特許インフォームドバイオメディカル知識グラフ(p-BKG)を構築した。 最後に,p-BKGの構造を確認するためのグラフ埋め込みプロトコルを開発した。 アルツハイマー病の症例研究は、その有効性と実現可能性を示し、定量的な結果と体系的な手法は、薬物再沈着研究における計算的発見と市場応用とのギャップを埋めることが期待されている。

Drug repositioning-a promising strategy for discovering new therapeutic uses for existing drugs-has been increasingly explored in the computational science literature using biomedical databases. However, the technological potential of drug repositioning candidates has often been overlooked. This study presents a novel protocol to comprehensively analyse various sources such as pharmaceutical patents and biomedical databases, and identify drug repositioning candidates with both technological potential and scientific evidence. To this end, first, we constructed a scientific biomedical knowledge graph (s-BKG) comprising relationships between drugs, diseases, and genes derived from biomedical databases. Our protocol involves identifying drugs that exhibit limited association with the target disease but are closely located in the s-BKG, as potential drug candidates. We constructed a patent-informed biomedical knowledge graph (p-BKG) by adding pharmaceutical patent information. Finally, we developed a graph embedding protocol to ascertain the structure of the p-BKG, thereby calculating the relevance scores of those candidates with target disease-related patents to evaluate their technological potential. Our case study on Alzheimer's disease demonstrates its efficacy and feasibility, while the quantitative outcomes and systematic methods are expected to bridge the gap between computational discoveries and successful market applications in drug repositioning research.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# ベイズ適応モーメント正規化によるロバスト連続学習に向けて

Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization ( http://arxiv.org/abs/2309.08546v3 )

ライセンス: Link先を確認
Jack Foster, Alexandra Brintrup, (参考訳) 長期的な自律性の追求は、機械学習モデルが変化する環境に継続的に適応し、新しいタスクの解決を学ぶことを義務付ける。 継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。 従来の連続学習手法は、計算効率が良く、補助モデルやデータストレージを必要としないため、魅力的である。 しかし、従来のアプローチは重要なベンチマークでは失敗し、メモリベースのアプローチに比べて潜在的なアプリケーションでは制限される。 ベイズ適応モーメント正規化(BAdam)は,パラメータ成長の抑制を図り,破滅的な忘れを減らし,新しい事前手法である。 提案手法は,軽量でタスクラベルのない,短時間で収束する,安全な実世界展開に重要なキャリブレーションされた不確実性など,さまざまな望ましい特性を備えている。 その結果, BAdamは, Split MNIST や Split FashionMNIST のような単頭クラスインクリメンタルな実験に挑戦し, タスクラベルや個別のタスク境界に頼らずに, 先行手法の最先端性能を実現していることがわかった。

The pursuit of long-term autonomy mandates that machine learning models must continuously adapt to their changing environments and learn to solve new tasks. Continual learning seeks to overcome the challenge of catastrophic forgetting, where learning to solve new tasks causes a model to forget previously learnt information. Prior-based continual learning methods are appealing as they are computationally efficient and do not require auxiliary models or data storage. However, prior-based approaches typically fail on important benchmarks and are thus limited in their potential applications compared to their memory-based counterparts. We introduce Bayesian adaptive moment regularization (BAdam), a novel prior-based method that better constrains parameter growth, reducing catastrophic forgetting. Our method boasts a range of desirable properties such as being lightweight and task label-free, converging quickly, and offering calibrated uncertainty that is important for safe real-world deployment. Results show that BAdam achieves state-of-the-art performance for prior-based methods on challenging single-headed class-incremental experiments such as Split MNIST and Split FashionMNIST, and does so without relying on task labels or discrete task boundaries.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# SRFNet:フレームとイベントの空間的信頼性を指向した融合による微細構造を有する単眼深度推定

SRFNet: Monocular Depth Estimation with Fine-grained Structure via Spatial Reliability-oriented Fusion of Frames and Events ( http://arxiv.org/abs/2309.12842v2 )

ライセンス: Link先を確認
Tianbo Pan, Zidong Cao, Lin Wang, (参考訳) 単眼深度推定は、ロボットナビゲーションや自動運転などのアプリケーションにとって重要な、カメラに対する距離を測定するための重要なタスクである。 従来のフレームベースの手法は、ダイナミックレンジの制限と動きのぼかしによる性能低下に悩まされる。 そのため、近年の研究では、新しいイベントカメラを活用して、フレームイベント機能融合によるフレームモダリティを補完またはガイドしている。 しかし、イベントストリームは空間的空間性を示しており、特に辺縁的な光の変化のある地域では、一部の領域は認識されていない。 したがって、直接融合法(例えばRAMNet)は、各モードの最も自信のある領域の寄与を無視することが多い。 これにより、モダリティ融合過程における構造的曖昧性が生じ、深さ推定性能が低下する。 本稿では,日中・夜間の微粒構造で深度を推定できる空間信頼性指向型核融合ネットワーク(SRFNet)を提案する。 本手法は2つの重要な技術要素から構成される。 まず,初期マスクとしてイベントやフレームの空間的先行を応用したアテンションベースインタラクティブフュージョン(AIF)モジュールを提案し,そのコンセンサス領域を学習し,モーダル間特徴フュージョンを導出する。 融合した機能は、フレームとイベントの特徴学習を強化するために送り返される。 一方、出力ヘッドを用いて融合マスクを生成し、このマスクは、連続した空間的前兆を学習するために反復的に更新される。 第二に, 融解した特徴とマスクに基づいて, きめ細粒度構造を用いて深度を推定する, 信頼性指向深度微細化 (RDR) モジュールを提案する。 本研究では,本手法が合成および実世界のデータセットに与える影響を評価し,事前学習がなくても,特に夜間の場面において,従来の手法,例えばRAMNetよりも優れていたことを示す。 プロジェクトのホームページはhttps://vlislab22.github.io/SRFNetです。

Monocular depth estimation is a crucial task to measure distance relative to a camera, which is important for applications, such as robot navigation and self-driving. Traditional frame-based methods suffer from performance drops due to the limited dynamic range and motion blur. Therefore, recent works leverage novel event cameras to complement or guide the frame modality via frame-event feature fusion. However, event streams exhibit spatial sparsity, leaving some areas unperceived, especially in regions with marginal light changes. Therefore, direct fusion methods, e.g., RAMNet, often ignore the contribution of the most confident regions of each modality. This leads to structural ambiguity in the modality fusion process, thus degrading the depth estimation performance. In this paper, we propose a novel Spatial Reliability-oriented Fusion Network (SRFNet), that can estimate depth with fine-grained structure at both daytime and nighttime. Our method consists of two key technical components. Firstly, we propose an attention-based interactive fusion (AIF) module that applies spatial priors of events and frames as the initial masks and learns the consensus regions to guide the inter-modal feature fusion. The fused feature are then fed back to enhance the frame and event feature learning. Meanwhile, it utilizes an output head to generate a fused mask, which is iteratively updated for learning consensual spatial priors. Secondly, we propose the Reliability-oriented Depth Refinement (RDR) module to estimate dense depth with the fine-grained structure based on the fused features and masks. We evaluate the effectiveness of our method on the synthetic and real-world datasets, which shows that, even without pretraining, our method outperforms the prior methods, e.g., RAMNet, especially in night scenes. Our project homepage: https://vlislab22.github.io/SRFNet.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# 対人ロバスト性と行動可能な説明とのトレードオフについて

On the Trade-offs between Adversarial Robustness and Actionable Explanations ( http://arxiv.org/abs/2309.16452v2 )

ライセンス: Link先を確認
Satyapriya Krishna, Chirag Agarwal, Himabindu Lakkaraju, (参考訳) 機械学習モデルは、さまざまなハイテイクな設定でますます採用されているため、これらのモデルの予測が逆向きに堅牢であるだけでなく、関連するステークホルダーにも容易に説明できることが重要になる。 しかし、これら2つの概念が同時に達成できるのか、あるいはそれらの間にトレードオフが存在するのかは定かではない。 本研究は、エンドユーザーが会話の手段を提供する行動可能な説明に対して、逆向きに頑健なモデルが与える影響を研究するための最初の試みである。 提案手法は, モデルが逆向きに頑健である場合, 最先端のアルゴリズムによって出力されるリコースのコスト(実装結果)と妥当性(正のモデル予測の確率)を理論的に, 実証的に分析する。 より具体的には、逆ロバストな線形モデルと非線形モデルに対して、最先端のアルゴリズムが生成するレコースのコストと妥当性の差に関する理論的境界を導出する。 複数の実世界のデータセットによる実験結果は、我々の理論的結果を評価し、その結果のコストと妥当性に様々なモデルロバスト性の影響を示す。 分析の結果, 対向ロバストモデルがコストを大幅に増加させ, 結果の妥当性を低下させることで, 対向ロバスト性と作用可能な説明との本質的にのトレードオフに光を当てることが判明した。

As machine learning models are increasingly being employed in various high-stakes settings, it becomes important to ensure that predictions of these models are not only adversarially robust, but also readily explainable to relevant stakeholders. However, it is unclear if these two notions can be simultaneously achieved or if there exist trade-offs between them. In this work, we make one of the first attempts at studying the impact of adversarially robust models on actionable explanations which provide end users with a means for recourse. We theoretically and empirically analyze the cost (ease of implementation) and validity (probability of obtaining a positive model prediction) of recourses output by state-of-the-art algorithms when the underlying models are adversarially robust vs. non-robust. More specifically, we derive theoretical bounds on the differences between the cost and the validity of the recourses generated by state-of-the-art algorithms for adversarially robust vs. non-robust linear and non-linear models. Our empirical results with multiple real-world datasets validate our theoretical results and show the impact of varying degrees of model robustness on the cost and validity of the resulting recourses. Our analyses demonstrate that adversarially robust models significantly increase the cost and reduce the validity of the resulting recourses, thus shedding light on the inherent trade-offs between adversarial robustness and actionable explanations.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# 複合・分散確率最小化のための高確率収束と重音による変分不等式

High-Probability Convergence for Composite and Distributed Stochastic Minimization and Variational Inequalities with Heavy-Tailed Noise ( http://arxiv.org/abs/2310.01860v2 )

ライセンス: Link先を確認
Eduard Gorbunov, Abdurakhmon Sadiev, Marina Danilova, Samuel Horváth, Gauthier Gidel, Pavel Dvurechensky, Alexander Gasnikov, Peter Richtárik, (参考訳) 近年,雑音に対する軽度の仮定の下での確率的一階最適化手法の高確率解析が注目されている。 通常、勾配クリッピングは、ノイズが重いときに高い確率を保証するための重要なアルゴリズム要素の1つである。 しかし、na\ 的に実装すれば、ノイズがなくても、合成および分散最適化(Prox-SGD/Parallel SGD)の一般的な手法の収束を損なう可能性がある。 このため、高確率解析に関する多くの研究は、非分散問題のみを非分散問題とみなし、複合/分散問題に対する既存の結果は、いくつかの重要な特別なケース(強凸問題など)を含んでおらず、最適ではない。 この問題に対処するために, 確率勾配差のクリッピングに基づく合成および分散最適化のための新しい確率的手法を提案し, 提案手法の厳密な高確率収束結果(ほぼ最適解を含む)を証明した。 類似のアイデアを用いて、合成および分散変分不等式の新しい手法を開発し、これらの手法の高確率収束性の解析を行う。

High-probability analysis of stochastic first-order optimization methods under mild assumptions on the noise has been gaining a lot of attention in recent years. Typically, gradient clipping is one of the key algorithmic ingredients to derive good high-probability guarantees when the noise is heavy-tailed. However, if implemented na\"ively, clipping can spoil the convergence of the popular methods for composite and distributed optimization (Prox-SGD/Parallel SGD) even in the absence of any noise. Due to this reason, many works on high-probability analysis consider only unconstrained non-distributed problems, and the existing results for composite/distributed problems do not include some important special cases (like strongly convex problems) and are not optimal. To address this issue, we propose new stochastic methods for composite and distributed optimization based on the clipping of stochastic gradient differences and prove tight high-probability convergence results (including nearly optimal ones) for the new methods. Using similar ideas, we also develop new methods for composite and distributed variational inequalities and analyze the high-probability convergence of these methods.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# Tree-Planner: 大規模言語モデルを用いた効率的なクローズループタスク計画

Tree-Planner: Efficient Close-loop Task Planning with Large Language Models ( http://arxiv.org/abs/2310.08582v2 )

ライセンス: Link先を確認
Mengkang Hu, Yao Mu, Xinmiao Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo, (参考訳) 本稿では,実時間観測に基づいて計画に適応しながら,特定の目標を達成するための一連のスキル(計画)を生成するプロセスについて,クローズループタスク計画について考察する。 近年,Large Language Models (LLM) の動作を反復的に生成するよう促すことが,その性能とユーザフレンドリさの面から,広く普及しているパラダイムとなっている。 しかし、このパラダイムは高いトークン消費と冗長なエラー訂正という2つの非効率さに悩まされている。 これらの問題に対処するため,LLMを用いたタスクプランニングを3つの異なるフェーズ(プランサンプリング,アクションツリー構築,グラウンドド決定)に再編成するツリープランナーを提案する。 Tree-Plannerは、実行前にLSMを使用して潜在的な計画のセットをサンプリングし、次にそれらのアグリゲーションを使用してアクションツリーを形成する。 最後に、LLMは、リアルタイムな環境情報を考慮して、木上でトップダウンの意思決定プロセスを実行する。 実験の結果,Tree-Plannerは高い効率を保ちながら最先端のパフォーマンスを実現することがわかった。 LLMクエリを1つのプランサンプリングコールと複数のグラウンド決定コールに分解することで、プロンプトのかなりの部分が繰り返し消費されることが少なくなる。 その結果、それまでの最高のパフォーマンスモデルと比較してトークンの消費量は92.2%削減された。 さらに、必要に応じてアクションツリーのバックトラックを有効にすることで、修正プロセスはより柔軟になり、誤り訂正の40.5%が減少する。

This paper studies close-loop task planning, which refers to the process of generating a sequence of skills (a plan) to accomplish a specific goal while adapting the plan based on real-time observations. Recently, prompting Large Language Models (LLMs) to generate actions iteratively has become a prevalent paradigm due to its superior performance and user-friendliness. However, this paradigm is plagued by two inefficiencies: high token consumption and redundant error correction, both of which hinder its scalability for large-scale testing and applications. To address these issues, we propose Tree-Planner, which reframes task planning with LLMs into three distinct phases: plan sampling, action tree construction, and grounded deciding. Tree-Planner starts by using an LLM to sample a set of potential plans before execution, followed by the aggregation of them to form an action tree. Finally, the LLM performs a top-down decision-making process on the tree, taking into account real-time environmental information. Experiments show that Tree-Planner achieves state-of-the-art performance while maintaining high efficiency. By decomposing LLM queries into a single plan-sampling call and multiple grounded-deciding calls, a considerable part of the prompt are less likely to be repeatedly consumed. As a result, token consumption is reduced by 92.2% compared to the previously best-performing model. Additionally, by enabling backtracking on the action tree as needed, the correction process becomes more flexible, leading to a 40.5% decrease in error corrections.
翻訳日:2024-07-25 19:50:07 公開日:2024-07-24
# 量子干渉計-原理と応用

Quantum interferometers: principles and applications ( http://arxiv.org/abs/2310.16378v2 )

ライセンス: Link先を確認
Rui-Bo Jin, Zi-Qi Zeng, Chenglong You, Chenzhi Yuan, (参考訳) 干渉は波の重畳に関連する現象を指し、物理学の発展において重要な役割を担い、物理学と工学の計測に幅広い応用を見出した。 干渉計は干渉を観測し操作するために設計された実験装置である。 技術の発展に伴い、多くの量子干渉計が発見され、量子物理学の分野の土台となった。 量子干渉計は量子世界の性質を探索するだけでなく、量子通信、量子コンピューティング、量子計測などの量子情報技術にも幅広く応用されている。 本稿では,Hong-Ou-Mandel(HOM)干渉計,N00N状態干渉計,Franson干渉計の3つの典型的な量子干渉計を解析・要約する。 これら3つの干渉計の原理と応用に焦点を当てる。 本論では, 単モード理論と多モード理論を含む, これらの干渉計の理論モデルについて述べる。 応用セクションでは、これらの干渉計の量子通信、計算、測定への応用について概説する。 本論文は,基礎科学と実用工学の両分野における量子干渉の進展を促進することを願っている。

Interference, which refers to the phenomenon associated with the superposition of waves, has played a crucial role in the advancement of physics and finds a wide range of applications in physical and engineering measurements. Interferometers are experimental setups designed to observe and manipulate interference. With the development of technology, many quantum interferometers have been discovered and have become cornerstone tools in the field of quantum physics. Quantum interferometers not only explore the nature of the quantum world but also have extensive applications in quantum information technology, such as quantum communication, quantum computing, and quantum measurement. In this review, we analyze and summarize three typical quantum interferometers: the Hong-Ou-Mandel (HOM) interferometer, the N00N state interferometer, and the Franson interferometer. We focus on the principles and applications of these three interferometers. In the principles section, we present the theoretical models for these interferometers, including single-mode theory and multi-mode theory. In the applications section, we review the applications of these interferometers in quantum communication, computation, and measurement. We hope that this review article will promote the development of quantum interference in both fundamental science and practical engineering applications.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-24
# 強みを透かしに変える:知識注入による大規模言語モデルの透かし

Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection ( http://arxiv.org/abs/2311.09535v3 )

ライセンス: Link先を確認
Shuai Li, Kejiang Chen, Kunsheng Tang, Jie Zhang, Weiming Zhang, Nenghai Yu, Kai Zeng, (参考訳) 大規模言語モデル(LLM)は優れた性能を示しており、有意義な商業的可能性を秘めている。 残念ながら、LSMとそのAPIは知的財産の盗難に影響を受けやすい。 ウォーターマーキングは著作権認証の古典的なソリューションである。 しかし、近年のLLMウォーターマーキング手法は、LLM自体をウォーターマーキングするのではなく、AI生成したテキストの識別に重点を置いている。 重量の定量化とバックドアの透かしに基づく試みはほんの数回しか試みられず、実際には適用性に制限があるほど頑丈でも隠蔽もない。 この問題に対処するために,知識注入に基づくLCMの新しい透かし手法を提案し,透かし担体としての知識を革新的に活用する。 具体的には、透かし埋め込み段階において、まず選択した知識に透かしを埋め込んで、透かし付き知識を取得し、次に保護されたLLMに注入する。 透かし抽出段階では、疑わしいLCMを問い合わせ、その応答から透かしを抽出するための透かし知識に関する質問を設計する。 実験の結果,透かし抽出の成功率は100%に近づき,提案手法の有効性,忠実性,ステルス性,堅牢性を示した。

Large language models (LLMs) have demonstrated outstanding performance, making them valuable digital assets with significant commercial potential. Unfortunately, the LLM and its API are susceptible to intellectual property theft. Watermarking is a classic solution for copyright verification. However, most recent emerging LLM watermarking methods focus on identifying AI-generated texts rather than watermarking LLM itself. Only a few attempts are based on weight quantification and backdoor watermarking, which are not robust or covert enough, limiting their applicability in practice. To address this issue, we propose a novel watermarking method for LLMs based on knowledge injection and innovatively use knowledge as the watermark carrier. Specifically, in the watermark embedding stage, we first embed the watermarks into the selected knowledge to obtain the watermarked knowledge, subsequently injected into the to-be-protected LLM. In the watermark extraction stage, questions related to the watermarked knowledge are designed, for querying the suspect LLM and extracting the watermarks from its response. The experiments show that the watermark extraction success rate is close to 100% and demonstrate the effectiveness, fidelity, stealthiness, and robustness of our proposed method.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-24
# テキスト分散グラフのためのトポロジ的構造エンハンサーとしての大規模言語モデル

Large Language Models as Topological Structure Enhancers for Text-Attributed Graphs ( http://arxiv.org/abs/2311.14324v2 )

ライセンス: Link先を確認
Shengyin Sun, Yuxiang Ren, Chen Ma, Xuecang Zhang, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語処理(NLP)の分野に革命をもたらした。 NLPタスクにおけるLLMの成功に触発された最近の研究は、グラフ学習タスクにLLMを適用する可能性の調査を開始した。 しかし、既存の研究の多くは、LLMを強力なノード機能拡張器として活用することに集中しており、グラフトポロジ構造を強化するためにLLMをそのまま残している。 本研究では,LLMの情報検索とテキスト生成機能を利用して,ノード分類設定の下でのテキスト分散グラフ(TAG)のトポロジ構造を洗練・強化する方法について検討する。 まず、信頼できないエッジを除去し、TAGに信頼性の高いエッジを追加するのに役立つLSMを提案する。 具体的には,まずノード属性間のセマンティックな類似性を繊細なプロンプト設計により出力し,その類似性に基づいてエッジ削除とエッジ付加を行う。 次に,LLMが生成した擬似ラベルを用いてグラフトポロジを改善すること,すなわち,グラフニューラルネットワーク(GNN)の正規化として擬似ラベル伝搬を導入することにより,適切なエッジウェイトを学習する。 最後に、前述の2つのLLMに基づくグラフトポロジ的改善手法をGNNトレーニングのプロセスに組み込んで、4つの実世界のデータセットに対する広範な実験を行う。 実験により, LLMに基づくグラフトポロジ改善の有効性が示された(公開ベンチマークで0.15%~2.47%の性能向上を達成した)。

The latest advancements in large language models (LLMs) have revolutionized the field of natural language processing (NLP). Inspired by the success of LLMs in NLP tasks, some recent work has begun investigating the potential of applying LLMs in graph learning tasks. However, most of the existing work focuses on utilizing LLMs as powerful node feature augmenters, leaving employing LLMs to enhance graph topological structures an understudied problem. In this work, we explore how to leverage the information retrieval and text generation capabilities of LLMs to refine/enhance the topological structure of text-attributed graphs (TAGs) under the node classification setting. First, we propose using LLMs to help remove unreliable edges and add reliable ones in the TAG. Specifically, we first let the LLM output the semantic similarity between node attributes through delicate prompt designs, and then perform edge deletion and edge addition based on the similarity. Second, we propose using pseudo-labels generated by the LLM to improve graph topology, that is, we introduce the pseudo-label propagation as a regularization to guide the graph neural network (GNN) in learning proper edge weights. Finally, we incorporate the two aforementioned LLM-based methods for graph topological refinement into the process of GNN training, and perform extensive experiments on four real-world datasets. The experimental results demonstrate the effectiveness of LLM-based graph topology refinement (achieving a 0.15%--2.47% performance gain on public benchmarks).
翻訳日:2024-07-25 19:40:18 公開日:2024-07-24
# 集団効果を有するLEDの超熱光子統計量の集団変動機構

Population fluctuation mechanism of the super-thermal photon statistic of LEDs with collective effects ( http://arxiv.org/abs/2311.15324v3 )

ライセンス: Link先を確認
Igor E. Protsenko, Alexander V. Uskov, (参考訳) その結果,エミッタ数の変動は線形状態の小さなLEDの超熱光子統計につながり,強いエミッタ-フィールド結合と集合効果に好適なキャビティを有することがわかった。 2階相関関数 g_2 の簡単な解析式が見つかる。 2レベルLEDモデルでは、g_2がg_2=6まで増加することが予測される。 超熱光子統計は、自然発生のキャビティモードへの人口変動の増加に関連している。

We found that fluctuations in the number of emitters lead to a super-thermal photon statistics of small LEDs in a linear regime, with a strong emitter-field coupling and a bad cavity favorable for collective effects. A simple analytical expression for the second-order correlation function g_2 is found. g_2 increase up to g_2=6 in the two-level LED model is predicted. The super-thermal photon statistics is related to the population fluctuation increase of the spontaneous emission to the cavity mode.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-24
# ガウシアン編集者:3Dガウシアンをテキストで編集

GaussianEditor: Editing 3D Gaussians Delicately with Text Instructions ( http://arxiv.org/abs/2311.16037v2 )

ライセンス: Link先を確認
Junjie Wang, Jiemin Fang, Xiaopeng Zhang, Lingxi Xie, Qi Tian, (参考訳) 近年,2次元拡散モデルに基づくテキストによる3次元シーン編集において,印象的な結果が得られた。 しかし、現在の拡散モデルは、主に潜伏空間のノイズを予測して画像を生成し、通常、編集は画像全体に適用されるため、3Dシーンの微妙な、特に局所的な編集は困難である。 最近の3Dガウシアンスプラッティングに触発されて,3Dガウシアンによる3Dシーンの微妙な編集をテキストで行うための,ガウシアンエディター(GaussianEditor)という体系的なフレームワークを提案する。 3Dガウスの明示的な性質を活かして、繊細な編集を実現するための一連のテクニックを設計する。 具体的には、まずテキスト命令に対応する関心領域(RoI)を抽出し、それを3Dガウスアンにアライメントする。 ガウスRoIは編集プロセスを制御するためにさらに使用される。 我々のフレームワークは、従来の方法よりも繊細で正確な3Dシーンの編集が可能であり、トレーニング速度はより高速である。つまり、1つのV100 GPUで20分以内、インストラクト-NeRF2NeRF(45分~2時間)の2倍以上の速度である。

Recently, impressive results have been achieved in 3D scene editing with text instructions based on a 2D diffusion model. However, current diffusion models primarily generate images by predicting noise in the latent space, and the editing is usually applied to the whole image, which makes it challenging to perform delicate, especially localized, editing for 3D scenes. Inspired by recent 3D Gaussian splatting, we propose a systematic framework, named GaussianEditor, to edit 3D scenes delicately via 3D Gaussians with text instructions. Benefiting from the explicit property of 3D Gaussians, we design a series of techniques to achieve delicate editing. Specifically, we first extract the region of interest (RoI) corresponding to the text instruction, aligning it to 3D Gaussians. The Gaussian RoI is further used to control the editing process. Our framework can achieve more delicate and precise editing of 3D scenes than previous methods while enjoying much faster training speed, i.e. within 20 minutes on a single V100 GPU, more than twice as fast as Instruct-NeRF2NeRF (45 minutes -- 2 hours).
翻訳日:2024-07-25 19:40:18 公開日:2024-07-24
# Surf-D:拡散モデルを用いた任意位相の高品質表面生成

Surf-D: Generating High-Quality Surfaces of Arbitrary Topologies Using Diffusion Models ( http://arxiv.org/abs/2311.17050v3 )

ライセンス: Link先を確認
Zhengming Yu, Zhiyang Dou, Xiaoxiao Long, Cheng Lin, Zekun Li, Yuan Liu, Norman Müller, Taku Komura, Marc Habermann, Christian Theobalt, Xin Li, Wenping Wang, (参考訳) 拡散モデルを用いて任意の位相を持つ曲面として高品質な3次元形状を生成する新しい方法であるSurf-Dを提案する。 それまでの手法では、異なる表現を持つ形状の生成を探索し、限られた位相と粗い幾何学的詳細に悩まされていた。 任意のトポロジの高品質な曲面を生成するために、任意のトポロジに対応するために、unsigned Distance Field (UDF) を表わす。 さらに、ポイントベースオートエンコーダを用いてUDFを正確に符号化し、高分解能メッシュ抽出をサポートするコンパクトで連続的な潜在空間を学習する新しいパイプラインを提案する。 さらに、我々の新しいパイプラインは、グリッドベースのAutoEncoderのような、拡張性がなく、正確なUDFを学習できない距離フィールドを学習するための従来のアプローチよりも大幅に優れていることを示す。 さらに,様々な面を効率的に埋め込むためのカリキュラム学習戦略を採用した。 事前学習した形状潜伏空間では,様々な形状の分布を得るために潜伏拡散モデルを用いる。 非条件生成、カテゴリ条件生成、画像条件生成、テキスト・ツー・シェイプタスクにSurf-Dを用いることで、広範囲にわたる実験を行う。 実験では,複数モードの形状生成におけるSurf-Dの優れた性能を条件として示す。 プロジェクトページはhttps://yzmblog.github.io/projects/SurfD/。

We present Surf-D, a novel method for generating high-quality 3D shapes as Surfaces with arbitrary topologies using Diffusion models. Previous methods explored shape generation with different representations and they suffer from limited topologies and poor geometry details. To generate high-quality surfaces of arbitrary topologies, we use the Unsigned Distance Field (UDF) as our surface representation to accommodate arbitrary topologies. Furthermore, we propose a new pipeline that employs a point-based AutoEncoder to learn a compact and continuous latent space for accurately encoding UDF and support high-resolution mesh extraction. We further show that our new pipeline significantly outperforms the prior approaches to learning the distance fields, such as the grid-based AutoEncoder, which is not scalable and incapable of learning accurate UDF. In addition, we adopt a curriculum learning strategy to efficiently embed various surfaces. With the pretrained shape latent space, we employ a latent diffusion model to acquire the distribution of various shapes. Extensive experiments are presented on using Surf-D for unconditional generation, category conditional generation, image conditional generation, and text-to-shape tasks. The experiments demonstrate the superior performance of Surf-D in shape generation across multiple modalities as conditions. Visit our project page at https://yzmblog.github.io/projects/SurfD/.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-24
# PEA拡散:非英語テキスト・画像生成における知識蒸留を用いたパラメータ効率の良い適応器

PEA-Diffusion: Parameter-Efficient Adapter with Knowledge Distillation in non-English Text-to-Image Generation ( http://arxiv.org/abs/2311.17086v2 )

ライセンス: Link先を確認
Jian Ma, Chen Chen, Qingsong Xie, Haonan Lu, (参考訳) テキスト・ツー・イメージ拡散モデルは、テキスト・プロンプトに基づいてリアルな画像を生成する能力で有名である。 しかし、既存の作品は主に英語に焦点を当てており、非英語のテキスト・ツー・イメージモデルのサポートは欠如している。 最も一般的に使われている翻訳法は、言語文化に関連する生成問題を解くことはできないが、特定の言語データセットをスクラッチから学習することは違法に高価である。 本稿では,知識蒸留に基づく簡易なプラグアンドプレイ言語伝達法を提案する。 必要なのは、教師の知識の蒸留の下で6Mパラメータしか持たない軽量なMLP型パラメータ効率アダプタ(PEA)と、小さな並列データコーパスをトレーニングすることだけです。 UNetのパラメータの凍結は、言語固有のプロンプト評価セットにおいて依然として顕著な性能を達成できることに驚き、PEAが元のUNetの潜在的な生成能力を刺激できることを実証した。 さらに、一般的なプロンプト評価セットに基づいて、英語のテキスト・画像モデルの性能に近づいた。 さらに,このアダプタをプラグインとして使用することで,言語間テキスト・画像生成における下流タスクの重要な結果が得られる。 コードは、https://github.com/OPPO-Mente-Lab/PEA-Diffusionで利用可能になる。

Text-to-image diffusion models are well-known for their ability to generate realistic images based on textual prompts. However, the existing works have predominantly focused on English, lacking support for non-English text-to-image models. The most commonly used translation methods cannot solve the generation problem related to language culture, while training from scratch on a specific language dataset is prohibitively expensive. In this paper, we are inspired to propose a simple plug-and-play language transfer method based on knowledge distillation. All we need to do is train a lightweight MLP-like parameter-efficient adapter (PEA) with only 6M parameters under teacher knowledge distillation along with a small parallel data corpus. We are surprised to find that freezing the parameters of UNet can still achieve remarkable performance on the language-specific prompt evaluation set, demonstrating that PEA can stimulate the potential generation ability of the original UNet. Additionally, it closely approaches the performance of the English text-to-image model on a general prompt evaluation set. Furthermore, our adapter can be used as a plugin to achieve significant results in downstream tasks in cross-lingual text-to-image generation. Code will be available at: https://github.com/OPPO-Mente-Lab/PEA-Diffusion
翻訳日:2024-07-25 19:40:18 公開日:2024-07-24
# TLControl:人間の運動合成のための軌道と言語制御

TLControl: Trajectory and Language Control for Human Motion Synthesis ( http://arxiv.org/abs/2311.17135v4 )

ライセンス: Link先を確認
Weilin Wan, Zhiyang Dou, Taku Komura, Wenping Wang, Dinesh Jayaraman, Lingjie Liu, (参考訳) 制御可能な人間のモーション合成は、AR/VR、ゲーム、エンボディAIの応用に不可欠である。 既存の手法は言語または完全な軌道制御にのみ焦点をあてることが多く、特にマルチジョイント制御において、ユーザが特定した軌道に合わせた合成動作の精度が欠如している。 これらの課題に対処するために,我々は,ニューラルネットワークと最適化技術の統合により,低レベルトラジェクトリと高レベル言語セマンティクスの両方を取り入れた,リアルな人間の動作合成の新しい手法であるTLControlを提案する。 具体的には,VQ-VAEのトレーニングから始める。 次に,モーズドトラジェクトリ変換器 (MTT) を提案する。 トレーニング後,ユーザが指定した部分的軌跡とテキスト記述を条件付けとして,MTTを用いて初期動作予測をサンプリングする。 最後に,これらの粗い予測を高精度な軌道制御のために改良するテスト時最適化を提案する。 総合的な実験により、TLControlは軌道精度と時間効率において最先端の技術を著しく上回り、インタラクティブで高品質なアニメーション生成に実用的であることが示された。

Controllable human motion synthesis is essential for applications in AR/VR, gaming and embodied AI. Existing methods often focus solely on either language or full trajectory control, lacking precision in synthesizing motions aligned with user-specified trajectories, especially for multi-joint control. To address these issues, we present TLControl, a novel method for realistic human motion synthesis, incorporating both low-level Trajectory and high-level Language semantics controls, through the integration of neural-based and optimization-based techniques. Specifically, we begin with training a VQ-VAE for a compact and well-structured latent motion space organized by body parts. We then propose a Masked Trajectories Transformer (MTT) for predicting a motion distribution conditioned on language and trajectory. Once trained, we use MTT to sample initial motion predictions given user-specified partial trajectories and text descriptions as conditioning. Finally, we introduce a test-time optimization to refine these coarse predictions for precise trajectory control, which offers flexibility by allowing users to specify various optimization goals and ensures high runtime efficiency. Comprehensive experiments show that TLControl significantly outperforms the state-of-the-art in trajectory accuracy and time efficiency, making it practical for interactive and high-quality animation generation.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-24
# 非等角形状マッチングのためのハイブリッド関数写像

Hybrid Functional Maps for Crease-Aware Non-Isometric Shape Matching ( http://arxiv.org/abs/2312.03678v3 )

ライセンス: Link先を確認
Lennart Bastian, Yizheng Xie, Nassir Navab, Zorah Lähner, (参考訳) 非等尺形状対応はコンピュータビジョンの基本的な課題である。 Laplace-Beltrami演算子 (LBO) を用いた従来の手法は、曲げやクレーゼのような高周波外形変化を特徴付けるために、限界に直面している。 本稿では,LBOの固有関数と弾性薄殻ヘシアンの固有関数の非直交外部基底を結合し,汎函数写像を構成するハイブリッドスペクトル空間を創出する手法を提案する。 そこで本研究では,非直交基底関数を記述子および学習に基づく関数マップ手法に効果的に統合する理論的枠組みを提案する。 我々のアプローチは、様々なアプリケーションにまたがる既存の機能的マップパイプラインに簡単に組み込むことができ、アイソメトリーを超えた複雑な変形を処理できる。 各種の教師なしおよび教師なしの設定に対して広範囲な評価を行い,大幅な改善を示した。 提案手法は,非等尺対応設定における測地誤差を最大15%改善し,トポロジカルノイズのあるシナリオでは最大45%改善した。

Non-isometric shape correspondence remains a fundamental challenge in computer vision. Traditional methods using Laplace-Beltrami operator (LBO) eigenmodes face limitations in characterizing high-frequency extrinsic shape changes like bending and creases. We propose a novel approach of combining the non-orthogonal extrinsic basis of eigenfunctions of the elastic thin-shell hessian with the intrinsic ones of the LBO, creating a hybrid spectral space in which we construct functional maps. To this end, we present a theoretical framework to effectively integrate non-orthogonal basis functions into descriptor- and learning-based functional map methods. Our approach can be incorporated easily into existing functional map pipelines across varying applications and is able to handle complex deformations beyond isometries. We show extensive evaluations across various supervised and unsupervised settings and demonstrate significant improvements. Notably, our approach achieves up to 15% better mean geodesic error for non-isometric correspondence settings and up to 45% improvement in scenarios with topological noise.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-24
# 超伝導量子ビットを用いた読み出し誤差緩和量子状態トモグラフィ

Readout error mitigated quantum state tomography tested on superconducting qubits ( http://arxiv.org/abs/2312.04211v2 )

ライセンス: Link先を確認
Adrian Skasberg Aasen, Andras Di Giovanni, Hannes Rotzinger, Alexey V. Ustinov, Martin Gärttner, (参考訳) 量子技術は、量子システムの正確な制御と信頼できる読み出しに大きく依存している。 現在の実験は、単純な解析モデルで部分的にしか捉えられない多くのノイズ源によって制限されており、ノイズ源のさらなる特徴付けが必要である。 量子二レベルオブジェクト(量子ビット)からなるシステムで見られる現実的なノイズを補正するための読み出し誤差軽減機能をテストする。 そこで我々は,量子状態トモグラフィー(QST)と量子検出器トモグラフィー(QDT)を用いて,量子状態トモグラフィー(QST)を推定する手法を考案した。 状態トモグラフィーの文脈で読み出し誤差を軽減することにより、この手法は主に読み出しモード、アーキテクチャー、ノイズ源、量子状態非依存となる。 本手法を超伝導量子ビット上に実装し,QSTの再構成精度の向上を評価する。 提案手法の性能は, 信号増幅, 共振器光子人口の不足, 外部共振量子ビット駆動, 減衰時間を効果的に短縮するなど, 様々な重要なノイズ源によって特徴付けられる。 その結果,読み出し誤差低減効果が良好であったノイズ源を同定し,読み出し不忠実度を最大30倍に低下させた。

Quantum technologies rely heavily on accurate control and reliable readout of quantum systems. Current experiments are limited by numerous sources of noise that can only be partially captured by simple analytical models and additional characterization of the noise sources is required. We test the ability of readout error mitigation to correct realistic noise found in systems composed of quantum two-level objects (qubits). To probe the limit of such methods, we designed a beyond-classical readout error mitigation protocol based on quantum state tomography (QST), which estimates the density matrix of a quantum system, and quantum detector tomography (QDT), which characterizes the measurement procedure. By treating readout error mitigation in the context of state tomography the method becomes largely readout mode-, architecture-, noise source-, and quantum state-independent. We implement this method on a superconducting qubit and evaluate the increase in reconstruction fidelity for QST. We characterize the performance of the method by varying important noise sources, such as suboptimal readout signal amplification, insufficient resonator photon population, off-resonant qubit drive, and effectively shortened $T_1$ and $T_2$ decay times. As a result, we identified noise sources for which readout error mitigation worked well, and observed decreases in readout infidelity by a factor of up to 30.
翻訳日:2024-07-25 19:40:18 公開日:2024-07-24
# 超伝導量子コンピュータ上での分子窒素の解離曲線の文脈部分空間変分量子固有解法計算

Contextual Subspace Variational Quantum Eigensolver Calculation of the Dissociation Curve of Molecular Nitrogen on a Superconducting Quantum Computer ( http://arxiv.org/abs/2312.04392v2 )

ライセンス: Link先を確認
Tim Weaving, Alexis Ralli, Peter J. Love, Sauro Succi, Peter V. Coveney, (参考訳) 本研究では,超伝導量子ハードウェア上でのコンテキスト部分空間変動量子固有解器の実験実験を行う。 特に分子窒素のポテンシャルエネルギー曲線を計算し、解離限界における静的相関の優位性は、多くの従来の量子化学技術において困難であることを示す。 我々の量子シミュレーションは、選択されたSTO-3Gベースにおける完全な構成相互作用エネルギーと良好な一致を維持し、ボンドブレーキングを適切に捉える際に、ベンチマークされたすべての単一参照波動関数技術より優れている。 さらに,本手法は複数のマルチコンフィグレーション手法と競合するが,量子資源の大幅な節約により,より大きな活性空間を固定量子ビットの許容値として扱うことができる。 この結果を達成するために、動的疎結合、測定誤差緩和、ゼロノイズ外挿からなる誤差低減・抑制戦略を、ノイズの受動的平均化を提供するだけでなく、有効ショット収率を改善して測定オーバーヘッドを低減する回路並列化に加えて展開する。 さらに,我々の可変回路にハードウェア認識を組み込んだ従来の適応型アンサッツ構成アルゴリズムを改良し,ターゲット量子トポロジーのトランスパイルコストを最小化する。

In this work we present an experimental demonstration of the Contextual Subspace Variational Quantum Eigensolver on superconducting quantum hardware. In particular, we compute the potential energy curve for molecular nitrogen, where a dominance of static correlation in the dissociation limit proves challenging for many conventional quantum chemistry techniques. Our quantum simulations retain good agreement with the full configuration interaction energy in the chosen STO-3G basis, outperforming all benchmarked single-reference wavefunction techniques in capturing the bond-breaking appropriately. Moreover, our methodology is competitive with several multiconfigurational approaches, but at a considerable saving of quantum resource, meaning larger active spaces can be treated for a fixed qubit allowance. To achieve this result we deploy an error mitigation/suppression strategy comprised of dynamical decoupling, measurement-error mitigation and zero-noise extrapolation, in addition to circuit parallelization that not only provides passive averaging of noise but improves the effective shot-yield to reduce the measurement overhead. Furthermore, we introduce a modification to previous adaptive ansatz construction algorithms that incorporates hardware-awareness into our variational circuits to minimize the transpilation cost for the target qubit topology.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# DisControlFace: ワンショット顔画像編集のための拡散オートエンコーダにディスタングル制御を追加する

DisControlFace: Adding Disentangled Control to Diffusion Autoencoder for One-shot Explicit Facial Image Editing ( http://arxiv.org/abs/2312.06193v2 )

ライセンス: Link先を確認
Haozhe Jia, Yan Li, Hengfei Cui, Di Xu, Yuwang Wang, Tao Yu, (参考訳) 本研究は, 顔の忠実な外観と一貫した意味的詳細を創出しながら, 生成的顔画像編集のきめ細かいきめ細かな制御を探索することに焦点を当てるが, 非常に困難であり, 特にワンショットシナリオ下では, 広くは研究されていない。 本稿では,高レベルなセマンティクスと明示的パラメータ(例えば3DMM)間の不整合条件制御の探索として重要な課題を特定し,それに基づいて,拡散に基づく新しい編集フレームワークであるDisControlFaceを提案する。 具体的には,Diffusion Autoencoder (Diff-AE) を意味再構成バックボーンとして活用する。 明示的な顔編集を可能にするために,Diff-AEと互換性のあるExp-FaceNetを構築し,推定した3DMMパラメータに基づいて空間的に明示的な制御条件を生成する。 条件生成モデル全体をスクラッチからトレーニングする現在の拡散ベースの編集方法とは異なり、Diff-AEの事前学習した重みを凍結して意味論的決定的条件付け能力を維持し、Exp-FaceNetの独立トレーニングを効果的に達成するためのランダムな意味マスキング(RSM)戦略を提案する。 この設定は、編集のセマンティック情報シフトを減らしながら、アンタングルされた顔制御によるモデルを実現する。 本モデルでは,3D画像や映像データを必要としない2Dインザミルポートレート画像を用いて,簡単なワンショット微調整により,新しい顔画像のロバストな編集を行うことができる。 総合的な実験により、DisControlFaceは、最先端の手法よりも編集精度とアイデンティティの保存性を向上し、現実的な顔画像を生成することができることが示された。 プロジェクトページ: https://discontrolface.github.io/

In this work, we focus on exploring explicit fine-grained control of generative facial image editing, all while generating faithful facial appearances and consistent semantic details, which however, is quite challenging and has not been extensively explored, especially under an one-shot scenario. We identify the key challenge as the exploration of disentangled conditional control between high-level semantics and explicit parameters (e.g., 3DMM) in the generation process, and accordingly propose a novel diffusion-based editing framework, named DisControlFace. Specifically, we leverage a Diffusion Autoencoder (Diff-AE) as the semantic reconstruction backbone. To enable explicit face editing, we construct an Exp-FaceNet that is compatible with Diff-AE to generate spatial-wise explicit control conditions based on estimated 3DMM parameters. Different from current diffusion-based editing methods that train the whole conditional generative model from scratch, we freeze the pre-trained weights of the Diff-AE to maintain its semantically deterministic conditioning capability and accordingly propose a random semantic masking (RSM) strategy to effectively achieve an independent training of Exp-FaceNet. This setting endows the model with disentangled face control meanwhile reducing semantic information shift in editing. Our model can be trained using 2D in-the-wild portrait images without requiring 3D or video data and perform robust editing on any new facial image through a simple one-shot fine-tuning. Comprehensive experiments demonstrate that DisControlFace can generate realistic facial images with better editing accuracy and identity preservation over state-of-the-art methods. Project page: https://discontrolface.github.io/
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# LLMはセキュリティ脆弱性を確実に識別し、理由付けできない (Yet?): 総合的な評価、フレームワーク、ベンチマーク

LLMs Cannot Reliably Identify and Reason About Security Vulnerabilities (Yet?): A Comprehensive Evaluation, Framework, and Benchmarks ( http://arxiv.org/abs/2312.12575v3 )

ライセンス: Link先を確認
Saad Ullah, Mingji Han, Saurabh Pujar, Hammond Pearce, Ayse Coskun, Gianluca Stringhini, (参考訳) 大規模な言語モデル(LLM)は、自動脆弱性修正に使用するために提案されているが、ベンチマークでは、セキュリティ関連のバグが一貫して欠如していることが示されている。 SecLLMHolmesは,LLMがセキュリティ関連のバグを確実に識別し,原因を判断できるかどうか,これまでで最も詳細な調査を行う,完全自動評価フレームワークである。 228のコードシナリオのセットを構築し、フレームワークを使用して8つの異なる調査次元にわたる8つの最も有能なLCMを分析します。 評価の結果、LLMは非決定論的応答、不正確で不誠実な推論を提供し、現実のシナリオでは不十分であることがわかった。 もっとも重要なのは,関数名や変数名だけを変更すること,あるいはソースコードにライブラリ関数を追加することで,これらのモデルがそれぞれ26%,17%のケースで誤った解が得られることだ。 これらの結果から,LSMを汎用セキュリティアシスタントとして使用するには,さらなるLSMの進歩が必要であることが示唆された。

Large Language Models (LLMs) have been suggested for use in automated vulnerability repair, but benchmarks showing they can consistently identify security-related bugs are lacking. We thus develop SecLLMHolmes, a fully automated evaluation framework that performs the most detailed investigation to date on whether LLMs can reliably identify and reason about security-related bugs. We construct a set of 228 code scenarios and analyze eight of the most capable LLMs across eight different investigative dimensions using our framework. Our evaluation shows LLMs provide non-deterministic responses, incorrect and unfaithful reasoning, and perform poorly in real-world scenarios. Most importantly, our findings reveal significant non-robustness in even the most advanced models like `PaLM2' and `GPT-4': by merely changing function or variable names, or by the addition of library functions in the source code, these models can yield incorrect answers in 26% and 17% of cases, respectively. These findings demonstrate that further LLM advances are needed before LLMs can be used as general purpose security assistants.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# SQuADDS:超伝導量子ビット設計のための検証済み設計データベースとシミュレーションワークフロー

SQuADDS: A validated design database and simulation workflow for superconducting qubit design ( http://arxiv.org/abs/2312.13483v2 )

ライセンス: Link先を確認
Sadman Shanto, Andre Kuo, Clark Miyamoto, Haimeng Zhang, Vivek Maurya, Evangelos Vlachos, Malida Hecht, Chung Wa Shum, Eli Levenson-Falk, (参考訳) 本稿では,超伝導量子デバイス設計のオープンソースデータベースについて紹介する。 それぞれの設計はオープンソースのQiskit Metalパッケージを使ってプログラムで生成でき、有限要素電磁解法を用いてシミュレートできる。 本稿では,設計シミュレーションにおける高精度なワークフローを提案する。 データベースにおける多くの設計は実験的に検証され、シミュレーションパラメータと測定パラメータの良好な一致を示す。 我々のデータベースにはフロントエンドインタフェースが含まれており、ユーザーは所望の回路パラメータに基づいて ``best-guess'' の設計を生成できる。 このプロジェクトは、新しい種類のデバイスを作ろうとする研究グループの参入障壁を低くする。

We present an open-source database of superconducting quantum device designs that may be used as the starting point for customized devices. Each design can be generated programmatically using the open-source Qiskit Metal package, and simulated using finite-element electromagnetic solvers. We present a robust workflow for achieving high accuracy on design simulations. Many designs in the database are experimentally validated, showing excellent agreement between simulated and measured parameters. Our database includes a front-end interface that allows users to generate ``best-guess'' designs based on desired circuit parameters. This project lowers the barrier to entry for research groups seeking to make a new class of devices by providing them a well-characterized starting point from which to refine their designs.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# 大規模言語モデルによるビデオ理解:サーベイ

Video Understanding with Large Language Models: A Survey ( http://arxiv.org/abs/2312.17432v4 )

ライセンス: Link先を確認
Yunlong Tang, Jing Bi, Siting Xu, Luchuan Song, Susan Liang, Teng Wang, Daoan Zhang, Jie An, Jingyang Lin, Rongyi Zhu, Ali Vosoughi, Chao Huang, Zeliang Zhang, Pinxin Liu, Mingqian Feng, Feng Zheng, Jianguo Zhang, Ping Luo, Jiebo Luo, Chenliang Xu, (参考訳) オンラインビデオプラットフォームの急成長とビデオコンテンツの増大に伴い、熟練したビデオ理解ツールの需要は激増している。 言語およびマルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると、この調査はLLM(Vid-LLMs)のパワーを利用した映像理解の最近の進歩の概要を提供する。 Vid-LLMの創発的能力は驚くほど進歩しており、特に、オープンな多粒度推論(一般、時空間、時空間)とコモンセンスの知識が組み合わさり、将来的なビデオ理解の道のりを示唆している。 ビデオアナライザー x LLM, ビデオエンベッドダー x LLM, および (アナライザー + エンベッドダー) x LLM の3つのタイプに分類し, その特徴と機能について検討する。 さらに,LLMをSummarizer,LLM as Manager,LLM as Text Decoder,LLM as Regressor,LLM as Hidden Layer の5つのサブタイプを同定した。 さらに、この調査では、Vid-LLMのタスク、データセット、ベンチマーク、評価方法論について包括的に研究している。 さらに、さまざまなドメインにまたがるVid-LLMの広範な応用を探求し、実際のビデオ理解の課題において、その顕著なスケーラビリティと汎用性を強調している。 最後に、既存のVid-LLMの限界を要約し、今後の研究の方向性を概説する。 詳細については、https://github.com/yunlong10/Awesome-LLMs-for-Video-Understandingのリポジトリを参照してほしい。

With the burgeoning growth of online video platforms and the escalating volume of video content, the demand for proficient video understanding tools has intensified markedly. Given the remarkable capabilities of large language models (LLMs) in language and multimodal tasks, this survey provides a detailed overview of recent advancements in video understanding that harness the power of LLMs (Vid-LLMs). The emergent capabilities of Vid-LLMs are surprisingly advanced, particularly their ability for open-ended multi-granularity (general, temporal, and spatiotemporal) reasoning combined with commonsense knowledge, suggesting a promising path for future video understanding. We examine the unique characteristics and capabilities of Vid-LLMs, categorizing the approaches into three main types: Video Analyzer x LLM, Video Embedder x LLM, and (Analyzer + Embedder) x LLM. Furthermore, we identify five sub-types based on the functions of LLMs in Vid-LLMs: LLM as Summarizer, LLM as Manager, LLM as Text Decoder, LLM as Regressor, and LLM as Hidden Layer. Furthermore, this survey presents a comprehensive study of the tasks, datasets, benchmarks, and evaluation methodologies for Vid-LLMs. Additionally, it explores the expansive applications of Vid-LLMs across various domains, highlighting their remarkable scalability and versatility in real-world video understanding challenges. Finally, it summarizes the limitations of existing Vid-LLMs and outlines directions for future research. For more information, readers are recommended to visit the repository at https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# 高分解能ジコトコス像の両側参照

Bilateral Reference for High-Resolution Dichotomous Image Segmentation ( http://arxiv.org/abs/2401.03407v6 )

ライセンス: Link先を確認
Peng Zheng, Dehong Gao, Deng-Ping Fan, Li Liu, Jorma Laaksonen, Wanli Ouyang, Nicu Sebe, (参考訳) 高分解能ディコトコス像分割(DIS)のための新しい両側参照フレームワーク(BiRefNet)を導入する。 本研究は,2つの基本成分: 局所化モジュール (LM) と再構成モジュール (RM) を, 提案した両側参照 (BiRef) で構成する。 LMはグローバルな意味情報を用いたオブジェクトのローカライゼーションを支援する。 RM内では、画像の階層的パッチがソース参照を提供し、勾配マップがターゲット参照として機能する、再構成プロセスにBiRefを利用する。 これらのコンポーネントは、最終的な予測マップを生成するために協力する。 また,より詳細な領域に焦点を絞るために,補助的な勾配監督を導入する。 さらに、地図の質とトレーニングプロセスを改善するために、Disdisに適した実践的なトレーニング戦略を概説する。 提案手法の汎用性を検証するため,BiRefNetがすべてのベンチマークにおいて,タスク固有の最先端手法よりも優れた性能を示すことを示すため,4つのタスクについて広範な実験を行った。 私たちのコードはhttps://github.com/ZhengPeng7/BiRefNetで公開されています。

We introduce a novel bilateral reference framework (BiRefNet) for high-resolution dichotomous image segmentation (DIS). It comprises two essential components: the localization module (LM) and the reconstruction module (RM) with our proposed bilateral reference (BiRef). The LM aids in object localization using global semantic information. Within the RM, we utilize BiRef for the reconstruction process, where hierarchical patches of images provide the source reference and gradient maps serve as the target reference. These components collaborate to generate the final predicted maps. We also introduce auxiliary gradient supervision to enhance focus on regions with finer details. Furthermore, we outline practical training strategies tailored for DIS to improve map quality and training process. To validate the general applicability of our approach, we conduct extensive experiments on four tasks to evince that BiRefNet exhibits remarkable performance, outperforming task-specific cutting-edge methods across all benchmarks. Our codes are available at https://github.com/ZhengPeng7/BiRefNet.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# ドラッグ発見のためのハイブリッド量子コンピューティングパイプライン

A Hybrid Quantum Computing Pipeline for Real World Drug Discovery ( http://arxiv.org/abs/2401.03759v3 )

ライセンス: Link先を確認
Weitang Li, Zhi Yin, Xiaoran Li, Dongqiang Ma, Shuang Yi, Zhenxing Zhang, Chenji Zou, Kunliang Bu, Maochun Dai, Jie Yue, Yuzong Chen, Xiaojin Zhang, Shengyu Zhang, (参考訳) 量子コンピューティングは、古典的なアプローチに比べて優れた計算能力を持ち、医薬品を含む多くの科学領域に革命をもたらす可能性を秘めている。 しかし、量子コンピューティングの薬物発見への応用は主に概念実証研究に限られており、現実の薬物開発課題の複雑さを捉えるのに失敗することが多い。 本研究では,本研究は,真に薬物設計の問題に対処するための量子コンピューティングパイプラインである \rev{a hybrid} の開発によって,従来の研究から逸脱する。 我々のアプローチは、薬物発見における量子計算の適用を強調し、よりスケーラブルなシステムに向けてそれを推進します。 具体的には, 共有結合切断を伴うプロドラッグ活性化のためのギブス自由エネルギープロファイルの正確な決定と, 共有結合相互作用の正確なシミュレーションという, 薬物発見における2つの重要な課題に対処するために, 汎用量子コンピューティングパイプラインを構築した。 この研究は、薬物設計で遭遇する検証可能なシナリオ、特に両方のケーススタディに存在する共有結合問題に対して量子コンピューティングをベンチマークする先駆的な取り組みとして機能し、理論モデルから有形アプリケーションへ移行する。 本結果は,現実の薬物設計ワークフローに統合するための量子コンピューティングパイプラインの可能性を示すものである。

Quantum computing, with its superior computational capabilities compared to classical approaches, holds the potential to revolutionize numerous scientific domains, including pharmaceuticals. However, the application of quantum computing for drug discovery has primarily been limited to proof-of-concept studies, which often fail to capture the intricacies of real-world drug development challenges. In this study, we diverge from conventional investigations by developing \rev{a hybrid} quantum computing pipeline tailored to address genuine drug design problems. Our approach underscores the application of quantum computation in drug discovery and propels it towards more scalable system. We specifically construct our versatile quantum computing pipeline to address two critical tasks in drug discovery: the precise determination of Gibbs free energy profiles for prodrug activation involving covalent bond cleavage, and the accurate simulation of covalent bond interactions. This work serves as a pioneering effort in benchmarking quantum computing against veritable scenarios encountered in drug design, especially the covalent bonding issue present in both of the case studies, thereby transitioning from theoretical models to tangible applications. Our results demonstrate the potential of a quantum computing pipeline for integration into real world drug design workflows.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# 航空機の予測維持のためのサロゲートニューラルネットワークの局所安定性

Surrogate Neural Networks Local Stability for Aircraft Predictive Maintenance ( http://arxiv.org/abs/2401.06821v4 )

ライセンス: Link先を確認
Mélanie Ducoffe, Guillaume Povéda, Audrey Galametz, Ryma Boumazouza, Marion-Cécile Martin, Julien Baris, Derk Daverschot, Eugene O'Higgins, (参考訳) サーロゲートニューラルネットワークは、今日では、計算に要求されるエンジニアリングシミュレーション(例:構造解析)の代用として、産業で日常的に使われている。 製品設計、テスト、監視フェーズなどにおいて、より高速な予測を生成できるため、産業アプリケーションでの分析が可能になる。 性能と時間効率のため、これらのサロゲートモデルは安全クリティカルなアプリケーションでの使用のために開発されている。 ニューラルネットワークの検証、特にその堅牢性(例えば摂動)の評価は、現実のアプリケーションや認定に組み込むための次の重要なステップである。 航空機の外部負荷から航空機が持続する応力を予測するために設計されたサロゲートニューラルネットワークに対する航空機の予測保守の文脈における経験的および形式的手法の適用性とスケーラビリティを評価する。 ケーススタディは高次元の入出力空間をカバーし、検証プロセスは多目的制約を許容する。 本稿では,そのような代理モデルの局所安定性特性を入力雑音に対して評価する際の検証手法の相補性について検討する。 1つの検証「パイプライン」におけるメソッドの逐次結合の有効性を示すとともに、対象プロパティの評価に必要な実行時の利得を示す。

Surrogate Neural Networks are nowadays routinely used in industry as substitutes for computationally demanding engineering simulations (e.g., in structural analysis). They allow to generate faster predictions and thus analyses in industrial applications e.g., during a product design, testing or monitoring phases. Due to their performance and time-efficiency, these surrogate models are now being developed for use in safety-critical applications. Neural network verification and in particular the assessment of their robustness (e.g., to perturbations) is the next critical step to allow their inclusion in real-life applications and certification. We assess the applicability and scalability of empirical and formal methods in the context of aircraft predictive maintenance for surrogate neural networks designed to predict the stress sustained by an aircraft part from external loads. The case study covers a high-dimensional input and output space and the verification process thus accommodates multi-objective constraints. We explore the complementarity of verification methods in assessing the local stability property of such surrogate models to input noise. We showcase the effectiveness of sequentially combining methods in one verification 'pipeline' and demonstrate the subsequent gain in runtime required to assess the targeted property.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# 機械はどのように学習するか?AIcon2abs法の評価

How do machines learn? Evaluating the AIcon2abs method ( http://arxiv.org/abs/2401.07386v3 )

ライセンス: Link先を確認
Rubens Lacerda Queiroz, Cabral Lima, Fabio Ferrentini Sampaio, Priscila Machado Vieira Lima, (参考訳) 本稿では,AIをコンクリートから抽象(AIcon2abs)まで評価する。 これは、容易に理解できる機械学習メカニズムであるWiSARDを使用することで可能であり、ほとんど労力を要せず、ターゲットユーザからの技術的バックグラウンドも必要としない。 WiSARDはデジタルコンピューティングに忠実であり、トレーニングはRAMタイプのメモリへの書き込みから成り、分類はこれらのメモリからの読み込みから成り立っている。 このモデルにより、学習や分類タスクの内部実現を簡単に可視化し、理解することができる。 さらに、WiSARDモデルはトレーニングや分類にインターネット接続を必要としないため、いくつかの例から学ぶことができる。 WiSARDはこれまでに学んだことの「メンタルイメージ」を作成でき、特定のクラスに関連する重要な特徴を識別できる。 AIcon2abs法の有効性は,作業負荷が約6時間である遠隔コースの評価を通じて評価した。 8歳から11歳までの子供5人、12歳から17歳までの青少年5人、21歳から72歳までの大人24人。 収集したデータは2つの観点から分析された。 一 実験前(混合方法の性質)の観点から、及び (二) 現象学的観点から(質的な性質の) AIcon2absは、研究対象者の約100%によって評価され、収集されたデータは、意図された結果に関して非常に満足な結果を示した。 この研究は、CEP/HUCFF/FM/UFRJ Human Research Ethics Committeeによって承認されている。

This paper evaluates AI from concrete to Abstract (AIcon2abs), a recently proposed method that enables awareness among the general public on machine learning. Such is possible due to the use of WiSARD, an easily understandable machine learning mechanism, thus requiring little effort and no technical background from the target users. WiSARD is adherent to digital computing; training consists of writing to RAM-type memories, and classification consists of reading from these memories. The model enables easy visualization and understanding of training and classification tasks' internal realization through ludic activities. Furthermore, the WiSARD model does not require an Internet connection for training and classification, and it can learn from a few or one example. WiSARD can also create "mental images" of what it has learned so far, evidencing key features pertaining to a given class. The AIcon2abs method's effectiveness was assessed through the evaluation of a remote course with a workload of approximately 6 hours. It was completed by thirty-four Brazilian subjects: 5 children between 8 and 11 years old; 5 adolescents between 12 and 17 years old; and 24 adults between 21 and 72 years old. The collected data was analyzed from two perspectives: (i) from the perspective of a pre-experiment (of a mixed methods nature) and (ii) from a phenomenological perspective (of a qualitative nature). AIcon2abs was well-rated by almost 100% of the research subjects, and the data collected revealed quite satisfactory results concerning the intended outcomes. This research has been approved by the CEP/HUCFF/FM/UFRJ Human Research Ethics Committee.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# 連続DRサブモジュラー最大化のためのブースティンググラジエント上昇

Boosting Gradient Ascent for Continuous DR-submodular Maximization ( http://arxiv.org/abs/2401.08330v2 )

ライセンス: Link先を確認
Qixin Zhang, Zongqi Wan, Zengde Deng, Zaiyi Chen, Xiaoming Sun, Jialin Zhang, Yu Yang, (参考訳) Projected Gradient Ascent (PGA)は、機械学習および運用研究分野で最もよく使われている最適化スキームである。 しかしながら、多くの研究や例により、PGA法は連続DR-部分モジュラー最大化問題に対する厳密な近似比を達成できない可能性があることが示されている。 この課題に対処するため,本論文では,目的関数に小さな変更を加えるだけで,標準 PGA の \emph{optimal} への近似保証を効率よく改善する手法を提案する。 本手法の基本的な考え方は,従来のDR-submodular objective $f$の大域的最大値に対する固定点の近似が優れている新しい補助関数$F$を導出するために,非公約探索を利用することである。 具体的には、$f$が単調で$\gamma$-weakly DR-submodularなとき、固定点が $f$ の定常点によって保証される $(\gamma^2/(1+\gamma^2))$-approximation よりも良い$(1-e^{-\gamma})$-approximation を提供するような補助関数 $F$ を提案する。 同様に、単調でない場合には、固定点が最適$\frac{1-\min_{\boldsymbol{x}\in\mathcal{C}}\|\boldsymbol{x}\|_{\infty}}{4}$-approximation guarantee ここで$\mathcal{C}$は凸制約集合である。 対照的に、元の非単調DR-部分モジュラ函数の定常点は、任意に悪い~\citep{chen2023continuous} となる。 さらに,提案手法のスケーラビリティを4つの問題に適用した。 これら4つの問題すべてにおいて、我々の結果のPGAアルゴリズムの変種は、近似比や効率などのいくつかの面で以前の標準PGAを上回った。 最後に,PGA法の有効性を示す数値実験と理論的な結果の相関について検討した。

Projected Gradient Ascent (PGA) is the most commonly used optimization scheme in machine learning and operations research areas. Nevertheless, numerous studies and examples have shown that the PGA methods may fail to achieve the tight approximation ratio for continuous DR-submodular maximization problems. To address this challenge, we present a boosting technique in this paper, which can efficiently improve the approximation guarantee of the standard PGA to \emph{optimal} with only small modifications on the objective function. The fundamental idea of our boosting technique is to exploit non-oblivious search to derive a novel auxiliary function $F$, whose stationary points are excellent approximations to the global maximum of the original DR-submodular objective $f$. Specifically, when $f$ is monotone and $\gamma$-weakly DR-submodular, we propose an auxiliary function $F$ whose stationary points can provide a better $(1-e^{-\gamma})$-approximation than the $(\gamma^2/(1+\gamma^2))$-approximation guaranteed by the stationary points of $f$ itself. Similarly, for the non-monotone case, we devise another auxiliary function $F$ whose stationary points can achieve an optimal $\frac{1-\min_{\boldsymbol{x}\in\mathcal{C}}\|\boldsymbol{x}\|_{\infty}}{4}$-approximation guarantee where $\mathcal{C}$ is a convex constraint set. In contrast, the stationary points of the original non-monotone DR-submodular function can be arbitrarily bad~\citep{chen2023continuous}. Furthermore, we demonstrate the scalability of our boosting technique on four problems. In all of these four problems, our resulting variants of boosting PGA algorithm beat the previous standard PGA in several aspects such as approximation ratio and efficiency. Finally, we corroborate our theoretical findings with numerical experiments, which demonstrate the effectiveness of our boosting PGA methods.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# Heterophilyでグラフから学ぶ - 進歩と未来

Learning from Graphs with Heterophily: Progress and Future ( http://arxiv.org/abs/2401.09769v3 )

ライセンス: Link先を確認
Chenghua Gong, Yao Cheng, Xiang Li, Caihua Shan, Siqiang Luo, (参考訳) グラフは、現実世界のエンティティ間の複雑な関係をモデル化する構造化データである。 連結ノードが異なるラベルや異種な特徴を持つ傾向にあるヘテロフィルスグラフは、最近大きな注目を集め、多くのアプリケーションを発見した。 一方、異種グラフからの学習を促進するために、ますます努力が続けられている。 関連するトピックに関する調査は存在するが、ヘテロ親和性グラフ学習のサブトピックであるヘテロ親和性GNNに焦点を当てている。 本調査では、ヘテロフィリーグラフを用いた学習に関する既存の研究の概要を概観し、まず180以上の出版物を収集し、その分野の開発を紹介する。 そこで我々は,学習戦略,モデルアーキテクチャ,実践的応用を含む階層的分類に基づく既存手法を体系的に分類する。 最後に、既存の研究の主な課題について議論し、将来の研究に期待できる道のりを強調します。多くの公開の詳細と対応するオープンソースコードにアクセスでき、私たちのリポジトリで継続的に更新されます。

Graphs are structured data that models complex relations between real-world entities. Heterophilous graphs, where linked nodes are prone to be with different labels or dissimilar features, have recently attracted significant attention and found many applications. Meanwhile, increasing efforts have been made to advance learning from heterophilous graphs. Although there exist surveys on the relevant topic, they focus on heterophilous GNNs, which are only sub-topics of heterophilous graph learning. In this survey, we comprehensively overview existing works on learning from graphs with heterophily.First, we collect over 180 publications and introduce the development of this field. Then, we systematically categorize existing methods based on a hierarchical taxonomy including learning strategies, model architectures and practical applications. Finally, we discuss the primary challenges of existing studies and highlight promising avenues for future research.More publication details and corresponding open-source codes can be accessed and will be continuously updated at our repositories:https://github.com/gongchenghua/Papers-Graphs-with-Heterophily.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# 心臓血管健康の脈動に関する一考察--スマートフォン光胸腔造影法による脈波解析による血圧推定

A Finger on the Pulse of Cardiovascular Health: Estimating Blood Pressure with Smartphone Photoplethysmography-Based Pulse Waveform Analysis ( http://arxiv.org/abs/2401.11117v3 )

ライセンス: Link先を確認
Ivan Liu, Fangyuan Liu, Qi Zhong, Shiguang Ni, (参考訳) 連続血圧(BP)モニタリングに携帯電話カメラを使用すると、コスト効率が高くアクセスしやすいアプローチが提示されるが、精度と解釈性に限界がある。 本研究は, BP推定のためのスマートフォンを用いた光プラチスモグラフィー(SPW-BP)を改良する4つの革新的戦略を導入し, 解釈可能性・精度ジレンマに対処する。 まず,高次正規化やデータ削除,境界信号再構成など,しばしば無視されるデータ品質改善手法を採用する。 第2に、最も予測的な特徴を特定するために、3つのカテゴリにわたる30の波形指標を包括的に分析する。 第3に、機械学習結果の透明性と説明可能性を確保するために、SHAP(SHapley Additive exPlanations)分析を使用します。 第4に,Bland-Altman解析とAAMIおよびBHS標準を併用して比較評価を行った。 127名の被験者から得られたデータから,スマートフォンの波形特徴と標準BPモニタリング装置の波形特徴との間に有意な相関が認められた。 クロスバリデーションフレームワーク内で複数の線形回帰を用いて、波形変数は、平均絶対誤差(MAE)が3.08-16.64 mmHg、拡張血圧(DBP)が2.86-13.16 mmHgと予測した。 ランダムフォレストモデルのさらなる適用により、SBPの予測MAEは2.61-15.21 mmHg、DBPは2.14-11.22 mmHgに大幅に改善され、予測精度が向上した。 相関とSHAP分析はBP推定を改善するための重要な特徴を同定した。 しかし, Bland-Altman 分析では系統的偏りがみられ, MAE 解析ではAAMI と BHS の精度基準を満たしていないことがわかった。 この結果はSPW-BPの可能性を浮き彫りにしているが,スマートフォンのPPG技術はBP測定のための従来の医療機器の代替手段にはなっていないことを示唆している。

Utilizing mobile phone cameras for continuous blood pressure (BP) monitoring presents a cost-effective and accessible approach, yet it is challenged by limitations in accuracy and interpretability. This study introduces four innovative strategies to enhance smartphone-based photoplethysmography for BP estimation (SPW-BP), addressing the interpretability-accuracy dilemma. First, we employ often-neglected data-quality improvement techniques, such as height normalization, corrupt data removal, and boundary signal reconstruction. Second, we conduct a comprehensive analysis of thirty waveform indicators across three categories to identify the most predictive features. Third, we use SHapley Additive exPlanations (SHAP) analysis to ensure the transparency and explainability of machine learning outcomes. Fourth, we utilize Bland-Altman analysis alongside AAMI and BHS standards for comparative evaluation. Data from 127 participants demonstrated a significant correlation between smartphone-captured waveform features and those from standard BP monitoring devices. Employing multiple linear regression within a cross-validation framework, waveform variables predicted systolic blood pressure (SBP) with a mean absolute error (MAE) of 3.08-16.64 mmHg and diastolic blood pressure (DBP) with an MAE of 2.86-13.16 mmHg. Further application of Random Forest models significantly improved the prediction MAE for SBP to 2.61-15.21 mmHg and for DBP to 2.14-11.22 mmHg, indicating enhanced predictive accuracy. Correlation and SHAP analysis identified key features for improving BP estimation. However, Bland-Altman analysis revealed systematic biases, and MAE analysis showed that the results did not meet AAMI and BHS accuracy standards. Our findings highlight the potential of SPW-BP, yet suggest that smartphone PPG technology is not yet a viable alternative to traditional medical devices for BP measurement.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# 大規模言語モデルはビジネスプロセスをどの程度説明できるのか?

How well can large language models explain business processes? ( http://arxiv.org/abs/2401.12846v2 )

ライセンス: Link先を確認
Dirk Fahland, Fabiana Fournier, Lior Limonad, Inna Skarbovsky, Ava J. E. Swevels, (参考訳) 大規模言語モデル(LLM)は、将来のAIによって強化されたビジネスプロセス管理システム(ABPMS)において、システムライフサイクルのすべての段階にわたって機能的に機能する役割を担っている可能性が高い。 このようなシステムの機能の一つが状況認識型 eXplainability (SAX) であり、これは因果的な音を生成することと、説明された条件が生じたプロセスコンテキストを考慮に入れた人間解釈可能な説明に関係している。 本稿では,SAXを説明するために開発されたSAX4BPMフレームワークについて述べる。 SAX4BPMスイートは、一連のサービスと中央知識リポジトリで構成されています。 これらのサービスの機能は、SAXの説明の根底にある様々な知識材料を引き出すことである。 これらの要素の中で重要な革新的要素は、因果プロセス実行ビューである。 本研究では,このフレームワークをLLMと統合し,そのパワーを活用して各種入力成分を合成し,SAX説明の改善を図る。 また, LLMs for SAX の使用には, SAX を適切に満たす能力に一定の疑念が伴うため, 発生した説明の質の方法論的評価を追求した。 そこで我々は,指定尺度を開発し,厳密なユーザスタディを行った。 以上の結果から, LLMに提示した入力は, その性能のガードレール化を助長し, 精度が良好なSAX説明が得られた。 この改善は、信頼と好奇心の認識によって中和される。 さらに、この改善は説明の解釈可能性に対するコストがかかる。

Large Language Models (LLMs) are likely to play a prominent role in future AI-augmented business process management systems (ABPMSs) catering functionalities across all system lifecycle stages. One such system's functionality is Situation-Aware eXplainability (SAX), which relates to generating causally sound and yet human-interpretable explanations that take into account the process context in which the explained condition occurred. In this paper, we present the SAX4BPM framework developed to generate SAX explanations. The SAX4BPM suite consists of a set of services and a central knowledge repository. The functionality of these services is to elicit the various knowledge ingredients that underlie SAX explanations. A key innovative component among these ingredients is the causal process execution view. In this work, we integrate the framework with an LLM to leverage its power to synthesize the various input ingredients for the sake of improved SAX explanations. Since the use of LLMs for SAX is also accompanied by a certain degree of doubt related to its capacity to adequately fulfill SAX along with its tendency for hallucination and lack of inherent capacity to reason, we pursued a methodological evaluation of the quality of the generated explanations. To this aim, we developed a designated scale and conducted a rigorous user study. Our findings show that the input presented to the LLMs aided with the guard-railing of its performance, yielding SAX explanations having better-perceived fidelity. This improvement is moderated by the perception of trust and curiosity. More so, this improvement comes at the cost of the perceived interpretability of the explanation.
翻訳日:2024-07-25 19:30:34 公開日:2024-07-24
# テキストグラフを用いた大規模言語モデルの効率的なチューニングと推論

Efficient Tuning and Inference for Large Language Models on Textual Graphs ( http://arxiv.org/abs/2401.15569v2 )

ライセンス: Link先を確認
Yun Zhu, Yaoke Wang, Haizhou Shi, Siliang Tang, (参考訳) テキストグラフのリッチなテキスト情報とトポロジ情報は、Webページ、eコマース、学術論文などの現実世界のアプリケーションでモデル化する必要がある。 この問題を解決するために、浅いテキストエンコーダとその後のグラフニューラルネットワーク(GNN)を採用する道のりは、長年続いている。 大規模言語モデル(LLM)の最近の進歩を踏まえると,拡張テキストエンコーディングのためのLLMの統合により,テキストグラフの性能が大幅に向上することが明らかである。 しかし、これらの手法の効率は大きな課題となる。 本稿では, LLMエンコーダを用いたテキストグラフのためのパラメータおよびメモリ効率の高い微調整法であるENGINEを提案する。 重要な洞察は、LLMとGNNを調整可能なサイド構造で組み合わせることであり、ジョイントモデルの容量を損なうことなく、トレーニングの複雑さを著しく低減する。 テキストグラフの大規模実験により,従来の手法に比べてトレーニングコストが低いのに対して,最高のモデル性能を達成し,本手法の有効性を実証した。 さらに,キャッシュと動的早期出口の2つのバリエーションを導入し,トレーニングと推論速度をさらに向上させる。 具体的には、キャッシュはENGINEのトレーニングを12倍加速させ、ダイナミックアーリーエグジットは、無視可能なパフォーマンス低下(最大で7つのデータセットで1.17%のダウン)で最大5倍高速な推論を達成する。 私たちのコードは、https://github.com/ZhuYun97/ENGINEで利用可能です。

Rich textual and topological information of textual graphs need to be modeled in real-world applications such as webpages, e-commerce, and academic articles. Practitioners have been long following the path of adopting a shallow text encoder and a subsequent graph neural network (GNN) to solve this problem. In light of recent advancements in large language models (LLMs), it is apparent that integrating LLMs for enhanced textual encoding can substantially improve the performance of textual graphs. Nevertheless, the efficiency of these methods poses a significant challenge. In this paper, we propose ENGINE, a parameter- and memory-efficient fine-tuning method for textual graphs with an LLM encoder. The key insight is to combine the LLMs and GNNs through a tunable side structure, which significantly reduces the training complexity without impairing the joint model's capacity. Extensive experiments on textual graphs demonstrate our method's effectiveness by achieving the best model performance, meanwhile having the lowest training cost compared to previous methods. Moreover, we introduce two variants with caching and dynamic early exit to further enhance training and inference speed. Specifically, caching accelerates ENGINE's training by 12x, and dynamic early exit achieves up to 5x faster inference with a negligible performance drop (at maximum 1.17% relevant drop across 7 datasets). Our codes are available at: https://github.com/ZhuYun97/ENGINE
翻訳日:2024-07-25 19:20:39 公開日:2024-07-24
# 大規模言語モデルの時間割

Arrows of Time for Large Language Models ( http://arxiv.org/abs/2401.17505v4 )

ライセンス: Link先を確認
Vassilis Papadopoulos, Jérémie Wenger, Clément Hongler, (参考訳) 自己回帰型大言語モデル(LLM)による確率的モデリングを時間方向の角度から検討し,最初に提起された問題に対処する(Shannon, 1951)。 十分に大きなモデルでは、自然言語を学習する能力において、次のトークンを予測しようとする場合と、前のトークンを予測しようとする場合との平均ログパープレキシティの違いという、タイム非対称性が経験的に見つかる。 この違いは同時に微妙で、様々なモダリティ(言語、モデルサイズ、トレーニング時間、...)で非常に一貫性がある。 情報理論の観点から見れば、そのような違いはあり得ない。 このような非対称性が空間性や計算複雑性の考慮からどのように現れるかを説明するための理論的枠組みを提供し、その結果によって開放された多くの視点を概説する。

We study the probabilistic modeling performed by Autoregressive Large Language Models (LLMs) through the angle of time directionality, addressing a question first raised in (Shannon, 1951). For large enough models, we empirically find a time asymmetry in their ability to learn natural language: a difference in the average log-perplexity when trying to predict the next token versus when trying to predict the previous one. This difference is at the same time subtle and very consistent across various modalities (language, model size, training time, ...). Theoretically, this is surprising: from an information-theoretic point of view, there should be no such difference. We provide a theoretical framework to explain how such an asymmetry can appear from sparsity and computational complexity considerations, and outline a number of perspectives opened by our results.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-24
# 深層強化学習によるマルチコア量子アーキテクチャの回路分割

Circuit Partitioning for Multi-Core Quantum Architectures with Deep Reinforcement Learning ( http://arxiv.org/abs/2401.17976v2 )

ライセンス: Link先を確認
Arnau Pastor, Pau Escofet, Sahar Ben Rached, Eduard Alarcón, Pere Barlet-Ros, Sergi Abadal, (参考訳) 量子コンピューティングは、量子力学のユニークな性質を活用することによって、古典的に難解な問題を解く大きな可能性を秘めている。 量子アーキテクチャのスケーラビリティは依然として大きな課題である。 スケーラビリティ問題を解決するため,マルチコア量子アーキテクチャが提案され,ハードウェアや通信,コンパイルなどの新たな課題が生まれている。 これらの課題の1つは、量子コンピュータの異なるコアに適合するように量子アルゴリズムを適用することである。 本稿では,Deep Reinforcement Learning を用いた回路分割手法を提案する。 この研究は、深層強化学習技術を量子回路マッピングに統合する最初のステップであり、そのような問題に対する新しい解決策のパラダイムへの扉を開く。

Quantum computing holds immense potential for solving classically intractable problems by leveraging the unique properties of quantum mechanics. The scalability of quantum architectures remains a significant challenge. Multi-core quantum architectures are proposed to solve the scalability problem, arising a new set of challenges in hardware, communications and compilation, among others. One of these challenges is to adapt a quantum algorithm to fit within the different cores of the quantum computer. This paper presents a novel approach for circuit partitioning using Deep Reinforcement Learning, contributing to the advancement of both quantum computing and graph partitioning. This work is the first step in integrating Deep Reinforcement Learning techniques into Quantum Circuit Mapping, opening the door to a new paradigm of solutions to such problems.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-24
# 非エルミートハミルトニアンの情報幾何学とパラメータ感度

Information Geometry and Parameter Sensitivity of Non-Hermitian Hamiltonians ( http://arxiv.org/abs/2402.00374v2 )

ライセンス: Link先を確認
Wangjun Lu, Zhao-Hui Peng, HongTao, (参考訳) 情報幾何学は統計学における微分幾何学の応用であり、フィッシャー・ラオ計量は統計多様体上のリーマン計量として機能し、パラメータの感度に固有の性質を与える。 本稿では,非エルミート系を用いたフィッシャー・ラオ計量について検討する。 非エルミート・ハミルトニアンでリンドブラッドマスター方程式を近似することにより、量子幾何学計量の時間発展を計算する。 最後に、虚数体磁場の量子スピンイジングモデルの例を示し、$\mathcal{PT}$-symmetric Hamiltonianのエネルギースペクトルと幾何計量の進化を探索し、制御ハミルトニアンを加える条件下で、虚数体磁場の散逸効果を排除し、パラメータ推定の精度を向上させることについて議論する。

Information geometry is the application of differential geometry in statistics, where the Fisher-Rao metric serves as the Riemannian metric on the statistical manifold, providing an intrinsic property for parameter sensitivity. In this paper, we explore the Fisher-Rao metric with the non-Hermitian systems. By approximating the Lindblad master equation in the non-Hermitian Hamiltonian, we calculate the time evolution of the quantum geometric metric. Finally, we give an example of the quantum spin Ising model of the imaginary magnetic field, explore the energy spectrum of $\mathcal{PT}$-symmetric Hamiltonian and the evolution of geometric metric, and discuss that the dissipative effect of the imaginary magnetic field can be eliminated under the condition of adding the control Hamiltonian, so as to improve the accuracy of parameter estimation.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-24
# ジェネレーティブAIにおける著作権保護の技術的展望

Copyright Protection in Generative AI: A Technical Perspective ( http://arxiv.org/abs/2402.02333v2 )

ライセンス: Link先を確認
Jie Ren, Han Xu, Pengfei He, Yingqian Cui, Shenglai Zeng, Jiankun Zhang, Hongzhi Wen, Jiayuan Ding, Pei Huang, Lingjuan Lyu, Hui Liu, Yi Chang, Jiliang Tang, (参考訳) ジェネレーティブAIは近年急速に進歩し、テキスト、画像、オーディオ、コードなどの合成コンテンツを作成する能力を拡大している。 これらのディープ・ジェネレーティブ・モデル(DGM)が生成したコンテンツの忠実さと信頼性が、著作権の重大な懸念を引き起こしている。 DGMの著作権を効果的に保護する方法については、様々な法的議論があった。 この研究は、技術的観点から著作権保護の包括的概要を提供することで、この問題を深く掘り下げている。 データ所有者が保持するソースデータに関する著作権と、モデルビルダーが保持する生成モデルの著作権という、2つの異なる視点から検討する。 データ著作権については、データ所有者がコンテンツを保護し、DGMをこれらの権利を侵害することなく利用することができる方法を掘り下げる。 モデル著作権については、モデル盗難の防止と特定のモデルによって生成されたアウトプットの特定のための戦略を議論する。 最後に、既存のテクニックの限界を強調し、未探索領域を特定します。 さらに,著作権保護の将来に向けた今後の方向性についても論じ,ジェネレーティブAIの持続的・倫理的発展の重要性を浮き彫りにしている。

Generative AI has witnessed rapid advancement in recent years, expanding their capabilities to create synthesized content such as text, images, audio, and code. The high fidelity and authenticity of contents generated by these Deep Generative Models (DGMs) have sparked significant copyright concerns. There have been various legal debates on how to effectively safeguard copyrights in DGMs. This work delves into this issue by providing a comprehensive overview of copyright protection from a technical perspective. We examine from two distinct viewpoints: the copyrights pertaining to the source data held by the data owners and those of the generative models maintained by the model builders. For data copyright, we delve into methods data owners can protect their content and DGMs can be utilized without infringing upon these rights. For model copyright, our discussion extends to strategies for preventing model theft and identifying outputs generated by specific models. Finally, we highlight the limitations of existing techniques and identify areas that remain unexplored. Furthermore, we discuss prospective directions for the future of copyright protection, underscoring its importance for the sustainable and ethical development of Generative AI.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-24
# 可変結合を持つトランスモン量子ビットアレイの二次元トポロジー効果

Two-dimensional topological effect in a transmon qubit array with tunable couplings ( http://arxiv.org/abs/2402.02657v3 )

ライセンス: Link先を確認
Yan-Jun Zhao, Yu-Qi Wang, Yang Xue, Xun-Wei Xu, Yan-Yang Zhang, Wu-Ming Liu, Yu-xi Liu, (参考訳) 誘導結合子を介する量子間相互作用を持つ超伝導トランスモン量子ビットの2乗格子構造について検討する。 そこで, クビットとカプラ間の誘導コーリングは, グラディメータ形状に設計され, 環境から発生するフラックスノイズを抑えることが示唆された。 カップラを周期的に変調するアベリアゲージポテンシャルは、有効磁束と呼ばれ、人工的に合成することができ、2次元トポロジカル物理をシミュレートするための優れたプラットフォームとなる。 最も単純な2次元モデルでは、実効的な磁束が変化するにつれて、単粒子基底状態において、2重(または3重)ラグにおいて、2重(または3重)ラグとスタッガード渦-マイスナー相転移が検出できる。 さらに、レグ間結合強度とレグ間カップリング強度との間の大きなカップリング比は、キラル電流を圧縮された正弦波関数に類似させる。 行数がさらに増加すると、大きな行で期待されるトポロジカルバンド構造が比較的少数の行(考慮されたパラメータは10以上)でも発生し始める。 これにより、トポロジカルバンドを観測するために小さな回路スケールが決定される。 バンドギャップ内のエッジ状態は、トポロジカルチャーン数によって決定され、第1ブリルアンゾーンに対するベリー曲率の統合により計算することができる。 さらに,波動関数の時間領域および空間領域のフロリエ変換を適切に励起した後,位相バンド構造を計測する方法を体系的に提案する。 この結果は、最先端の超伝導量子チップ上での二次元トポロジカル物理学をシミュレートするための道を提供する。

We investigate a square-lattice architecture of superconducting transmon qubits with inter-qubit interactions mediated by inductive couplers. Therein, the inductive couling between the qubit and couplers is suggested to be designed into the gradiometer form to intigimate the flux noise orginating from the environment. Via periodically modulating the couplers,the Abelian gauge potential, termed effective magnetic flux, can be synthesized artificially, making the system an excellent platform for simulating two-dimensional topological physics. In the simplest two-dimensional model, the double (or three-leg) ladder, the staggered vortex-Meissner phase transition different from that in the two-leg ladder can be found in the single-particle ground state as the effective magnetic flux varies. Besides, the large coupling ratio between the interleg and intraleg coupling strengths also makes the chiral current resemble squeezed sinusoidal functions. If the row number is further increased, the topological band structure anticipated at massive rows begins to occur even for a relatively small number of rows (ten or so for the considered parameters). This heralds a small circuit scale to observe the topological band. The edge state in the band gap is determined by the topological Chern number and can be calculated through integrating the Berry curvature with respect to the first Brillouin zone. Besides, we present a systematic method on how to measure the topological band structure based on time- and space-domain Frourier transformation of the wave function after properly excited. The result offers an avenue for simulating two-dimensional topological physics on the state-of-the-art superconducting quantum chips.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-24
# グラフ畳み込みネットワークを用いた不規則なフェアレコメンデーション

Heterophily-Aware Fair Recommendation using Graph Convolutional Networks ( http://arxiv.org/abs/2402.03365v2 )

ライセンス: Link先を確認
Nemat Gholinejad, Mostafa Haghir Chehreghani, (参考訳) 近年,グラフニューラルネットワーク(GNN)は,レコメンデータシステムの精度と性能を向上させるツールとして人気が高まっている。 現代のレコメンデーターシステムは、エンドユーザーにサービスを提供するだけでなく、アイテムやアイテムプロバイダなどの他の参加者に利益をもたらすように設計されている。 これらの参加者は異なる、あるいは矛盾する目標や関心を持ち、公平性や人気バイアスの考慮の必要性を高める。 GNNベースのレコメンデーション手法はまた、不公平さと人気バイアスの課題に直面し、それらの正規化と集約プロセスはこれらの課題に直面する。 本稿では,商品の側面の公平性を改善するために,HetroFairと呼ばれる公正なGNNベースのレコメンデーションシステムを提案する。 HetroFairは、フェアネスを意識した埋め込みを生成するために、2つの別々のコンポーネントを使用します。 一 点積をGNNの正常化過程に取り入れ、ノードの等級の影響を減少させる公正注意 二 凝集過程において、異なる特徴に異なる重みを割り当てるヘテロフィリー特徴重み付け HetroFairの有効性を評価するために、6つの実世界のデータセットに対して広範な実験を行う。 実験の結果,HetroFairはアイテム側の不公平さや人気バイアスを緩和するだけでなく,ユーザ側の精度も向上することがわかった。 私たちの実装はhttps://github.com/NematGH/HetroFair.comで公開されています。

In recent years, graph neural networks (GNNs) have become a popular tool to improve the accuracy and performance of recommender systems. Modern recommender systems are not only designed to serve end users, but also to benefit other participants, such as items and items providers. These participants may have different or conflicting goals and interests, which raise the need for fairness and popularity bias considerations. GNN-based recommendation methods also face the challenges of unfairness and popularity bias and their normalization and aggregation processes suffer from these challenges. In this paper, we propose a fair GNN-based recommender system, called HetroFair, to improve items' side fairness. HetroFair uses two separate components to generate fairness-aware embeddings: i) fairnessaware attention which incorporates dot product in the normalization process of GNNs, to decrease the effect of nodes' degrees, and ii) heterophily feature weighting to assign distinct weights to different features during the aggregation process. In order to evaluate the effectiveness of HetroFair, we conduct extensive experiments over six real-world datasets. Our experimental results reveal that HetroFair not only alleviates the unfairness and popularity bias on items' side, but also achieves superior accuracy on users' side. Our implementation is publicly available at https://github.com/NematGH/HetroFair.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-24
# ヒルベルト空間のウンルー・デウィットモデルとその合同相互作用

The Unruh-DeWitt model and its joint interacting Hilbert space ( http://arxiv.org/abs/2402.05795v2 )

ライセンス: Link先を確認
Erickson Tjoa, Finnian Gray, (参考訳) 本研究では、曲線時空における量子場理論に応用されたUnruh-DeWitt粒子検出器モデルとスピン-ボソンモデルの厳密な構成とを関連付ける。 いくつかの修正により、スピンボソン基底状態の存在に関する既存の結果は、Unruh-DeWittモデルに適応できることが示されている。 3+1)次元大域双曲時空における無質量スカラー場に関する最も関連するシナリオでは、Unruh-DeWittモデルが光-物質相互作用の単純化されたモデルを記述する。 特にこれは、モデルのヒルベルト空間と相互作用する結合が、二次元複素ヒルベルト空間のテンソル積と真空表現のフォック空間で説明できないというよく知られた予想を意味する。 本稿では,この問題が起こらない条件と,粒子検出器モデルの理解を深めるための演算子-代数的アプローチの関連性について論じる。 我々の研究は、スピン-ボソンモデルにおけるハグの定理と赤外ボソンの関係を明らかにし、複数の検出器を含むUDWフレームワークにおける絡み合いと通信のより厳密な研究の道を開く。

In this work we make the connection between the Unruh-DeWitt particle detector model applied to quantum field theory in curved spacetimes and the rigorous construction of the spin-boson model. With some modifications, we show that existing results about the existence of a spin-boson ground state can be adapted to the Unruh-DeWitt model. In the most relevant scenario involving massless scalar fields in (3+1)-dimensional globally hyperbolic spacetimes, where the Unruh-DeWitt model describes a simplified model of light-matter interaction, we argue that common choices of the spacetime smearing functions regulate the ultraviolet behaviour of the model but can still exhibit infrared divergences. In particular, this implies the well-known expectation that the joint interacting Hilbert space of the model cannot be described by the tensor product of a two-dimensional complex Hilbert space and the Fock space of the vacuum representation. We discuss the conditions under which this problem does not arise and the relevance of the operator-algebraic approach for better understanding of particle detector models and their applications. Our work clarifies the connection between obstructions due to Haag's theorem and infrared bosons in the spin-boson models, and paves the way for more rigorous study of entanglement and communication in the UDW framework involving multiple detectors.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-24
# SAE: ニューラルネットワークを組み込んだ単一アーキテクチャ

SAE: Single Architecture Ensemble Neural Networks ( http://arxiv.org/abs/2402.06580v2 )

ライセンス: Link先を確認
Martin Ferianc, Hongxiang Fan, Miguel Rodrigues, (参考訳) 異なるニューラルネットワーク(NN)のアンサンブルは、タスク間の単一NNよりも精度と信頼性のキャリブレーションが優れている。 異なるNNのアンサンブルのハードウェア効率を向上させるため、近年の手法では、早期出口の追加やマルチ入力マルチ出力アプローチによるアンサンブルを単一ネットワーク内で生成している。 しかし、これらの手法のどちらが与えられたタスクに対して最も効果的であるかは定かではなく、手動で各メソッドを検索する必要がある。 我々の新しいSingle Architecture Ensemble(SAE)フレームワークは、初期出口とマルチ入力マルチ出力構成と、これまで観測されていなかったイン・バイ・バイ・バイ・ザ・コンビネーションを通じて、自動およびジョイント検索を可能にする。 SAEは2つの部分から構成される: 前のメソッドとその中間設定を一般化するスケーラブルな検索空間と、与えられたタスクの最適設定を学習する最適化目標である。 画像分類と回帰実験により、SAEでは、計算操作やパラメータカウントを最大1.5{\sim}3.7\times$に減らしながら、タスクに適合する多様な構成を自動的に見つけ、競争精度やベースラインへの信頼度校正を達成できることがわかった。

Ensembles of separate neural networks (NNs) have shown superior accuracy and confidence calibration over single NN across tasks. To improve the hardware efficiency of ensembles of separate NNs, recent methods create ensembles within a single network via adding early exits or considering multi input multi output approaches. However, it is unclear which of these methods is the most effective for a given task, needing a manual and separate search through each method. Our novel Single Architecture Ensemble (SAE) framework enables an automatic and joint search through the early exit and multi input multi output configurations and their previously unobserved in-between combinations. SAE consists of two parts: a scalable search space that generalises the previous methods and their in-between configurations, and an optimisation objective that allows learning the optimal configuration for a given task. Our image classification and regression experiments show that with SAE we can automatically find diverse configurations that fit the task, achieving competitive accuracy or confidence calibration to baselines while reducing the compute operations or parameter count by up to $1.5{\sim}3.7\times$.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-24
# 進化戦略と線形政策ネットワークによる深層強化学習課題の解決

Solving Deep Reinforcement Learning Tasks with Evolution Strategies and Linear Policy Networks ( http://arxiv.org/abs/2402.06912v2 )

ライセンス: Link先を確認
Annie Wong, Jacob de Nobel, Thomas Bäck, Aske Plaat, Anna V. Kononova, (参考訳) 深層強化学習法は,アタリゲームやロボティクスタスクなどの課題に対して効果的な政策を学習することができるが,アルゴリズムは複雑であり,訓練時間は長いことが多い。 本研究では、勾配に基づく深層強化学習法と比較して、進化戦略がどのように機能するかを考察する。 我々は進化戦略を用いて神経進化を通じてニューラルネットワークの重みを最適化し、直接的なポリシー探索を行う。 我々は,1つの線形層からなるディープポリシーネットワークとネットワークの双方を,近似ポリシ最適化のような3つの勾配に基づく手法の観測から動作までベンチマークする。 これらの手法は3つの古典的進化戦略とAugmented Random Searchに対して評価される。 以上の結果から,多くの強化学習ベンチマークタスクに対して,進化戦略が有効な線形ポリシーを見出すことが可能であることが示唆された。 興味深いことに、Evolution Strategiesはより複雑なタスクのための勾配に基づく深層強化学習アルゴリズムに匹敵する結果を達成している。 さらに、ゲームのメモリ状態に直接アクセスすることで、Evolution Strategiesは、Deep Q-Learningのポリシーより優れたAtariのポリシーを見つけることができる。 Evolution Strategiesは、多くのベンチマークでAugmented Random Searchよりも優れており、線形ポリシーネットワークのトレーニングにおいて、より優れたサンプル効率と堅牢性を示している。

Although deep reinforcement learning methods can learn effective policies for challenging problems such as Atari games and robotics tasks, algorithms are complex, and training times are often long. This study investigates how Evolution Strategies perform compared to gradient-based deep reinforcement learning methods. We use Evolution Strategies to optimize the weights of a neural network via neuroevolution, performing direct policy search. We benchmark both deep policy networks and networks consisting of a single linear layer from observations to actions for three gradient-based methods, such as Proximal Policy Optimization. These methods are evaluated against three classical Evolution Strategies and Augmented Random Search, which all use linear policy networks. Our results reveal that Evolution Strategies can find effective linear policies for many reinforcement learning benchmark tasks, unlike deep reinforcement learning methods that can only find successful policies using much larger networks, suggesting that current benchmarks are easier to solve than previously assumed. Interestingly, Evolution Strategies also achieve results comparable to gradient-based deep reinforcement learning algorithms for higher-complexity tasks. Furthermore, we find that by directly accessing the memory state of the game, Evolution Strategies can find successful policies in Atari that outperform the policies found by Deep Q-Learning. Evolution Strategies also outperform Augmented Random Search in most benchmarks, demonstrating superior sample efficiency and robustness in training linear policy networks.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-24
# SLADE:自己監視学習によるラベルなしエッジストリームの動的異常検出

SLADE: Detecting Dynamic Anomalies in Edge Streams without Labels via Self-Supervised Learning ( http://arxiv.org/abs/2402.11933v2 )

ライセンス: Link先を確認
Jongha Lee, Sunwoo Kim, Kijung Shin, (参考訳) ソーシャル,メール,金融ネットワークなどの実世界のグラフの異常を検出するために,様々なアプローチが開発されている。 彼らは通常静的な入力グラフを仮定するが、ほとんどの現実世界のグラフは時間とともに成長し、自然にエッジストリームとして表される。 この文脈では、私たちは3つの目標を達成することを目指しています。 a) 異常が発生すると即座に異常を検知する。 b)動的に変化する状態に適応し、 (c)動的異常ラベルの不足を扱う。 本稿では,ラベルに依存することなく,エッジストリーム中の動的異常を迅速に検出するためのSLADE(Self-supervised Learning for Anomaly Detection in Edge Streams)を提案する。 SLADEは、時間とともに相互作用パターンの偏差を観察することで、ノードの異常状態へのシフトを検出する。 この目的のために、ディープニューラルネットワークをトレーニングして、2つの自己教師型タスクを実行する。 (a)ノード表現におけるドリフトの最小化及び (b)短期的な相互作用パターンから長期的相互作用パターンを生成する。 ノードのこれらのタスクの失敗は、標準からの逸脱を示す。 特に、ニューラルネットワークとタスクは、入力ストリームの各新しいエッジに応答して、すべての必要な操作を一定時間(例えばグラフサイズ)で実行できるように、慎重に設計されている。 現実世界の4つのデータセットをまたいだ動的異常検出では、SLADEは9つの競合するメソッド、さらにはラベルの監督を利用するものよりも優れています。

To detect anomalies in real-world graphs, such as social, email, and financial networks, various approaches have been developed. While they typically assume static input graphs, most real-world graphs grow over time, naturally represented as edge streams. In this context, we aim to achieve three goals: (a) instantly detecting anomalies as they occur, (b) adapting to dynamically changing states, and (c) handling the scarcity of dynamic anomaly labels. In this paper, we propose SLADE (Self-supervised Learning for Anomaly Detection in Edge Streams) for rapid detection of dynamic anomalies in edge streams, without relying on labels. SLADE detects the shifts of nodes into abnormal states by observing deviations in their interaction patterns over time. To this end, it trains a deep neural network to perform two self-supervised tasks: (a) minimizing drift in node representations and (b) generating long-term interaction patterns from short-term ones. Failure in these tasks for a node signals its deviation from the norm. Notably, the neural network and tasks are carefully designed so that all required operations can be performed in constant time (w.r.t. the graph size) in response to each new edge in the input stream. In dynamic anomaly detection across four real-world datasets, SLADE outperforms nine competing methods, even those leveraging label supervision.
翻訳日:2024-07-25 19:20:39 公開日:2024-07-24
# RefuteBench: 大規模言語モデルに対するRefuting命令フォローの評価

RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models ( http://arxiv.org/abs/2402.13463v4 )

ライセンス: Link先を確認
Jianhao Yan, Yun Luo, Yue Zhang, (参考訳) 大規模言語モデル(LLM)の適用範囲はますます拡大している。 実際に使う場合、ユーザーはモデルの出力に基づいてフィードバックを提供し、フィードバックに応じてレスポンスを完了できるレスポンシブモデルを求めている。 モデルがユーザの反響的フィードバックに適切に反応し、一貫して実行に追従できるかどうかは、完全には分析されていない。 そこで本研究では,質問応答,機械翻訳,電子メール作成などのタスクを網羅する総合ベンチマークRefuteBenchを提案する。 評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。 多数のLCMの評価を行い、LCMは頑健である、すなわち内部知識への傾きを示し、ユーザからのフィードバックに従わないことが多いことを発見した。 さらに、会話の長さが長くなると、モデルがユーザの述べたフィードバックを徐々に忘れて、自分自身のレスポンスに戻ります。 さらに,リコール・アンド・リピート・プロンプトを,モデルからのフィードバックに対する応答性を高めるためのシンプルかつ効果的な方法として提案する。

The application scope of large language models (LLMs) is increasingly expanding. In practical use, users might provide feedback based on the model's output, hoping for a responsive model that can complete responses according to their feedback. Whether the model can appropriately respond to users' refuting feedback and consistently follow through with execution has not been thoroughly analyzed. In light of this, this paper proposes a comprehensive benchmark, RefuteBench, covering tasks such as question answering, machine translation, and email writing. The evaluation aims to assess whether models can positively accept feedback in form of refuting instructions and whether they can consistently adhere to user demands throughout the conversation. We conduct evaluations on numerous LLMs and find that LLMs are stubborn, i.e. exhibit inclination to their internal knowledge, often failing to comply with user feedback. Additionally, as the length of the conversation increases, models gradually forget the user's stated feedback and roll back to their own responses. We further propose a recall-and-repeat prompts as a simple and effective way to enhance the model's responsiveness to feedback.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-24
# MM-Soc:ソーシャルメディアプラットフォームにおけるマルチモーダル大言語モデルのベンチマーク

MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms ( http://arxiv.org/abs/2402.14154v2 )

ライセンス: Link先を確認
Yiqiao Jin, Minje Choi, Gaurav Verma, Jindong Wang, Srijan Kumar, (参考訳) ソーシャルメディアプラットフォームは、テキスト、画像、ビデオを含むマルチモーダルな情報交換のためのハブであり、マシンがオンライン空間におけるインタラクションに関連する情報や感情を理解することは困難である。 MLLM(Multimodal Large Language Models)は、これらの課題に対する有望な解決策として登場したが、人間の感情や誤報のような複雑な内容の正確な解釈に苦慮している。 本稿では,マルチモーダルなソーシャルメディアコンテンツに対するMLLMの理解を評価するための総合的なベンチマークであるMM-Socを紹介する。 MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、誤情報検出、ヘイトスピーチ検出、ソーシャルコンテキスト生成など、さまざまなタスクをターゲットにした、新しい大規模なYouTubeタグ付けデータセットを組み込んだ。 オープンソースMLLMの10種類のサイズバリエーションを網羅的に評価した結果,性能の相違が明らかとなり,モデルの社会的理解能力の向上の必要性が浮き彫りになった。 分析の結果、ゼロショット環境では、様々なMLLMが一般的にソーシャルメディアのタスクを扱うのに困難を呈することが明らかとなった。 しかし、MLLMは微調整後の性能向上を示し、改善の道筋を示唆している。 私たちのコードとデータはhttps://github.com/claws-lab/MMSoc.git.comで公開されています。

Social media platforms are hubs for multimodal information exchange, encompassing text, images, and videos, making it challenging for machines to comprehend the information or emotions associated with interactions in online spaces. Multimodal Large Language Models (MLLMs) have emerged as a promising solution to these challenges, yet they struggle to accurately interpret human emotions and complex content such as misinformation. This paper introduces MM-Soc, a comprehensive benchmark designed to evaluate MLLMs' understanding of multimodal social media content. MM-Soc compiles prominent multimodal datasets and incorporates a novel large-scale YouTube tagging dataset, targeting a range of tasks from misinformation detection, hate speech detection, and social context generation. Through our exhaustive evaluation on ten size-variants of four open-source MLLMs, we have identified significant performance disparities, highlighting the need for advancements in models' social understanding capabilities. Our analysis reveals that, in a zero-shot setting, various types of MLLMs generally exhibit difficulties in handling social media tasks. However, MLLMs demonstrate performance improvements post fine-tuning, suggesting potential pathways for improvement. Our code and data are available at https://github.com/claws-lab/MMSoc.git.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-24
# マルチHMR:シングルショットでの多人数人体メッシュ回復

Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot ( http://arxiv.org/abs/2402.14654v2 )

ライセンス: Link先を確認
Fabien Baradel, Matthieu Armando, Salma Galaaoui, Romain Brégier, Philippe Weinzaepfel, Grégory Rogez, Thomas Lucas, (参考訳) 単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。 予測は、カメラ座標系におけるSMPL-Xパラメトリックモデルと3D位置を用いて、手と表情を含む全身を包含する。 我々のモデルは、標準的なビジョントランスフォーマー(ViT)バックボーンによって生成された特徴を用いて、人の位置の粗い2Dヒートマップを予測することによって人を検出する。 そして、Human Prediction Head(HPH)と呼ばれる新しいクロスアテンションモジュールを使って、ボディ全体のポーズ、形状、そして3D位置を予測する。 片手でのきめ細かい手と顔のポーズの直接予測、つまり、身体部分の周囲の明示的な作物を頼らずに、既存のデータから学ぶことは困難であるため、様々な手ポーズを持つカメラに近い人間を含むフルボディ対象データセットのクローズアップフレームであるCUFFSを導入する。 トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。 マルチHMRはまた、利用可能な場合、各画像トークンに対してカメラ線方向を符号化することで、カメラ固有のことを任意に説明します。 448{\times}448$イメージ上のViT-Sバックボーンは、すでに高速で競争力のあるモデルを提供しており、大きなモデルと高解像度のモデルでは、最先端の結果が得られる。

We present Multi-HMR, a strong sigle-shot model for multi-person 3D human mesh recovery from a single RGB image. Predictions encompass the whole body, i.e., including hands and facial expressions, using the SMPL-X parametric model and 3D location in the camera coordinate system. Our model detects people by predicting coarse 2D heatmaps of person locations, using features produced by a standard Vision Transformer (ViT) backbone. It then predicts their whole-body pose, shape and 3D location using a new cross-attention module called the Human Prediction Head (HPH), with one query attending to the entire set of features for each detected person. As direct prediction of fine-grained hands and facial poses in a single shot, i.e., without relying on explicit crops around body parts, is hard to learn from existing data, we introduce CUFFS, the Close-Up Frames of Full-Body Subjects dataset, containing humans close to the camera with diverse hand poses. We show that incorporating it into the training data further enhances predictions, particularly for hands. Multi-HMR also optionally accounts for camera intrinsics, if available, by encoding camera ray directions for each image token. This simple design achieves strong performance on whole-body and body-only benchmarks simultaneously: a ViT-S backbone on $448{\times}448$ images already yields a fast and competitive model, while larger models and higher resolutions obtain state-of-the-art results.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-24
# CHATATC:戦略的気流管理を支援する大規模言語モデル駆動対話エージェント

CHATATC: Large Language Model-Driven Conversational Agents for Supporting Strategic Air Traffic Flow Management ( http://arxiv.org/abs/2402.14850v2 )

ライセンス: Link先を確認
Sinan Abdulhak, Wayne Hubbard, Karthik Gopalakrishnan, Max Z. Li, (参考訳) 生成人工知能(AI)と大規模言語モデル(LLM)は、ChatGPTのような公開ツールを通じて急速に普及している。 LLMの個人的および専門的な用途への採用は、ChatGPTなどのコンピュータアプリケーションと人間のユーザとの自然な相互作用と、強力な要約とテキスト生成能力によって促進される。 このような生成AIツールが広く使用されていることを踏まえ、この研究では、これらのツールが安全でないクリティカルで戦略的トラフィックフロー管理設定にどのようにデプロイできるかを調査します。 具体的には,2000~2023年の間,地上遅延プログラム(GDP)の大規模な歴史的データセットに基づいたLLM,CHATATCをトレーニングし,8万以上のGDP実装,リビジョン,キャンセルで構成されている。 私たちはCHATATCのクエリとレスポンス機能をテストし、成功(例えば、正しいGDP率、期間、理由を提供する)と欠点(例えば、最上級の質問)を文書化します。 また、将来のユーザがCHATATC対話エージェントと対話し、協力するためのグラフィカルユーザインタフェースの設計について詳述する。

Generative artificial intelligence (AI) and large language models (LLMs) have gained rapid popularity through publicly available tools such as ChatGPT. The adoption of LLMs for personal and professional use is fueled by the natural interactions between human users and computer applications such as ChatGPT, along with powerful summarization and text generation capabilities. Given the widespread use of such generative AI tools, in this work we investigate how these tools can be deployed in a non-safety critical, strategic traffic flow management setting. Specifically, we train an LLM, CHATATC, based on a large historical data set of Ground Delay Program (GDP) issuances, spanning 2000-2023 and consisting of over 80,000 GDP implementations, revisions, and cancellations. We test the query and response capabilities of CHATATC, documenting successes (e.g., providing correct GDP rates, durations, and reason) and shortcomings (e.g,. superlative questions). We also detail the design of a graphical user interface for future users to interact and collaborate with the CHATATC conversational agent.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-24
# 効率的なアンビシド・スパリフィケーション

Efficient Unbiased Sparsification ( http://arxiv.org/abs/2402.14925v2 )

ライセンス: Link先を確認
Leighton Barnes, Stephen Cameron, Timothy Chow, Emma Cohen, Keith Frankston, Benjamin Howard, Fred Kochman, Daniel Scheinerman, Jeffrey VanderKam, (参考訳) ベクトル $p\in \mathbb{R}^n$ の非バイアス付き$m$-スパーシフィケーション(unbiased $m$-sparsification of a vector $p\in \mathbb{R}^n$)は、無作為ベクトル $Q\in \mathbb{R}^n$ であり、最小の$m<n$非ゼロ座標を持つ平均$p$ である。 偏りのないスパーシフィケーションは、バイアスを導入することなく元のベクトルを圧縮し、連邦学習やスパース確率分布のサンプリングなど、様々な文脈で発生する。 理想的には、バイアスのないスパーシフィケーションは、元の$p$からQ$がどれくらい遠いかを測る発散関数 $\mathsf{Div}(Q,p)$ の期待値を最小化する。 この意味で$Q$が最適であれば、効率性と呼ぶ。 本研究の主な成果は、置換不変あるいは加法的に分離可能な異種に対する効率的な非偏平スパーシフィケーションである。 驚いたことに、置換不変な発散の特徴づけは、二乗ユークリッド距離に対する最適$Q$のクラスが、クルバック・リーブラー発散のための最適$Q$のクラス、あるいは実際は様々な発散のクラスと一致するという意味で、発散関数の選択に頑健である。

An unbiased $m$-sparsification of a vector $p\in \mathbb{R}^n$ is a random vector $Q\in \mathbb{R}^n$ with mean $p$ that has at most $m<n$ nonzero coordinates. Unbiased sparsification compresses the original vector without introducing bias; it arises in various contexts, such as in federated learning and sampling sparse probability distributions. Ideally, unbiased sparsification should also minimize the expected value of a divergence function $\mathsf{Div}(Q,p)$ that measures how far away $Q$ is from the original $p$. If $Q$ is optimal in this sense, then we call it efficient. Our main results describe efficient unbiased sparsifications for divergences that are either permutation-invariant or additively separable. Surprisingly, the characterization for permutation-invariant divergences is robust to the choice of divergence function, in the sense that our class of optimal $Q$ for squared Euclidean distance coincides with our class of optimal $Q$ for Kullback-Leibler divergence, or indeed any of a wide variety of divergences.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-24
# 光時計におけるマルチキュービットゲートとシュレーディンガー猫状態

Multi-qubit gates and Schrödinger cat states in an optical clock ( http://arxiv.org/abs/2402.16289v2 )

ライセンス: Link先を確認
Alec Cao, William J. Eckner, Theodor Lukin Yelin, Aaron W. Young, Sven Jandura, Lingfeng Yan, Kyungtae Kim, Guido Pupillo, Jun Ye, Nelson Darkwah Oppong, Adam M. Kaufman, (参考訳) 多粒子絡み合いは量子センサーの基本精度限界を達成するための鍵となる資源である。 周波数精度における現在の最先端の原子時計である光原子時計は、絡み合うエンハンスドメトロジーの領域として急速に発展しつつある。 原子アレイ情報処理のために開発された高密度エンタングルゲートによる微視的制御と検出を特徴とするツイーザー型クロックの強化は、高絡み合った量子状態を活用して光時計を改善するための有望な経路を提供する。 そこで我々は,グリーンベルガー・ホルン・ザイリンガー(GHZ)型で最大9個の光クロック量子ビットをプログラマブル原子配列で生成するために,マルチキュービットのRydbergゲート群を開発し,利用する。 十分に短い暗黒時間での原子-レーザー比較において、最大4キュービットのGHZ状態を用いて標準量子限界以下の周波数不安定性を示す。 しかし、そのダイナミックレンジの減少により、単一の大きさのGHZ状態は、アンタングルド原子と比較して、最適な暗時間での達成可能なクロック精度を改善することができない。 このハードルを克服するために、異なる大きさのGHZ状態のカスケードを同時に作成し、延長間隔で不明瞭な位相推定を行う。 これらの結果は、光原子時計精度のハイゼンベルク制限スケーリングに近づくための鍵となるビルディングブロックを示す。

Many-particle entanglement is a key resource for achieving the fundamental precision limits of a quantum sensor. Optical atomic clocks, the current state-of-the-art in frequency precision, are a rapidly emerging area of focus for entanglement-enhanced metrology. Augmenting tweezer-based clocks featuring microscopic control and detection with the high-fidelity entangling gates developed for atom-array information processing offers a promising route towards leveraging highly entangled quantum states for improved optical clocks. Here we develop and employ a family of multi-qubit Rydberg gates to generate Schr\"odinger cat states of the Greenberger-Horne-Zeilinger (GHZ) type with up to 9 optical clock qubits in a programmable atom array. In an atom-laser comparison at sufficiently short dark times, we demonstrate a fractional frequency instability below the standard quantum limit using GHZ states of up to 4 qubits. However, due to their reduced dynamic range, GHZ states of a single size fail to improve the achievable clock precision at the optimal dark time compared to unentangled atoms. Towards overcoming this hurdle, we simultaneously prepare a cascade of varying-size GHZ states to perform unambiguous phase estimation over an extended interval. These results demonstrate key building blocks for approaching Heisenberg-limited scaling of optical atomic clock precision.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-24
# エッジ検出器は、深層畳み込みニューラルネットワークをよりロバストにする

Edge Detectors Can Make Deep Convolutional Neural Networks More Robust ( http://arxiv.org/abs/2402.16479v2 )

ライセンス: Link先を確認
Jin Ding, Jie-Chao Zhao, Yong-Zhi Sun, Ping Tan, Jia-Wei Wang, Ji-En Ma, You-Tong Fang, (参考訳) 深層畳み込みニューラルネットワーク(DCNN: Deep Convolutional Neural Network)は、小さな摂動のある例に対して脆弱である。 DCNNの堅牢性を改善することは、自律運転や産業自動化といった安全クリティカルなアプリケーションにとって非常に重要である。 人間の目が物体を認識する主な方法、すなわち形状の特徴に大きく依存することから着想を得た本論文は、まず、エッジ検出器を層核として使用し、バイナリエッジ特徴分岐(BEFB)を設計して、一般的なバックボーンに容易に統合できるバイナリエッジ特徴分岐(BEFB)を学習する。 4つのエッジ検出器はそれぞれ水平、垂直、正の対角、負の対角のエッジの特徴を学習でき、分岐は複数のソベル層(エッジ検出器をカーネルとして使用)と1つのしきい値層で積み重ねられる。 分岐によって学習されたバイナリエッジ特徴は、バックボーンによって学習されたテクスチャ特徴と結合し、完全に接続された層に入力され、分類される。 提案したブランチをそれぞれVGG16とResNet34に統合し、複数のデータセットで実験を行う。 実験の結果、BEFBは軽量であり、トレーニングに副作用がないことが示された。 また、BEFB統合モデルの精度は、FGSM、PGD、C\&W攻撃に直面している場合、すべてのデータセットのオリジナルのモデルよりも優れている。 さらに、ロバスト性向上技術を備えたBEFB統合モデルにより、元のモデルよりも優れた分類精度が得られる。 本研究は,DCNNの形状的特徴とテクスチャ的特徴を組み合わせることで,DCNNの堅牢性を高めることができることを示す。

Deep convolutional neural networks (DCNN for short) are vulnerable to examples with small perturbations. Improving DCNN's robustness is of great significance to the safety-critical applications, such as autonomous driving and industry automation. Inspired by the principal way that human eyes recognize objects, i.e., largely relying on the shape features, this paper first employs the edge detectors as layer kernels and designs a binary edge feature branch (BEFB for short) to learn the binary edge features, which can be easily integrated into any popular backbone. The four edge detectors can learn the horizontal, vertical, positive diagonal, and negative diagonal edge features, respectively, and the branch is stacked by multiple Sobel layers (using edge detectors as kernels) and one threshold layer. The binary edge features learned by the branch, concatenated with the texture features learned by the backbone, are fed into the fully connected layers for classification. We integrate the proposed branch into VGG16 and ResNet34, respectively, and conduct experiments on multiple datasets. Experimental results demonstrate the BEFB is lightweight and has no side effects on training. And the accuracy of the BEFB integrated models is better than the original ones on all datasets when facing FGSM, PGD, and C\&W attacks. Besides, BEFB integrated models equipped with the robustness enhancing techniques can achieve better classification accuracy compared to the original models. The work in this paper for the first time shows it is feasible to enhance the robustness of DCNNs through combining both shape-like features and texture features.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-24
# 大規模言語モデルを用いた時間的知識グラフの2段階生成質問応答

Two-stage Generative Question Answering on Temporal Knowledge Graph Using Large Language Models ( http://arxiv.org/abs/2402.16568v2 )

ライセンス: Link先を確認
Yifu Gao, Linbo Qiao, Zhigang Kan, Zhihua Wen, Yongquan He, Dongsheng Li, (参考訳) 時間的知識グラフ質問応答(TKGQA)は、質問に隠された時間的制約と、動的構造化された知識から求められた回答のために重要な課題となる。 大規模言語モデル(LLM)は構造化データに対する推論能力に大きな進歩を遂げているが、TKGQAタスクへの応用は比較的未探索の分野である。 本稿ではまず,LLM に時間的質問への回答を誘導する新たな時間的知識グラフ質問応答フレームワークであるGenTKGQAを提案する。 まず,LLMの本質的な知識を利用して,時間的制約や構造的リンクを余分な訓練なしに抽出し,時間的および構造的次元のサブグラフ探索空間を狭める。 次に,サブグラフのグラフニューラルネットワーク信号とLLMのテキスト表現を非浅義に融合させる仮想知識インジケータを設計する。 2つの広く使われているデータセットに対する実験結果は、我々のモデルの優位性を示している。

Temporal knowledge graph question answering (TKGQA) poses a significant challenge task, due to the temporal constraints hidden in questions and the answers sought from dynamic structured knowledge. Although large language models (LLMs) have made considerable progress in their reasoning ability over structured data, their application to the TKGQA task is a relatively unexplored area. This paper first proposes a novel generative temporal knowledge graph question answering framework, GenTKGQA, which guides LLMs to answer temporal questions through two phases: Subgraph Retrieval and Answer Generation. First, we exploit LLM's intrinsic knowledge to mine temporal constraints and structural links in the questions without extra training, thus narrowing down the subgraph search space in both temporal and structural dimensions. Next, we design virtual knowledge indicators to fuse the graph neural network signals of the subgraph and the text representations of the LLM in a non-shallow way, which helps the open-source LLM deeply understand the temporal order and structural dependencies among the retrieved facts through instruction tuning. Experimental results on two widely used datasets demonstrate the superiority of our model.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-24
# 異常検出のための連続記憶表現

Continuous Memory Representation for Anomaly Detection ( http://arxiv.org/abs/2402.18293v3 )

ライセンス: Link先を確認
Joo Chan Lee, Taejune Kim, Eunbyung Park, Simon S. Woo, Jong Hwan Ko, (参考訳) 教師なしの方法での異常検出には大きな進歩があり、通常の画像のみをトレーニングに利用することができる。 いくつかの最近の手法は、メモリに基づいて異常を検出し、入力を直接記憶された通常の特徴(または通常の画像で訓練された特徴)と比較または再構成することを目的としている。 しかし、そのようなメモリベースのアプローチは、近接する隣人や注意機構によって実装された離散的な特徴空間で動作し、それぞれ入力として出力される一般化の貧弱さやアイデンティティショートカットの問題に悩まされている。 さらに,既存手法の大部分は単一クラスの異常を検出するように設計されており,複数のオブジェクトのクラスが提示された場合,満足のいく性能が得られない。 これらの課題に対処するために,空間的特徴を座標に変換し,連続格子にマッピングすることで,「連続的」メモリ内の通常の特徴を表現する新しい異常検出手法であるCRADを提案する。 さらに,異常検出に適したグリッドを設計し,局所的特徴と大域的特徴の両方を表現し,効果的に融合させる。 我々は, CRADが通常の特徴を一般化し, アイデンティティショートカットを緩和し, さらに, 高粒度連続表現により, 単一モデルの多様なクラスを効果的に扱えることを示した。 MVTec ADデータセットを用いた評価では、CRADは、マルチクラス統一異常検出におけるエラーの65.0%を削減し、従来の最先端手法よりも大幅に優れている。 プロジェクトページはhttps://tae-mo.github.io/crad/.com/で公開されている。

There have been significant advancements in anomaly detection in an unsupervised manner, where only normal images are available for training. Several recent methods aim to detect anomalies based on a memory, comparing or reconstructing the input with directly stored normal features (or trained features with normal images). However, such memory-based approaches operate on a discrete feature space implemented by the nearest neighbor or attention mechanism, suffering from poor generalization or an identity shortcut issue outputting the same as input, respectively. Furthermore, the majority of existing methods are designed to detect single-class anomalies, resulting in unsatisfactory performance when presented with multiple classes of objects. To tackle all of the above challenges, we propose CRAD, a novel anomaly detection method for representing normal features within a "continuous" memory, enabled by transforming spatial features into coordinates and mapping them to continuous grids. Furthermore, we carefully design the grids tailored for anomaly detection, representing both local and global normal features and fusing them effectively. Our extensive experiments demonstrate that CRAD successfully generalizes the normal features and mitigates the identity shortcut, furthermore, CRAD effectively handles diverse classes in a single model thanks to the high-granularity continuous representation. In an evaluation using the MVTec AD dataset, CRAD significantly outperforms the previous state-of-the-art method by reducing 65.0% of the error for multi-class unified anomaly detection. The project page is available at https://tae-mo.github.io/crad/.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-24
# 鏡ライブラリー:低次元のディープニューラルネットは反射特性を持つ凸ラッソモデルである

A Library of Mirrors: Deep Neural Nets in Low Dimensions are Convex Lasso Models with Reflection Features ( http://arxiv.org/abs/2403.01046v4 )

ライセンス: Link先を確認
Emi Zeger, Yifei Wang, Aaron Mishkin, Tolga Ergen, Emmanuel Candès, Mert Pilanci, (参考訳) 1次元データ上でのニューラルネットワークのトレーニングは、離散的に定義された辞書行列を用いて凸ラッソ問題の解法と等価であることを示す。 2層から有限層までの線形な活性化と深度を持つニューラルネットワークについて検討する。 まず, 分岐関数の離散辞書を用いたラッソモデルと等価な2層ネットワークが, トレーニングデータポイントに対応するブレークポイントを持つことを示す。 絶対値やReLUアクティベーションを持つある種の一般的なアーキテクチャでは、第3のレイヤが驚くほど、自分自身に関するトレーニングデータを反映した機能を生成します。 追加の層は、これらの反射の反射を徐々に生成する。 ラッソ表現は、大域的最適ネットワークの分析に関する貴重な洞察を提供し、解の風景を解明し、特定の場合において閉形式解を可能にする。 数値計算により、標準の非凸最適化器を用いて標準のディープネットワークを最適化する際にも反射が発生することが示された。 さらに、自己回帰時系列モデルを用いて、我々の理論を実証する。

We prove that training neural networks on 1-D data is equivalent to solving convex Lasso problems with discrete, explicitly defined dictionary matrices. We consider neural networks with piecewise linear activations and depths ranging from 2 to an arbitrary but finite number of layers. We first show that two-layer networks with piecewise linear activations are equivalent to Lasso models using a discrete dictionary of ramp functions, with breakpoints corresponding to the training data points. In certain general architectures with absolute value or ReLU activations, a third layer surprisingly creates features that reflect the training data about themselves. Additional layers progressively generate reflections of these reflections. The Lasso representation provides valuable insights into the analysis of globally optimal networks, elucidating their solution landscapes and enabling closed-form solutions in certain special cases. Numerical results show that reflections also occur when optimizing standard deep networks using standard non-convex optimizers. Additionally, we demonstrate our theory with autoregressive time series models.
翻訳日:2024-07-25 19:10:54 公開日:2024-07-24
# 言語モデルを分離する:選択的プルーニングによる機械学習

Dissecting Language Models: Machine Unlearning via Selective Pruning ( http://arxiv.org/abs/2403.01267v2 )

ライセンス: Link先を確認
Nicholas Pochinkov, Nandi Schoots, (参考訳) 大きな言語モデル(LLM)の振る舞いを理解し、形作ることは、アプリケーションがより強力で頻繁に採用されるようになるにつれて、ますます重要になってきています。 本稿では,LLMに特化して設計された機械アンラーニング手法を提案する。 我々は,LLMの選択的プルーニング法を導入し,ネットワーク全体の性能と比較して,標的能力に対するニューロンの重要性から神経細胞を除去する。 このアプローチは、特定の振る舞いを可能にするニューロンを識別し、削除するための、計算とデータ効率の手法である。 LLMのフィードフォワードニューロンとアテンションニューロンはどちらも専門的であり、特定のタスクにおいては、特定のニューロンは他のニューロンよりも重要である。 すべての実験のコードはhttps://github.com/nickypro/elective-pruningで公開されている。

Understanding and shaping the behaviour of Large Language Models (LLMs) is increasingly important as applications become more powerful and more frequently adopted. This paper introduces a machine unlearning method specifically designed for LLMs. We introduce a selective pruning method for LLMs that removes neurons based on their relative importance on a targeted capability compared to overall network performance. This approach is a compute- and data-efficient method for identifying and removing neurons that enable specific behaviours. Our findings reveal that both feed-forward and attention neurons in LLMs are specialized; that is, for specific tasks, certain neurons are more crucial than others. Code from all experiments is available at https://github.com/nickypro/selective-pruning
翻訳日:2024-07-25 19:10:54 公開日:2024-07-24
# MCFEND:中国のフェイクニュース検出のためのマルチソースベンチマークデータセット

MCFEND: A Multi-source Benchmark Dataset for Chinese Fake News Detection ( http://arxiv.org/abs/2403.09092v2 )

ライセンス: Link先を確認
Yupeng Li, Haorui He, Jin Bai, Dacheng Wen, (参考訳) 様々なオンラインソースにおけるフェイクニュースの普及は、大衆に大きな影響を与えている。 既存の中国の偽ニュース検出データセットは、Weiboからのみ提供されたニュースに限られている。 しかし、複数の情報源から発せられる偽ニュースは、その内容や社会的文脈など、様々な面で多様性を示す。 純粋に1つのニュースソースで訓練された方法は、現実のシナリオにはほとんど適用できない。 実験により,中国の大規模な偽ニュース検出データセットWeibo-21から学習した最先端手法のF1スコアが,テストデータがマルチソースニュースデータに変換された場合,0.943から0.470に大幅に低下し,マルチソースフェイクニュースの3分の1以上を識別できなかったことを示す。 この制限に対処するため,我々は,ソーシャルプラットフォームやメッセージングアプリ,従来のオンラインニュースメディアなど,さまざまなソースから収集したニュースで構成されたMCFENDという,中国の偽ニュース検出のための,最初のマルチソースベンチマークデータセットを構築した。 このニュースは、世界中の14の権威あるファクトチェック機関によって事実チェックされている。 さらに, 提案したデータセットに対して, クロスソース, マルチソース, 未確認ソース方式で, 既存中国の偽ニュース検出手法を徹底的に評価した。 MCFENDは、ベンチマークデータセットとして、中国の偽ニュース検出アプローチを現実世界のシナリオで前進させることを目的としている。

The prevalence of fake news across various online sources has had a significant influence on the public. Existing Chinese fake news detection datasets are limited to news sourced solely from Weibo. However, fake news originating from multiple sources exhibits diversity in various aspects, including its content and social context. Methods trained on purely one single news source can hardly be applicable to real-world scenarios. Our pilot experiment demonstrates that the F1 score of the state-of-the-art method that learns from a large Chinese fake news detection dataset, Weibo-21, drops significantly from 0.943 to 0.470 when the test data is changed to multi-source news data, failing to identify more than one-third of the multi-source fake news. To address this limitation, we constructed the first multi-source benchmark dataset for Chinese fake news detection, termed MCFEND, which is composed of news we collected from diverse sources such as social platforms, messaging apps, and traditional online news outlets. Notably, such news has been fact-checked by 14 authoritative fact-checking agencies worldwide. In addition, various existing Chinese fake news detection methods are thoroughly evaluated on our proposed dataset in cross-source, multi-source, and unseen source ways. MCFEND, as a benchmark dataset, aims to advance Chinese fake news detection approaches in real-world scenarios.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# KIF:不均一な知識ソースを統合するウィキデータベースのフレームワーク

KIF: A Wikidata-Based Framework for Integrating Heterogeneous Knowledge Sources ( http://arxiv.org/abs/2403.10304v2 )

ライセンス: Link先を確認
Guilherme Lima, João M. B. Rodrigues, Marcelo Machado, Elton Soares, Sandro R. Fiorini, Raphael Thiago, Leonardo G. Azevedo, Viviane T. da Silva, Renato Cerqueira, (参考訳) 我々は、異種知識ソースを仮想的に統合するためのWikidataベースのフレームワークKIFを提案する。 KIFはPythonで書かれており、オープンソースとしてリリースされている。 Wikidataのデータモデルと語彙とユーザ定義のマッピングを活用して、それらのステートメントのコンテキストと証明を追跡しながら、基盤となるソースの統一されたビューを構築する。 基礎となるソースはトリプルストア、リレーショナルデータベース、CSVファイルなどであり、Wikidataの語彙やRDFエンコーディングは使用できない。 その結果、仮想知識ベースは"拡張ウィキデータ"のように振る舞うことができ、Wikidataのデータモデルの観点から定義された単純だが表現力のあるパターン言語を使ってクエリすることができる。 本稿では、KIFの設計と実装について述べ、化学分野における実際の統合問題(Wikidata、PubChem、IBM CIRCAを含む)の解決にどのように利用したか、KIFの性能とオーバーヘッドに関する実験結果について述べる。

We present a Wikidata-based framework, called KIF, for virtually integrating heterogeneous knowledge sources. KIF is written in Python and is released as open-source. It leverages Wikidata's data model and vocabulary plus user-defined mappings to construct a unified view of the underlying sources while keeping track of the context and provenance of their statements. The underlying sources can be triplestores, relational databases, CSV files, etc., which may or may not use the vocabulary and RDF encoding of Wikidata. The end result is a virtual knowledge base which behaves like an "extended Wikidata" and which can be queried using a simple but expressive pattern language, defined in terms of Wikidata's data model. In this paper, we present the design and implementation of KIF, discuss how we have used it to solve a real integration problem in the domain of chemistry (involving Wikidata, PubChem, and IBM CIRCA), and present experimental results on the performance and overhead of KIF
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# 人-ロボットグループインタラクションのためのLLMベースの注意支援

To Help or Not to Help: LLM-based Attentive Support for Human-Robot Group Interactions ( http://arxiv.org/abs/2403.12533v2 )

ライセンス: Link先を確認
Daniel Tanneberg, Felix Ocker, Stephan Hasler, Joerg Deigmoeller, Anna Belardinelli, Chao Wang, Heiko Wersing, Bernhard Sendhoff, Michael Gienger, (参考訳) ロボットは、どのようにして人間のグループ内で邪魔にならない身体的支援を提供することができるのか? 我々は,人間のグループを支援するロボットのための,新しいインタラクション概念であるAttentive Supportを紹介する。 シーン認識、対話獲得、状況理解、行動生成とLarge Language Models(LLM)の常識推論能力を組み合わせる。 ユーザの指示に従うことに加えて、Attentive Supportは、いつ、どのように人間をサポートするか、いつ、いつ、沈黙のままでグループを邪魔しないかを決定することができる。 多様なシナリオのセットでロボットの注意行動を示して評価し、必要なときに人間を支援し、助けるが、助けがなければ邪魔しない。

How can a robot provide unobtrusive physical support within a group of humans? We present Attentive Support, a novel interaction concept for robots to support a group of humans. It combines scene perception, dialogue acquisition, situation understanding, and behavior generation with the common-sense reasoning capabilities of Large Language Models (LLMs). In addition to following user instructions, Attentive Support is capable of deciding when and how to support the humans, and when to remain silent to not disturb the group. With a diverse set of scenarios, we show and evaluate the robot's attentive behavior, which supports and helps the humans when required, while not disturbing if no help is needed.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# MELTing Point: 言語変換器のモバイル評価

MELTing point: Mobile Evaluation of Language Transformers ( http://arxiv.org/abs/2403.12844v3 )

ライセンス: Link先を確認
Stefanos Laskaridis, Kleomenis Katevas, Lorenzo Minto, Hamed Haddadi, (参考訳) トランスフォーマーは機械学習の環境に革命をもたらし、日々のタスクに徐々に浸透し、コンピュータに「知性の欠如」を持たせた。 しかし、彼らのランタイム要件は、モバイルに広くデプロイされることを妨げている。 パーソナルデバイスがますます強力になり、プライバシーがますます厳しい問題になるにつれて、我々はLarge Language Models(LLMs)のモバイル実行の現状を探る。 これを実現するために、私たちは独自の自動化インフラストラクチャMELTを開発しました。デバイス上でのLLMのヘッドレス実行とベンチマークをサポートし、Android、iOS、Nvidia Jetsonデバイスを含むさまざまなモデル、デバイス、フレームワークをサポートします。 我々は、一般的な命令の微調整 LLM を評価し、様々なフレームワークを活用して、エンド・ツー・エンドとグラニュラルのパフォーマンスを測定し、その過程でのメモリとエネルギーの要求をトレースする。 我々の分析は、デバイス上でのLCMの実行、性能、エネルギー効率、精度を様々な最先端モデルで定量化し、ハイパースケールモデルの時代におけるデバイス上でのインテリジェンスの現状を示す最初の体系的な研究である。 結果は、ターゲット間のパフォーマンスの不均一性を強調し、LLM推論が主にメモリバウンドであることを裏付ける。 量子化はメモリ要求を大幅に削減し、実行を実行可能なものにするが、無視できない精度のコストで実行する。 エネルギーフットプリントと熱的挙動から導かれると、両方の要因がユーザ体験に悪影響を及ぼすため、LLMの継続的な実行はいまだ解明されていない。 最後に、私たちの経験から、エコシステムはまだ初期段階であり、アルゴリズムとハードウェアのブレークスルーは実行コストを大きくシフトさせる可能性があることが示されています。 NPUアクセラレーションとフレームワークのハードウエアの共同設計が、エッジデプロイメントに適したオフロードの代替として、効率的なスタンドアロン実行への最大の賭けになることを期待しています。

Transformers have revolutionized the machine learning landscape, gradually making their way into everyday tasks and equipping our computers with "sparks of intelligence". However, their runtime requirements have prevented them from being broadly deployed on mobile. As personal devices become increasingly powerful and prompt privacy becomes an ever more pressing issue, we explore the current state of mobile execution of Large Language Models (LLMs). To achieve this, we have created our own automation infrastructure, MELT, which supports the headless execution and benchmarking of LLMs on device, supporting different models, devices and frameworks, including Android, iOS and Nvidia Jetson devices. We evaluate popular instruction fine-tuned LLMs and leverage different frameworks to measure their end-to-end and granular performance, tracing their memory and energy requirements along the way. Our analysis is the first systematic study of on-device LLM execution, quantifying performance, energy efficiency and accuracy across various state-of-the-art models and showcases the state of on-device intelligence in the era of hyperscale models. Results highlight the performance heterogeneity across targets and corroborates that LLM inference is largely memory-bound. Quantization drastically reduces memory requirements and renders execution viable, but at a non-negligible accuracy cost. Drawing from its energy footprint and thermal behavior, the continuous execution of LLMs remains elusive, as both factors negatively affect user experience. Last, our experience shows that the ecosystem is still in its infancy, and algorithmic as well as hardware breakthroughs can significantly shift the execution cost. We expect NPU acceleration, and framework-hardware co-design to be the biggest bet towards efficient standalone execution, with the alternative of offloading tailored towards edge deployments.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# モデル編集のための統一フレームワーク

A Unified Framework for Model Editing ( http://arxiv.org/abs/2403.14236v3 )

ライセンス: Link先を確認
Akshat Gupta, Dev Sajnani, Gopala Anumanchipalli, (参考訳) ROMEとMEMITは2つの異なるモデル編集アルゴリズムであると考えられており、大きな違いはバッチ編集を行う能力である。 本稿では,この2つのアルゴリズムを1つの概念的傘の下に統一し,同じ目的を最適化する。 ROMEはこの目的を最適化して一度に1回の編集を行うのに対して、MEMITはバッチ編集が可能なより柔軟な最小2乗制約を使用する。 我々は、ROMEを一般化し、EMMET(Equality-Constrained Mass Model Editing Algorithm for Transformers)という新しいバッチメモリ編集アルゴリズムを用いて、等式制約付きバッチ編集を可能にする。 EMMETは、複数の次元にわたるMEMITと非常によく似たパフォーマンスで、1万のバッチサイズまでバッチ編集を行うことができる。 EMMETの導入により、ROMEとMEMITを真に統合し、両アルゴリズムが最適化目標、能力(単体・バッチ編集)、モデル編集性能および制限の観点から等価であることを示す。

ROME and MEMIT are largely believed to be two different model editing algorithms, with the major difference between them being the ability to perform batched edits. In this paper, we unify these two algorithms under a single conceptual umbrella, optimizing for the same goal, which we call the preservation-memorization objective. ROME uses an equality constraint to optimize this objective to perform one edit at a time, whereas MEMIT employs a more flexible least-square constraint that allows for batched edits. We generalize ROME and enable batched editing with equality constraint in the form of EMMET - an Equality-constrained Mass Model Editing algorithm for Transformers, a new batched memory-editing algorithm. EMMET can perform batched-edits up to a batch-size of 10,000, with very similar performance to MEMIT across multiple dimensions. With the introduction of EMMET, we truly unify ROME and MEMIT and show that both algorithms are equivalent in terms of their optimization objective, their abilities (singular and batched editing), their model editing performance and their limitations.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# 微分プログラミングの要素

The Elements of Differentiable Programming ( http://arxiv.org/abs/2403.14606v2 )

ライセンス: Link先を確認
Mathieu Blondel, Vincent Roulet, (参考訳) 人工知能は最近、大きなモデル、膨大なデータセット、ハードウェアの高速化、そして最後に、差別化可能なプログラミングの変革的なパワーによって、目覚ましい進歩を経験した。 この新しいプログラミングパラダイムは、複雑なコンピュータプログラム(制御フローやデータ構造を含む)のエンドツーエンドの微分を可能にし、プログラムパラメータの勾配に基づく最適化を可能にする。 新たなパラダイムとして、微分可能プログラミングは、自動微分、グラフィカルモデル、最適化、統計など、コンピュータ科学と応用数学のいくつかの分野に基盤を置いている。 本書は、微分可能プログラミングに有用な基本概念を包括的にレビューする。 最適化の観点と確率の観点という2つの主要な視点を採用し、両者の間に明らかな類似点がある。 微分可能プログラミングは単にプログラムの差別化ではなく、プログラムの差別化を意図した思慮深い設計である。 プログラムを識別可能にすることで、プログラムの実行上の確率分布を本質的に導入し、プログラム出力に関連する不確実性を定量化する手段を提供する。

Artificial intelligence has recently experienced remarkable advances, fueled by large models, vast datasets, accelerated hardware, and, last but not least, the transformative power of differentiable programming. This new programming paradigm enables end-to-end differentiation of complex computer programs (including those with control flows and data structures), making gradient-based optimization of program parameters possible. As an emerging paradigm, differentiable programming builds upon several areas of computer science and applied mathematics, including automatic differentiation, graphical models, optimization and statistics. This book presents a comprehensive review of the fundamental concepts useful for differentiable programming. We adopt two main perspectives, that of optimization and that of probability, with clear analogies between the two. Differentiable programming is not merely the differentiation of programs, but also the thoughtful design of programs intended for differentiation. By making programs differentiable, we inherently introduce probability distributions over their execution, providing a means to quantify the uncertainty associated with program outputs.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# MetaCap: スパースビューヒューマンパフォーマンスキャプチャとレンダリングのためのマルチビュー画像からのメタラーニング

MetaCap: Meta-learning Priors from Multi-View Imagery for Sparse-view Human Performance Capture and Rendering ( http://arxiv.org/abs/2403.18820v2 )

ライセンス: Link先を確認
Guoxing Sun, Rishabh Dabral, Pascal Fua, Christian Theobalt, Marc Habermann, (参考訳) まばらなRGB観測から得られた忠実な人間のパフォーマンスキャプチャとフリービューレンダリングは、視覚とグラフィックの長年の問題である。 主な課題は、観測の欠如と設定の固有のあいまいさ、例えば閉塞、深さのあいまいさである。 その結果、高頻度の外観と幾何細部を密な設定で捉えることに大きな期待を抱いている放射場は、単にスパースビューの入力に過度に適合するため、スパースカメラビューでそれらをナビゲートする際には、粗い処理を行う。 そこで我々はMetaCapを提案する。MetaCapは高効率で高品質な幾何復元と新しいビュー合成のための手法であり、非常にスパースで、しかも人間の単一のビューである。 私たちのキーとなるアイデアは、被写体の重量を多視点ビデオからメタラーニングすることです。 この前はネットワークウェイトの初期化が優れており、スパースビューキャプチャの曖昧さを効果的に解決する。 人体の関節構造と動きによって引き起こされる表面の変形のため、そのような事前の学習は簡単ではない。 そこで,ポーズ正準化空間におけるフィールド重みのメタラーニングを提案し,空間的特徴範囲を小さくし,特徴学習をより効果的にする。 その結果、フィールドパラメータを微調整して、目立たないポーズ、新しい照明条件、新規でスパースな(モノラルな)カメラビューに素早く一般化することができる。 新しいデータセットWildDynaCapは、密度の高いカメラドームと幅の狭いカメラリグの両方でキャプチャされた被写体を含み、最新の最先端の手法であるパブリックとWildDynaCapのデータセットよりも優れた結果を示す。

Faithful human performance capture and free-view rendering from sparse RGB observations is a long-standing problem in Vision and Graphics. The main challenges are the lack of observations and the inherent ambiguities of the setting, e.g. occlusions and depth ambiguity. As a result, radiance fields, which have shown great promise in capturing high-frequency appearance and geometry details in dense setups, perform poorly when naively supervising them on sparse camera views, as the field simply overfits to the sparse-view inputs. To address this, we propose MetaCap, a method for efficient and high-quality geometry recovery and novel view synthesis given very sparse or even a single view of the human. Our key idea is to meta-learn the radiance field weights solely from potentially sparse multi-view videos, which can serve as a prior when fine-tuning them on sparse imagery depicting the human. This prior provides a good network weight initialization, thereby effectively addressing ambiguities in sparse-view capture. Due to the articulated structure of the human body and motion-induced surface deformations, learning such a prior is non-trivial. Therefore, we propose to meta-learn the field weights in a pose-canonicalized space, which reduces the spatial feature range and makes feature learning more effective. Consequently, one can fine-tune our field parameters to quickly generalize to unseen poses, novel illumination conditions as well as novel and sparse (even monocular) camera views. For evaluating our method under different scenarios, we collect a new dataset, WildDynaCap, which contains subjects captured in, both, a dense camera dome and in-the-wild sparse camera rigs, and demonstrate superior results compared to recent state-of-the-art methods on, both, public and WildDynaCap dataset.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# ハイパーグラフニューラルネットワークに関するサーベイ:奥行きとステップバイステップガイド

A Survey on Hypergraph Neural Networks: An In-Depth and Step-By-Step Guide ( http://arxiv.org/abs/2404.01039v2 )

ライセンス: Link先を確認
Sunwoo Kim, Soo Yong Lee, Yue Gao, Alessia Antelmi, Mirko Polato, Kijung Shin, (参考訳) 高次相互作用(HOIs)は、現実世界の複雑なシステムやアプリケーションにおいてユビキタスである。 HOIのディープラーニングに関する調査は、データマイニングと機械学習コミュニティにとって重要な課題となっている。 HOIのネットワークはハイパーグラフとして数学的に表現されるため、ハイパーグラフニューラルネットワーク(HNN)はハイパーグラフ上での表現学習の強力なツールとして登場した。 新たなトレンドを踏まえて,HNNを対象とした最初の調査を,詳細なステップバイステップガイドで紹介する。 本稿では、HNNアーキテクチャ、トレーニング戦略、アプリケーションの概要について概説する。 まず、既存のHNNを4つのデザインコンポーネントに分割します。 (i)入力機能、 (ii)入力構造 (三)メッセージ通過方式、及び (4)訓練戦略。 第2に,HNN がそれぞれのコンポーネントで HOI をどのように処理し,学習するかを検討する。 第3に,HNNの勧告,バイオインフォマティクス,医学,時系列解析,コンピュータビジョンへの応用について概説する。 最後に,限界と今後の方向性について論じる。

Higher-order interactions (HOIs) are ubiquitous in real-world complex systems and applications. Investigation of deep learning for HOIs, thus, has become a valuable agenda for the data mining and machine learning communities. As networks of HOIs are expressed mathematically as hypergraphs, hypergraph neural networks (HNNs) have emerged as a powerful tool for representation learning on hypergraphs. Given the emerging trend, we present the first survey dedicated to HNNs, with an in-depth and step-by-step guide. Broadly, the present survey overviews HNN architectures, training strategies, and applications. First, we break existing HNNs down into four design components: (i) input features, (ii) input structures, (iii) message-passing schemes, and (iv) training strategies. Second, we examine how HNNs address and learn HOIs with each of their components. Third, we overview the recent applications of HNNs in recommendation, bioinformatics and medical science, time series analysis, and computer vision. Lastly, we conclude with a discussion on limitations and future directions.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# 大規模言語モデルの応答をいかに簡単に入力するか?

How Easily do Irrelevant Inputs Skew the Responses of Large Language Models? ( http://arxiv.org/abs/2404.03302v3 )

ライセンス: Link先を確認
Siye Wu, Jian Xie, Jiangjie Chen, Tinghui Zhu, Kai Zhang, Yanghua Xiao, (参考訳) 外部知識データベースからの情報検索を活用することで、Large Language Models (LLMs)は、多くの知識集約的なタスクを達成するための拡張された能力を示す。 しかし、現在の検索システムに固有の欠陥があるため、検索する上位のパスには無関係な情報が存在する可能性がある。 本研究では,様々な条件下での異なる種類の無関係情報に対するLSMの堅牢性に関する包括的調査を行う。 まず、意味的に無関係で、部分的に関連があり、質問に関係のある高品質な無関係な情報を構築するための枠組みを導入する。 さらに, 構築した無関係情報は, 類似度測定値に高いスコアを付けるだけでなく, 既存のシステムによって高い精度で検索されるだけでなく, 文脈とのセマンティックな関連性も持つことを示す。 我々の調査によると、現在のLLMは、高度に意味論的に関連のある情報を識別する上で依然として課題に直面しており、これら無関係で誤解を招くコンテンツに容易に気を散らすことができる。 また、関連のない情報を扱うための現在の解決策は、そのような注意をそらすためにLLMの堅牢性を改善するのに限界があることも見出した。 すべてのリソースはGitHubでhttps://github.com/Di-viner/LLM-Robustness-to-Irrelevant-Informationで公開されている。

By leveraging the retrieval of information from external knowledge databases, Large Language Models (LLMs) exhibit enhanced capabilities for accomplishing many knowledge-intensive tasks. However, due to the inherent flaws of current retrieval systems, there might exist irrelevant information within those retrieving top-ranked passages. In this work, we present a comprehensive investigation into the robustness of LLMs to different types of irrelevant information under various conditions. We initially introduce a framework to construct high-quality irrelevant information that ranges from semantically unrelated, partially related, and related to questions. Furthermore, our analysis demonstrates that the constructed irrelevant information not only scores highly on similarity metrics, being highly retrieved by existing systems, but also bears semantic connections to the context. Our investigation reveals that current LLMs still face challenges in discriminating highly semantically related information and can be easily distracted by these irrelevant yet misleading content. Besides, we also find that current solutions for handling irrelevant information have limitations in improving the robustness of LLMs to such distractions. All the resources are available on GitHub at https://github.com/Di-viner/LLM-Robustness-to-Irrelevant-Information.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# 私が思うに、私の手の中で:正確なエゴセントリックな2Dハンドポースとアクション認識

In My Perspective, In My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition ( http://arxiv.org/abs/2404.09308v2 )

ライセンス: Link先を確認
Wiktor Mucha, Martin Kampel, (参考訳) アクション認識は、エゴセントリックなビデオ理解に不可欠であり、ユーザの努力なしに日々の生活活動(ADL)の自動的かつ継続的なモニタリングを可能にする。 既存の文献では、計算集約的な深度推定ネットワークを必要とする3Dハンドポーズ入力や、不快な深度センサーを装着することに焦点を当てている。 対照的に、ユーザフレンドリーなスマートグラスが市場に出回っているにもかかわらず、エゴセントリックなアクション認識のための2Dハンドポーズを理解するには不十分な研究がある。 本研究は,エゴセントリックな行動認識のための2次元手ポーズ推定の分野を探求し,この研究ギャップを埋めることを目的としている。 まず,手動ポーズ推定のための2つの新しいアプローチ,すなわち手動ポーズ推定のためのEffHandEgoNetと,手動ポーズ推定のためのEffHandEgoNetを紹介する。 どちらの手法もH2OとFPHAの公開ベンチマークで最先端のモデルより優れている。 次に、2次元手とオブジェクトのポーズから頑健なアクション認識アーキテクチャを提案する。 本手法は、EffHandEgoNetと、トランスフォーマーに基づく行動認識方法を含む。 H2OデータセットとFPHAデータセットに基づいて、我々のアーキテクチャはより高速な推論時間を持ち、それぞれ91.32%と94.43%の精度を達成し、3Dベースの手法を含む最先端の手法を上回っている。 我々の研究は、2次元骨格データを使用することが、自我中心の行動理解のための堅牢なアプローチであることを実証している。 広範囲な評価とアブレーション研究は、手ポーズ推定アプローチの影響と、各入力が全体のパフォーマンスにどのように影響するかを示している。

Action recognition is essential for egocentric video understanding, allowing automatic and continuous monitoring of Activities of Daily Living (ADLs) without user effort. Existing literature focuses on 3D hand pose input, which requires computationally intensive depth estimation networks or wearing an uncomfortable depth sensor. In contrast, there has been insufficient research in understanding 2D hand pose for egocentric action recognition, despite the availability of user-friendly smart glasses in the market capable of capturing a single RGB image. Our study aims to fill this research gap by exploring the field of 2D hand pose estimation for egocentric action recognition, making two contributions. Firstly, we introduce two novel approaches for 2D hand pose estimation, namely EffHandNet for single-hand estimation and EffHandEgoNet, tailored for an egocentric perspective, capturing interactions between hands and objects. Both methods outperform state-of-the-art models on H2O and FPHA public benchmarks. Secondly, we present a robust action recognition architecture from 2D hand and object poses. This method incorporates EffHandEgoNet, and a transformer-based action recognition method. Evaluated on H2O and FPHA datasets, our architecture has a faster inference time and achieves an accuracy of 91.32% and 94.43%, respectively, surpassing state of the art, including 3D-based methods. Our work demonstrates that using 2D skeletal data is a robust approach for egocentric action understanding. Extensive evaluation and ablation studies show the impact of the hand pose estimation approach, and how each input affects the overall performance.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# 映像行動認識のための時間的文脈化の活用

Leveraging Temporal Contextualization for Video Action Recognition ( http://arxiv.org/abs/2404.09490v2 )

ライセンス: Link先を確認
Minji Kim, Dongyoon Han, Taekyung Kim, Bohyung Han, (参考訳) 本稿では,ビデオ内の時空間領域における大域的相互作用を通じて重要な時空間情報を活用する,時間的文脈化CLIP (TC-CLIP) と呼ばれるビデオ理解のための新しいフレームワークを提案する。 具体的には,ビデオの階層的時間情報注入機構である時間文脈化(TC)を導入する。 1) 各フレームからコア情報を抽出する。 2)要約のためのフレーム間の関連情報をコンテキストトークンに接続する。 3) 機能のエンコーディングにコンテキストトークンを利用する。 さらに、ビデオ条件プロンプト(VP)モジュールはコンテキストトークンを処理し、テキストモダリティのインフォメーションプロンプトを生成する。 ゼロショット, 少数ショット, ベース・ツー・ノーベル, 完全教師付きアクション認識における広範囲な実験により, モデルの有効性が検証された。 TCとVPのアブレーション研究は、私たちの設計選択を支持します。 ソースコードのプロジェクトページはhttps://github.com/naver-ai/tc-clip.comで公開されている。

We propose a novel framework for video understanding, called Temporally Contextualized CLIP (TC-CLIP), which leverages essential temporal information through global interactions in a spatio-temporal domain within a video. To be specific, we introduce Temporal Contextualization (TC), a layer-wise temporal information infusion mechanism for videos, which 1) extracts core information from each frame, 2) connects relevant information across frames for the summarization into context tokens, and 3) leverages the context tokens for feature encoding. Furthermore, the Video-conditional Prompting (VP) module processes context tokens to generate informative prompts in the text modality. Extensive experiments in zero-shot, few-shot, base-to-novel, and fully-supervised action recognition validate the effectiveness of our model. Ablation studies for TC and VP support our design choices. Our project page with the source code is available at https://github.com/naver-ai/tc-clip
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# Magic Clothing: 制御可能なガーメント駆動画像合成

Magic Clothing: Controllable Garment-Driven Image Synthesis ( http://arxiv.org/abs/2404.09512v2 )

ライセンス: Link先を確認
Weifeng Chen, Tao Gu, Yuhao Xu, Chengcai Chen, (参考訳) 我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。 多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目的として、画像制御性は最も重要な問題であり、例えば、衣服の詳細を保存し、テキストプロンプトへの忠実性を維持することである。 この目的のために, 被服の特徴を捉えた衣服抽出装置を導入し, 自己注意融合を用いて, 予め訓練したLCDに組み込むことにより, 被服の詳細が目標キャラクタに変化しないことを保証した。 そして, 共同分類器フリーガイダンスを利用して, 生成した結果に対して, 衣服の特徴とテキストプロンプトのバランスをとる。 一方,提案する衣料抽出器は様々な微調整 LDM に適用可能なプラグインモジュールであり,制御ネットやIP-Adapter といった他の拡張と組み合わせることで,生成した文字の多様性と制御性を高めることができる。 さらに,対象画像と被写体との整合性を評価するための頑健な指標であるMatched-Points-LPIPS (MP-LPIPS) を設計した。 広汎な実験により, 衣服駆動画像合成のための様々な条件制御の下で, 我々のマジック・クローチングが最先端の成果を達成できることが証明された。 ソースコードはhttps://github.com/ShineChen1024/MagicClothing.comで公開されています。

We propose Magic Clothing, a latent diffusion model (LDM)-based network architecture for an unexplored garment-driven image synthesis task. Aiming at generating customized characters wearing the target garments with diverse text prompts, the image controllability is the most critical issue, i.e., to preserve the garment details and maintain faithfulness to the text prompts. To this end, we introduce a garment extractor to capture the detailed garment features, and employ self-attention fusion to incorporate them into the pretrained LDMs, ensuring that the garment details remain unchanged on the target character. Then, we leverage the joint classifier-free guidance to balance the control of garment features and text prompts over the generated results. Meanwhile, the proposed garment extractor is a plug-in module applicable to various finetuned LDMs, and it can be combined with other extensions like ControlNet and IP-Adapter to enhance the diversity and controllability of the generated characters. Furthermore, we design Matched-Points-LPIPS (MP-LPIPS), a robust metric for evaluating the consistency of the target image to the source garment. Extensive experiments demonstrate that our Magic Clothing achieves state-of-the-art results under various conditional controls for garment-driven image synthesis. Our source code is available at https://github.com/ShineChen1024/MagicClothing.
翻訳日:2024-07-25 19:01:10 公開日:2024-07-24
# AesExpert:画像美観知覚のためのマルチモーダリティ基礎モデル

AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception ( http://arxiv.org/abs/2404.09624v3 )

ライセンス: Link先を確認
Yipo Huang, Xiangfei Sheng, Zhichao Yang, Quan Yuan, Zhichao Duan, Pengfei Chen, Leida Li, Weisi Lin, Guangming Shi, (参考訳) 画像美学知覚(IAP)の高度に抽象的な性質は、現在のマルチモーダル大言語モデル(MLLM)に重大な課題をもたらす。 このジレンマはさらに悪化し、MLLMは美学の知覚能力に欠ける。 上記の課題に対処するため,我々はまず,マルチモーダルな美学基礎モデル構築の基盤となる,包括的アノテーション付きマルチモーダル・インストラクション・チューニング(AesMMIT)データセットを導入する。 具体的には,MLLMを人間の審美的知覚に合わせるために,コーパスリッチな審美的批判データベースを構築した。 MLLMが多様なクエリを扱えるようにするために、GPTに麻酔的批評を洗練させ、大規模な麻酔的指導訓練データセット、すなわち409Kのマルチタイプ命令からなるAesMMITを組み立て、より強力な麻酔的能力を活性化させる。 AesMMITデータベースをベースとして,オープンソース基盤モデルを微調整し,AesExpertと呼ばれるマルチモダリティAesthetic Expertモデルを実現する。 大規模な実験により、提案されたAesExpertモデルは、最先端のGPT-4VやGemini-Pro-Visionを含む最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。 プロジェクトホームページ:https://yipoh.github.io/aes-expert/。

The highly abstract nature of image aesthetics perception (IAP) poses significant challenge for current multimodal large language models (MLLMs). The lack of human-annotated multi-modality aesthetic data further exacerbates this dilemma, resulting in MLLMs falling short of aesthetics perception capabilities. To address the above challenge, we first introduce a comprehensively annotated Aesthetic Multi-Modality Instruction Tuning (AesMMIT) dataset, which serves as the footstone for building multi-modality aesthetics foundation models. Specifically, to align MLLMs with human aesthetics perception, we construct a corpus-rich aesthetic critique database with 21,904 diverse-sourced images and 88K human natural language feedbacks, which are collected via progressive questions, ranging from coarse-grained aesthetic grades to fine-grained aesthetic descriptions. To ensure that MLLMs can handle diverse queries, we further prompt GPT to refine the aesthetic critiques and assemble the large-scale aesthetic instruction tuning dataset, i.e. AesMMIT, which consists of 409K multi-typed instructions to activate stronger aesthetic capabilities. Based on the AesMMIT database, we fine-tune the open-sourced general foundation models, achieving multi-modality Aesthetic Expert models, dubbed AesExpert. Extensive experiments demonstrate that the proposed AesExpert models deliver significantly better aesthetic perception performances than the state-of-the-art MLLMs, including the most advanced GPT-4V and Gemini-Pro-Vision. Project homepage: https://yipoh.github.io/aes-expert/.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# FipTR: 自動運転における将来予測のためのシンプルで効果的なトランスフォーマーフレームワーク

FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving ( http://arxiv.org/abs/2404.12867v2 )

ライセンス: Link先を確認
Xingtai Gui, Tengteng Huang, Haonan Shao, Haotian Yao, Chi Zhang, (参考訳) Bird's Eye View(BEV)の観点からの将来のインスタンス予測は、将来のインスタンスセグメンテーションとインスタンスの動き予測を含む、自動運転における重要なコンポーネントである。 既存のメソッドは通常、複数の補助出力と後処理手順を必要とする冗長で複雑なパイプラインに依存している。 さらに、各補助予測に対する推定誤差は、予測性能の低下につながる。 本稿では,Future Instance Prediction Transformer (FipTR) という,BEVインスタンスのセグメンテーションと将来のフレームの予測を行うシンプルなエンドツーエンドフレームワークを提案する。 本稿では,特定のトラフィック参加者を表すインスタンスクエリを採用して,対応する将来的なマスクを直接推定し,複雑な後処理手順を取り除くことを提案する。 さらに,フロー認識型BEV予測器を考案し,オフセットサンプリングを導出する逆流を考慮に入れた,フロー認識変形性アテンションからなる将来のBEV特徴予測を行う。 時間的コヒーレンスをさらに改善するために、新しい将来的なインスタンスマッチング戦略も提案されている。 広汎な実験は、異なる時間的BEVエンコーダ下でのFipTRの優位性とその有効性を示す。 コードはhttps://github.com/TabGuigui/FipTRで公開されている。

The future instance prediction from a Bird's Eye View(BEV) perspective is a vital component in autonomous driving, which involves future instance segmentation and instance motion prediction. Existing methods usually rely on a redundant and complex pipeline which requires multiple auxiliary outputs and post-processing procedures. Moreover, estimated errors on each of the auxiliary predictions will lead to degradation of the prediction performance. In this paper, we propose a simple yet effective fully end-to-end framework named Future Instance Prediction Transformer(FipTR), which views the task as BEV instance segmentation and prediction for future frames. We propose to adopt instance queries representing specific traffic participants to directly estimate the corresponding future occupied masks, and thus get rid of complex post-processing procedures. Besides, we devise a flow-aware BEV predictor for future BEV feature prediction composed of a flow-aware deformable attention that takes backward flow guiding the offset sampling. A novel future instance matching strategy is also proposed to further improve the temporal coherence. Extensive experiments demonstrate the superiority of FipTR and its effectiveness under different temporal BEV encoders. The code is available at https://github.com/TabGuigui/FipTR .
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# eFPGAをターゲットとした資源効率の中性子/ガンマ分類MLモデルの検討

Investigating Resource-efficient Neutron/Gamma Classification ML Models Targeting eFPGAs ( http://arxiv.org/abs/2404.14436v2 )

ライセンス: Link先を確認
Jyothisraj Johnson, Billy Boxer, Tarun Prakash, Carl Grace, Peter Sorensen, Mani Tripathi, (参考訳) ハードウェアにおける機械学習(ML)モデルの実装には、ここ数年、粒子物理学と核物理学のコミュニティからかなりの関心が寄せられ、進歩を遂げてきた。 これはPython MLライブラリを使用して指定およびトレーニングされたモデルを移植して、転送レベル(RTL)コードを登録可能にするものだ。 これまでのところ、主なターゲットはFPGAやASIC上のカスタムブロックの商用化だった。 しかし、最近のオープンソース組み込みFPGA(eFPGA)フレームワークの開発は、ハードウェアにMLモデルを実装するための代替的で柔軟な経路を提供している。 これらのカスタマイズされたeFPGAファブリックは、全体的なチップ設計の一部として統合することができる。 一般に、完全なカスタム、eFPGA、商用FPGA ML実装間の決定は、エンドユースアプリケーションの詳細に依存する。 本研究では,完全連結ニューラルネットワーク(fcNN)のeFPGA実装のためのパラメータ空間と,資源効率に着目した中性子/ガンマ分類タスクを用いた決定木(BDT)モデルについて検討した。 我々は,OnSemi J-Series SiPMと光学的に結合したAmBeシールソースインシデントを用いて収集したデータを用いて,本研究のトレーニングデータと試験データを生成した。 本研究は,MLアーキテクチャの両方のハイパーパラメータにおいて,関連する入力特徴とビット分解能およびサンプリングレートの影響について検討し,総リソース使用量の追跡を行った。 モデル性能を追跡するために用いられる性能指標は10$^{-3}$のガンマリークにおける中性子効率の計算値であった。 この研究結果は、テストチップの一部として統合されるeFPGAファブリックの仕様策定を支援するために使用される。

There has been considerable interest and resulting progress in implementing machine learning (ML) models in hardware over the last several years from the particle and nuclear physics communities. A big driver has been the release of the Python package, hls4ml, which has enabled porting models specified and trained using Python ML libraries to register transfer level (RTL) code. So far, the primary end targets have been commercial FPGAs or synthesized custom blocks on ASICs. However, recent developments in open-source embedded FPGA (eFPGA) frameworks now provide an alternate, more flexible pathway for implementing ML models in hardware. These customized eFPGA fabrics can be integrated as part of an overall chip design. In general, the decision between a fully custom, eFPGA, or commercial FPGA ML implementation will depend on the details of the end-use application. In this work, we explored the parameter space for eFPGA implementations of fully-connected neural network (fcNN) and boosted decision tree (BDT) models using the task of neutron/gamma classification with a specific focus on resource efficiency. We used data collected using an AmBe sealed source incident on Stilbene, which was optically coupled to an OnSemi J-series SiPM to generate training and test data for this study. We investigated relevant input features and the effects of bit-resolution and sampling rate as well as trade-offs in hyperparameters for both ML architectures while tracking total resource usage. The performance metric used to track model performance was the calculated neutron efficiency at a gamma leakage of 10$^{-3}$. The results of the study will be used to aid the specification of an eFPGA fabric, which will be integrated as part of a test chip.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# 協調認知のためのフェデレーション学習フレームワークについて

On the Federated Learning Framework for Cooperative Perception ( http://arxiv.org/abs/2404.17147v3 )

ライセンス: Link先を確認
Zhenrong Zhang, Jianan Liu, Xi Zhou, Tao Huang, Qing-Long Han, Jingxin Liu, Hongbin Liu, (参考訳) 協力的な認識は将来の輸送システムの効率性と安全性を高めるために不可欠であり、道路上の車両間での広範なデータ共有が必要であり、プライバシー上の懸念を生じさせる。 フェデレーション学習は、コネクテッドおよび自律走行車(CAV)間の知覚、意思決定、計画における、データのプライバシ保護による協調的な強化を可能にすることで、有望なソリューションを提供する。 しかし、フェデレート学習は、多様なクライアント間のデータの均一性から生じる重大な課題によって妨げられ、モデルの精度が低下し、収束期間が長くなる可能性がある。 本研究では, 動的調整損失(DALoss)関数によって促進されるFedDWAアルゴリズム(Federated dynamic weighted aggregate, FedDWA)と呼ばれる, CPのための特殊な連合学習フレームワークを提案する。 このフレームワークは、動的クライアント重み付けをモデル収束の直接化に利用し、KLD(Kullback-Leibler divergence)を利用して非独立かつ同一に分散された(Non-IID)データと不均衡なデータの有害な影響を対処する新しい損失関数を統合する。 BEV変換器を主モデルとして、FedBEVTデータで拡張したOpenV2Vデータセットの厳密なテストを行い、結合平均交差(IoU)が大幅に改善されたことを示す。 これらの結果は,CPにおけるデータ不均一性問題に対処し,環境認識モデルの精度を高め,交通セクターにおけるより堅牢で効率的な協調学習ソリューションを実現するための,我々の連合学習フレームワークの実質的な可能性を強調した。

Cooperative perception is essential to enhance the efficiency and safety of future transportation systems, requiring extensive data sharing among vehicles on the road, which raises significant privacy concerns. Federated learning offers a promising solution by enabling data privacy-preserving collaborative enhancements in perception, decision-making, and planning among connected and autonomous vehicles (CAVs). However, federated learning is impeded by significant challenges arising from data heterogeneity across diverse clients, potentially diminishing model accuracy and prolonging convergence periods. This study introduces a specialized federated learning framework for CP, termed the federated dynamic weighted aggregation (FedDWA) algorithm, facilitated by dynamic adjusting loss (DALoss) function. This framework employs dynamic client weighting to direct model convergence and integrates a novel loss function that utilizes Kullback-Leibler divergence (KLD) to counteract the detrimental effects of non-independently and identically distributed (Non-IID) and unbalanced data. Utilizing the BEV transformer as the primary model, our rigorous testing on the OpenV2V dataset, augmented with FedBEVT data, demonstrates significant improvements in the average intersection over union (IoU). These results highlight the substantial potential of our federated learning framework to address data heterogeneity challenges in CP, thereby enhancing the accuracy of environmental perception models and facilitating more robust and efficient collaborative learning solutions in the transportation sector.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# QUICK:量子アライメントされたセントロイドカーネル

QUACK: Quantum Aligned Centroid Kernel ( http://arxiv.org/abs/2405.00304v2 )

ライセンス: Link先を確認
Kilian Tscharke, Sebastian Issel, Pascal Debus, (参考訳) 量子コンピューティング(QC)は機械学習(ML)の応用の可能性を示しているようだ。 特に量子カーネル法(QKM)は、教師付きMLタスクで使用するための有望な特性を示す。 しかし、カーネルメソッドの大きな欠点は、トレーニングサンプルの数とともに、その好ましくない2次スケーリングである。 現在利用可能な量子ハードウェア(NISQデバイス)が課している制限と、その低い量子ビットコヒーレンス時間、少ない量子ビット、高いエラー率とともに、産業的に関連するスケールでのMLでのQCの使用は現在不可能である。 QKMの潜在的な応用性を改善するための小さなステップとして、トレーニング中のサンプル数と時間複雑性が線形にスケールする量子カーネルアルゴリズムであるQUICKを導入し、推論段階でのトレーニングサンプル数に依存しない。 トレーニングプロセスでは、サンプルのカーネルエントリとクラスの中心のみを計算し、すなわち、nサンプルとcクラスのカーネルの最大形状は(n,c)である。 トレーニング中、量子カーネルのパラメータとセントロイドの位置は反復的に最適化される。 推論段階では、新しいサンプルごとに、回路は全てのセントロイド、すなわちC時間でのみ評価される。 QUICKアルゴリズムは,学習中に2次スケーリングを施した古典的カーネル手法と同等のレベルで,良好な結果が得られることを示す。 さらに,本アルゴリズムでは,MNISTのような次元の縮小を伴わずに,774の特徴を持つ高次元データセットを処理可能である。

Quantum computing (QC) seems to show potential for application in machine learning (ML). In particular quantum kernel methods (QKM) exhibit promising properties for use in supervised ML tasks. However, a major disadvantage of kernel methods is their unfavorable quadratic scaling with the number of training samples. Together with the limits imposed by currently available quantum hardware (NISQ devices) with their low qubit coherence times, small number of qubits, and high error rates, the use of QC in ML at an industrially relevant scale is currently impossible. As a small step in improving the potential applications of QKMs, we introduce QUACK, a quantum kernel algorithm whose time complexity scales linear with the number of samples during training, and independent of the number of training samples in the inference stage. In the training process, only the kernel entries for the samples and the centers of the classes are calculated, i.e. the maximum shape of the kernel for n samples and c classes is (n, c). During training, the parameters of the quantum kernel and the positions of the centroids are optimized iteratively. In the inference stage, for every new sample the circuit is only evaluated for every centroid, i.e. c times. We show that the QUACK algorithm nevertheless provides satisfactory results and can perform at a similar level as classical kernel methods with quadratic scaling during training. In addition, our (simulated) algorithm is able to handle high-dimensional datasets such as MNIST with 784 features without any dimensionality reduction.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# 高次元リッジ回帰における最適バイアス補正と正当性推論:閉じた解法

Optimal Bias-Correction and Valid Inference in High-Dimensional Ridge Regression: A Closed-Form Solution ( http://arxiv.org/abs/2405.00424v2 )

ライセンス: Link先を確認
Zhaoxing Gao, Ruey S. Tsay, (参考訳) リッジ回帰は、ビッグデータ分析において必須のツールである。 しかし、その固有のバイアスは、様々なアプリケーションにまたがる統計的効率性とスケーラビリティの両方を妥協する、重要かつ長期間にわたる課題をもたらす。 この重要な問題に対処するために、寸法$p$がサンプルサイズ$n$より小さい場合、バイアスを効果的に補正するための反復戦略を導入する。 p>n$の場合、提案した非バイアス推定器の残余バイアスが応答データの線形変換によって達成できないようなバイアスを最適に緩和する。 p>n$のときの残差に対処するために、Ride-Screening (RS) 法を用い、バイアス補正に適した縮小モデルを生成する。 重要なことに、ある条件下では、真のモデルが選択されたモデルの中にネストされ、RSを新しい変数選択アプローチとして強調する。 厳密な解析により、弱バイアスのリッジ推定器の漸近特性と有効推論を$p<n$と$p>n$の両方で確立し、ここでは、$p$と$n$は、反復数とともに無限大へと増加する可能性がある。 さらに、シミュレーションおよび実世界のデータ例を用いて、これらの結果を検証する。 本手法は,様々な分野にわたるリッジ回帰推論におけるバイアス問題に対する変換解を提供する。

Ridge regression is an indispensable tool in big data analysis. Yet its inherent bias poses a significant and longstanding challenge, compromising both statistical efficiency and scalability across various applications. To tackle this critical issue, we introduce an iterative strategy to correct bias effectively when the dimension $p$ is less than the sample size $n$. For $p>n$, our method optimally mitigates the bias such that any remaining bias in the proposed de-biased estimator is unattainable through linear transformations of the response data. To address the remaining bias when $p>n$, we employ a Ridge-Screening (RS) method, producing a reduced model suitable for bias correction. Crucially, under certain conditions, the true model is nested within our selected one, highlighting RS as a novel variable selection approach. Through rigorous analysis, we establish the asymptotic properties and valid inferences of our de-biased ridge estimators for both $p<n$ and $p>n$, where, both $p$ and $n$ may increase towards infinity, along with the number of iterations. We further validate these results using simulated and real-world data examples. Our method offers a transformative solution to the bias challenge in ridge regression inferences across various disciplines.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# 不均衡分類におけるバランシング手法の羅生門効果に関する実験的研究

An Experimental Study on the Rashomon Effect of Balancing Methods in Imbalanced Classification ( http://arxiv.org/abs/2405.01557v4 )

ライセンス: Link先を確認
Mustafa Cavus, Przemysław Biecek, (参考訳) 予測モデルは、不均衡なデータセットを分類する際にバイアス付き予測を生成する。 これは、モデルが多数派クラスを好むときに起こり、少数派クラスを正確に予測する性能が低下する。 この問題に対処するためには、予測性能を改善するために、モデリングプロセスにおけるデータ中心のAIアプローチのバランスや再サンプリングが重要である。 しかし,近年,これらの手法の機能に関する議論や疑問が持ち上がっている。 特に、多くの候補モデルは、モデル選択において、ラショモン効果と呼ばれる非常に類似した予測性能を示し、同じ観測に対して異なる予測を生成することもある。 これらのモデルの1つを選択することは、予測的多重性(つまり、任意のサンプルに対して矛盾するモデルの予測を得る場合)を考慮せずに、盲点選択をもたらす。 本稿では,ラショモン効果を用いて,バランシング手法が予測乗算性に与える影響について検討する。 データ中心のAIにおける盲点モデル選択は、ほぼ同じ精度のモデルのセットからリスクが高いため、非常に重要です。 これは、モデル選択、検証、説明において深刻な問題を引き起こす可能性がある。 この問題に対処するため,本研究では,既存手法の曖昧さと不明瞭さに加えて,新たに提案された測度不明瞭さを用いることで,分散手法がラショモン効果による予測乗法に与える影響を観測するために,実際のデータセット実験を行った。 その結果, バランス法は, 予測多重度を増大させ, 様々な結果をもたらすことがわかった。 そこで本研究では,予測性能と予測乗算とのトレードオフを考慮し,学習データのバランスをとる際に,評価ゲインプロットの拡張版を用いることを提案する。

Predictive models may generate biased predictions when classifying imbalanced datasets. This happens when the model favors the majority class, leading to low performance in accurately predicting the minority class. To address this issue, balancing or resampling methods are critical data-centric AI approaches in the modeling process to improve prediction performance. However, there have been debates and questions about the functionality of these methods in recent years. In particular, many candidate models may exhibit very similar predictive performance, called the Rashomon effect, in model selection, and they may even produce different predictions for the same observations. Selecting one of these models without considering the predictive multiplicity -- which is the case of yielding conflicting models' predictions for any sample -- can result in blind selection. In this paper, the impact of balancing methods on predictive multiplicity is examined using the Rashomon effect. It is crucial because the blind model selection in data-centric AI is risky from a set of approximately equally accurate models. This may lead to severe problems in model selection, validation, and explanation. To tackle this matter, we conducted real dataset experiments to observe the impact of balancing methods on predictive multiplicity through the Rashomon effect by using a newly proposed metric obscurity in addition to the existing ones: ambiguity and discrepancy. Our findings showed that balancing methods inflate the predictive multiplicity and yield varying results. To monitor the trade-off between the prediction performance and predictive multiplicity for conducting the modeling process responsibly, we proposed using the extended version of the performance-gain plot when balancing the training data.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# データセット分析としてのLLM:大規模言語モデルを用いたサブポピュレーション構造発見

LLM as Dataset Analyst: Subpopulation Structure Discovery with Large Language Model ( http://arxiv.org/abs/2405.02363v2 )

ライセンス: Link先を確認
Yulin Luo, Ruichuan An, Bocheng Zou, Yiming Tang, Jiaming Liu, Shanghang Zhang, (参考訳) サブポピュレーションの分布はデータセット内に隠された重要な特性である。 データセット内のサブポピュレーション分布の解明と分析は、データセットの包括的な理解を提供し、データセットサブポピュレーション組織、サブポピュレーションシフト、スライスディスカバリなど、さまざまな下流タスクに有用な強力なツールとして立っている。 その重要性にもかかわらず、我々の知識に対するデータセットのサブポピュレーション分布を体系的に探求する研究は行われていない。 この制限に対処し、全てのタスクを統一的に解決するために、データセット内のサブポピュレーション分布を表現、分析、利用するための新しいサブポピュレーション構造の概念を導入する。 本研究では,Large Language Models (LLM) の知識と命令追従機能を活用し,言語学的に情報的イメージキャプションを解析し,構造を要約するサブポピュレーション構造ディスカバリー(SSD-LLM)フレームワークを提案する。 さらに、本研究では、データセットサブポピュレーション組織、サブポピュレーションシフト、スライス発見を含むサブポピュレーション関連タスクのスペクトルに対する、検出された構造の適用を示す、タスク固有チューニング(Task-specific Tuning)と呼ばれる下流タスクに対処するための完全なワークフローを提案する。 さらに、本研究では、データセットサブポピュレーション組織、サブポピュレーションシフト、スライス発見を含むサブポピュレーション関連タスクのスペクトルに対する、検出された構造の適用を示す、タスク固有チューニング(Task-specific Tuning)と呼ばれる下流タスクに対処するための完全なワークフローを提案する。

The distribution of subpopulations is an important property hidden within a dataset. Uncovering and analyzing the subpopulation distribution within datasets provides a comprehensive understanding of the datasets, standing as a powerful tool beneficial to various downstream tasks, including Dataset Subpopulation Organization, Subpopulation Shift, and Slice Discovery. Despite its importance, there has been no work that systematically explores the subpopulation distribution of datasets to our knowledge. To address the limitation and solve all the mentioned tasks in a unified way, we introduce a novel concept of subpopulation structures to represent, analyze, and utilize subpopulation distributions within datasets. To characterize the structures in an interpretable manner, we propose the Subpopulation Structure Discovery with Large Language Models (SSD-LLM) framework, which employs world knowledge and instruction-following capabilities of Large Language Models (LLMs) to linguistically analyze informative image captions and summarize the structures. Furthermore, we propose complete workflows to address downstream tasks, named Task-specific Tuning, showcasing the application of the discovered structure to a spectrum of subpopulation-related tasks, including dataset subpopulation organization, subpopulation shift, and slice discovery. Furthermore, we propose complete workflows to address downstream tasks, named Task-specific Tuning, showcasing the application of the discovered structure to a spectrum of subpopulation-related tasks, including dataset subpopulation organization, subpopulation shift, and slice discovery.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# Rasterized Edge Gradients:不連続性を異なる方法で扱う

Rasterized Edge Gradients: Handling Discontinuities Differentiably ( http://arxiv.org/abs/2405.02508v4 )

ライセンス: Link先を確認
Stanislav Pidhorskyi, Tomas Simon, Gabriel Schwartz, He Wen, Yaser Sheikh, Jason Saragih, (参考訳) レンダリングプロセスの勾配を計算することは、コンピュータビジョンやグラフィックスの様々な応用において最重要である。 しかし、これらの勾配の正確な計算は、特に表面表現やラスタライズに基づくレンダリングにおいて、不連続性やレンダリング近似のために困難である。 本稿では,ラスタライズに基づく微分可能レンダラーの可視性不連続性の勾配計算法を提案する。 提案手法は, 厳密に設計された近似戦略により従来の複雑な問題をエレガントに単純化し, 単純で効果的かつ実効性のある解を実現する。 マイクロエッジの概念を導入し,ラスタライズされた画像を,本質的に微分不可能な離散画素ラスタライゼーションと整合した,微分可能で連続的なプロセスの結果として扱えるようにした。 この技術は、レンダリングされた画像の整合性を保ち、フォワードパスに近似やその他の修正をレンダリングする必要をなくし、フィルタリングが禁止されているラスタ化マスク、深さ、および正常な画像に適用できるようにする。 マイクロエッジの利用は、不連続での勾配解釈を単純化し、幾何学的交叉の扱いを可能にし、以前の技術よりも有利である。 本手法は人間の頭部の動的再構成において,カメラ画像とセグメンテーションマスクの効果的処理を実証するものである。

Computing the gradients of a rendering process is paramount for diverse applications in computer vision and graphics. However, accurate computation of these gradients is challenging due to discontinuities and rendering approximations, particularly for surface-based representations and rasterization-based rendering. We present a novel method for computing gradients at visibility discontinuities for rasterization-based differentiable renderers. Our method elegantly simplifies the traditionally complex problem through a carefully designed approximation strategy, allowing for a straightforward, effective, and performant solution. We introduce a novel concept of micro-edges, which allows us to treat the rasterized images as outcomes of a differentiable, continuous process aligned with the inherently non-differentiable, discrete-pixel rasterization. This technique eliminates the necessity for rendering approximations or other modifications to the forward pass, preserving the integrity of the rendered image, which makes it applicable to rasterized masks, depth, and normals images where filtering is prohibitive. Utilizing micro-edges simplifies gradient interpretation at discontinuities and enables handling of geometry intersections, offering an advantage over the prior art. We showcase our method in dynamic human head scene reconstruction, demonstrating effective handling of camera images and segmentation masks.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# プラトン表現仮説

The Platonic Representation Hypothesis ( http://arxiv.org/abs/2405.07987v4 )

ライセンス: Link先を確認
Minyoung Huh, Brian Cheung, Tongzhou Wang, Phillip Isola, (参考訳) AIモデル、特にディープネットワークにおける表現は収束していると我々は主張する。 まず、時間とともに複数のドメインにわたって、異なるニューラルネットワークがデータを表現する方法が整合してきているという、文献における収束の多くの例を調査します。 次に、データモダリティ間の収束を実証する。ビジョンモデルと言語モデルが大きくなるにつれて、データポイント間の距離を、より似たような方法で測定する。 我々は、この収束が、プラトンの理想的現実の概念に似た、共有された統計的な現実モデルに向かっていると仮定する。 このような表現をプラトニック表現と呼び、それに対するいくつかの選択的な圧力について論じる。 最後に、これらの傾向、その限界、分析に対する反例について論じる。

We argue that representations in AI models, particularly deep networks, are converging. First, we survey many examples of convergence in the literature: over time and across multiple domains, the ways by which different neural networks represent data are becoming more aligned. Next, we demonstrate convergence across data modalities: as vision models and language models get larger, they measure distance between datapoints in a more and more alike way. We hypothesize that this convergence is driving toward a shared statistical model of reality, akin to Plato's concept of an ideal reality. We term such a representation the platonic representation and discuss several possible selective pressures toward it. Finally, we discuss the implications of these trends, their limitations, and counterexamples to our analysis.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# Common-Ground Opinions を用いたワクチンメッセージングの試行

Tailoring Vaccine Messaging with Common-Ground Opinions ( http://arxiv.org/abs/2405.10861v2 )

ライセンス: Link先を確認
Rickard Stureborg, Sanxing Chen, Ruoyu Xie, Aayushi Patel, Christopher Li, Chloe Qinyu Zhu, Tingnan Hu, Jun Yang, Bhuwan Dhingra, (参考訳) チャットボットのインタラクションをパーソナライズする方法の1つは、意図した読者との共通基盤を確立することである。 相互理解の確立が特に影響のある分野は、ワクチンの懸念と誤報である。 ワクチンの介入は、予防接種に関する懸念に答えるためのメッセージングの形式である。 意見の相違がほとんどないため、この領域での意見の調整は困難である。 我々は、ワクチンの介入をCGO(Common-Ground Opinion)に合わせるタスクを定義する。 CGOに対する回答の調整は、読者が持っている意見や信念に関連付けることによって、回答を有意義に改善する。 本稿では,提供されたCGOに対して,応答がどの程度適切に調整されているかを評価するデータセットであるTAILOR-CGOを紹介する。 GPT-4-Turbo の精度は,GPT-4-Turbo よりも優れていた。 また、細粒化LDMよりも効率よく正確なBERTモデル、CGOへのワクチンメッセージングの調整を成功させる方法、この調査から実行可能なレコメンデーションなど、自動評価指標を構築した。 コードとモデルの重み: https://github.com/rickardstureborg/tailor-cgo Dataset: https://huggingface.co/datasets/DukeNLP/tailor-cgo

One way to personalize chatbot interactions is by establishing common ground with the intended reader. A domain where establishing mutual understanding could be particularly impactful is vaccine concerns and misinformation. Vaccine interventions are forms of messaging which aim to answer concerns expressed about vaccination. Tailoring responses in this domain is difficult, since opinions often have seemingly little ideological overlap. We define the task of tailoring vaccine interventions to a Common-Ground Opinion (CGO). Tailoring responses to a CGO involves meaningfully improving the answer by relating it to an opinion or belief the reader holds. In this paper we introduce TAILOR-CGO, a dataset for evaluating how well responses are tailored to provided CGOs. We benchmark several major LLMs on this task; finding GPT-4-Turbo performs significantly better than others. We also build automatic evaluation metrics, including an efficient and accurate BERT model that outperforms finetuned LLMs, investigate how to successfully tailor vaccine messaging to CGOs, and provide actionable recommendations from this investigation. Code and model weights: https://github.com/rickardstureborg/tailor-cgo Dataset: https://huggingface.co/datasets/DukeNLP/tailor-cgo
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# Promptable Queriesによる3次元視覚言語理解の統一

Unifying 3D Vision-Language Understanding via Promptable Queries ( http://arxiv.org/abs/2405.11442v2 )

ライセンス: Link先を確認
Ziyu Zhu, Zhuofan Zhang, Xiaojian Ma, Xuesong Niu, Yixin Chen, Baoxiong Jia, Zhidong Deng, Siyuan Huang, Qing Li, (参考訳) 3次元視覚言語(3D-VL)理解のための統一モデルでは,様々なシーン表現を取り入れ,多種多様なタスクを3Dシーンで実行することが期待される。 しかし、3次元マルチタスクトレーニングの独立的な適用と不十分な探索のため、既存の手法とそのような統一モデルとの間には大きなギャップがある。 本稿では,PQ3Dについて紹介する。PQ3Dは,低レベルなインスタンスセグメンテーションから高レベルな推論,計画に至るまで,Promptable Queriesを使用して広範囲な3D-VLタスクに対処できる統一モデルである。 これは,(1) 様々な3次元シーン表現(ボクセル,点雲,マルチビュー画像)をセグメントレベルグルーピングにより共有3次元座標空間に統一すること,(2) プロンプトで案内されるタスク固有情報検索のための注目型クエリデコーダ,(3) マルチタスクトレーニングをサポートするための共通出力ヘッド,の3つの重要なイノベーションによって達成される。 10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクで素晴らしいパフォーマンスを示し、ほとんどのベンチマークで新しいレコードを設定している。 特に、PQ3DはScanNet200の最先端を4.9%(AP25)、ScanReferを5.4%(acc@0.5)、Multi3DReferを11.7%(F1@0.5)、Scan2Capを13.4%(CIDEr@0.5)改善している。 さらに、PQ3Dは、個々のまたは組み合わせた3D表現、例えば、単にボクセル入力による柔軟な推論をサポートする。

A unified model for 3D vision-language (3D-VL) understanding is expected to take various scene representations and perform a wide range of tasks in a 3D scene. However, a considerable gap exists between existing methods and such a unified model, due to the independent application of representation and insufficient exploration of 3D multi-task training. In this paper, we introduce PQ3D, a unified model capable of using Promptable Queries to tackle a wide range of 3D-VL tasks, from low-level instance segmentation to high-level reasoning and planning. This is achieved through three key innovations: (1) unifying various 3D scene representations (i.e., voxels, point clouds, multi-view images) into a shared 3D coordinate space by segment-level grouping, (2) an attention-based query decoder for task-specific information retrieval guided by prompts, and (3) universal output heads for different tasks to support multi-task training. Tested across ten diverse 3D-VL datasets, PQ3D demonstrates impressive performance on these tasks, setting new records on most benchmarks. Particularly, PQ3D improves the state-of-the-art on ScanNet200 by 4.9% (AP25), ScanRefer by 5.4% (acc@0.5), Multi3DRefer by 11.7% (F1@0.5), and Scan2Cap by 13.4% (CIDEr@0.5). Moreover, PQ3D supports flexible inference with individual or combined forms of available 3D representations, e.g., solely voxel input.
翻訳日:2024-07-25 18:51:23 公開日:2024-07-24
# プライバシーは消費者に何をもたらすのか?

What Do Privacy Advertisements Communicate to Consumers? ( http://arxiv.org/abs/2405.13857v3 )

ライセンス: Link先を確認
Xiaoxin Shen, Eman Alashwali, Lorrie Faith Cranor, (参考訳) 企業がプライバシプラクティスの促進や特定のプライバシ機能の強調を目的としたマーケティング資料をリリースするとき、消費者に実際に何を伝えるのか? 本稿では,(1)キャンペーン提供団体に対する消費者の態度,(2)全体的なプライバシ意識,(3)提案されたプライバシアドバイスの行動可能性に対するプライバシマーケティングの影響について検討する。 この目的のために,5つのテクノロジ企業が公開する4つのプライバシ広告ビデオと1つのプライバシゲームの影響を調査した。 ランダムに割り当てられた参加者と24回の半構造化インタビューを行い、ビデオの1つか2つを見たり、ゲームをプレイしたりした。 以上の結果から,プライバシ機能に対する意識は,企業や製品に対する肯定的な認識に寄与する可能性が示唆された。 テストした広告は、テストしたゲームよりも、広告されたプライバシー機能のコミュニケーションに成功しました。 短い広告で1つのメタファーを使って1つのプライバシー機能を広告することは、広告された機能に対する認識を増大させる。 このゲームは、プライバシー機能を伝えることや、参加者にこの機能の使用を動機づけることに失敗した。 われわれの結果は、プライバシーキャンペーンはプライバシー機能に対する意識を高め、ブランドイメージを改善するのにも役立つが、視聴者にプライバシー機能の使用方法を教える最も効果的な方法ではないことを示唆している。

When companies release marketing materials aimed at promoting their privacy practices or highlighting specific privacy features, what do they actually communicate to consumers? In this paper, we explore the impact of privacy marketing on: (1) consumers' attitudes toward the organizations providing the campaigns, (2) overall privacy awareness, and (3) the actionability of suggested privacy advice. To this end, we investigated the impact of four privacy advertising videos and one privacy game published by five different technology companies. We conducted 24 semi-structured interviews with participants randomly assigned to view one or two of the videos or play the game. Our findings suggest that awareness of privacy features can contribute to positive perceptions of a company or its products. The ads we tested were more successful in communicating the advertised privacy features than the game we tested. We observed that advertising a single privacy feature using a single metaphor in a short ad increased awareness of the advertised feature. The game failed to communicate privacy features or motivate study participants to use the features. Our results also suggest that privacy campaigns can be useful for raising awareness about privacy features and improving brand image, but may not be the most effective way to teach viewers how to use privacy features.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-24
# 対向移動性向上のための動的変換の学習

Learning to Transform Dynamically for Better Adversarial Transferability ( http://arxiv.org/abs/2405.14077v2 )

ライセンス: Link先を確認
Rongyi Zhu, Zeliang Zhang, Susan Liang, Zhuo Liu, Chenliang Xu, (参考訳) 人間に知覚できない摂動を加えることで構築された敵対的な例は、ニューラルネットワークを欺く可能性がある。 近年の研究では, 各種モデルの対向移動性, 対向サンプルの対向攻撃能力について検討している。 このような逆変換性を高めるために、既存の入力変換ベースの手法は変換拡張で入力データを多様化する。 しかし、それらの有効性は、利用可能な変換の有限個によって制限される。 本研究では,L2T(Learning to Transform)という新しいアプローチを提案する。 L2Tは、候補プールからの操作の最適な組み合わせを選択して変換画像の多様性を高め、対向転写性を向上させる。 軌道最適化問題として最適変換の組み合わせの選択を概念化し、この問題を効果的に解くために強化学習戦略を用いる。 ImageNetデータセットの総合的な実験と、Google VisionとGPT-4Vによる実践的なテストにより、L2Tが現在の手法を超越し、対向転送可能性を高め、その有効性と実用的重要性を確認することが判明した。 コードはhttps://github.com/RongyiZhu/L2Tで公開されている。

Adversarial examples, crafted by adding perturbations imperceptible to humans, can deceive neural networks. Recent studies identify the adversarial transferability across various models, \textit{i.e.}, the cross-model attack ability of adversarial samples. To enhance such adversarial transferability, existing input transformation-based methods diversify input data with transformation augmentation. However, their effectiveness is limited by the finite number of available transformations. In our study, we introduce a novel approach named Learning to Transform (L2T). L2T increases the diversity of transformed images by selecting the optimal combination of operations from a pool of candidates, consequently improving adversarial transferability. We conceptualize the selection of optimal transformation combinations as a trajectory optimization problem and employ a reinforcement learning strategy to effectively solve the problem. Comprehensive experiments on the ImageNet dataset, as well as practical tests with Google Vision and GPT-4V, reveal that L2T surpasses current methodologies in enhancing adversarial transferability, thereby confirming its effectiveness and practical significance. The code is available at https://github.com/RongyiZhu/L2T.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-24
# グラフ上の量子支援レンデブー:明示的アルゴリズムと量子コンピュータシミュレーション

Quantum-assisted Rendezvous on Graphs: Explicit Algorithms and Quantum Computer Simulations ( http://arxiv.org/abs/2405.14951v3 )

ライセンス: Link先を確認
J. Tucker, P. Strange, P. Mironowicz, J. Quintanilla, (参考訳) 我々は,単純なグラフ上での一段階のランデブーゲームにおいて,ノイズの多い中間スケール量子(NISQ)プロセッサを用いて量子優位性について検討した。 我々のプロトコルは、最近発見された(arXiv:2207.14404)小さなサイクルグラフと立方体グラフの最適境界を実現する。 サイクルグラフの場合、プロトコルを任意のグラフサイズに一般化する。 NISQ プロセッサの実験では、完全なグラフ K3 上でランデブーを行うための高い精度で期待される量子優位性を実現する。 対照的に、2つの非連結4頂点完全グラフからなるグラフ2K4では、NISQハードウェアの性能は、より深い回路と既知のキュービットのデコヒーレンスとゲートエラー率とに一致して、サブ古典的である。

We study quantum advantage in one-step rendezvous games on simple graphs analytically, numerically, and using noisy intermediate-scale quantum (NISQ) processors. Our protocols realise the recently discovered [arXiv:2207.14404] optimal bounds for small cycle graphs and cubic graphs. In the case of cycle graphs, we generalise the protocols to arbitrary graph size. The NISQ processor experiments realise the expected quantum advantage with high accuracy for rendezvous on the complete graph K3. In contrast, for the graph 2K4, formed by two disconnected 4-vertex complete graphs, the performance of the NISQ hardware is sub-classical, consistent with the deeper circuit and known qubit decoherence and gate error rates.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-24
# Trackastra:ライブセル顕微鏡のためのトランスフォーマーベースの細胞追跡

Trackastra: Transformer-based cell tracking for live-cell microscopy ( http://arxiv.org/abs/2405.15700v2 )

ライセンス: Link先を確認
Benjamin Gallusser, Martin Weigert, (参考訳) 細胞追跡は、ライブセル顕微鏡におけるユビキタスな画像解析タスクである。 自然画像用の複数のオブジェクトトラッキング(MOT)とは異なり、セルトラッキングは通常、フレームごとに分割できる類似したオブジェクト数百個を伴い、特に難しい問題となる。 現在の最先端のアプローチは、トラッキング・バイ・検出のパラダイムに従っている。つまり、最初にすべての細胞がフレーム毎に検出され、2番目のステップで連続的にリンクされ、生物学的に一貫した細胞トラックを形成する。 リンクは、データセットごとにハイパーパラメータを手動でチューニングする必要があるため、実際に使用するのが困難である、離散的な最適化手法によって、一般的に解決される。 本稿では、簡単なトランスフォーマーアーキテクチャを用いて、アノテートされたデータから時間ウィンドウ内のセルのペア関係を直接学習する汎用的なセル追跡手法であるTerastraを提案する。 重要なことは、既存のトランスフォーマーベースのMOTパイプラインとは異なり、我々の学習アーキテクチャは、セルなどのオブジェクトの分割も考慮しており、単純なグリージーリンクでも正確なトラッキングが可能であり、複雑なリンクステップの要求を取り除くための努力が続けられている。 提案アーキテクチャは,高密度画像処理の計算負担を回避することにより,時間窓内の検出の時間的全コンテキストで動作する。 我々は, 細菌, 細胞培養, 蛍光粒子などの生物学的データセットに対して, 高度に調整された最先端の細胞追跡アルゴリズムと同等以上の性能を示すことを示す。 私たちはhttps://github.com/weigertlab/trackastra.comでコードを提供しています。

Cell tracking is a ubiquitous image analysis task in live-cell microscopy. Unlike multiple object tracking (MOT) for natural images, cell tracking typically involves hundreds of similar-looking objects that can divide in each frame, making it a particularly challenging problem. Current state-of-the-art approaches follow the tracking-by-detection paradigm, i.e. first all cells are detected per frame and successively linked in a second step to form biologically consistent cell tracks. Linking is commonly solved via discrete optimization methods, which require manual tuning of hyperparameters for each dataset and are therefore cumbersome to use in practice. Here we propose Trackastra, a general purpose cell tracking approach that uses a simple transformer architecture to directly learn pairwise associations of cells within a temporal window from annotated data. Importantly, unlike existing transformer-based MOT pipelines, our learning architecture also accounts for dividing objects such as cells and allows for accurate tracking even with simple greedy linking, thus making strides towards removing the requirement for a complex linking step. The proposed architecture operates on the full spatio-temporal context of detections within a time window by avoiding the computational burden of processing dense images. We show that our tracking approach performs on par with or better than highly tuned state-of-the-art cell tracking algorithms for various biological datasets, such as bacteria, cell cultures and fluorescent particles. We provide code at https://github.com/weigertlab/trackastra.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-24
# 交通違反防止のための再利用可能な時間モニタの適応分割

Adaptive Splitting of Reusable Temporal Monitors for Rare Traffic Violations ( http://arxiv.org/abs/2405.15771v2 )

ライセンス: Link先を確認
Craig Innes, Subramanian Ramamoorthy, (参考訳) 自律走行車(AV)は、安全仕様に違反する確率を推定するために、しばしばシミュレーションでテストされる。 既存の手法を用いてこの推定を行う際には2つの一般的な問題が発生する: 違反がほとんど発生しない場合、単純なモンテカルロサンプリング技術は効率的な見積もりを得られず、シミュレーションの地平線が長すぎる場合、重要サンプリング技術(過去のシミュレーションから提案分布を学習する)は収束しない。 本稿では,レアイベントサンプリング手法をオンライン仕様監視アルゴリズムにインターリーブすることで,両問題に対処する。 適応的なマルチレベル分割を用いてシミュレーションを部分軌跡に分解し,信号時間論理(STL)のロバストネス指標を利用して,部分軌跡から障害までの距離を算出する。 これらの部分ロバスト性測定値をキャッシュすることで、複数のサンプリングステージにわたる計算を効率的に再利用することができる。 本手法は,実交通規則に基づくSTL仕様の故障確率を効率的に推定し,シミュレーションされたAVパイプの試験に有効であることを示す。 我々はモンテカルロよりも優れた推定値を生成し、より少ないシミュレーションで重要なサンプリングを行う。

Autonomous Vehicles (AVs) are often tested in simulation to estimate the probability they will violate safety specifications. Two common issues arise when using existing techniques to produce this estimation: If violations occur rarely, simple Monte-Carlo sampling techniques can fail to produce efficient estimates; if simulation horizons are too long, importance sampling techniques (which learn proposal distributions from past simulations) can fail to converge. This paper addresses both issues by interleaving rare-event sampling techniques with online specification monitoring algorithms. We use adaptive multi-level splitting to decompose simulations into partial trajectories, then calculate the distance of those partial trajectories to failure by leveraging robustness metrics from Signal Temporal Logic (STL). By caching those partial robustness metric values, we can efficiently re-use computations across multiple sampling stages. Our experiments on an interstate lane-change scenario show our method is viable for testing simulated AV-pipelines, efficiently estimating failure probabilities for STL specifications based on real traffic rules. We produce better estimates than Monte-Carlo and importance sampling in fewer simulations.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-24
# VAAD:eラーニングに応用された視覚的注意分析ダッシュボード

VAAD: Visual Attention Analysis Dashboard applied to e-Learning ( http://arxiv.org/abs/2405.20091v3 )

ライセンス: Link先を確認
Miriam Navarro, Álvaro Becerra, Roberto Daza, Ruth Cobos, Aythami Morales, Julian Fierrez, (参考訳) 本稿では,マルチモーダル学習分析分野におけるアプローチを提案する。 本手法では,オンライン授業における学習セッション中に収集した眼球運動データを可視化・解析するツールを開発した。 このツールはVAADと呼ばれ、Visual Attention Analysis Dashboardの頭字語である。 これらの眼球運動データは、アイトラッカーを用いて収集され、その後、解釈のために処理され、可視化される。 本ツールの目的は、可視化を容易にし、様々な学習者間での違いや学習パターンを識別できるようにすることにより、データの記述的分析を行うことである。 さらに、学習セッション中に学習者の活動を予測することができる予測モジュールを統合する。 その結果、VAADは記述的視点と予測的視点の両方から、オンライン学習行動に関する貴重な洞察を提供する可能性を秘めている。

In this paper, we present an approach in the Multimodal Learning Analytics field. Within this approach, we have developed a tool to visualize and analyze eye movement data collected during learning sessions in online courses. The tool is named VAAD, an acronym for Visual Attention Analysis Dashboard. These eye movement data have been gathered using an eye-tracker and subsequently processed and visualized for interpretation. The purpose of the tool is to conduct a descriptive analysis of the data by facilitating its visualization, enabling the identification of differences and learning patterns among various learner populations. Additionally, it integrates a predictive module capable of anticipating learner activities during a learning session. Consequently, VAAD holds the potential to offer valuable insights into online learning behaviors from both descriptive and predictive perspectives.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-24
# P-MSDiff:リモートセンシング画像分割のための並列多スケール拡散

P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation ( http://arxiv.org/abs/2405.20443v2 )

ライセンス: Link先を確認
Qi Zhang, Guohua Geng, Longquan Yan, Pengbo Zhou, Zhaodi Li, Kang Li, Qinglin Liu, (参考訳) 拡散モデルとマルチスケール機能は、リモートセンシング画像を扱うセマンティックセグメンテーションタスクにおいて必須のコンポーネントである。 セグメンテーション境界の改善に寄与し、重要なコンテキスト情報を提供する。 U-netのようなアーキテクチャは、分割タスクの拡散モデルによく使用される。 これらのアーキテクチャ設計には、中間的特徴の解釈に困難をもたらす可能性のある、密集したスキップ接続が含まれる。 したがって、エンコーダ・デコーダアーキテクチャの様々な層で意味情報を効率的に伝達することはできない。 これらの課題に対処するために、並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。 このモデルは並列多スケール拡散モジュール(P-MSDiff)とクロスブリッジ線形注意機構(CBLA)から構成される。 P-MSDiffは、複数のレベルの粒度にわたる意味情報の理解を強化し、再帰的分枝の統合を通じて反復的な分布データを検出する。 さらに、関連するブランチをプライマリフレームワークに接続することで、データのアマルガミエーションを促進し、コンカレントな denoising を可能にする。 さらに、相互接続型トランスアーキテクチャでは、LAモジュールはCBLAモジュールに置き換えられている。 このモジュールは、クエリにリンクされた半定値行列を、キーと値のドット積計算に統合する。 この統合により、LAフレームワーク内のクエリの適応が可能になる。 この調整により、マルチヘッドアテンション計算の構造が強化され、ネットワーク性能が向上し、CBLAはプラグアンドプレイモジュールである。 我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいてJ1測定値に基づいて、優れたパフォーマンスを示し、それぞれ強力なベースラインモデルよりも1.60%と1.40%の改善を示している。

Diffusion models and multi-scale features are essential components in semantic segmentation tasks that deal with remote-sensing images. They contribute to improved segmentation boundaries and offer significant contextual information. U-net-like architectures are frequently employed in diffusion models for segmentation tasks. These architectural designs include dense skip connections that may pose challenges for interpreting intermediate features. Consequently, they might not efficiently convey semantic information throughout various layers of the encoder-decoder architecture. To address these challenges, we propose a new model for semantic segmentation known as the diffusion model with parallel multi-scale branches. This model consists of Parallel Multiscale Diffusion modules (P-MSDiff) and a Cross-Bridge Linear Attention mechanism (CBLA). P-MSDiff enhances the understanding of semantic information across multiple levels of granularity and detects repetitive distribution data through the integration of recursive denoising branches. It further facilitates the amalgamation of data by connecting relevant branches to the primary framework to enable concurrent denoising. Furthermore, within the interconnected transformer architecture, the LA module has been substituted with the CBLA module. This module integrates a semidefinite matrix linked to the query into the dot product computation of keys and values. This integration enables the adaptation of queries within the LA framework. This adjustment enhances the structure for multi-head attention computation, leading to enhanced network performance and CBLA is a plug-and-play module. Our model demonstrates superior performance based on the J1 metric on both the UAVid and Vaihingen Building datasets, showing improvements of 1.60% and 1.40% over strong baseline models, respectively.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-24
# 遺伝的プログラミングによる動的シンボリック・ポリシーの発見

Discovering Dynamic Symbolic Policies with Genetic Programming ( http://arxiv.org/abs/2406.02765v3 )

ライセンス: Link先を確認
Sigur de Vries, Sander Keemink, Marcel van Gerven, (参考訳) 人工知能技術は制御問題の解決にますます応用されているが、しばしば透明な出力生成のないブラックボックス方式に依存している。 制御系における解釈可能性と透明性を改善するために、モデルは数学的表現によって記述されたホワイトボックスのシンボルポリシーとして定義することができる。 シンボリックポリシーを学ぶための現在のアプローチは、観測を直接制御信号にマッピングする静的ポリシーに焦点を当てているが、これらは部分的に観測可能で不安定な環境で失敗する可能性がある。 代わりに、遺伝的プログラミングで最適化されたメモリによる動的な象徴的ポリシーを考える。 結果として得られるポリシーは堅牢であり、結合された微分方程式を容易に解釈できる。 この結果から, 動的シンボルポリシは, 様々な制御タスクにおけるブラックボックスポリシと比較できることがわかった。 さらに、静的ポリシーが不足している実験では、動的ポリシーにおけるメモリの利点が示される。 全体として,ブラックボックスモデルに欠けている解釈可能性と透明性を提供する,高性能なシンボルポリシーを進化させる手法を提案する。

Artificial intelligence techniques are increasingly being applied to solve control problems, but often rely on black-box methods without transparent output generation. To improve the interpretability and transparency in control systems, models can be defined as white-box symbolic policies described by mathematical expressions. While current approaches to learn symbolic policies focus on static policies that directly map observations to control signals, these may fail in partially observable and volatile environments. We instead consider dynamic symbolic policies with memory, optimised with genetic programming. The resulting policies are robust, and consist of easy to interpret coupled differential equations. Our results show that dynamic symbolic policies compare with black-box policies on a variety of control tasks. Furthermore, the benefit of the memory in dynamic policies is demonstrated on experiments where static policies fall short. Overall, we present a method for evolving high-performing symbolic policies that offer interpretability and transparency, which lacks in black-box models.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-24
# MeshVPR: 3Dメッシュを用いた都市全体の視覚的位置認識

MeshVPR: Citywide Visual Place Recognition Using 3D Meshes ( http://arxiv.org/abs/2406.02776v2 )

ライセンス: Link先を確認
Gabriele Berton, Lorenz Junglas, Riccardo Zaccone, Thomas Pollok, Barbara Caputo, Carlo Masone, (参考訳) メッシュベースのシーン表現は、グローバル機能(検索)に基づく視覚的位置認識ステップと、ローカル機能に基づく視覚的位置認識ステップを組み合わせた、大規模な階層的な視覚的位置認識パイプラインを簡素化するための有望な方向を提供する。 既存の研究は、視覚的ローカライゼーションのためのメッシュの実現可能性を示しているが、視覚的位置認識においてそれらから生成された合成データベースを使用することによる影響は、明らかにされていない。 本研究では,大規模な視覚的位置認識(VPR)に高密度な3次元テクスチャメッシュを用いて検討する。 実世界の画像検索と比較して,合成メッシュベース画像データベースを用いた場合の性能低下が顕著である。 そこで本研究では,現実世界と合成ドメイン間のギャップを埋めるために,軽量な機能アライメントフレームワークを利用する新しいVPRパイプラインであるMeshVPRを提案する。 MeshVPRはトレーニング済みのVPRモデルを活用し、都市全体のデプロイメントに効率的かつスケーラブルである。 無料で利用可能な3Dメッシュを備えた新しいデータセットと、ベルリン、パリ、メルボルンから手作業で収集したクエリを紹介します。 大規模な評価は、MeshVPRが標準のVPRパイプラインと競合する性能を達成し、メッシュベースのローカライゼーションシステムへの道を開いたことを示している。 データ、コード、インタラクティブな視覚化はhttps://meshvpr.github.io/で公開されている。

Mesh-based scene representation offers a promising direction for simplifying large-scale hierarchical visual localization pipelines, combining a visual place recognition step based on global features (retrieval) and a visual localization step based on local features. While existing work demonstrates the viability of meshes for visual localization, the impact of using synthetic databases rendered from them in visual place recognition remains largely unexplored. In this work we investigate using dense 3D textured meshes for large-scale Visual Place Recognition (VPR). We identify a significant performance drop when using synthetic mesh-based image databases compared to real-world images for retrieval. To address this, we propose MeshVPR, a novel VPR pipeline that utilizes a lightweight features alignment framework to bridge the gap between real-world and synthetic domains. MeshVPR leverages pre-trained VPR models and is efficient and scalable for city-wide deployments. We introduce novel datasets with freely available 3D meshes and manually collected queries from Berlin, Paris, and Melbourne. Extensive evaluations demonstrate that MeshVPR achieves competitive performance with standard VPR pipelines, paving the way for mesh-based localization systems. Data, code, and interactive visualizations are available at https://meshvpr.github.io/
翻訳日:2024-07-25 18:41:39 公開日:2024-07-24
# 数値的対意味医学的知識における大規模言語モデルの性能:証拠に基づくQ&Aのベンチマーク

Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As ( http://arxiv.org/abs/2406.03855v3 )

ライセンス: Link先を確認
Eden Avnat, Michal Levy, Daniel Herstain, Elia Yanko, Daniel Ben Joya, Michal Tzuchman Katz, Dafna Eshel, Sahar Laros, Yael Dagan, Shahar Barami, Joseph Mermelstein, Shahar Ovadia, Noam Shomron, Varda Shalev, Raja-Elie E. Abdulnour, (参考訳) 臨床的問題解決には、エビデンスに基づく意思決定のために、病気のスクリプトや診断テストの数値的な医療知識などの意味的な医療知識の処理が必要である。 大規模言語モデル(LLM)は言語ベースの臨床実践の多くの面で有望な結果を示すため、臨床問題に対する非言語エビデンスベースの回答を生成する能力は、本質的にトークン化によって制限される。 そこで我々は, LLMの性能を, 医学的側面におけるLSM間の差異を調べた上で, 数値(関連所見)と意味(差別化要因)の2つの質問タイプで評価し, その性能を人間と比較した。 本研究では,エビデンスベースの医療(EBM)に基づいて,簡単な多点質問・回答(QA)を生成するために,総合的な医療知識グラフ(50,00以上の査読項目からのデータ)を用いて「EBMQA」を作成した。 EBMQAには105,000のQAが含まれており、医学的、非医学的なトピックがラベル付けられ、数値的、意味的な質問に分類される。 私たちはこのデータセットを、最先端の2つのLLMであるChat-GPT4とClaude3-Opusで24,500QA以上を用いてベンチマークした。 我々は,LLMの精度を意味的および数値的質問タイプ,およびサブラベル付きトピックに基づいて評価した。 検証のために、6人の医療専門家が100の数値EBMQA質問でテストされた。 いずれのLLMも数値QAよりもセマンティックに優れており,Claude3は数値QAでGPT4を上回っている。 しかし,両LSMは異なる医学的側面において間隙と内隙間を示し,ヒトに劣った。 したがって、彼らの医療アドバイスは慎重に扱うべきである。

Clinical problem-solving requires processing of semantic medical knowledge such as illness scripts and numerical medical knowledge of diagnostic tests for evidence-based decision-making. As large language models (LLMs) show promising results in many aspects of language-based clinical practice, their ability to generate non-language evidence-based answers to clinical questions is inherently limited by tokenization. Therefore, we evaluated LLMs' performance on two question types: numeric (correlating findings) and semantic (differentiating entities) while examining differences within and between LLMs in medical aspects and comparing their performance to humans. To generate straightforward multi-choice questions and answers (QAs) based on evidence-based medicine (EBM), we used a comprehensive medical knowledge graph (encompassed data from more than 50,00 peer-reviewed articles) and created the "EBMQA". EBMQA contains 105,000 QAs labeled with medical and non-medical topics and classified into numerical or semantic questions. We benchmarked this dataset using more than 24,500 QAs on two state-of-the-art LLMs: Chat-GPT4 and Claude3-Opus. We evaluated the LLMs accuracy on semantic and numerical question types and according to sub-labeled topics. For validation, six medical experts were tested on 100 numerical EBMQA questions. We found that both LLMs excelled more in semantic than numerical QAs, with Claude3 surpassing GPT4 in numerical QAs. However, both LLMs showed inter and intra gaps in different medical aspects and remained inferior to humans. Thus, their medical advice should be addressed carefully.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-24
# 属性特異的プロンプト学習による3次元顔画像の効率的な編集

Efficient 3D-Aware Facial Image Editing via Attribute-Specific Prompt Learning ( http://arxiv.org/abs/2406.04413v2 )

ライセンス: Link先を確認
Amandeep Kumar, Muhammad Awais, Sanath Narayan, Hisham Cholakkal, Salman Khan, Rao Muhammad Anwer, (参考訳) StyleGANの表現力とゆがみのある潜在空間に基づいて、既存の2Dアプローチでは、テキストプロンプトを使用して、異なる属性で顔画像を編集する。 対照的に、異なるターゲットポーズで顔を生成する3D認識アプローチでは、属性固有の分類器が必要であり、各属性のモデルウェイトを個別に学習する必要があり、新しい属性には拡張性がない。 本研究では,属性特異的なプロンプト学習に基づく効率的な3次元顔編集フレームワークを提案する。 そこで本研究では,テキスト駆動型学習可能なトークンベースの潜在属性エディタ (LAE) を提案する。 LAEは、事前学習された3D対応GANの潜在空間において、テキスト誘導属性固有の編集方向を見つけるために、事前学習された視覚言語モデルを利用する。 学習可能なスタイルトークンとスタイルマッパーを使用して、この編集方向を学習し、3D潜在空間に変換する。 複数の属性でLEEを訓練するために、指向性コントラスト損失とスタイルトークン損失を用いる。 さらに、異なるポーズや属性間での視点の一貫性とアイデンティティの保存を確保するために、複数の3D認識IDを使用し、保存損失を発生させる。 提案手法は,属性固有の特徴を保ちながら,3次元認識と視点の整合性を有する高品質な画像を生成する。 髪の色やスタイル,表情など,顔のさまざまな属性に対して,本手法の有効性を実証する。

Drawing upon StyleGAN's expressivity and disentangled latent space, existing 2D approaches employ textual prompting to edit facial images with different attributes. In contrast, 3D-aware approaches that generate faces at different target poses require attribute-specific classifiers, learning separate model weights for each attribute, and are not scalable for novel attributes. In this work, we propose an efficient, plug-and-play, 3D-aware face editing framework based on attribute-specific prompt learning, enabling the generation of facial images with controllable attributes across various target poses. To this end, we introduce a text-driven learnable style token-based latent attribute editor (LAE). The LAE harnesses a pre-trained vision-language model to find text-guided attribute-specific editing direction in the latent space of any pre-trained 3D-aware GAN. It utilizes learnable style tokens and style mappers to learn and transform this editing direction to 3D latent space. To train LAE with multiple attributes, we use directional contrastive loss and style token loss. Furthermore, to ensure view consistency and identity preservation across different poses and attributes, we employ several 3D-aware identity and pose preservation losses. Our experiments show that our proposed framework generates high-quality images with 3D awareness and view consistency while maintaining attribute-specific features. We demonstrate the effectiveness of our method on different facial attributes, including hair color and style, expression, and others.
翻訳日:2024-07-25 18:41:39 公開日:2024-07-24
# 因果グラフ分割による高次元構造仮説空間上の因果発見

Causal Discovery over High-Dimensional Structured Hypothesis Spaces with Causal Graph Partitioning ( http://arxiv.org/abs/2406.06348v2 )

ライセンス: Link先を確認
Ashka Shah, Adela DePavia, Nathaniel Hudson, Ian Foster, Rick Stevens, (参考訳) 多くの科学における目的は、初期仮説から始まる、観測された変数の分布を過小評価するメカニズムを理解することである。 因果発見(Causal discovery)は、特定のドメインに調整することなく、一般的な方法で、原因と効果の関係のセットとしてメカニズムを推論することを可能にする。 因果探索アルゴリズムは、有向非巡回グラフの集合によって定義される構造化された仮説空間を探索し、データを最もよく説明するグラフを見つける。 しかし、高次元問題では、この探索は難解になり、因果探索のためのスケーラブルなアルゴリズムがギャップを埋めるために必要となる。 本稿では,因果グラフの分割を理論的保証付きで分割・畳み込みによる因果グラフの発見を可能にする新しい因果グラフ分割を定義する。 我々は、学習または既存の仮説の集合である超構造の概念を活用して、探索空間を分割する。 我々は、因果グラフ分割を用いた学習が真の因果グラフのマルコフ同値類を常に得るという一定の仮定の下で証明する。 提案アルゴリズムは,生物学的に調整された合成ネットワークやネットワークに対して,最大${10^4}$変数までの高速解法を実現する。 そこで本手法は,高次元構造仮説空間を持つ遺伝子制御ネットワーク推論や他の領域に適用可能である。

The aim in many sciences is to understand the mechanisms that underlie the observed distribution of variables, starting from a set of initial hypotheses. Causal discovery allows us to infer mechanisms as sets of cause and effect relationships in a generalized way -- without necessarily tailoring to a specific domain. Causal discovery algorithms search over a structured hypothesis space, defined by the set of directed acyclic graphs, to find the graph that best explains the data. For high-dimensional problems, however, this search becomes intractable and scalable algorithms for causal discovery are needed to bridge the gap. In this paper, we define a novel causal graph partition that allows for divide-and-conquer causal discovery with theoretical guarantees. We leverage the idea of a superstructure -- a set of learned or existing candidate hypotheses -- to partition the search space. We prove under certain assumptions that learning with a causal graph partition always yields the Markov Equivalence Class of the true causal graph. We show our algorithm achieves comparable accuracy and a faster time to solution for biologically-tuned synthetic networks and networks up to ${10^4}$ variables. This makes our method applicable to gene regulatory network inference and other domains with high-dimensional structured hypothesis spaces.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# 国境を橋渡しする:エストニアと海外の地方自治体のデータ共有障壁を誇示

Bridging the Gap: Unravelling Local Government Data Sharing Barriers in Estonia and Beyond ( http://arxiv.org/abs/2406.08461v2 )

ライセンス: Link先を確認
Katrin Rajamäe Soosaar, Anastasija Nikiforova, (参考訳) Open Government Data(OGD)は、分析、リアルタイム監視、情報意思決定のためのデータを提供することによって、スマートシティを持続可能なインテリジェントなエンティティに変換する上で、重要な役割を果たす。 このデータは都市デジタル双生児にますます使われ、利害関係者の協力を通じて都市管理を強化している。 しかし、エストニアのようなデジタル先進国でさえ、地方行政データは未利用のままである。 本研究は,エストニア市町村がOGDを共有できないよう,エストニア市町村へのインタビューとOGD適応型イノベーション抵抗理論モデル(IRT)に基づく質的アプローチを用いて,エストニア市町村がOGDを共有するのを防ぐ障壁について検討する。 地方当局とのインタビューは、データ提供と品質の現在進行中のイシューを強調している。 エストニアのオープンデータエコシステムにおける見過ごされた弱点に対処し、実用的なレコメンデーションを提供することによって、この研究はよりレジリエントで持続可能なオープンデータエコシステムに寄与する。 さらに、OGDに適応した革新抵抗理論モデルを検証し、地方自治体の状況に合わせて修正版を提案することにより、データの共有抵抗を理解するための理論的枠組みを前進させる。 最終的に、この研究は、政策立案者や実践者が現地のOGDイニシアチブを優先し、スマートシティ開発におけるOGDのフル活用を保証するための行動となる。

Open Government Data (OGD) plays a crucial role in transforming smart cities into sustainable and intelligent entities by providing data for analytics, real-time monitoring, and informed decision-making. This data is increasingly used in urban digital twins, enhancing city management through stakeholder collaboration. However, local administrative data remains underutilized even in digitally advanced countries like Estonia. This study explores barriers preventing Estonian municipalities from sharing OGD, using a qualitative approach through interviews with Estonian municipalities and drawing on the OGD-adapted Innovation Resistance Theory model (IRT). Interviews with local government officials highlight ongoing is-sues in data provision and quality. By addressing overlooked weaknesses in the Estonian open data ecosystem and providing actionable recommendations, this research contributes to a more resilient and sustainable open data ecosystem. Additionally, by validating the OGD-adapted Innovation Resistance Theory model and proposing a revised version tailored for local government contexts, the study advances theoretical frameworks for understanding data sharing resistance. Ultimately, this study serves as a call to action for policymakers and practitioners to prioritize local OGD initiatives, ensuring the full utilization of OGD in smart city development.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# 大規模言語モデルにおける文脈内学習の意思決定境界の提案

Probing the Decision Boundaries of In-context Learning in Large Language Models ( http://arxiv.org/abs/2406.11233v2 )

ライセンス: Link先を確認
Siyan Zhao, Tung Nguyen, Aditya Grover, (参考訳) インコンテキスト・ラーニング(In-context learning)は、大規模言語モデル(LLM)において重要なパラダイムであり、明示的なパラメータ更新なしにいくつかの例でこれらのモデルをシンプルに促すことで、新しいタスクやドメインに一般化することができる。 モデルスケール、事前学習データ、その他の要因の関数として、LLMにおける文脈内学習を理解するために、多くの試みがなされている。 本研究では,テキスト内二項分類のための決定境界のレンズからテキスト内学習を探索し,理解するための新しいメカニズムを提案する。 決定境界は、標準分類器の帰納的バイアスの質的な振る舞いを可視化し、重要な情報を提供する。 驚いたことに、単純な二項分類タスクにおいて、現在のLLMによって学習される決定境界は、基礎となるタスクの線形分離性に関係なく、しばしば不規則で非滑らかである。 本稿では,これらの決定境界に影響を与える要因について検討し,その一般化性を高める方法を探る。 本研究では,LLMの学習・微調整手法,モデルアーキテクチャの影響,データ効率のよい意思決定境界の平滑化のためのアクティブプロンプト手法の有効性など,様々な手法について検討する。 本研究は、文脈内学習のダイナミクスをより深く理解し、文脈内学習の堅牢性と一般化性を高めるための実践的改善を提供する。

In-context learning is a key paradigm in large language models (LLMs) that enables them to generalize to new tasks and domains by simply prompting these models with a few exemplars without explicit parameter updates. Many attempts have been made to understand in-context learning in LLMs as a function of model scale, pretraining data, and other factors. In this work, we propose a new mechanism to probe and understand in-context learning from the lens of decision boundaries for in-context binary classification. Decision boundaries are straightforward to visualize and provide important information about the qualitative behavior of the inductive biases of standard classifiers. To our surprise, we find that the decision boundaries learned by current LLMs in simple binary classification tasks are often irregular and non-smooth, regardless of linear separability in the underlying task. This paper investigates the factors influencing these decision boundaries and explores methods to enhance their generalizability. We assess various approaches, including training-free and fine-tuning methods for LLMs, the impact of model architecture, and the effectiveness of active prompting techniques for smoothing decision boundaries in a data-efficient manner. Our findings provide a deeper understanding of in-context learning dynamics and offer practical improvements for enhancing robustness and generalizability of in-context learning.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# MINT-1T: オープンソースのマルチモーダルデータを10倍スケールする: 1トリリオントークンを持つマルチモーダルデータセット

MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens ( http://arxiv.org/abs/2406.11271v2 )

ライセンス: Link先を確認
Anas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt, (参考訳) 画像とテキストのフリーフォームなインターリーブ配列を含むマルチモーダルインターリーブデータセットは、フロンティア大規模マルチモーダルモデル(LMM)のトレーニングに不可欠である。 オープンソースLMMの急速な進歩にもかかわらず、大規模で多様なオープンソースマルチモーダルインターリーブデータセットが不足している。 MINT-1Tは,これまでで最も広く多様なオープンソースMultimodal INTerleavedデータセットである。 MINT-1Tは1兆個のテキストトークンと340億の画像で構成され、既存のオープンソースデータセットの10倍のスケールアップである。 さらに、PDFやArXivなどの未使用の資料も含んでいます。 マルチモーダルなインターリーブデータセットのスケーリングには、データキュレーションプロセスを共有し、データセットをリリースすることで、コミュニティにとって大きなメリットがある。 実験の結果,MINT-1TでトレーニングしたLMMは,以前の先行データセット OBELICS でトレーニングしたモデルの性能に匹敵することがわかった。 私たちのデータとコードはhttps://github.com/mlfoundations/MINT-1T.comで公開されます。

Multimodal interleaved datasets featuring free-form interleaved sequences of images and text are crucial for training frontier large multimodal models (LMMs). Despite the rapid progression of open-source LMMs, there remains a pronounced scarcity of large-scale, diverse open-source multimodal interleaved datasets. In response, we introduce MINT-1T, the most extensive and diverse open-source Multimodal INTerleaved dataset to date. MINT-1T comprises one trillion text tokens and 3.4 billion images, a 10x scale-up from existing open-source datasets. Additionally, we include previously untapped sources such as PDFs and ArXiv papers. As scaling multimodal interleaved datasets requires substantial engineering effort, sharing the data curation process and releasing the dataset greatly benefits the community. Our experiments show that LMMs trained on MINT-1T rival the performance of models trained on the previous leading dataset, OBELICS. Our data and code will be released at https://github.com/mlfoundations/MINT-1T.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# なぜ量子相関が衝撃的であるのか

Why quantum correlations are shocking ( http://arxiv.org/abs/2406.13040v2 )

ライセンス: Link先を確認
Michael J. W. Hall, (参考訳) 量子システム間の相関が、我々の古典的な直観を揺るがす理由について、単純な最小主義者の議論がなされる。 この議論は2つの基本的な物理仮定に依存し、標準的な実験可能なベルの不等式を6面ダイスと光子偏光の間の相関に等しく適用される形で回復する。 第1実験室における測定選択は、遠隔実験室不変量(符号付けなし)に測定統計を残さないという仮定が実験的に検証され、第1実験室で測定された測定量に対する対応する結合確率分布の存在と同値であることが示されている。 観測されたベルの不等式の不等式違反は、2番目の仮定の失敗と等価であり、遠隔実験室における測定選択はそのような共同分布不変性を残している。 実際、違反の程度は関節分布のばらつきを低くする。 このような違反の根底にある3つの物理的メカニズムは、アクション・アット・ア・ディスタンス(超光度)、測定選択と遠方性(呼吸)を結びつける不可避の共通要因、本質的に相容れない物理量(相補性)である。 この議論はベルの不等式に拡張され、他の導出と簡単に比較される。

A simple minimalist argument is given for why some correlations between quantum systems boggle our classical intuition. The argument relies on two elementary physical assumptions, and recovers the standard experimentally-testable Bell inequality in a form that applies equally well to correlations between six-sided dice and between photon polarizations. The first assumption, that measurement selection in a first lab leaves the measurement statistics in a remote lab invariant (no-signaling), has been empirically verified, and is shown to be equivalent to the existence of a corresponding joint probability distribution for quantities measured in the first lab. The observed violation of the Bell inequality is then equivalent to the failure of a second assumption, that measurement selection in the remote lab leaves such a joint distribution invariant. Indeed, the degree of violation lower-bounds the variation of the joint distribution. It directly follows there are just three possible physical mechanisms underlying such violations -- action-at-a-distance (superluminality), unavoidable common factors linking measurement choice and distant properties (conspiracy), and intrinsically incompatible physical quantities (complementarity). The argument extends to all Bell inequalities, and is briefly compared with other derivations.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# 自律運転のための非同期大規模言語モデル拡張プランナ

Asynchronous Large Language Model Enhanced Planner for Autonomous Driving ( http://arxiv.org/abs/2406.14556v3 )

ライセンス: Link先を確認
Yuan Chen, Zi-han Ding, Ziqin Wang, Yan Wang, Lijun Zhang, Si Liu, (参考訳) リアルタイムプランナーは自律走行において顕著な性能を示したが、大規模言語モデル(LLM)の探索は、運動計画の解釈可能性と制御性を高めるための道を開いた。 それでも、LLMベースのプランナーは、資源消費の増大や推論時間の延長など、重大な課題に直面し続けている。 これらの課題を踏まえ、我々はAsyncDriverという非同期LLM拡張クローズドループフレームワークを導入し、LLMが生成したシーン関連命令機能を活用して、正確な軌道予測を行うためのリアルタイムプランナーを誘導する。 一方,本手法では,ベクトル化されたシーンデータと一連のルーティング命令を解釈・推論する上で,LLMの長所を強調し,リアルタイムプランナへの効果的な支援を実証する。 一方,提案フレームワークはLLMとリアルタイムプランナの推論プロセスを分離する。 推論周波数の非同期性に乗じて,LLMの計算コストを低減し,同等の性能を維持した。 実験により,本手法はnuPlanの難解なシナリオに対して,より優れたクローズドループ評価性能が得られることが示された。

Despite real-time planners exhibiting remarkable performance in autonomous driving, the growing exploration of Large Language Models (LLMs) has opened avenues for enhancing the interpretability and controllability of motion planning. Nevertheless, LLM-based planners continue to encounter significant challenges, including elevated resource consumption and extended inference times, which pose substantial obstacles to practical deployment. In light of these challenges, we introduce AsyncDriver, a new asynchronous LLM-enhanced closed-loop framework designed to leverage scene-associated instruction features produced by LLM to guide real-time planners in making precise and controllable trajectory predictions. On one hand, our method highlights the prowess of LLMs in comprehending and reasoning with vectorized scene data and a series of routing instructions, demonstrating its effective assistance to real-time planners. On the other hand, the proposed framework decouples the inference processes of the LLM and real-time planners. By capitalizing on the asynchronous nature of their inference frequencies, our approach have successfully reduced the computational cost introduced by LLM, while maintaining comparable performance. Experiments show that our approach achieves superior closed-loop evaluation performance on nuPlan's challenging scenarios.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# 量子非共有情報における改善された境界

Improved bounds on quantum uncommon information ( http://arxiv.org/abs/2406.14879v2 )

ライセンス: Link先を確認
Yonghae Lee, Joonwoo Bae, Hayata Yamasaki, Soojoon Lee, (参考訳) 古典情報理論では、チャネルキャパシティは共有情報を用いて確実に送信できるメッセージの最大数を定量化する。 同等の概念である"uncommon information"は、すべての情報を共有するために交換されるメッセージの数を表す。 しかし、この同値性は量子情報理論にまで及ばない。 具体的には、量子非共有情報は、量子状態交換の量子通信タスクに必要な最小の絡み合いとして運用的に定義される。 現在、量子的非共有情報に対する解析的閉形式表現は未決定のままである。 本研究は, 量子的非共有情報の基本的な特徴を解明することにより, 改良された境界を導出する。 これらの境界を得るために,2つの部分空間の共通部分空間を利用する部分空間交換戦略を開発し,交換の不要なキュービットを同定する。 また、レフェリーが量子状態交換を効率的に行うのを支援するレフェリー支援交換についても検討する。 我々の境界は、量子的非共有情報に対してより正確な推定を提供する。 さらに, サブスペース技術は, バイパーティイトシナリオだけでなく, 多様なマルチパーティライトシナリオにおいても, 共通ではない情報を特徴付ける汎用ツールであることを示す。

In classical information theory, channel capacity quantifies the maximum number of messages that can be reliably transmitted using shared information. An equivalent concept, termed uncommon information, represents the number of messages required to be exchanged to completely share all information in common. However, this equivalence does not extend to quantum information theory. Specifically, quantum uncommon information is operationally defined as the minimal amount of entanglement required for the quantum communication task of quantum state exchange, where two parties exchange quantum states to share all quantum messages in common. Currently, an analytical closed-form expression for the quantum uncommon information remains undetermined. In this work, by investigating underlying characterization of the quantum uncommon information, we derive improved bounds on it. To obtain these bounds, we develop a subspace exchange strategy that leverages a common subspace of two parties to identify the unnecessary qubits for exchange. We also consider a referee-assisted exchange, wherein a referee aids two parties in efficiently performing the quantum state exchange. Our bounds provide more precise estimations for the quantum uncommon information. Furthermore, we demonstrate that the subspace technique is a versatile tool for characterizing uncommon information not only in the bipartite scenario but also in various multi-partite ones.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# ビデオモーメント検索のためのマルチモーダル大言語モデルのサプライズ効果

The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval ( http://arxiv.org/abs/2406.18113v2 )

ライセンス: Link先を確認
Meinardus Boris, Batra Anil, Rohrbach Anna, Rohrbach Marcus, (参考訳) 近年の研究では、オブジェクト検出やセマンティックセグメンテーションといったコンピュータビジョンタスクにMLLM(Multimodal large language model)を利用するという有望な成果が示されている。 しかし、多くの挑戦的なビデオタスクは未探索のままである。 ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。 そのため、先行研究は複雑な、高度に専門化されたアーキテクチャを開発し、ビデオの書き起こしのような追加の入力信号を活用して、文脈情報や時間情報を最適にエンコードし、それらの一般化を制限し、実用的でない可能性がある。 特に難しい課題はビデオモーメント検索であり、正確な時間的および文脈的接地を必要とする。 本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。 BLIP(Mr. Mr. as in Moment Retrieval)は,高額なビデオ言語事前学習を必要とせず,付加的な入力信号(例えば,書き起こしや音声)も必要とせず,従来の最先端手法よりもシンプルで汎用性の高い設計である。 我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。 特に、挑戦的な長ビデオマルチモーメントQVHighlightsベンチマークで、9%以上の(絶対)高いリコール(0.5と0.7 IoU)を実現しました。 私たちのコードは公開されています。

Recent studies have shown promising results in utilizing multimodal large language models (MLLMs) for computer vision tasks such as object detection and semantic segmentation. However, many challenging video tasks remain under-explored. Video-language tasks necessitate spatial and temporal comprehension and require significant compute. Therefore, prior works have developed complex, highly specialized architectures or leveraged additional input signals such as video transcripts to best encode contextual and temporal information, which limits their generality and can be impractical. One particularly challenging task is video moment retrieval, which requires precise temporal and contextual grounding. This work demonstrates the surprising effectiveness of leveraging image-text pretrained MLLMs for moment retrieval. We introduce Mr. BLIP (Mr. as in Moment Retrieval), a multimodal, single-stage model that requires no expensive video-language pretraining, no additional input signal (e.g., no transcript or audio), and has a simpler and more versatile design than prior state-of-the-art methods. We achieve a new state-of-the-art in moment retrieval on the widely used benchmarks Charades-STA, QVHighlights, and ActivityNet Captions. Notably, we attain over 9% (absolute) higher Recall (at 0.5 and 0.7 IoU) on the challenging long-video multi-moment QVHighlights benchmark. Our code is publicly available.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# 多変量自転車コード

Multivariate Bicycle Codes ( http://arxiv.org/abs/2406.19151v2 )

ライセンス: Link先を確認
Lukas Voss, Sim Jian Xian, Tobias Haug, Kishor Bharti, (参考訳) 量子誤差補正は、高精度な計算を可能にするために量子系のノイズを抑制する。 本稿では,Bravyi et al (Nature, 627, 778-782 (2024)) が開発したフレームワークの拡張を通じて,多変量自転車 (MB) 量子低密度パリティ・チェック (QLDPC) 符号を導入し,特に三変量自転車 (TB) 符号に着目した。 彼らの研究で提案された重み6符号とは違って、重量4および重み5TB-QLDPC符号の具体例は、短期的な実験的な設定に対してより快適であることを約束する。 TB-QLDPC符号の重み6までの符号は平面構造を持つことを示す。 さらに、新しいコードのほとんどは2次元のトーリックレイアウトで配置することもでき、類似したエラー抑制機能を提供しながら、同等の表面コードよりも符号化レートが大幅に向上する。 例えば、距離5の4つの論理量子ビットをウェイト5チェック測定で30個の物理量子ビットにエンコードできるが、これらのパラメータを持つ曲面コードは100個の物理量子ビットを必要とする。 高符号化率とコンパクトなレイアウトにより、我々のコードは短期ハードウェア実装に非常に適した候補となり、量子誤り訂正プロトコルの実現への道が開かれた。

Quantum error correction suppresses noise in quantum systems to allow for high-precision computations. In this work, we introduce Multivariate Bicycle (MB) Quantum Low-Density Parity-Check (QLDPC) codes, via an extension of the framework developed by Bravyi et al. [Nature, 627, 778-782 (2024)] and particularly focus on Trivariate Bicycle (TB) codes. Unlike the weight-6 codes proposed in their study, we offer concrete examples of weight-4 and weight-5 TB-QLDPC codes which promise to be more amenable to near-term experimental setups. We show that our TB-QLDPC codes up to weight-6 have a bi-planar structure. Further, most of our new codes can also be arranged in a two-dimensional toric layout, and have substantially better encoding rates than comparable surface codes while offering similar error suppression capabilities. For example, we can encode 4 logical qubits with distance 5 into 30 physical qubits with weight-5 check measurements, while a surface code with these parameters requires 100 physical qubits. The high encoding rate and compact layout make our codes highly suitable candidates for near-term hardware implementations, paving the way for a realizable quantum error correction protocol.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# DCoM: すべての学習者のためのアクティブラーニング

DCoM: Active Learning for All Learners ( http://arxiv.org/abs/2407.01804v2 )

ライセンス: Link先を確認
Inbal Mishal, Daphna Weinshall, (参考訳) Deep Active Learning (AL)技術は、深層モデルのトレーニングに要するアノテーションコストを削減するのに有効である。 しかしながら、低予算シナリオと高予算シナリオにおけるそれらの有効性は異なる戦略を必要とするように思われ、様々な予算シナリオで最適な結果を達成することは、依然として課題である。 本研究では,このギャップを埋めるための新しいアクティブラーニング手法であるDynamic Coverage & Margin Mix (DCoM)を紹介する。 既存の戦略とは異なり、DCoMは現在のモデルの能力を考慮して戦略を動的に調整する。 コンピュータビジョンタスクの挑戦を含む多様なデータセットに関する理論的分析と経験的評価を通じて、DCoMがコールドスタート問題を克服し、異なる予算制約で結果を継続的に改善する能力を示す。 このように、DCoMは低予算と高予算の両方で最先端の性能を達成する。

Deep Active Learning (AL) techniques can be effective in reducing annotation costs for training deep models. However, their effectiveness in low- and high-budget scenarios seems to require different strategies, and achieving optimal results across varying budget scenarios remains a challenge. In this study, we introduce Dynamic Coverage & Margin mix (DCoM), a novel active learning approach designed to bridge this gap. Unlike existing strategies, DCoM dynamically adjusts its strategy, considering the competence of the current model. Through theoretical analysis and empirical evaluations on diverse datasets, including challenging computer vision tasks, we demonstrate DCoM's ability to overcome the cold start problem and consistently improve results across different budgetary constraints. Thus DCoM achieves state-of-the-art performance in both low- and high-budget regimes.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# 文書理解のための大規模言語モデルにおけるレイアウトとテキストのインターリービング

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding ( http://arxiv.org/abs/2407.01976v2 )

ライセンス: Link先を確認
Jinghui Lu, Haiyang Yu, Yanjie Wang, Yongjie Ye, Jingqun Tang, Ziwei Yang, Binghong Wu, Qi Liu, Hao Feng, Han Wang, Hao Liu, Can Huang, (参考訳) 近年,OCR由来のテキストと空間的レイアウトを大規模言語モデル(LLM)にのみ組み込むことは,文書理解作業において極めて効果的であることが実証されている。 しかし、スペースレイアウトをテキストと統合する既存の手法には、過剰に長いテキストシーケンスを生成したり、LLMの自己回帰特性を完全に活用できないといった制限がある。 本稿では,文書理解のための大規模言語モデル (LayTextLLM) におけるインターリービングレイアウトとテキストの導入について述べる。 特にLayTextLLMは、各バウンディングボックスを単一の埋め込みに投影し、テキストでインターリーブする。 LayTextLLMは、レイアウトとテキストデータの相互作用を合理化するだけでなく、キー情報抽出(KIE)とビジュアル質問回答(VQA)のパフォーマンスも向上する。 総合的なベンチマーク評価では、KIEタスクが27.2%、VQAタスクが12.0%、従来の最先端の文書理解MLLMが15.1%向上した。

Recently, many studies have demonstrated that exclusively incorporating OCR-derived text and spatial layouts with large language models (LLMs) can be highly effective for document understanding tasks. However, existing methods that integrate spatial layouts with text have limitations, such as producing overly long text sequences or failing to fully leverage the autoregressive traits of LLMs. In this work, we introduce Interleaving Layout and Text in a Large Language Model (LayTextLLM)} for document understanding. In particular, LayTextLLM projects each bounding box to a single embedding and interleaves it with text, efficiently avoiding long sequence issues while leveraging autoregressive traits of LLMs. LayTextLLM not only streamlines the interaction of layout and textual data but also shows enhanced performance in Key Information Extraction (KIE) and Visual Question Answering (VQA). Comprehensive benchmark evaluations reveal significant improvements, with a 27.2% increase on KIE tasks and 12.0% on VQA tasks compared to previous state-of-the-art document understanding MLLMs, as well as a 15.1% improvement over other SOTA OCR-based LLMs on KIE tasks.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# FreeCG: 機械学習力場のためのClebsch-Gordan変換の設計空間を自由に

FreeCG: Free the Design Space of Clebsch-Gordan Transform for Machine Learning Force Fields ( http://arxiv.org/abs/2407.02263v3 )

ライセンス: Link先を確認
Shihao Shao, Haoran Geng, Zun Wang, Qinghua Cui, (参考訳) Clebsch-Gordan変換(CG変換)は、多体相互作用を効果的に符号化する。 多くの研究は原子環境の描写においてその正確さを証明しているが、これは高い計算的要求を伴っている。 この課題の計算負荷は、CG変換層の設計空間を制限する置換等式を必要とするため、低減が困難である。 置換不変入力にCG変換層を実装することにより、対称性に影響を与えることなく、この層の設計が完全に自由になることを示す。 この前提に基づいてさらに発展し、実際のエッジ情報から生成された置換不変抽象エッジで動作するCG変換層を作成する。 我々は,群CG変換をスパースパス,抽象エッジシャッフル,アテンションエンハンサーで実現し,強力かつ効率的なCG変換層を形成する。 提案手法はFreeCGと呼ばれ, MD17, rMD17, MD22の強制予測と, 顕著な拡張を伴うQM9データセットの特性予測を行う。 また,他のモデルへの拡張性についても検討した。 分子動力学シミュレーションは、水やLiPSを含むMD17および他の周期系で行われ、FreeCGの実際の応用能力を示している。 将来の幾何学的ニューラルネットワーク設計において、効率的かつ表現力のあるCG変換を実行するための新しいパラダイムを導入している。

The Clebsch-Gordan Transform (CG transform) effectively encodes many-body interactions. Many studies have proven its accuracy in depicting atomic environments, although this comes with high computational needs. The computational burden of this challenge is hard to reduce due to the need for permutation equivariance, which limits the design space of the CG transform layer. We show that, implementing the CG transform layer on permutation-invariant inputs allows complete freedom in the design of this layer without affecting symmetry. Developing further on this premise, our idea is to create a CG transform layer that operates on permutation-invariant abstract edges generated from real edge information. We bring in group CG transform with sparse path, abstract edges shuffling, and attention enhancer to form a powerful and efficient CG transform layer. Our method, known as FreeCG, achieves State-of-The-Art (SoTA) results in force prediction for MD17, rMD17, MD22, and property prediction in QM9 datasets with notable enhancement. The extensibility to other models is also examined. Molecular dynamics simulations are carried out on MD17 and other periodic systems, including water and LiPS, showcasing the capacity for real-world applications of FreeCG. It introduces a novel paradigm for carrying out efficient and expressive CG transform in future geometric neural network designs.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# FDS: 領域一般化のための多元条件拡散モデルを用いたフィードバック誘導ドメイン合成

FDS: Feedback-guided Domain Synthesis with Multi-Source Conditional Diffusion Models for Domain Generalization ( http://arxiv.org/abs/2407.03588v2 )

ライセンス: Link先を確認
Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Gustavo Adolfo Vargas Hakim, David Osowiechi, Moslem Yazdanpanah, Ismail Ben Ayed, Christian Desrosiers, (参考訳) ドメイン一般化技術は、訓練中の新しいデータ分布をシミュレートすることで、モデルロバスト性を高めることを目的としている。 しかし、これらの手法は、生成した画像の多様性の限定的な制御と、これらの画像が異なる分布にまたがる保証の欠如にしばしば悩まされる。 これらの課題に対処するために,FDS, Feedback-guided Domain Synthesisを提案する。これは拡散モデルを用いて新しい擬似ドメインを合成し,学習した特徴に基づいて単一モデルを訓練し,ドメインの混合を行う新しい戦略である。 元のサンプルでトレーニングされたモデルに分類課題を呈する画像と、元のデータセットを併用することにより、幅広い分布スペクトルにまたがるトレーニングセットの生成を確実にする。 包括的評価により、この手法は、様々な挑戦的なデータセットにまたがって、ドメインの一般化性能の新たなベンチマークを設定し、多様なタイプのドメインシフトを効果的に管理できることが示されている。 実装は以下の通りである。 \url{https://github.com/Mehrdad-Noori/FDS.git}。

Domain Generalization techniques aim to enhance model robustness by simulating novel data distributions during training, typically through various augmentation or stylization strategies. However, these methods frequently suffer from limited control over the diversity of generated images and lack assurance that these images span distinct distributions. To address these challenges, we propose FDS, Feedback-guided Domain Synthesis, a novel strategy that employs diffusion models to synthesize novel, pseudo-domains by training a single model on all source domains and performing domain mixing based on learned features. By incorporating images that pose classification challenges to models trained on original samples, alongside the original dataset, we ensure the generation of a training set that spans a broad distribution spectrum. Our comprehensive evaluations demonstrate that this methodology sets new benchmarks in domain generalization performance across a range of challenging datasets, effectively managing diverse types of domain shifts. The implementation is available at: \url{https://github.com/Mehrdad-Noori/FDS.git}.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# マルチコンバータ:多重畳み込みカーネルによる拡張コンバータ

Multi-Convformer: Extending Conformer with Multiple Convolution Kernels ( http://arxiv.org/abs/2407.03718v2 )

ライセンス: Link先を確認
Darshan Prabhu, Yifan Peng, Preethi Jyothi, Shinji Watanabe, (参考訳) 畳み込みは、局所文脈の効率的なモデリングにより、最先端のエンドツーエンド自動音声認識(ASR)システムにおいて欠かせないものとなっている。 特に、コンフォーマーでの使用は、バニラトランスフォーマーベースのASRシステムよりも性能が優れている。 Conformerの畳み込みモジュール以外のコンポーネントは再検討されているが、畳み込みモジュール自体の変更は、はるかに少ない。 そこで我々は,マルチコンバータを導入し,複数のコンバータカーネルをゲーティングと合わせてコンバータの畳み込みモジュール内で利用する。 これにより、さまざまな粒度のローカル依存関係のモデリングが改善される。 我々のモデルは、よりパラメータ効率の良いCgMLPやE-Branchformerといった既存のConformerと性能的に競合する。 我々は4つの異なるデータセットと3つの異なるモデリングパラダイムにまたがって、我々のアプローチとConformerとその変種を実証的に比較し、最大8%の相対的な単語エラー率~(WER)の改善を示す。

Convolutions have become essential in state-of-the-art end-to-end Automatic Speech Recognition~(ASR) systems due to their efficient modelling of local context. Notably, its use in Conformers has led to superior performance compared to vanilla Transformer-based ASR systems. While components other than the convolution module in the Conformer have been reexamined, altering the convolution module itself has been far less explored. Towards this, we introduce Multi-Convformer that uses multiple convolution kernels within the convolution module of the Conformer in conjunction with gating. This helps in improved modeling of local dependencies at varying granularities. Our model rivals existing Conformer variants such as CgMLP and E-Branchformer in performance, while being more parameter efficient. We empirically compare our approach with Conformer and its variants across four different datasets and three different modelling paradigms and show up to 8% relative word error rate~(WER) improvements.
翻訳日:2024-07-25 18:31:55 公開日:2024-07-24
# 商用エッジデバイスにおけるエンコーディングフリーSNNベースHARのためのネイティブニューロモルフィックLMUアーキテクチャ

Natively neuromorphic LMU architecture for encoding-free SNN-based HAR on commercial edge devices ( http://arxiv.org/abs/2407.04076v2 )

ライセンス: Link先を確認
Vittorio Fra, Benedetto Leto, Andrea Pignata, Enrico Macii, Gianvito Urgese, (参考訳) ニューロモルフィックモデル(Neuromorphic model)は、従来の機械学習(ML)とディープラーニング(DL)の代替手段を構築するために、生物解析可能なニューロンモデルを採用することで、人間の脳からインスピレーションを得ている。 脳にインスパイアされた計算のエミュレーションを実現することのできる専用ハードウェアの不足は、それ以外はシミュレートされていないが、エッジデバイスや組み込みシステムに対するニューロモルフィックコンピューティングの普及を妨げている。 この前提により、我々は従来のハードウェアにニューロモルフィックコンピューティングの観点を採用し、Leaky Integrate-and-Fire(LIF)ニューロンに完全に依存した、ネイティブなニューロモルフィックなレジェンド記憶ユニット(LMU)であるL2MUを提示する。 具体的には、LMUの元々の繰り返しアーキテクチャは、LIFまたはCuBa(Current-Based)LIFニューロンからなる神経集団を含む全ての構成要素をモデル化することによって再設計されている。 ニューロモルフィックコンピューティングとオフザシェルフエッジデバイスを混在させるため,実値をスパイクに変換するための入力モジュールをL2MUに搭載した。 ネットワークを検証するためのユースケースとして,HAR(Human Activity Recognition)の課題を選択した。 L2MUを手動のアクティビティからスマートウォッチの信号にベンチマークし、圧縮されたバージョンで3つの異なる商用エッジデバイスにデプロイしました。 報告された結果は、専用ハードウェアと排他的関係にあるだけでなく、一般的なセンサやデバイスで動作するための適切な選択肢として、ニューロモルフィックモデルを検討する可能性を示している。

Neuromorphic models take inspiration from the human brain by adopting bio-plausible neuron models to build alternatives to traditional Machine Learning (ML) and Deep Learning (DL) solutions. The scarce availability of dedicated hardware able to actualize the emulation of brain-inspired computation, which is otherwise only simulated, yet still hinders the wide adoption of neuromorphic computing for edge devices and embedded systems. With this premise, we adopt the perspective of neuromorphic computing for conventional hardware and we present the L2MU, a natively neuromorphic Legendre Memory Unit (LMU) which entirely relies on Leaky Integrate-and-Fire (LIF) neurons. Specifically, the original recurrent architecture of LMU has been redesigned by modelling every constituent element with neural populations made of LIF or Current-Based (CuBa) LIF neurons. To couple neuromorphic computing and off-the-shelf edge devices, we equipped the L2MU with an input module for the conversion of real values into spikes, which makes it an encoding-free implementation of a Recurrent Spiking Neural Network (RSNN) able to directly work with raw sensor signals on non-dedicated hardware. As a use case to validate our network, we selected the task of Human Activity Recognition (HAR). We benchmarked our L2MU on smartwatch signals from hand-oriented activities, deploying it on three different commercial edge devices in compressed versions too. The reported results remark the possibility of considering neuromorphic models not only in an exclusive relationship with dedicated hardware but also as a suitable choice to work with common sensors and devices.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# スマートフォンセンシングによるオンデバイスLCMのパーソナライズ

Enabling On-Device LLMs Personalization with Smartphone Sensing ( http://arxiv.org/abs/2407.04418v2 )

ライセンス: Link先を確認
Shiquan Zhang, Ying Ma, Le Fang, Hong Jia, Simon D'Alfonso, Vassilis Kostakos, (参考訳) このデモでは、デバイス上の大規模言語モデル(LLM)とスマートフォンセンシング技術を組み合わせて、コンテキスト認識およびパーソナライズされたサービスを実現する、新たなエンドツーエンドフレームワークが紹介されている。 このフレームワークは、プライバシの懸念、レイテンシとコスト、限られた個人情報など、現在のパーソナライズソリューションの重要な制限に対処する。 これを実現するために、我々は、コンテキスト認識とカスタマイズされたプロンプトエンジニアリングを通じて、マルチモーダルセンサーデータを用いたスマートフォンにLSMを配置し、プライバシーを確保し、パーソナライズ性能を向上させることを革新的に提案した。 大学生を巻き込んだケーススタディでは、適切なレコメンデーションを提供するためのフレームワークの能力を実証した。 さらに、このフレームワークは、オンデバイスとクラウドLLM間のプライバシー、パフォーマンス、レイテンシ、コスト、バッテリ、エネルギー消費において、最良のトレードオフを実現していることを示す。 我々の知る限りでは、このフレームワークはスマートフォンのセンシングでデバイス上でLLMをパーソナライズする最初のフレームワークです。 今後は、より多様なセンサーデータを組み込んで、パーソナライゼーションを強化するために広範なユーザー研究を行う予定だ。 提案するフレームワークは,医療,生産性,エンターテイメントといった分野におけるユーザエクスペリエンスを大幅に改善する可能性がある。

This demo presents a novel end-to-end framework that combines on-device large language models (LLMs) with smartphone sensing technologies to achieve context-aware and personalized services. The framework addresses critical limitations of current personalization solutions via cloud LLMs, such as privacy concerns, latency and cost, and limited personal information. To achieve this, we innovatively proposed deploying LLMs on smartphones with multimodal sensor data through context-aware sensing and customized prompt engineering, ensuring privacy and enhancing personalization performance. A case study involving a university student demonstrated the capability of the framework to provide tailored recommendations. In addition, we show that the framework achieves the best trade-off in privacy, performance, latency, cost, battery and energy consumption between on-device and cloud LLMs. To the best of our knowledge, this is the first framework to provide on-device LLMs personalization with smartphone sensing. Future work will incorporate more diverse sensor data and involve extensive user studies to enhance personalization. Our proposed framework has the potential to substantially improve user experiences across domains including healthcare, productivity, and entertainment.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# 領域不変点クラウド認識のための3次元適応型構造畳み込みネットワーク

3D Adaptive Structural Convolution Network for Domain-Invariant Point Cloud Recognition ( http://arxiv.org/abs/2407.04833v2 )

ライセンス: Link先を確認
Younggun Kim, Beomsik Cho, Seonghoon Ryoo, Soomok Lee, (参考訳) 自動運転車のポイントクラウドデータ認識にディープラーニングネットワークを適用することは、データセットやセンサー技術の変化による課題に直面し、さまざまな条件で正確性を維持するための適応技術の必要性を強調している。 本稿では,3Dポイントクラウド認識のための最先端フレームワークである3D Adaptive Structure Convolution Network (3D-ASCN)を紹介する。 3次元畳み込みカーネル、構造木構造、および効果的な幾何学的特徴抽出のための適応近傍サンプリングを組み合わせる。 本手法はドメイン不変性を取得し,様々なポイントクラウドデータセット上で堅牢で適応可能な性能を示し,パラメータ調整を必要とせず,多様なセンサ構成間の互換性を確保する。 このことは、自動運転車技術の信頼性と効率を大幅に向上させる可能性を強調している。

Adapting deep learning networks for point cloud data recognition in self-driving vehicles faces challenges due to the variability in datasets and sensor technologies, emphasizing the need for adaptive techniques to maintain accuracy across different conditions. In this paper, we introduce the 3D Adaptive Structural Convolution Network (3D-ASCN), a cutting-edge framework for 3D point cloud recognition. It combines 3D convolution kernels, a structural tree structure, and adaptive neighborhood sampling for effective geometric feature extraction. This method obtains domain-invariant features and demonstrates robust, adaptable performance on a variety of point cloud datasets, ensuring compatibility across diverse sensor configurations without the need for parameter adjustments. This highlights its potential to significantly enhance the reliability and efficiency of self-driving vehicle technology.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# TVR-Ranking:不正確なクエリでランク付けされた動画モーメント検索のデータセット

TVR-Ranking: A Dataset for Ranked Video Moment Retrieval with Imprecise Queries ( http://arxiv.org/abs/2407.06597v2 )

ライセンス: Link先を確認
Renjie Liang, Li Li, Chongzhi Zhang, Jing Wang, Xizhou Zhu, Aixin Sun, (参考訳) 本稿では,ビデオのコレクションから,自然言語によるクエリを通じて,マッチングモーメントのランク付けされたリストを見つけるために, RVMR (textit{Ranked Video Moment Retrieval}) のタスクを提案する。 CV, NLP, IRコミュニティによっていくつかの関連タスクが提案され研究されているが, RVMRはモーメントサーチの実践的設定を最も反映したタスクである。 RVMRの研究を容易にするために,TVRデータセットが提供する生のビデオと既存のモーメントアノテーションに基づいて,TVR-Rankingデータセットを開発した。 私たちの重要な貢献は、94,442のクエリ-モーメントペアの関連度に関するマニュアルアノテーションです。 次に、この新しいタスクに対するNDCG@K, IoU\geq \mu$評価指標を開発し、3つのベースラインモデルを評価する実験を行う。 実験の結果、新しいRVMRタスクは既存のモデルに新たな課題をもたらし、このデータセットがマルチモーダリティ検索の研究に寄与していると信じている。 データセットは \url{https://github.com/Ranking-VMR/TVR-Ranking} で公開されている。

In this paper, we propose the task of \textit{Ranked Video Moment Retrieval} (RVMR) to locate a ranked list of matching moments from a collection of videos, through queries in natural language. Although a few related tasks have been proposed and studied by CV, NLP, and IR communities, RVMR is the task that best reflects the practical setting of moment search. To facilitate research in RVMR, we develop the TVR-Ranking dataset, based on the raw videos and existing moment annotations provided in the TVR dataset. Our key contribution is the manual annotation of relevance levels for 94,442 query-moment pairs. We then develop the $NDCG@K, IoU\geq \mu$ evaluation metric for this new task and conduct experiments to evaluate three baseline models. Our experiments show that the new RVMR task brings new challenges to existing models and we believe this new dataset contributes to the research on multi-modality search. The dataset is available at \url{https://github.com/Ranking-VMR/TVR-Ranking}
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# GothX: カスタマイズ可能で合法的で悪意のあるIoTネットワークトラフィックのジェネレータ

GothX: a generator of customizable, legitimate and malicious IoT network traffic ( http://arxiv.org/abs/2407.07456v2 )

ライセンス: Link先を確認
Manuel Poisson, Kensuke Fukuda, Rodrigo Carnier, (参考訳) 近年、機械学習に基づく異常検出(AD)は、IoT(Internet of Things)ネットワークからのセキュリティ脅威に対する重要な対策となっている。 ネットワークトラフィックADのための機械学習(ML)モデルでは、データセットをトレーニング、評価、比較する必要がある。 IoTセキュリティ脅威の現実的で最新の表現が必要なため、関連するADモデルをトレーニングするためには、新しいデータセットを常に生成する必要がある。 ほとんどのトラフィック生成セットアップは著者の使用のみを考慮して開発されているため、トラフィック生成の複製は有用なデータセットの作成とメンテナンスに新たな課題となる。 本研究では,IoTデータセットの正当性と悪意のあるトラフィックを生成するフレキシブルなトラフィックジェネレータであるGothXを提案する。 Gotham Testbedのフォークとして、GothXは5つの要件で開発されている。 2)交通パラメータのカスタマイズ 3)正当性及び攻撃シナリオの自動実行 4)IoTネットワークの不均一性(現在のイテレーションではMQTT、Kafka、SINETStreamサービスをサポートしている)、 5) 生成されたデータセットの自動ラベル付け。 GothXは2つのユースケースで検証される。 a) IoTデータセットMQTTsetからのトラフィックの再生と強化 b) Kafka-MQTTネットワークトポロジに特有のCVEの利用やDDoS攻撃など、新たな現実的なシナリオの自動実行。 また、混在トラフィックを含む2つのデータセットにもコントリビュートしています。 我々は,GothXのスケーラビリティ,ユースケースのレプリケーション,生成したデータセットの妥当性を評価し,ネットワークトラフィック生成の現状を改善する上でのGothXの能力を確認した。

In recent years, machine learning-based anomaly detection (AD) has become an important measure against security threats from Internet of Things (IoT) networks. Machine learning (ML) models for network traffic AD require datasets to be trained, evaluated and compared. Due to the necessity of realistic and up-to-date representation of IoT security threats, new datasets need to be constantly generated to train relevant AD models. Since most traffic generation setups are developed considering only the author's use, replication of traffic generation becomes an additional challenge to the creation and maintenance of useful datasets. In this work, we propose GothX, a flexible traffic generator to create both legitimate and malicious traffic for IoT datasets. As a fork of Gotham Testbed, GothX is developed with five requirements: 1)easy configuration of network topology, 2) customization of traffic parameters, 3) automatic execution of legitimate and attack scenarios, 4) IoT network heterogeneity (the current iteration supports MQTT, Kafka and SINETStream services), and 5) automatic labeling of generated datasets. GothX is validated by two use cases: a) re-generation and enrichment of traffic from the IoT dataset MQTTset,and b) automatic execution of a new realistic scenario including the exploitation of a CVE specific to the Kafka-MQTT network topology and leading to a DDoS attack. We also contribute with two datasets containing mixed traffic, one made from the enriched MQTTset traffic and another from the attack scenario. We evaluated the scalability of GothX (450 IoT sensors in a single machine), the replication of the use cases and the validity of the generated datasets, confirming the ability of GothX to improve the current state-of-the-art of network traffic generation.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# Snapshot SWIR メタサーフェスを用いた先行学習型ハイパースペクトル画像再構成

Inter and Intra Prior Learning-based Hyperspectral Image Reconstruction Using Snapshot SWIR Metasurface ( http://arxiv.org/abs/2407.07503v3 )

ライセンス: Link先を確認
Linqiang Li, Jinglei Hao, Yongqiang Zhao, Pan Liu, Haofang Yan, Ziqin Zhang, Seong G. Kong, (参考訳) ショートウェーブ赤外線(SWIR)スペクトル情報(1 {\mu}mから2.5{\mu}m)は、シーン情報を取得する際の従来のカラーカメラの限界を克服する。 しかし、従来のSWIRハイパースペクトルイメージングシステムは、粗大な設定と低取得速度のため、課題に直面している。 本研究は, 準曲面フィルタとそれに対応するフィルタ選択法に基づくスナップショットSWIRハイパースペクトルイメージングシステムを導入し, フィルタ間の相関係数を最小にする。 このシステムは、コンパクトサイズとスナップショット画像の利点を提供する。 本稿では,先行学習と段階間情報相互作用のギャップを埋める,高品質なSWIRハイパースペクトル画像再構成を実現するための,新たな先行学習内展開フレームワークを提案する。 さらに,デコーダの詳細な情報損失を防止するために,マルチスケールエンコーダの特徴のコンテキスト相関を適応的に伝達する適応的特徴伝達機構を設計する。 実験により,提案手法は既存の手法よりも高速かつ優れた性能でハイパースペクトル画像の再構成が可能であることを実証した。

Shortwave-infrared(SWIR) spectral information, ranging from 1 {\mu}m to 2.5{\mu}m, overcomes the limitations of traditional color cameras in acquiring scene information. However, conventional SWIR hyperspectral imaging systems face challenges due to their bulky setups and low acquisition speeds. This work introduces a snapshot SWIR hyperspectral imaging system based on a metasurface filter and a corresponding filter selection method to achieve the lowest correlation coefficient among these filters. This system offers the advantages of compact size and snapshot imaging. We propose a novel inter and intra prior learning unfolding framework to achieve high-quality SWIR hyperspectral image reconstruction, which bridges the gap between prior learning and cross-stage information interaction. Additionally, We design an adaptive feature transfer mechanism to adaptively transfer the contextual correlation of multi-scale encoder features to prevent detailed information loss in the decoder. Experiment results demonstrate that our method can reconstruct hyperspectral images with high speed and superior performance over existing methods.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# SvANet:小さな医療用オブジェクトセグメンテーションのためのスケール可変アテンションベースネットワーク

SvANet: A Scale-variant Attention-based Network for Small Medical Object Segmentation ( http://arxiv.org/abs/2407.07720v2 )

ライセンス: Link先を確認
Wei Dai, (参考訳) 早期発見と正確な診断は悪性疾患の再発のリスクを予測し、効果的治療の確率を高めることができる。 軽度の感染部位を有する軽度の症候群は、異常な警告であり、疾患の早期診断の最前線である。 畳み込みニューラルネットワーク(CNN)のようなディープラーニングアルゴリズムは、自然または医学的なオブジェクトを分割するために使われ、有望な結果を示している。 しかし、画像内の小さな領域の医療対象を分析することは、CNNにおける畳み込みやプール操作によって引き起こされる情報損失と圧縮欠陥のため、依然として課題である。 これらの損失と欠陥は、ネットワークが深まるにつれて、特に小さな医療オブジェクトにとって、ますます顕著になる。 これらの課題に対処するために,医用画像における小型物体分割を正確に行うための,新しいスケール可変アテンションベースネットワーク(SvANet)を提案する。 SvANetはモンテカルロ・アテンション、スケール可変アテンション、ビジョン・トランスフォーマーで構成されており、クロススケールな特徴を取り入れ、小さな医療オブジェクトの識別を強化するために圧縮アーティファクトを緩和している。 定量的実験の結果、SvANetは96.12%、96.11%、89.79%、84.15%、80.25%、73.05%、および72.58%を達成し、それぞれKiTS23、ISIC 2018、ATLAS、PolypGen、TioNet、FIVES、SpermHealthの各データセットの画像領域の1%未満を占める腎臓腫瘍、皮膚病変、肝腫瘍、ポリープ、外科切除細胞、網膜血管、精子の分画係数を推定した。

Early detection and accurate diagnosis can predict the risk of malignant disease transformation, thereby increasing the probability of effective treatment. A mild syndrome with small infected regions is an ominous warning and is foremost in the early diagnosis of diseases. Deep learning algorithms, such as convolutional neural networks (CNNs), have been used to segment natural or medical objects, showing promising results. However, analyzing medical objects of small areas in images remains a challenge due to information losses and compression defects caused by convolution and pooling operations in CNNs. These losses and defects become increasingly significant as the network deepens, particularly for small medical objects. To address these challenges, we propose a novel scale-variant attention-based network (SvANet) for accurate small-scale object segmentation in medical images. The SvANet consists of Monte Carlo attention, scale-variant attention, and vision transformer, which incorporates cross-scale features and alleviates compression artifacts for enhancing the discrimination of small medical objects. Quantitative experimental results demonstrate the superior performance of SvANet, achieving 96.12%, 96.11%, 89.79%, 84.15%, 80.25%, 73.05%, and 72.58% in mean Dice coefficient for segmenting kidney tumors, skin lesions, hepatic tumors, polyps, surgical excision cells, retinal vasculatures, and sperms, which occupy less than 1% of the image areas in KiTS23, ISIC 2018, ATLAS, PolypGen, TissueNet, FIVES, and SpermHealth datasets, respectively.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# 連続可変ゲート合成の古典力学の量子シミュレーションへの応用

An application of continuous-variable gate synthesis to quantum simulation of classical dynamics ( http://arxiv.org/abs/2407.08006v2 )

ライセンス: Link先を確認
Sam Cochran, James Stokes, Paramsothy Jayakumar, Shravan Veerapaneni, (参考訳) 量子コンピューティングは幅広い計算タスクを加速する約束があるが、もともとファインマンが考えていた量子力学の量子シミュレーションは、量子上の優位性を達成するための最も有望な候補である。 比較可能な技術的適用可能性の低い可能性として、古典的非線形力学の量子シミュレーションがある。 クープマン・フォン・ノイマン形式主義に基づくデジタル量子アルゴリズムの開発の試みは、無限次元ヒルベルト空間から、キュービットの集合によって記述される有限次元部分空間への必要な射影ステップのために、課題に直面している。 このフィニゼーションは、解を非常に短い時間的地平線に制限する数値的なアーティファクトを生成する。 本稿では,そのような障害を自然に回避する連続変数量子コンピューティング(CVQC)と,古典的非線形力学のKvNシミュレーションのためのCVQCアルゴリズムを提案する。 特に、無調波振動ダイナミクスの積-形式ハミルトニアンシミュレーションのための明示的なゲート合成について述べる。

Although quantum computing holds promise to accelerate a wide range of computational tasks, the quantum simulation of quantum dynamics as originally envisaged by Feynman remains the most promising candidate for achieving quantum advantage. A less explored possibility with comparably far-reaching technological applicability is the quantum simulation of classical nonlinear dynamics. Attempts to develop digital quantum algorithms based on the Koopman von Neumann formalism have met with challenges because of the necessary projection step from an infinite-dimensional Hilbert space to the finite-dimensional subspace described by a collection of qubits. This finitization produces numerical artifacts that limit solutions to very short time horizons. In this paper we review continuous-variable quantum computing (CVQC), which naturally avoids such obstacles, and a CVQC algorithm for KvN simulation of classical nonlinear dynamics is advocated. In particular, we present explicit gate synthesis for product-formula Hamiltonian simulation of anharmonic vibrational dynamics.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# CADC:レコメンデーションモデルトレーニングデータ圧縮のためのユーザ-アイテムインタラクションの符号化

CADC: Encoding User-Item Interactions for Compressing Recommendation Model Training Data ( http://arxiv.org/abs/2407.08108v2 )

ライセンス: Link先を確認
Hossein Entezari Zarch, Abdulla Alshabanah, Chaoyi Jiang, Murali Annavaram, (参考訳) ディープラーニングレコメンデーションモデル(DLRM)は、現在のeコマース産業の中心にある。 しかし、これらの大規模モデルのトレーニングに使用されるトレーニングデータの量は指数関数的に増加しており、実質的なトレーニングハードルに繋がる。 トレーニングデータセットには、コンテンツベース情報(ユーザとアイテムの機能)とコラボレーティブ情報(ユーザとアイテム間のインタラクション)の2つの主要なタイプが含まれている。 トレーニングデータセットを減らす1つのアプローチは、ユーザとイテムのインタラクションを削除することだ。 しかし、それは協調情報を著しく減らし、それは相互作用履歴が組み込まれているため、正確性を維持するために不可欠である。 この損失はDLRMの性能に大きな影響を及ぼす。 本論文は,ユーザとユーザ間のインタラクション履歴をキャプチャしてユーザとアイテムの埋め込みを豊かにすることができれば,モデル精度を損なうことなく,インタラクション履歴を圧縮できることを示す。 このように、この作業であるCADC(Collaborative Aware Data Compression)は、データセット圧縮のトレーニングに2段階のアプローチを取る。 最初のステップでは、ユーザとアイテムの両方に新しい埋め込み表現を作成するために、ユーザ-itemインタラクションマトリックスの行列係数化を使用します。 ユーザとアイテムの埋め込みがインタラクション履歴情報によってリッチになると、トレーニングデータセットの均一なランダムサンプリングを適用して、モデルの精度低下を最小化しながら、トレーニングデータセットのサイズを大幅に削減する。 CADCのソースコードは \href{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md} で公開されている。

Deep learning recommendation models (DLRMs) are at the heart of the current e-commerce industry. However, the amount of training data used to train these large models is growing exponentially, leading to substantial training hurdles. The training dataset contains two primary types of information: content-based information (features of users and items) and collaborative information (interactions between users and items). One approach to reduce the training dataset is to remove user-item interactions. But that significantly diminishes collaborative information, which is crucial for maintaining accuracy due to its inclusion of interaction histories. This loss profoundly impacts DLRM performance. This paper makes an important observation that if one can capture the user-item interaction history to enrich the user and item embeddings, then the interaction history can be compressed without losing model accuracy. Thus, this work, Collaborative Aware Data Compression (CADC), takes a two-step approach to training dataset compression. In the first step, we use matrix factorization of the user-item interaction matrix to create a novel embedding representation for both the users and items. Once the user and item embeddings are enriched by the interaction history information the approach then applies uniform random sampling of the training dataset to drastically reduce the training dataset size while minimizing model accuracy drop. The source code of CADC is available at \href{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# Microsoft Copilotによるセキュリティ運用センターのためのAI駆動ガイド応答

AI-Driven Guided Response for Security Operation Centers with Microsoft Copilot for Security ( http://arxiv.org/abs/2407.09017v3 )

ライセンス: Link先を確認
Scott Freitas, Jovan Kalajdjieski, Amir Gharib, Robert McCann, (参考訳) セキュリティオペレーションセンターは、単純なものから非常に複雑なものまで、セキュリティインシデントの絶え間ないストリームと競合する。 この問題を解決するために、業界規模のMLアーキテクチャであるCopilot Guided Response(CGR)を開発した。これは、(1)類似のインシデントを特定することによって、セキュリティアナリストを調査、必須の歴史的コンテキストを提供する、(2)真のポジティブ、偽陽性、良心的ポジティブ、(3)修正された封じ込めアクションを推奨する、という3つの重要なタスクにわたって、セキュリティアナリストをガイドするものだ。 CGRはMicrosoft Defender XDR製品に統合され、世界中でデプロイされ、何千もの顧客に対して数百万のレコメンデーションを生成する。 内部評価、セキュリティ専門家とのコラボレーション、顧客からのフィードバックを取り入れた大規模な評価は、CGRが3つのタスクすべてにわたって高品質なレコメンデーションを提供することを示すものです。 我々は、CGRアーキテクチャの概要を包括的に紹介し、このような詳細でこれらの機能をオープンに議論した最初のサイバーセキュリティ企業として、先例を定めている。 さらに、現実のセキュリティインシデントに関する最大の公開コレクションであるGUIDEは、100万件の注釈付きインシデントにまたがる13万件のエビデンスにまたがっています。 研究者や実践者が現実世界のデータの研究を行うことで、GUIDEはサイバーセキュリティの状態を前進させ、次世代の機械学習システムの開発をサポートする。

Security operation centers contend with a constant stream of security incidents, ranging from straightforward to highly complex. To address this, we developed Copilot Guided Response (CGR), an industry-scale ML architecture that guides security analysts across three key tasks -- (1) investigation, providing essential historical context by identifying similar incidents; (2) triaging to ascertain the nature of the incident -- whether it is a true positive, false positive, or benign positive; and (3) remediation, recommending tailored containment actions. CGR is integrated into the Microsoft Defender XDR product and deployed worldwide, generating millions of recommendations across thousands of customers. Our extensive evaluation, incorporating internal evaluation, collaboration with security experts, and customer feedback, demonstrates that CGR delivers high-quality recommendations across all three tasks. We provide a comprehensive overview of the CGR architecture, setting a precedent as the first cybersecurity company to openly discuss these capabilities in such depth. Additionally, we GUIDE, the largest public collection of real-world security incidents, spanning 13M evidences across 1M annotated incidents. By enabling researchers and practitioners to conduct research on real-world data, GUIDE advances the state of cybersecurity and supports the development of next-generation machine learning systems.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# Qlineアーキテクチャ上での実験的検証可能な多サイクルブラインド量子コンピューティング

Experimental verifiable multi-client blind quantum computing on a Qline architecture ( http://arxiv.org/abs/2407.09310v2 )

ライセンス: Link先を確認
Beatrice Polacchi, Dominik Leichtle, Gonzalo Carvacho, Giorgio Milani, Nicolò Spagnolo, Marc Kaplan, Elham Kashefi, Fabio Sciarrino, (参考訳) エンドユーザーによる認証ツールの活用は、ハードウェアが古典的なシミュラビリティの体制を超えてスケールアップするにつれて、量子技術の発展の基本的な側面を表している。 マルチクライアント分散ブラインド量子コンピューティングの場合のように、ユーザのプライバシが悪意のある量子ノードやサーバに晒されると、量子ネットワークの認証はさらに重要になります。 このようなプロトコルでは、セキュリティはデータを隠蔽するだけでなく、サーバが要求された計算を正しく実行していることを検証し、採用機器のハードウェア仮定を最小化することによって提供されなければならない。 特に、標準的な検証技術は、クライアントが信頼できないソースから量子状態を受け取るシナリオでは失敗する。 しかし、最近の理論的結果は、信頼できない状態の準備であっても、盲点量子計算を検証する技術を提供している。 このような理論ツールを備えた本研究では,分散アーキテクチャにおける2サイクル検証型盲点量子コンピューティングプロトコルの実験的実装を初めて提供する。 得られた結果は、大規模ネットワークにおけるマルチテナント分散量子計算の検証の新しい視点を示す。

The exploitation of certification tools by end users represents a fundamental aspect of the development of quantum technologies as the hardware scales up beyond the regime of classical simulatability. Certifying quantum networks becomes even more crucial when the privacy of their users is exposed to malicious quantum nodes or servers as in the case of multi-client distributed blind quantum computing, where several clients delegate a joint private computation to remote quantum servers, such as federated quantum machine learning. In such protocols, security must be provided not only by keeping data hidden but also by verifying that the server is correctly performing the requested computation while minimizing the hardware assumptions on the employed devices. Notably, standard verification techniques fail in scenarios where the clients receive quantum states from untrusted sources such as, for example, in a recently demonstrated linear quantum network performing multi-client blind quantum computation. However, recent theoretical results provide techniques to verify blind quantum computations even in the case of untrusted state preparation. Equipped with such theoretical tools, in this work, we provide the first experimental implementation of a two-client verifiable blind quantum computing protocol in a distributed architecture. The obtained results represent novel perspectives for the verification of multi-tenant distributed quantum computation in large-scale networks.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# 変圧器言語モデルにおける低ランク学習の検討:効率性とスケーリング分析

Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis ( http://arxiv.org/abs/2407.09835v2 )

ライセンス: Link先を確認
Xiuying Wei, Skander Moalla, Razvan Pascanu, Caglar Gulcehre, (参考訳) 最先端のLLMは、しばしば高い計算コストのスケールに依存しており、性能に大きな影響を及ぼすことなくパラメータ数とコストを削減するための研究課題を引き起こしている。 本研究はトランスフォーマーを用いたLSMに着目し,特に注目ブロックよりも少ない計算集約フィードフォワードネットワーク(FFN)に低ランクパラメトリゼーションを適用した。 以前の作品とは対照的である。 i) 最大1.3Bパラメータのスケールでの低ランクパラメトリゼーションを探索する。 (ii) 畳み込み型アーキテクチャではなくトランスフォーマー言語モデル内 (三) ゼロから訓練から始めること。 大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションは(例: 2.6$\times$ FFNで32\%のパラメータで)効率的かつ効果的である。 興味深いことに、これらの構造化FFNはオリジナルのモデルよりも急激なスケーリング曲線を示す。 この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。 私たちのコードはhttps://github.com/CLAIRE-Labo/StructuredFFN/tree/main.orgで利用可能です。

State-of-the-art LLMs often rely on scale with high computational costs, which has sparked a research agenda to reduce parameter counts and costs without significantly impacting performance. Our study focuses on Transformer-based LLMs, specifically applying low-rank parametrization to the computationally intensive feedforward networks (FFNs), which are less studied than attention blocks. In contrast to previous works, (i) we explore low-rank parametrization at scale, up to 1.3B parameters; (ii) within Transformer language models rather than convolutional architectures; and (iii) starting from training from scratch. Experiments on the large RefinedWeb dataset show that low-rank parametrization is both efficient (e.g., 2.6$\times$ FFN speed-up with 32\% parameters) and effective during training. Interestingly, these structured FFNs exhibit steeper scaling curves than the original models. Motivated by this finding, we develop the wide and structured networks surpassing the current medium-sized and large-sized Transformer in perplexity and throughput performance. Our code is available at https://github.com/CLAIRE-Labo/StructuredFFN/tree/main.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# MutDet: リモートセンシングオブジェクト検出のための事前トレーニングを相互に最適化する

MutDet: Mutually Optimizing Pre-training for Remote Sensing Object Detection ( http://arxiv.org/abs/2407.09920v2 )

ライセンス: Link先を確認
Ziyue Huang, Yongchao Feng, Qingjie Liu, Yunhong Wang, (参考訳) DETRシリーズ検出器の事前学習法は自然界、例えばDETRegで広く研究されている。 しかし、検出事前訓練はリモートセンシングシーンでは未発見のままである。 既存の事前学習法では、事前訓練したバックボーンから抽出した物体の埋め込みと検出器の特徴との間のアライメントが重要である。 しかし,特徴抽出法の違いにより,特徴差が残っており,事前学習性能が損なわれている。 複雑な環境とより密集した物体を持つリモートセンシング画像は、その差を悪化させる。 本研究では,MutDetと呼ばれるリモートセンシングオブジェクト検出のための,Mutally最適化事前学習フレームワークを提案する。 MutDetでは,この問題に対するシステム的解決策を提案する。 まず,最終エンコーダ層に物体の埋め込みと検出器の特徴を融合させ,情報相互作用を増強する相互強化モジュールを提案する。 最後に,拡張モジュールの導入に伴うタスクギャップを軽減するために,補助シムヘッドを設計する。 様々な環境における総合的な実験は、新しい最先端の転送性能を示す。 データ量に制限がある場合、改善は特に顕著である。 DIOR-Rデータの10%を使用する場合、MutDetはAP50でDetRegを6.1%改善する。 コードとモデルは、https://github.com/floatingstarZ/MutDet.comで入手できる。

Detection pre-training methods for the DETR series detector have been extensively studied in natural scenes, e.g., DETReg. However, the detection pre-training remains unexplored in remote sensing scenes. In existing pre-training methods, alignment between object embeddings extracted from a pre-trained backbone and detector features is significant. However, due to differences in feature extraction methods, a pronounced feature discrepancy still exists and hinders the pre-training performance. The remote sensing images with complex environments and more densely distributed objects exacerbate the discrepancy. In this work, we propose a novel Mutually optimizing pre-training framework for remote sensing object Detection, dubbed as MutDet. In MutDet, we propose a systemic solution against this challenge. Firstly, we propose a mutual enhancement module, which fuses the object embeddings and detector features bidirectionally in the last encoder layer, enhancing their information interaction.Secondly, contrastive alignment loss is employed to guide this alignment process softly and simultaneously enhances detector features' discriminativity. Finally, we design an auxiliary siamese head to mitigate the task gap arising from the introduction of enhancement module. Comprehensive experiments on various settings show new state-of-the-art transfer performance. The improvement is particularly pronounced when data quantity is limited. When using 10% of the DIOR-R data, MutDet improves DetReg by 6.1% in AP50. Codes and models are available at: https://github.com/floatingstarZ/MutDet.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# MSD: 建築施設の床計画作成のためのベンチマークデータセット

MSD: A Benchmark Dataset for Floor Plan Generation of Building Complexes ( http://arxiv.org/abs/2407.10121v3 )

ライセンス: Link先を確認
Casper van Engelenburg, Fatemeh Mostafavi, Emanuel Kuhn, Yuntae Jeon, Michael Franzen, Matthias Standfest, Jan van Gemert, Seyran Khademi, (参考訳) 建築設計における有用なコンピュータ支援手法の開発には,多元的かつ現実的なフロアプランデータが必要である。 今日の大規模なフロアプランデータセットは主に単純なフロアプランのレイアウトを特徴としている。 現在のデータセットと実世界のミスマッチを補うために、我々は、マルチパートメント住宅のレイアウトのかなりのシェアを含む最初の大規模フロアプランデータセットである‘textbf{Modified Swiss Dwellings} (MSD) を開発した。 MSDは中規模から大規模の複合住宅の5.3K以上のフロアプランがあり、18.9K以上のアパートをカバーしている。 従来のフロアプラン生成手法は,より単純なシナリオでは有効であるが,MSDがもたらした課題に対して,まだシームレスに対処できないことが検証された。 我々のベンチマークでは、フロアプランマシン理解の新しい研究が求められている。 コードとデータはオープンです。

Diverse and realistic floor plan data are essential for the development of useful computer-aided methods in architectural design. Today's large-scale floor plan datasets predominantly feature simple floor plan layouts, typically representing single-apartment dwellings only. To compensate for the mismatch between current datasets and the real world, we develop \textbf{Modified Swiss Dwellings} (MSD) -- the first large-scale floor plan dataset that contains a significant share of layouts of multi-apartment dwellings. MSD features over 5.3K floor plans of medium- to large-scale building complexes, covering over 18.9K distinct apartments. We validate that existing approaches for floor plan generation, while effective in simpler scenarios, cannot yet seamlessly address the challenges posed by MSD. Our benchmark calls for new research in floor plan machine understanding. Code and data are open.
翻訳日:2024-07-25 18:22:12 公開日:2024-07-24
# MetaLLM: LLMの高性能で費用対効果の高い動的フレームワーク

MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs ( http://arxiv.org/abs/2407.10834v2 )

ライセンス: Link先を確認
Quang H. Nguyen, Duy C. Hoang, Juliette Decugis, Saurav Manchanda, Nitesh V. Chawla, Khoa D. Doan, (参考訳) 機械学習(ML)の急速な進歩は、様々なタスクや領域に優れた多くの大きな言語モデル(LLM)を生み出した。 これらのLCMには、計算能力や価格の面で異なる能力とコストが備わっている。 クエリの要求は、例えば、クエリされたドメインまたはその複雑さのため、アプリケーション内の1つのLCMへのデフォルトは、最も大きく、最も実用的で、最も平均的なテストパフォーマンスを持つものであっても、通常はベストチョイスではない。 したがって、アプリケーションに対して正確かつコスト効率のよい適切なLLMを選択することは、依然として課題です。 本稿では,各問合せを最適LLMに動的かつインテリジェントにルーティングし,精度とコスト効率を大幅に向上させるMetaLLMを提案する。 多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。 我々の実験は、OpenAIのGPTモデル、AmazonのTitan、AnthropicのClaude、MetaのLLaMaといった人気のあるLLMプラットフォーム上で実施され、現実世界のシナリオにおけるMetaLLMの有効性を示し、分類タスクを超えて将来の拡張の土台を築きました。

The rapid progress in machine learning (ML) has brought forth many large language models (LLMs) that excel in various tasks and areas. These LLMs come with different abilities and costs in terms of computation or pricing. Since the demand for each query can vary, e.g., because of the queried domain or its complexity, defaulting to one LLM in an application is not usually the best choice, whether it is the biggest, priciest, or even the one with the best average test performance. Consequently, picking the right LLM that is both accurate and cost-effective for an application remains a challenge. In this paper, we introduce MetaLLM, a framework that dynamically and intelligently routes each query to the optimal LLM (among several available LLMs) for classification tasks, achieving significantly improved accuracy and cost-effectiveness. By framing the selection problem as a multi-armed bandit, MetaLLM balances prediction accuracy and cost efficiency under uncertainty. Our experiments, conducted on popular LLM platforms such as OpenAI's GPT models, Amazon's Titan, Anthropic's Claude, and Meta's LLaMa, showcase MetaLLM's efficacy in real-world scenarios, laying the groundwork for future extensions beyond classification tasks.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# Q-Sparse: すべての大規模言語モデルは、完全に疎活性化できる

Q-Sparse: All Large Language Models can be Fully Sparsely-Activated ( http://arxiv.org/abs/2407.10969v3 )

ライセンス: Link先を確認
Hongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei, (参考訳) Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。 Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。 これは、アクティベーションにトップKスペーシングを適用し、トレーニングにストレートスルー推定器を適用することで達成される。 バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。 本研究の主な成果は,(1)Q-Sparse は,(1) ベースライン LLM に比較して,より効率的な推論時間で結果が得られること,(2) 疎活性化 LLM に対する推論-最適スケーリング則を示すこと,(3) Q-Sparse は,Scratch からのトレーニング,オフ・ザ・シェルフ LLM の継続トレーニング,微調整,(4) Q-Sparse は完全精度と1ビット LLM (例: BitNet b1.58) の両方で動作すること,などである。 特に、BitNet b1.58とQ-Sparse(MoEを装備できる)のシナジーは、将来のLCMのコストやエネルギー消費を含む効率を変革するための基盤と明確な経路を提供する。

We introduce, Q-Sparse, a simple yet effective approach to training sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity of activations in LLMs which can bring significant efficiency gains in inference. This is achieved by applying top-K sparsification to the activations and the straight-through-estimator to the training. We also introduce Block Q-Sparse for batch training and inference. The key results from this work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs while being much more efficient at inference time; (2) We present an inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is effective in different settings, including training-from-scratch, continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the cornerstone and a clear path to revolutionize the efficiency, including cost and energy consumption, of future LLMs.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# 大規模言語モデル透かしによるインテリジェンス同定システムの構築

Building Intelligence Identification System via Large Language Model Watermarking: A Survey and Beyond ( http://arxiv.org/abs/2407.11100v3 )

ライセンス: Link先を確認
Xuhong Wang, Haoyu Jiang, Yi Yu, Jingru Yu, Yilun Lin, Ping Yi, Yingchun Wang, Yu Qiao, Li Li, Fei-Yue Wang, (参考訳) 大規模言語モデル(LLM)は多種多様な産業に統合され、不正な複製と誤用により重大なセキュリティリスクが生じる。 これらの懸念を軽減するため、堅牢な識別メカニズムは効果的な戦略として広く認識されている。 LLMの識別システムは、知的財産を管理し保護し、データのセキュリティを確保するための透かし技術に大きく依存している。 しかし、従来の研究は主にアルゴリズムの基本原理に集中しており、知的識別の観点からの透かし理論と実践の包括的な分析を欠いていた。 このギャップを埋めるために、まず、ウォーターマーキング技術を用いて、様々な参加者がLLM内で堅牢なID認識システムを効果的に実装し、管理する方法を検討する。 第2に,より正確でカスタマイズされた透かしを実現するために識別プロセスを体系化する相互情報理論に基づく数学的枠組みを提案する。 さらに,LLM透かしの性能指標を総合的に評価し,選好を反映し,識別アプリケーションに関する議論を進める。 最後に、現在の透かし技術や理論フレームワークにおける既存の課題について概説し、これらの課題に対処するための方向性を示す。 我々の体系的な分類と詳細な展示は、様々な方法の比較と評価を強化し、透明でセキュアで公平なLLMエコシステムに向けたさらなる研究と開発を促進することを目的としている。

Large Language Models (LLMs) are increasingly integrated into diverse industries, posing substantial security risks due to unauthorized replication and misuse. To mitigate these concerns, robust identification mechanisms are widely acknowledged as an effective strategy. Identification systems for LLMs now rely heavily on watermarking technology to manage and protect intellectual property and ensure data security. However, previous studies have primarily concentrated on the basic principles of algorithms and lacked a comprehensive analysis of watermarking theory and practice from the perspective of intelligent identification. To bridge this gap, firstly, we explore how a robust identity recognition system can be effectively implemented and managed within LLMs by various participants using watermarking technology. Secondly, we propose a mathematical framework based on mutual information theory, which systematizes the identification process to achieve more precise and customized watermarking. Additionally, we present a comprehensive evaluation of performance metrics for LLM watermarking, reflecting participant preferences and advancing discussions on its identification applications. Lastly, we outline the existing challenges in current watermarking technologies and theoretical frameworks, and provide directional guidance to address these challenges. Our systematic classification and detailed exposition aim to enhance the comparison and evaluation of various methods, fostering further research and development toward a transparent, secure, and equitable LLM ecosystem.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# TLRN: 大規模な変形画像登録のための時間遅延残差ネットワーク

TLRN: Temporal Latent Residual Networks For Large Deformation Image Registration ( http://arxiv.org/abs/2407.11219v2 )

ライセンス: Link先を確認
Nian Wu, Jiarui Xing, Miaomiao Zhang, (参考訳) 本稿では,時系列画像登録における変形フィールドの列を予測するため,TLRN ( {\em Temporal Latent Residual Network) と呼ばれる新しい手法を提案する。 時系列画像の登録の課題は、特に画像が基準と大きく異なる場合(例えば、ピークストレッチフェーズと比較して心臓周期の開始)に、大きな動きが発生することである。 高精度でロバストな登録結果を得るためには、動きの連続性の性質を活用し、連続した画像フレームの時間的滑らかさを利用する。 提案するTLRNは、時間列初期速度場によってパラメータ化される遅延変形空間において、残留ブロックを慎重に設計した時間的残留ネットワークを強調する。 各ブロックは、所望の変形特徴と過去の時間フレームから蓄積した電流入力との間の残差関数を学習するように設計されている。 合成データと実世界の心臓磁気共鳴(CMR)画像からTLRNの有効性を検証した。 実験の結果,TLRNは最先端技術と比較して,登録精度を大幅に向上できることがわかった。 私たちのコードはhttps://github.com/nellie689/TLRNで公開されています。

This paper presents a novel approach, termed {\em Temporal Latent Residual Network (TLRN)}, to predict a sequence of deformation fields in time-series image registration. The challenge of registering time-series images often lies in the occurrence of large motions, especially when images differ significantly from a reference (e.g., the start of a cardiac cycle compared to the peak stretching phase). To achieve accurate and robust registration results, we leverage the nature of motion continuity and exploit the temporal smoothness in consecutive image frames. Our proposed TLRN highlights a temporal residual network with residual blocks carefully designed in latent deformation spaces, which are parameterized by time-sequential initial velocity fields. We treat a sequence of residual blocks over time as a dynamic training system, where each block is designed to learn the residual function between desired deformation features and current input accumulated from previous time frames. We validate the effectivenss of TLRN on both synthetic data and real-world cine cardiac magnetic resonance (CMR) image videos. Our experimental results shows that TLRN is able to achieve substantially improved registration accuracy compared to the state-of-the-art. Our code is publicly available at https://github.com/nellie689/TLRN.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# Pacer and Runner:シングルドメインとクロスドメインシーケンスレコメンデーションの協調学習フレームワーク

Pacer and Runner: Cooperative Learning Framework between Single- and Cross-Domain Sequential Recommendation ( http://arxiv.org/abs/2407.11245v2 )

ライセンス: Link先を確認
Chung Park, Taesan Kim, Hyungjun Yoon, Junui Hong, Yelim Yu, Mincheol Cho, Minsung Choi, Jaegul Choo, (参考訳) クロスドメインシークエンシャルレコメンデーション(CDSR)は、特定のドメイン内の歴史的相互作用に依存する単一ドメインシークエンシャルレコメンデーション(SDSR)とは対照的に、複数のドメインの情報を活用することでレコメンデーションパフォーマンスを向上させる。 しかし、CDSRは負の転送によって特定の領域におけるSDSRアプローチよりも性能が劣る可能性がある。 負の移動の問題に対処するため,提案したCDSRモデルは各領域の負の移動度を推定し,これを予測損失の重み付け因子として適応的に割り当て,負の遷移が有意な領域を通る勾配を制御する。 この目的のために、本モデルでは、複数のドメイン(CDSR)で訓練されたモデルと、特定のドメイン(SDSR)のみを訓練したモデルを比較し、非対称協調ネットワークを用いて各ドメインの負の移動を評価する。 さらに,SDSRタスクとCDSRタスク間の有意義なキューの転送を容易にするため,ドメイン単位の双方のタスクから表現ペア間の相互情報を最大化する補助的損失を開発した。 このSDSRタスクとCDSRタスクの協調学習は、マラソンにおけるペースターとランナーの協調的ダイナミクスと似ている。 当社のモデルは,10のサービスドメインにわたる2つの実世界の産業データセットに関する広範な実験において,これまで数多くの成果を上げました。 また、パーソナルアシスタントアプリサービスのレコメンデーションシステムにもモデルをデプロイし、実際のビジネスにとって価値のある既存のモデルと比較して、クリックスルーレートが21.4%向上しました。

Cross-Domain Sequential Recommendation (CDSR) improves recommendation performance by utilizing information from multiple domains, which contrasts with Single-Domain Sequential Recommendation (SDSR) that relies on a historical interaction within a specific domain. However, CDSR may underperform compared to the SDSR approach in certain domains due to negative transfer, which occurs when there is a lack of relation between domains or different levels of data sparsity. To address the issue of negative transfer, our proposed CDSR model estimates the degree of negative transfer of each domain and adaptively assigns it as a weight factor to the prediction loss, to control gradient flows through domains with significant negative transfer. To this end, our model compares the performance of a model trained on multiple domains (CDSR) with a model trained solely on the specific domain (SDSR) to evaluate the negative transfer of each domain using our asymmetric cooperative network. In addition, to facilitate the transfer of valuable cues between the SDSR and CDSR tasks, we developed an auxiliary loss that maximizes the mutual information between the representation pairs from both tasks on a per-domain basis. This cooperative learning between SDSR and CDSR tasks is similar to the collaborative dynamics between pacers and runners in a marathon. Our model outperformed numerous previous works in extensive experiments on two real-world industrial datasets across ten service domains. We also have deployed our model in the recommendation system of our personal assistant app service, resulting in 21.4% increase in click-through rate compared to existing models, which is valuable to real-world business.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# ガウス演算の学習とマッチゲート階層

Learning Gaussian Operations and the Matchgate Hierarchy ( http://arxiv.org/abs/2407.12649v2 )

ライセンス: Link先を確認
Joshua Cudby, Sergii Strelchuk, (参考訳) 未知の量子プロセスを学ぶことは、短期的なデバイスの機能を検証するための中心的なタスクである。 タスクは一般に困難であり、プロセスに事前の仮定が作成されない場合、指数関数的に多くの測定を必要とする。 しかし、古典的にシミュレート可能なクリフォード群の興味深い特徴は、未知のクリフォード演算がブラックボックスの実装から効率的に決定できることである。 この結果をフェルミオンガウス演算の重要なクラスに拡張する。 これらの操作は、フェルミニオン線形光学との近縁性から、多くの注目を集めている。 次に、クリフォード階層(Clifford Hierarchy)に類似した構造を持つ、マッチゲート階層(Matchgate Hierarchy)と呼ばれる無限のユニタリゲート群を導入する。 Clifford HierarchyはMatchgate Hierarchyに含まれており、階層のあらゆるレベルの操作を効率的に学習できることを示す。

Learning an unknown quantum process is a central task for validation of the functioning of near-term devices. The task is generally hard, requiring exponentially many measurements if no prior assumptions are made on the process. However, an interesting feature of the classically-simulable Clifford group is that unknown Clifford operations may be efficiently determined from a black-box implementation. We extend this result to the important class of fermionic Gaussian operations. These operations have received much attention due to their close links to fermionic linear optics. We then introduce an infinite family of unitary gates, called the Matchgate Hierarchy, with a similar structure to the Clifford Hierarchy. We show that the Clifford Hierarchy is contained within the Matchgate Hierarchy and how operations at any level of the hierarchy can be efficiently learned.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# 異なるNLPタスクのための大規模言語モデルにおけるプロンプト工学手法の検討

A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks ( http://arxiv.org/abs/2407.12994v2 )

ライセンス: Link先を確認
Shubham Vatsal, Harsh Dubey, (参考訳) 大規模言語モデル(LLM)は多くの異なる自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを示している。 プロンプトエンジニアリングは、様々なNLPタスクにおいて大きなパフォーマンス向上を達成するために、既に存在するLLMの能力に追加する上で重要な役割を担っている。 プロンプトエンジニアリングは、構造化された方法でLLMから知識を引き出すプロンプトと呼ばれる自然言語命令を構成する必要がある。 従来の最先端(SoTA)モデルとは異なり、プロンプトエンジニアリングでは与えられたNLPタスクに基づいてパラメータの再訓練や微調整を必要とせず、LLMの組込み知識のみで動作する。 加えて、LLM愛好家はLLMの知識を基本的な自然言語の会話交換やエンジニアリングを通じて知的に抽出することができ、より深い数学的機械学習のバックグラウンドがなくてもLLMを試すことができる。 過去2年間に急激なエンジニアリングが人気を博し、LLMから情報抽出の精度を向上させるためにプロンプトを設計する多くの技術が考案された。 本稿では、異なるプロンプト手法を要約し、それらが用いた異なるNLPタスクに基づいてそれらをまとめる。 さらに、NLPタスクに属する各種データセットにおけるこれらのプロンプト戦略の性能を強調し、使用するLCMについて語り、分類図を示し、特定のデータセットに対して可能なSoTAについて議論する。 本研究は,29の異なるNLPタスクに対して39の異なるプロンプト手法を論じる44の論文を総括して紹介し,そのほとんどが過去2年間に発表されている。

Large language models (LLMs) have shown remarkable performance on many different Natural Language Processing (NLP) tasks. Prompt engineering plays a key role in adding more to the already existing abilities of LLMs to achieve significant performance gains on various NLP tasks. Prompt engineering requires composing natural language instructions called prompts to elicit knowledge from LLMs in a structured way. Unlike previous state-of-the-art (SoTA) models, prompt engineering does not require extensive parameter re-training or fine-tuning based on the given NLP task and thus solely operates on the embedded knowledge of LLMs. Additionally, LLM enthusiasts can intelligently extract LLMs' knowledge through a basic natural language conversational exchange or prompt engineering, allowing more and more people even without deep mathematical machine learning background to experiment with LLMs. With prompt engineering gaining popularity in the last two years, researchers have come up with numerous engineering techniques around designing prompts to improve accuracy of information extraction from the LLMs. In this paper, we summarize different prompting techniques and club them together based on different NLP tasks that they have been used for. We further granularly highlight the performance of these prompting strategies on various datasets belonging to that NLP task, talk about the corresponding LLMs used, present a taxonomy diagram and discuss the possible SoTA for specific datasets. In total, we read and present a survey of 44 research papers which talk about 39 different prompting methods on 29 different NLP tasks of which most of them have been published in the last two years.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# 協調学習の証明:多自由度フェデレーション・ラーニング・コンセンサス・アルゴリズム

Proof-of-Collaborative-Learning: A Multi-winner Federated Learning Consensus Algorithm ( http://arxiv.org/abs/2407.13018v2 )

ライセンス: Link先を確認
Amirreza Sokhankhosh, Sara Rouhani, (参考訳) これらのバリエーションにかかわらず、ブロックチェーンには、トランザクションの検証、追加ブロックの監視、ネットワークセキュリティの維持、ネットワーク状態の同期、インセンティブの分散といった、コンセンサスメカニズムが必要だ。 合意機構の最も影響力のある実装の一つであるProof-of-Work (PoW) は、直接生産的な出力を欠くタスクに対して、非常に多くのエネルギーを消費する。 本稿では,ブロックチェーンの計算能力に振り返り,フェデレーション学習モデルを訓練する多自由度学習検証コンセンサス機構であるProof-of-Collaborative-Learning(PoCL)を提案する。 また,採掘者の局所的に訓練されたモデルの効率性を確保するための新しい評価機構を提案する。 予測可能な攻撃の導入と実施により,評価機構の安全性を評価した。 さらに、入場者に対して公平にインセンティブを与えるための新たな報奨分配機構を提案し、この報奨制度が全ラウンド中および全ラウンドにわたって公平であることを示す。

Regardless of their variations, blockchains require a consensus mechanism to validate transactions, supervise added blocks, maintain network security, synchronize the network state, and distribute incentives. Proof-of-Work (PoW), one of the most influential implementations of consensus mechanisms, consumes an extraordinary amount of energy for a task that lacks direct productive output. In this paper, we propose Proof-of-Collaborative-Learning (PoCL), a multi-winner federated learning validated consensus mechanism that redirects the computation power of blockchains to train federated learning models. In addition, we present a novel evaluation mechanism to ensure the efficiency of the locally trained models of miners. We evaluated the security of our evaluation mechanism by introducing and conducting probable attacks. Moreover, we present a novel reward distribution mechanism to incentivize winning miners fairly, and demonstrate that our reward system is fair both within and across all rounds.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# CP2Kにおける最小追従線形応答ハバードとHund補正密度汎関数理論

Minimum tracking linear response Hubbard and Hund corrected Density Functional Theory in CP2K ( http://arxiv.org/abs/2407.13256v2 )

ライセンス: Link先を確認
Ziwei Chai, Rutong Si, Mingyang Chen, Gilberto Teobaldi, David D. O'Regan, Li-Min Liu, (参考訳) 我々は、CP2Kスイートの一部であるQuickstepプログラムにおいて、Hubbard(U$)およびHund(J$)補正密度汎関数理論(DFT+$U$+J$)機能の実装を示す。 テンソル表現とL\'owdin部分空間表現は実装され比較される。 完全な解析的 DFT+$U$+$J$ の力が実装され、テンソル表現と L\"owdin 表現に対してベンチマークされる。 また、最近提案された最小追跡線形応答法の実装について、コーン・シャム固有系に言及せずに、第一原理に基づいて$U$と$J$パラメータを計算できるようにする。 これらの実装は、NiOのDFT+$U$バンドギャップ開口、TiO$_2$の様々なポーラロン分布の相対安定性、演算されたTiO$_2$バンドギャップの+$J$補正への依存性、そして最終的に、一連の六水化遷移金属の計算特性に対する+$U$および+$J$補正の役割など、最近の材料特性に対する比較結果と比較される。 我々の実装は、同等の手法で文献に報告されている結果と一致した結果を提供する。 本研究は,L\"owdin直交正規化が占領状況,計算パラメータ,導出特性に与える影響に関する試験への貢献を結論する。

We present the implementation of the Hubbard ($U$) and Hund ($J$) corrected Density Functional Theory (DFT+$U$+$J$) functionality in the Quickstep program, which is part of the CP2K suite. The tensorial and L\"owdin subspace representations are implemented and compared. Full analytical DFT+$U$+$J$ forces are implemented and benchmarked for the tensorial and L\"owdin representations. We also present the implementation of the recently proposed minimum-tracking linear-response method that enables the $U$ and $J$ parameters to be calculated on first principles basis without reference to the Kohn-Sham eigensystem. These implementations are benchmarked against recent results for different materials properties including DFT+$U$ band gap opening in NiO, the relative stability of various polaron distributions in TiO$_2$, the dependence of the calculated TiO$_2$ band gap on +$J$ corrections, and, finally, the role of the +$U$ and +$J$ corrections for the computed properties of a series of the hexahydrated transition metals. Our implementation provides results consistent with those already reported in the literature from comparable methods. We conclude the contribution with tests on the influence of the L\"owdin orthonormalization on the occupancies, calculated parameters, and derived properties.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# CycleMix:スタイル依存データにおけるドメインの一般化のためのソースドメインの混合

CycleMix: Mixing Source Domains for Domain Generalization in Style-Dependent Data ( http://arxiv.org/abs/2407.13421v2 )

ライセンス: Link先を確認
Aristotelis Ballas, Christos Diou, (参考訳) ディープラーニングに基づくシステムが日常生活の不可欠な部分となっているため、その一般化能力の限界が浮かび上がっている。 機械学習アルゴリズムは通常、i.d.仮定に依存している。つまり、トレーニングデータと検証データは、実際には必ずしも保持されない同じ分布に従うことが期待されている。 画像分類の場合、アルゴリズムが一般化に失敗する理由の1つは、ターゲットクラスにイメージスタイルを関連付けるなど、トレーニングデータに存在する急激な相関に頼っていることである。 これらの関連性は、目に見えないテストデータには存在せず、その効果が著しく低下する。 本研究では,この領域一般化(DG)問題を画像スタイルに起因する特徴を無視する頑健な特徴抽出器を訓練することにより緩和する。 そこで我々はCycleGANモデルをトレーニングし、トレーニングデータに存在する異なるスタイルを学習し、それらをランダムに混合して新しいスタイル属性のサンプルを作成し、一般化を改善する。 提案手法をPACS DGベンチマークで検証した。

As deep learning-based systems have become an integral part of everyday life, limitations in their generalization ability have begun to emerge. Machine learning algorithms typically rely on the i.i.d. assumption, meaning that their training and validation data are expected to follow the same distribution, which does not necessarily hold in practice. In the case of image classification, one frequent reason that algorithms fail to generalize is that they rely on spurious correlations present in training data, such as associating image styles with target classes. These associations may not be present in the unseen test data, leading to significant degradation of their effectiveness. In this work, we attempt to mitigate this Domain Generalization (DG) problem by training a robust feature extractor which disregards features attributed to image-style but infers based on style-invariant image representations. To achieve this, we train CycleGAN models to learn the different styles present in the training data and randomly mix them together to create samples with novel style attributes to improve generalization. Experimental results on the PACS DG benchmark validate the proposed method.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# GPSFormer: ポイントクラウド理解のためのグローバル知覚と局所構造適合型トランス

GPSFormer: A Global Perception and Local Structure Fitting-based Transformer for Point Cloud Understanding ( http://arxiv.org/abs/2407.13519v2 )

ライセンス: Link先を確認
Changshuo Wang, Meiqing Wu, Siew-Kei Lam, Xin Ning, Shangshu Yu, Ruiping Wang, Weijun Li, Thambipillai Srikanthan, (参考訳) ポイントクラウド理解のための事前学習手法が大幅に進歩しているにもかかわらず、外部データに依存しない不規則なポイントクラウドから直接複雑な形状情報を取得することは、非常に難しい課題である。 この問題に対処するために,GPSFormerを提案する。GPSFormerは革新的なグローバルパーセプションと局所構造フィッティングに基づくトランスフォーマーで,点雲からの詳細な形状情報を顕著な精度で学習する。 GPSFormerのコアはGPM(Global Perception Module)とLSFConv(Local Structure Fitting Convolution)である。 具体的には、GPMはAdaptive Deformable Graph Convolution(ADGConv)を使用して、機能空間の類似した機能間の短距離依存を識別し、MHA(Multi-Head Attention)を使用して、機能空間内のすべての位置における長距離依存を学習し、最終的にコンテキスト表現の柔軟な学習を可能にする。 テイラー級数に触発されてLSFConvを設計し、局所幾何学構造を明示的に符号化し、低階の基本情報と高階精製情報の両方を学習する。 GPMとLSFConvを基本コンポーネントとして、ポイントクラウドのグローバルおよびローカル構造を効果的にキャプチャする最先端のトランスフォーマーであるGPSFormerを構築した。 GPSFormerの有効性は,3点のクラウドタスク – 形状分類,部分分割,少数ショット学習 – で検証されている。 GPSFormerのコードは \url{https://github.com/changshuowang/GPSFormer} で公開されている。

Despite the significant advancements in pre-training methods for point cloud understanding, directly capturing intricate shape information from irregular point clouds without reliance on external data remains a formidable challenge. To address this problem, we propose GPSFormer, an innovative Global Perception and Local Structure Fitting-based Transformer, which learns detailed shape information from point clouds with remarkable precision. The core of GPSFormer is the Global Perception Module (GPM) and the Local Structure Fitting Convolution (LSFConv). Specifically, GPM utilizes Adaptive Deformable Graph Convolution (ADGConv) to identify short-range dependencies among similar features in the feature space and employs Multi-Head Attention (MHA) to learn long-range dependencies across all positions within the feature space, ultimately enabling flexible learning of contextual representations. Inspired by Taylor series, we design LSFConv, which learns both low-order fundamental and high-order refinement information from explicitly encoded local geometric structures. Integrating the GPM and LSFConv as fundamental components, we construct GPSFormer, a cutting-edge Transformer that effectively captures global and local structures of point clouds. Extensive experiments validate GPSFormer's effectiveness in three point cloud tasks: shape classification, part segmentation, and few-shot learning. The code of GPSFormer is available at \url{https://github.com/changshuowang/GPSFormer}.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# 名誉効果:日本語の言語形式がAI生成物理説明に及ぼす影響を探る

The Honorific Effect: Exploring the Impact of Japanese Linguistic Formalities on AI-Generated Physics Explanations ( http://arxiv.org/abs/2407.13787v2 )

ライセンス: Link先を確認
Keisuke Sato, (参考訳) 本研究では,モーメントの保存則を説明する際に,日本語の敬意が大規模言語モデル(LLM)の応答に与える影響について検討した。 我々は、ChatGPT、Coral、Geminiのバリエーションを含む6つの最先端AIモデルの出力を14種類の名誉形式を用いて分析した。 以上の結果から,名誉はAI生成応答の品質,一貫性,形式性に大きく影響し,LLMが言語に埋め込まれた社会的文脈に適応する能力を示すことが明らかとなった。 様々なモデルで顕著なバリエーションが観察され、いくつかは歴史的文脈と導出を強調し、もう一つは直感的な説明に焦点を当てた。 この研究は、教育的文脈におけるAI生成の説明の深さと複雑さを調整するために名誉の使用の可能性を強調している。 さらに、文化言語要素に対するAIモデルの応答性は、教育応用のためのAI開発における文化的要因を検討することの重要性を浮き彫りにしている。 これらの結果は、AI支援教育とAIシステムにおける文化的適応の研究のための新たな道を開き、学習経験をパーソナライズし、グローバル教育のための文化に敏感なAIツールを開発するために重要な意味を持つ。

This study investigates the influence of Japanese honorifics on the responses of large language models (LLMs) when explaining the law of conservation of momentum. We analyzed the outputs of six state-of-the-art AI models, including variations of ChatGPT, Coral, and Gemini, using 14 different honorific forms. Our findings reveal that honorifics significantly affect the quality, consistency, and formality of AI-generated responses, demonstrating LLMs' ability to interpret and adapt to social context cues embedded in language. Notable variations were observed across different models, with some emphasizing historical context and derivations, while others focused on intuitive explanations. The study highlights the potential for using honorifics to adjust the depth and complexity of AI-generated explanations in educational contexts. Furthermore, the responsiveness of AI models to cultural linguistic elements underscores the importance of considering cultural factors in AI development for educational applications. These results open new avenues for research in AI-assisted education and cultural adaptation in AI systems, with significant implications for personalizing learning experiences and developing culturally sensitive AI tools for global education.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# 大規模量子最適制御のための時間並列多重撮影法

A time-parallel multiple-shooting method for large-scale quantum optimal control ( http://arxiv.org/abs/2407.13950v2 )

ライセンス: Link先を確認
N. Anders Petersson, Stefanie Günther, Seung Whan Chung, (参考訳) 量子最適制御は、コンパイラとハードウェア間のインターフェースを提供することによって、量子コンピューティングにおいて重要な役割を果たす。 最適制御問題の解法は、システムの次元性による計算複雑性の指数関数的増大と最適化収束の劣化により、多ビットゲートにおいて特に困難である。 本稿では,時間領域を複数のウィンドウに分割し,ウィンドウ境界における中間状態を追加の最適化変数として扱うマルチシューティング手法を提案する。 これにより、時間-ウィンドウ間の状態進化の並列計算が可能となり、目的関数と勾配評価が大幅に加速する。 各ウィンドウにおける初期状態行列は最適化アルゴリズムの収束時にのみユニタリであることが保証されるため、従来のゲートトレースの不完全性は、非ユニタリ状態行列に対して凸となる一般化された不完全性に置き換えられる。 ウィンドウ境界を越えた状態の連続性は、等式制約によって強制される。 制約された最適制御問題を解くために2次ペナルティ最適化法を用い、各イテレーションの勾配を計算するために効率的な随伴手法を用いる。 提案手法は,2,3,4キュービットの系における量子フーリエ変換ゲートの数値実験により,4キュービットの場合の勾配を80倍に高速化し,マルチキュービット量子系における制御パルスの最適化の可能性を強調した。

Quantum optimal control plays a crucial role in quantum computing by providing the interface between compiler and hardware. Solving the optimal control problem is particularly challenging for multi-qubit gates, due to the exponential growth in computational complexity with the system's dimensionality and the deterioration of optimization convergence. To ameliorate the computational complexity of time-integration, this paper introduces a multiple-shooting approach in which the time domain is divided into multiple windows and the intermediate states at window boundaries are treated as additional optimization variables. This enables parallel computation of state evolution across time-windows, significantly accelerating objective function and gradient evaluations. Since the initial state matrix in each window is only guaranteed to be unitary upon convergence of the optimization algorithm, the conventional gate trace infidelity is replaced by a generalized infidelity that is convex for non-unitary state matrices. Continuity of the state across window boundaries is enforced by equality constraints. A quadratic penalty optimization method is used to solve the constrained optimal control problem, and an efficient adjoint technique is employed to calculate the gradients in each iteration. We demonstrate the effectiveness of the proposed method through numerical experiments on quantum Fourier transform gates in systems with 2, 3, and 4 qubits, noting a speedup of 80x for evaluating the gradient in the 4-qubit case, highlighting the method's potential for optimizing control pulses in multi-qubit quantum systems.
翻訳日:2024-07-25 18:12:28 公開日:2024-07-24
# 非線形シュレーディンガーネットワーク

Nonlinear Schrödinger Network ( http://arxiv.org/abs/2407.14504v2 )

ライセンス: Link先を確認
Yiming Zhou, Callen MacPhee, Tingyi Zhou, Bahram Jalali, (参考訳) ディープニューラルネットワーク(DNN)は、大規模データセットから複雑な非線形マッピングを学習することで、様々な分野において例外的なパフォーマンスを実現している。 しかし、高い計算コストや限定的な解釈可能性といった課題に直面している。 これらの問題に対処するため、物理学とAIを統合するハイブリッドアプローチが注目されている。 本稿では,非線形シュリンガー方程式(NLSE)を非線形マッピングやデータからのメモリ効果を含む複雑なパターンを学習するための汎用的なトレーニング可能なモデルとして扱う,非線形シュリンガーネットワーク(Nonlinear Schr\"odinger Network")という,物理学に基づく新しいAIモデルを提案する。 既存の物理インフォームド機械学習手法では、ニューラルネットワークを用いて偏微分方程式(PDE)の解を近似する。 対照的に、我々の手法はPDEを直接訓練可能なモデルとして扱い、ニューラルネットワークを必要とする一般的な非線形マッピングを得る。 物理AI共生の一種として、従来のブラックボックスニューラルネットワークよりも解釈可能でパラメータ効率のよい代替を提供し、いくつかの時系列分類タスクにおいて同等またはより良い精度を達成し、必要なパラメータの数を大幅に削減する。 特に、トレーニングされた非線形Schr\"odinger Networkは解釈可能であり、全てのパラメータは、データをより分離可能な空間に変換する仮想物理系の特性として物理的意味を持つ。 この解釈可能性によって、データ変換プロセスの基盤となるダイナミクスに関する洞察が得られます。 時系列予測への応用も検討されている。 現在の実装ではNLSEを利用するが、データから非線形マッピングを学習するためのトレーニング可能なモデルとして物理方程式を用いる手法はNLSEに限らず、他の物理のマスター方程式にも拡張できる。

Deep neural networks (DNNs) have achieved exceptional performance across various fields by learning complex nonlinear mappings from large-scale datasets. However, they encounter challenges such as high computational costs and limited interpretability. To address these issues, hybrid approaches that integrate physics with AI are gaining interest. This paper introduces a novel physics-based AI model called the "Nonlinear Schr\"odinger Network", which treats the Nonlinear Schr\"odinger Equation (NLSE) as a general-purpose trainable model for learning complex patterns including nonlinear mappings and memory effects from data. Existing physics-informed machine learning methods use neural networks to approximate the solutions of partial differential equations (PDEs). In contrast, our approach directly treats the PDE as a trainable model to obtain general nonlinear mappings that would otherwise require neural networks. As a type of physics-AI symbiosis, it offers a more interpretable and parameter-efficient alternative to traditional black-box neural networks, achieving comparable or better accuracy in some time series classification tasks while significantly reducing the number of required parameters. Notably, the trained Nonlinear Schr\"odinger Network is interpretable, with all parameters having physical meanings as properties of a virtual physical system that transforms the data to a more separable space. This interpretability allows for insight into the underlying dynamics of the data transformation process. Applications to time series forecasting have also been explored. While our current implementation utilizes the NLSE, the proposed method of using physics equations as trainable models to learn nonlinear mappings from data is not limited to the NLSE and may be extended to other master equations of physics.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-24
# フェデレーション学習における差分プライバシーメカニズムの統一化:正確性と収束性を高める

Universally Harmonizing Differential Privacy Mechanisms for Federated Learning: Boosting Accuracy and Convergence ( http://arxiv.org/abs/2407.14710v2 )

ライセンス: Link先を確認
Shuya Feng, Meisam Mohammady, Hanbin Hong, Shenao Yan, Ashish Kundu, Binghui Wang, Yuan Hong, (参考訳) ディファレンシャル・プライベート・フェデレーション・ラーニング(DP-FL)は、クライアントの証明可能なプライバシを確保しつつ、協調的なモデルトレーニングのための有望なテクニックである。 しかし、プライバシーと正確性の間のトレードオフを最適化することは、依然として重要な課題だ。 提案するDP-FLフレームワークは,任意のランダム化機構(例えば最適なもの)をガウスモーメント会計士(DP-SGD)と共通に調和させ,精度と収束性を大幅に向上させるものである。 具体的には、UDP-FLはガウス雑音への依存を軽減し、モデル性能を向上させる。 この変換における主要なメディエータ変数は、プライバシー予算を調和させるために慎重に使用されるR\'enyi差分プライバシーの概念である。 また,モード接続解析に基づいてDP-FL(UDP-FLを含む)の収束を理論的に解析する手法を提案する。 さらに,最新のSOTA(State-of-the-art)手法をベンチマークした広範な実験を通じてUDP-FLを評価し,プライバシ保証とモデル性能の両面において優れた性能を示す。 特にUDP-FLは、異なる推論攻撃に対してかなりの弾力性を示しており、連合学習環境における機密データの保護に大きな進歩を示している。

Differentially private federated learning (DP-FL) is a promising technique for collaborative model training while ensuring provable privacy for clients. However, optimizing the tradeoff between privacy and accuracy remains a critical challenge. To our best knowledge, we propose the first DP-FL framework (namely UDP-FL), which universally harmonizes any randomization mechanism (e.g., an optimal one) with the Gaussian Moments Accountant (viz. DP-SGD) to significantly boost accuracy and convergence. Specifically, UDP-FL demonstrates enhanced model performance by mitigating the reliance on Gaussian noise. The key mediator variable in this transformation is the R\'enyi Differential Privacy notion, which is carefully used to harmonize privacy budgets. We also propose an innovative method to theoretically analyze the convergence for DP-FL (including our UDP-FL ) based on mode connectivity analysis. Moreover, we evaluate our UDP-FL through extensive experiments benchmarked against state-of-the-art (SOTA) methods, demonstrating superior performance on both privacy guarantees and model performance. Notably, UDP-FL exhibits substantial resilience against different inference attacks, indicating a significant advance in safeguarding sensitive data in federated learning environments.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-24
# L2O-$g^{\dagger}$:Fubini-Study Metric Tensorを用いたパラメータ化量子回路の最適化学習

L2O-$g^{\dagger}$: Learning to Optimize Parameterized Quantum Circuits with Fubini-Study Metric Tensor ( http://arxiv.org/abs/2407.14761v2 )

ライセンス: Link先を確認
Yu-Chao Huang, Hsi-Sheng Goan, (参考訳) フォールトトレラント量子コンピュータが出現する以前、変分量子アルゴリズム(VQA)はノイズの多い中間スケール量子(NISQ)マシンにおいて重要な役割を担っていた。 従来、VQAの最適化は主に手動設計の最適化に頼っていた。 しかし、L2O(Learning to Optimization)は、手作りオプティマイザを置き換えるために小さなニューラルネットワークをトレーニングすることで、素晴らしいパフォーマンスを示す。 本稿では,Fubini-Studyメートル法テンソル(g^{\dagger}$)と長期短期記憶ネットワークを利用したL2O-$g^{\dagger}$, a $\textit{quantum-aware}$学習オプティマイザを提案する。 理論的には、ルックアヘッドオプティマイザにインスパイアされた更新方程式を導出し、学習したオプティマイザに最適化ランドスケープの量子幾何学を組み込んで、高速収束と一般化のバランスをとる。 経験的に、我々は様々なVQA問題にまたがる総合的な実験を行っている。 その結果、L2O-$g^{\dagger}$は、現在のSOTAハンドデザインオプティマイザをハイパーパラメータチューニングなしで上回るだけでなく、以前のL2Oオプティマイザと比較して分布外一般化が強いことを示した。 単一の汎用PQCインスタンス上でL2O-$g^{\dagger}$をトレーニングすることでこれを実現する。 我々の小説 $\textit{quantum-aware}$ learn optimizationr, L2O-$g^{\dagger}$ は、VQAの課題に対処する進歩を示し、NISQ時代の貴重なツールである。

Before the advent of fault-tolerant quantum computers, variational quantum algorithms (VQAs) play a crucial role in noisy intermediate-scale quantum (NISQ) machines. Conventionally, the optimization of VQAs predominantly relies on manually designed optimizers. However, learning to optimize (L2O) demonstrates impressive performance by training small neural networks to replace handcrafted optimizers. In our work, we propose L2O-$g^{\dagger}$, a $\textit{quantum-aware}$ learned optimizer that leverages the Fubini-Study metric tensor ($g^{\dagger}$) and long short-term memory networks. We theoretically derive the update equation inspired by the lookahead optimizer and incorporate the quantum geometry of the optimization landscape in the learned optimizer to balance fast convergence and generalization. Empirically, we conduct comprehensive experiments across a range of VQA problems. Our results demonstrate that L2O-$g^{\dagger}$ not only outperforms the current SOTA hand-designed optimizer without any hyperparameter tuning but also shows strong out-of-distribution generalization compared to previous L2O optimizers. We achieve this by training L2O-$g^{\dagger}$ on just a single generic PQC instance. Our novel $\textit{quantum-aware}$ learned optimizer, L2O-$g^{\dagger}$, presents an advancement in addressing the challenges of VQAs, making it a valuable tool in the NISQ era.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-24
# 非西洋文化を表現しながらAIモデルを出力する:コミュニティ中心のアプローチによるエビデンス

Do Generative AI Models Output Harm while Representing Non-Western Cultures: Evidence from A Community-Centered Approach ( http://arxiv.org/abs/2407.14779v2 )

ライセンス: Link先を確認
Sourojit Ghosh, Pranav Narayanan Venkit, Sanjana Gautam, Shomir Wilson, Aylin Caliskan, (参考訳) 本研究では,生成人工知能(GAI)モデル,特にテキスト・ツー・イメージ・ジェネレータ(T2Is)が非西洋文化の表現に与える影響を,インドの文脈に焦点をあてて検討した。 コンテンツ生成におけるT2Isのトランスフォーメーションの可能性にもかかわらず、誤った表現や限界化につながる可能性のあるバイアスに関する懸念が持ち上がっている。 コミュニティ中心のアプローチと、多様なインドのサブカルチャーからの5つの焦点グループの理論分析を通じて、インド文化とそのサブカルチャーをT2Iアウトプットがどう表現するかを探求し、エキゾチックや文化的不適切な文化といった新しい表現的害を明らかにする。 これらの知見は、包括的で文化的に敏感なT2Iシステムに対する緊急の必要性を浮き彫りにしている。 我々は,これらの課題に対処し,より公平で代表的なGAI技術の発展に寄与することを目指して,社会工学的な観点から情報提供されたデザインガイドラインを提案する。 我々の研究は、これらのモデルの社会技術的ダイナミクスを理解するために、コミュニティ中心のアプローチを採用することの必要性を強調し、この領域における既存の作業を補完するとともに、これらのモデルがグローバルな規模に展開されたときに生じる潜在的な負の反感と害を特定し、対処する。

Our research investigates the impact of Generative Artificial Intelligence (GAI) models, specifically text-to-image generators (T2Is), on the representation of non-Western cultures, with a focus on Indian contexts. Despite the transformative potential of T2Is in content creation, concerns have arisen regarding biases that may lead to misrepresentations and marginalizations. Through a community-centered approach and grounded theory analysis of 5 focus groups from diverse Indian subcultures, we explore how T2I outputs to English prompts depict Indian culture and its subcultures, uncovering novel representational harms such as exoticism and cultural misappropriation. These findings highlight the urgent need for inclusive and culturally sensitive T2I systems. We propose design guidelines informed by a sociotechnical perspective, aiming to address these issues and contribute to the development of more equitable and representative GAI technologies globally. Our work also underscores the necessity of adopting a community-centered approach to comprehend the sociotechnical dynamics of these models, complementing existing work in this space while identifying and addressing the potential negative repercussions and harms that may arise when these models are deployed on a global scale.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-24
# AI-Debater 2023の概要

Overview of AI-Debater 2023: The Challenges of Argument Generation Tasks ( http://arxiv.org/abs/2407.14829v2 )

ライセンス: Link先を確認
Jiayu Lin, Guanrong Chen, Bojun Jin, Chenyang Li, Shutong Jia, Wancong Lin, Yang Sun, Yuhang He, Caihua Yang, Jianzhu Bao, Jipeng Wu, Wen Su, Jinglu Chen, Xinyi Li, Tianyu Chen, Mingjie Han, Shuaiwen Du, Zijian Wang, Jiyin Li, Fuzhong Suo, Hao Wang, Nuanchen Lin, Xuanjing Huang, Changjian Jiang, RuiFeng Xu, Long Zhang, Jiuxin Cao, Ting Jin, Zhongyu Wei, (参考訳) 本稿では,中国影響計算学会(CCAC 2023)が主催するAI-Debater 2023 Challengeの結果を紹介するとともに,関連するデータセットを紹介する。 本稿では,異なるシナリオ,すなわちCounter-Argument Generation (Track1) と Claim-based Argument Generation (Track2) の2つのトラックを編成する。 各トラックは、それぞれ独自のデータセットとベースラインモデルを備えている。 合計で32のチームがチャレンジに登録し、そこから11の応募をもらいました。 本稿では,システム間の共通点と革新点に注目し,課題の結果とシステムの概要を紹介する。 AI-Debater 2023 Challengeのデータセットとベースラインモデルは、すでにリリースされており、このチャレンジの公式ウェブサイトからアクセスすることができる。

In this paper we present the results of the AI-Debater 2023 Challenge held by the Chinese Conference on Affect Computing (CCAC 2023), and introduce the related datasets. We organize two tracks to handle the argumentative generation tasks in different scenarios, namely, Counter-Argument Generation (Track 1) and Claim-based Argument Generation (Track 2). Each track is equipped with its distinct dataset and baseline model respectively. In total, 32 competing teams register for the challenge, from which we received 11 successful submissions. In this paper, we will present the results of the challenge and a summary of the systems, highlighting commonalities and innovations among participating systems. Datasets and baseline models of the AI-Debater 2023 Challenge have been already released and can be accessed through the official website of the challenge.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-24
# 危機への同意:AIデータコモンズの急激な衰退

Consent in Crisis: The Rapid Decline of the AI Data Commons ( http://arxiv.org/abs/2407.14933v2 )

ライセンス: Link先を確認
Shayne Longpre, Robert Mahari, Ariel Lee, Campbell Lund, Hamidah Oderinwale, William Brannon, Nayan Saxena, Naana Obeng-Marnu, Tobin South, Cole Hunter, Kevin Klyman, Christopher Klamm, Hailey Schoelkopf, Nikhil Singh, Manuel Cherep, Ahmad Anis, An Dinh, Caroline Chitongo, Da Yin, Damien Sileo, Deividas Mataciunas, Diganta Misra, Emad Alghamdi, Enrico Shippole, Jianguo Zhang, Joanna Materzynska, Kun Qian, Kush Tiwary, Lester Miranda, Manan Dey, Minnie Liang, Mohammed Hamdy, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Shrestha Mohanty, Vipul Gupta, Vivek Sharma, Vu Minh Chien, Xuhui Zhou, Yizhi Li, Caiming Xiong, Luis Villa, Stella Biderman, Hanlin Li, Daphne Ippolito, Sara Hooker, Jad Kabbara, Sandy Pentland, (参考訳) 汎用人工知能(AI)システムは、C4、RefinedWeb、Dolmaなどのコーパスに組み立てられた大量の公開Webデータに基づいて構築されている。 我々の知る限り、我々は、AIトレーニングコーパスを基盤とするWebドメインの同意プロトコルを、初めて大規模かつ経時的に監査する。 14,000のWebドメインに対する監査は、クローラブルなWebデータの広範なビューと、コーデレートされたデータの使用嗜好が時間とともにどのように変化しているかを提供する。 我々は、使用を制限するAI固有の条項の急増、AI開発者に対する制限の急激な相違、およびサービス規約におけるウェブサイトの表現意図とロボット.txtとの一般的な矛盾を観察する。 我々は、これらを非効率的なWebプロトコルの症状として診断し、AIのためのインターネットの広範な再調達に対処するために設計されていない。 我々の縦断的な分析によると、1年(2023-2024年)にWebソースからのデータ制限の急激なクレシデントが発生し、C4のすべてのトークンの約5%、C4の最も活発に維持されている重要なソースの28%以上が、完全に使用が制限されている。 サービスクローリングの制限については、C4の完全な45%が制限されている。 尊重されたり強制されたりした場合、これらの制限は汎用AIシステムの多様性、鮮度、スケーリングの法則を急速に偏っている。 私たちは、開発者とクリエーターの両方にとって、データ同意の新たな危機について説明したいと思っています。 オープンウェブの公開は、商用AIだけでなく、非商用AIや学術研究にも影響を及ぼすだろう。

General-purpose artificial intelligence (AI) systems are built on massive swathes of public web data, assembled into corpora such as C4, RefinedWeb, and Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit of the consent protocols for the web domains underlying AI training corpora. Our audit of 14,000 web domains provides an expansive view of crawlable web data and how codified data use preferences are changing over time. We observe a proliferation of AI-specific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites' expressed intentions in their Terms of Service and their robots.txt. We diagnose these as symptoms of ineffective web protocols, not designed to cope with the widespread re-purposing of the internet for AI. Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use. For Terms of Service crawling restrictions, a full 45% of C4 is now restricted. If respected or enforced, these restrictions are rapidly biasing the diversity, freshness, and scaling laws for general-purpose AI systems. We hope to illustrate the emerging crises in data consent, for both developers and creators. The foreclosure of much of the open web will impact not only commercial AI, but also non-commercial AI and academic research.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-24
# 不均質固体におけるひび割れの動的予測のための時空間深層学習フレームワーク:コンクリートの組織と破壊特性の効率的なマッピング

A spatiotemporal deep learning framework for prediction of crack dynamics in heterogeneous solids: efficient mapping of concrete microstructures to its fracture properties ( http://arxiv.org/abs/2407.15665v2 )

ライセンス: Link先を確認
Rasoul Najafi Koopas, Shahed Rezaei, Natalie Rauter, Richard Ostwald, Rolf Lammering, (参考訳) コンクリート構造物の破壊の2次元フルフィールド予測が可能な時空間深層学習フレームワークを提案する。 この枠組みは骨折を予測できるだけでなく、界面遷移帯の亀裂発生からモルタルマトリックスの亀裂の伝播まで、骨折過程の全履歴を捉えている。 さらに,メソ構造の平均応力-ひずみ曲線を予測できる畳み込みニューラルネットワークを開発した。 UNetモデリングフレームワークは、スキップ接続を持つエンコーダ-デコーダセクションで構成され、ディープラーニングサロゲートモデルとして使用される。 ランダムに生成されたコンクリートメソ構造体の高忠実破壊シミュレーションから, トレーニングデータと試験データを生成する。 これらのメソ構造は、異なる凝集粒子の幾何学的特徴、空間分布、集合の総体積分数などの幾何学的変動を含む。 Abaqusでは, フラクチャーモデリング手法として, 凝集相場破壊モデリング技術を用いて, フラクチャーシミュレーションを行った。 本研究では,3相コンクリートの中相組織における3つの材料特性の空間分布と空間的位相場損傷指数をUNetに供給し,次のステップで対応する応力および空間損傷指数を予測する。 この手法を用いたトレーニングプロセスの後に、UNetモデルは、470のデータセットを使用して、目に見えないテストデータセットの損傷を正確に予測できることが示されている。 さらに、この研究の別の新しい側面は、不規則有限要素データの正規格子への変換である。 このアプローチは、より複雑なUNetアーキテクチャの実装を可能にし、相場破壊方程式を将来の発展のための代理モデルに統合することを容易にする。

A spatiotemporal deep learning framework is proposed that is capable of 2D full-field prediction of fracture in concrete mesostructures. This framework not only predicts fractures but also captures the entire history of the fracture process, from the crack initiation in the interfacial transition zone to the subsequent propagation of the cracks in the mortar matrix. In addition, a convolutional neural network is developed which can predict the averaged stress-strain curve of the mesostructures. The UNet modeling framework, which comprises an encoder-decoder section with skip connections, is used as the deep learning surrogate model. Training and test data are generated from high-fidelity fracture simulations of randomly generated concrete mesostructures. These mesostructures include geometric variabilities such as different aggregate particle geometrical features, spatial distribution, and the total volume fraction of aggregates. The fracture simulations are carried out in Abaqus, utilizing the cohesive phase-field fracture modeling technique as the fracture modeling approach. In this work, to reduce the number of training datasets, the spatial distribution of three sets of material properties for three-phase concrete mesostructures, along with the spatial phase-field damage index, are fed to the UNet to predict the corresponding stress and spatial damage index at the subsequent step. It is shown that after the training process using this methodology, the UNet model is capable of accurately predicting damage on the unseen test dataset by using 470 datasets. Moreover, another novel aspect of this work is the conversion of irregular finite element data into regular grids using a developed pipeline. This approach allows for the implementation of less complex UNet architecture and facilitates the integration of phase-field fracture equations into surrogate models for future developments.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-24
# SwinSF:時空間スパイクストリームからの画像再構成

SwinSF: Image Reconstruction from Spatial-Temporal Spike Streams ( http://arxiv.org/abs/2407.15708v2 )

ライセンス: Link先を確認
Liangyan Jiang, Chuang Zhu, Yanxu Chen, (参考訳) スパイクカメラは、時間分解能が高く、レイテンシも低く、ダイナミックレンジも高い。 個々のピクセルの光子を個別にキャプチャし、時間情報に富んだバイナリスパイクストリームを生成するが、画像再構成には挑戦する。 現在のアルゴリズムは、従来型とディープラーニングベースの両方で、豊富な時間的詳細の活用と、再構成された画像の詳細の復元で改善する必要がある。 これを解決するために,スパイクストリームからの動的シーン再構築のための新しいモデルであるSwin Spikeformer(SwinSF)を紹介した。 SwinSFはスパイク特徴抽出、時空間特徴抽出、最終再構成モジュールで構成されている。 シフトしたウィンドウの自己注意と時間的スパイクアテンションを組み合わせ、空間的および時間的ダイナミクスの両方をカプセル化した包括的な特徴抽出を確実にし、スパイクストリームをより堅牢かつ正確に再構築する。 さらに、スパイク画像再構成のための新しいデータセットを構築し、最新のスパイクカメラの解像度と一致し、スパイクカメライメージングの最新の発展にその妥当性と適用性を保証する。 実験の結果,提案するネットワークSwinSFは,さまざまな解像度で実世界のデータと合成されたデータを含む一連のデータセットに対して,最先端のパフォーマンスを実現するため,新たなベンチマークを設定できた。 コードと提案されたデータセットが近く利用可能になります。

The spike camera, with its high temporal resolution, low latency, and high dynamic range, addresses high-speed imaging challenges like motion blur. It captures photons at each pixel independently, creating binary spike streams rich in temporal information but challenging for image reconstruction. Current algorithms, both traditional and deep learning-based, still need to be improved in the utilization of the rich temporal detail and the restoration of the details of the reconstructed image. To overcome this, we introduce Swin Spikeformer (SwinSF), a novel model for dynamic scene reconstruction from spike streams. SwinSF is composed of Spike Feature Extraction, Spatial-Temporal Feature Extraction, and Final Reconstruction Module. It combines shifted window self-attention and proposed temporal spike attention, ensuring a comprehensive feature extraction that encapsulates both spatial and temporal dynamics, leading to a more robust and accurate reconstruction of spike streams. Furthermore, we build a new synthesized dataset for spike image reconstruction which matches the resolution of the latest spike camera, ensuring its relevance and applicability to the latest developments in spike camera imaging. Experimental results demonstrate that the proposed network SwinSF sets a new benchmark, achieving state-of-the-art performance across a series of datasets, including both real-world and synthesized data across various resolutions. Our codes and proposed dataset will be available soon.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-24
# The syzygy distinguisher―the syzygy distinguisher

The syzygy distinguisher ( http://arxiv.org/abs/2407.15740v3 )

ライセンス: Link先を確認
Hugues Randriambololona, (参考訳) 本稿では, 誤り訂正能力において, 複雑度が劣等であり, 一般的な復号アルゴリズムよりも優れる交代符号とゴッパ符号の新しい区別器を提案する。 さらに、以前の区別器や構造回復アルゴリズムの強い規則的制限に苦しめられず、特に、量子後暗号標準化のための古典的なマッケイリーの候補で使われるコードに適用される。 区別できる不変量は、双対符号の短縮の同次座標環のベッチ数である。 1978年に導入されて以来、McEliece暗号系の解析が指数障壁を破るのはこれが初めてである。

We present a new distinguisher for alternant and Goppa codes, whose complexity is subexponential in the error-correcting capability, hence better than that of generic decoding algorithms. Moreover it does not suffer from the strong regime limitations of the previous distinguishers or structure recovery algorithms: in particular, it applies to the codes used in the Classic McEliece candidate for postquantum cryptography standardization. The invariants that allow us to distinguish are graded Betti numbers of the homogeneous coordinate ring of a shortening of the dual code. Since its introduction in 1978, this is the first time an analysis of the McEliece cryptosystem breaks the exponential barrier.
翻訳日:2024-07-25 18:02:43 公開日:2024-07-24
# LLMmap: 大きな言語モデルのためのフィンガープリント

LLMmap: Fingerprinting For Large Language Models ( http://arxiv.org/abs/2407.15847v2 )

ライセンス: Link先を確認
Dario Pasquini, Evgenios M. Kornaropoulos, Giuseppe Ateniese, (参考訳) LLM 統合アプリケーションを対象とした第1世代の指紋認証攻撃 LLMmap を紹介する。 LLMmapはアクティブなフィンガープリントアプローチを採用し、アプリケーションに慎重にクエリを送信し、レスポンスを分析して使用中の特定のLLMモデルを特定する。 わずか8つの相互作用で、LLMmapは95%以上の精度でLSMを正確に識別できる。 さらに重要なのは、LLMmapはさまざまなアプリケーション層で堅牢に設計されており、様々なシステムプロンプト、確率的なサンプリングハイパーパラメータ、RAGやChain-of-Thoughtといった複雑な生成フレームワークでもLLMを識別できる。

We introduce LLMmap, a first-generation fingerprinting attack targeted at LLM-integrated applications. LLMmap employs an active fingerprinting approach, sending carefully crafted queries to the application and analyzing the responses to identify the specific LLM model in use. With as few as 8 interactions, LLMmap can accurately identify LLMs with over 95% accuracy. More importantly, LLMmap is designed to be robust across different application layers, allowing it to identify LLMs operating under various system prompts, stochastic sampling hyperparameters, and even complex generation frameworks such as RAG or Chain-of-Thought.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-24
# チェックインシーケンス表現学習のための空間-時間的クロスビューコントラスト事前学習

Spatial-Temporal Cross-View Contrastive Pre-training for Check-in Sequence Representation Learning ( http://arxiv.org/abs/2407.15899v2 )

ライセンス: Link先を確認
Letian Gong, Huaiyu Wan, Shengnan Guo, Xiucheng Li, Yan Lin, Erwen Zheng, Tianyi Wang, Zeyu Zhou, Youfang Lin, (参考訳) 位置情報サービス(LBS)の急速な成長は、人間の移動性に関する膨大なデータを生み出している。 ユーザ生成したチェックインシーケンスに対する意味のある表現を効果的に抽出することは、さまざまなダウンストリームサービスを容易にする上で重要である。 しかし、ユーザ生成チェックインデータは、周囲の客観的状況とユーザの主観的意図に同時に影響される。 具体的には、チェックインデータに現れる時間的不確実性と空間的多様性は、ユーザのマクロな空間的時間的パターンを捉え、ユーザのモビリティ活動の意味を理解するのを困難にしている。 さらに、チェックインシーケンスにおける時間的・空間的な情報の異なる特徴は、これらの2種類の情報を効果的に融合する方法を要求する。 本稿では,チェックインシーケンス表現学習のための空間-時間的クロスビューコントラスト表現(STCCR)フレームワークを提案する。 具体的には、STCCRは「空間的話題」と「時間的意図」の視点から自己スーパービジョンを取り入れ、意味レベルでの空間的情報と時間的情報を効果的に融合させることによって、上記の課題に対処する。 さらに、STCCRはコントラッシブクラスタリングを活用し、多様なモビリティ活動からユーザの共有空間トピックを明らかにすると同時に、時間的不確実性やノイズの影響を軽減するために、角度運動量を利用する。 実世界の3つのデータセット上でSTCCRを広範囲に評価し、3つの下流タスクにおいて優れた性能を示す。

The rapid growth of location-based services (LBS) has yielded massive amounts of data on human mobility. Effectively extracting meaningful representations for user-generated check-in sequences is pivotal for facilitating various downstream services. However, the user-generated check-in data are simultaneously influenced by the surrounding objective circumstances and the user's subjective intention. Specifically, the temporal uncertainty and spatial diversity exhibited in check-in data make it difficult to capture the macroscopic spatial-temporal patterns of users and to understand the semantics of user mobility activities. Furthermore, the distinct characteristics of the temporal and spatial information in check-in sequences call for an effective fusion method to incorporate these two types of information. In this paper, we propose a novel Spatial-Temporal Cross-view Contrastive Representation (STCCR) framework for check-in sequence representation learning. Specifically, STCCR addresses the above challenges by employing self-supervision from "spatial topic" and "temporal intention" views, facilitating effective fusion of spatial and temporal information at the semantic level. Besides, STCCR leverages contrastive clustering to uncover users' shared spatial topics from diverse mobility activities, while employing angular momentum contrast to mitigate the impact of temporal uncertainty and noise. We extensively evaluate STCCR on three real-world datasets and demonstrate its superior performance across three downstream tasks.
翻訳日:2024-07-25 17:52:45 公開日:2024-07-24
# 機械が道徳的ではない理由:チューリングのハルティング問題と人工知能の道徳的限界

Why Machines Can't Be Moral: Turing's Halting Problem and the Moral Limits of Artificial Intelligence ( http://arxiv.org/abs/2407.16890v1 )

ライセンス: Link先を確認
Massimo Passamonti, (参考訳) このエッセイでは、道徳的原理がボトムアップ的アプローチによって推測される明示的な倫理的機械は、人間のような道徳的推論を再現することができず、道徳的エージェントと見なすことができないと論じる。 アラン・チューリング(英語版)の計算理論を利用して、モラル推論が停止問題によりこれらの機械によって計算可能であることを実証する。 私は、道徳問題を「倫理的道徳問題」に形式化し、道徳心理学の二重プロセスモデルを探究することで、機械倫理のフロンティアに対処する。 チューリングマシンの性質は理論的には、人工エージェントが再帰的な道徳的推論を行うことを可能にするが、停止問題によって致命的な制限が導入され、計算プロセスが停止するかどうかを確実に予測することは不可能である。 軍事用ドローンを含む思考実験ではこの問題が示されており、人工知能エージェントが停止問題のために行動を決定するのに失敗し、エージェントが全ての事例において決定を下す能力を制限し、士気を損なう可能性があることを示している。

In this essay, I argue that explicit ethical machines, whose moral principles are inferred through a bottom-up approach, are unable to replicate human-like moral reasoning and cannot be considered moral agents. By utilizing Alan Turing's theory of computation, I demonstrate that moral reasoning is computationally intractable by these machines due to the halting problem. I address the frontiers of machine ethics by formalizing moral problems into 'algorithmic moral questions' and by exploring moral psychology's dual-process model. While the nature of Turing Machines theoretically allows artificial agents to engage in recursive moral reasoning, critical limitations are introduced by the halting problem, which states that it is impossible to predict with certainty whether a computational process will halt. A thought experiment involving a military drone illustrates this issue, showing that an artificial agent might fail to decide between actions due to the halting problem, which limits the agent's ability to make decisions in all instances, undermining its moral agency.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-24
# マルチドメイン行動クローンによる表現アライメントによるドメイン間政策伝達

Cross-Domain Policy Transfer by Representation Alignment via Multi-Domain Behavioral Cloning ( http://arxiv.org/abs/2407.16912v1 )

ライセンス: Link先を確認
Hayato Watahiki, Ryo Iwase, Ryosuke Unno, Yoshimasa Tsuruoka, (参考訳) さまざまな状況における学習スキルの移転は、特にエージェントが正確な目標設定と対話できない場合、自律エージェントにとって基本的な課題である。 それまでのアプローチはドメイン翻訳の学習に重点を置いてきたが、多くの場合、重要なドメインギャップやアウト・オブ・ディストリビューションタスクに対処するのに苦労する。 本稿では、ドメイン間の共有潜在表現と、その上に共通の抽象ポリシーを学習する、ドメイン間ポリシー転送のための簡単なアプローチを提案する。 提案手法は,プロキシタスクの不整合軌道上でのマルチドメイン動作のクローン化と,ドメイン間のアライメントを促進するために,最大平均不整合(MMD)を正規化用語として利用する。 MMD正則化は、一般的に使用されるドメイン識別分布マッチングよりも遅延状態分布の構造を保存し、より高い転送性能をもたらす。 さらに,提案手法では,既存手法よりも拡張が容易な1つのマルチドメインポリシのみをトレーニングする。 特にクロスモーフィックやクロスビューポイントの設定など,正確なドメイン翻訳が困難なシナリオにおいて,本手法の有効性を実証的に評価した。 我々のアブレーション研究は、多領域の行動クローニングが、ドメイン-逆正則化と共に表現整合に暗黙的に寄与することを明らかにする。

Transferring learned skills across diverse situations remains a fundamental challenge for autonomous agents, particularly when agents are not allowed to interact with an exact target setup. While prior approaches have predominantly focused on learning domain translation, they often struggle with handling significant domain gaps or out-of-distribution tasks. In this paper, we present a simple approach for cross-domain policy transfer that learns a shared latent representation across domains and a common abstract policy on top of it. Our approach leverages multi-domain behavioral cloning on unaligned trajectories of proxy tasks and employs maximum mean discrepancy (MMD) as a regularization term to encourage cross-domain alignment. The MMD regularization better preserves structures of latent state distributions than commonly used domain-discriminative distribution matching, leading to higher transfer performance. Moreover, our approach involves training only one multi-domain policy, which makes extension easier than existing methods. Empirical evaluations demonstrate the efficacy of our method across various domain shifts, especially in scenarios where exact domain translation is challenging, such as cross-morphology or cross-viewpoint settings. Our ablation studies further reveal that multi-domain behavioral cloning implicitly contributes to representation alignment alongside domain-adversarial regularization.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-24
# TelescopeML -- I. 機械学習モデルのトレーニング、統計レポートの生成、可視化結果による望遠鏡データセットの解釈のためのエンドツーエンドPythonパッケージ

TelescopeML -- I. An End-to-End Python Package for Interpreting Telescope Datasets through Training Machine Learning Models, Generating Statistical Reports, and Visualizing Results ( http://arxiv.org/abs/2407.16917v1 )

ライセンス: Link先を確認
Ehsan, Gharib-Nezhad, Natasha E. Batalha, Hamed Valizadegan, Miguel J. S. Martinho, Mahdi Habibi, Gopal Nookula, (参考訳) 我々は、ジェームズ・ウェッブ宇宙望遠鏡(英語版)(\textit{JWST})のような望遠鏡の進歩のおかげで、宇宙探査における革命の時代が近づいている。 過去数十年間、太陽系外惑星と茶色の準惑星大気からの高分解能で高信号-雑音スペクトルが収集され、その分析のために正確で信頼性の高いパイプラインやツールの開発が求められた。 これらの天体の観測スペクトルから分光パラメータを正確にかつ迅速に決定することは、大気組成を理解し、将来の観測を導くのに不可欠である。 \texttt{TelescopeML}は3つの主要なタスクを実行するために開発されたPythonパッケージである。 1.CNNモデルを訓練し、後の予測に使用する観測データセットを作成するための合成天文学データセットの処理 2.最適ハイパーパラメータを実装することでCNNモデルを訓練し、 3. 実際の観測データにトレーニング済みCNNモデルを配置し, 出力分光パラメータを導出する。

We are on the verge of a revolutionary era in space exploration, thanks to advancements in telescopes such as the James Webb Space Telescope (\textit{JWST}). High-resolution, high signal-to-noise spectra from exoplanet and brown dwarf atmospheres have been collected over the past few decades, requiring the development of accurate and reliable pipelines and tools for their analysis. Accurately and swiftly determining the spectroscopic parameters from the observational spectra of these objects is crucial for understanding their atmospheric composition and guiding future follow-up observations. \texttt{TelescopeML} is a Python package developed to perform three main tasks: 1. Process the synthetic astronomical datasets for training a CNN model and prepare the observational dataset for later use for prediction; 2. Train a CNN model by implementing the optimal hyperparameters; and 3. Deploy the trained CNN models on the actual observational data to derive the output spectroscopic parameters.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-24
# Train-Attention: メタラーニング: 継続的な知識学習に焦点を当てる場所

Train-Attention: Meta-Learning Where to Focus in Continual Knowledge Learning ( http://arxiv.org/abs/2407.16920v1 )

ライセンス: Link先を確認
Yeongbin Seo, Dongha Lee, Jinyoung Yeo, (参考訳) 大規模言語モデル(LLM)における継続的知識学習(CKL)に関するこれまでの研究は、正則化やアーキテクチャ修正、破滅的な忘れを和らげるためのリハーサル技術といったアプローチに主に焦点を当ててきた。 しかし、これらの手法は標準的な訓練手順の非効率性を自然に継承し、全てのトークンに均一な重み付けを無差別に適用することで、不要なパラメータ更新や忘れの増大につながる可能性がある。 これらの欠点に対処するため,本論文では,トークンに対する重み付けを動的に予測・適用することにより学習効率を向上させる,Train-Attention-Augmented Language Model (TAALM) と呼ばれる新しいCKLアプローチを提案する。 この方法は、トークンの重要度予測を最適化し、目標とする知識更新を容易にし、忘れを最小化するメタラーニングフレームワークを使用する。 また,既存のベンチマークは学習と保持のトレードオフを明確に示していないため,この問題に対処するための新しいベンチマークである「textsc{LAMA-ckl}」を提案する。 新たに導入されたCKLベンチマークと確立されたCKLベンチマークの両方で実施された実験を通じて、TAALMはベースライン上での最先端のパフォーマンスを証明し、以前のCKLアプローチと統合した場合に相乗的互換性を示す。

Previous studies on continual knowledge learning (CKL) in large language models (LLMs) have predominantly focused on approaches such as regularization, architectural modifications, and rehearsal techniques to mitigate catastrophic forgetting. However, these methods naively inherit the inefficiencies of standard training procedures, indiscriminately applying uniform weight across all tokens, which can lead to unnecessary parameter updates and increased forgetting. To address these shortcomings, we propose a novel CKL approach termed Train-Attention-Augmented Language Model (TAALM), which enhances learning efficiency by dynamically predicting and applying weights to tokens based on their usefulness. This method employs a meta-learning framework that optimizes token importance predictions, facilitating targeted knowledge updates and minimizing forgetting. Also, we observe that existing benchmarks do not clearly exhibit the trade-off between learning and retaining, therefore we propose a new benchmark, \textsc{LAMA-ckl}, to address this issue. Through experiments conducted on both newly introduced and established CKL benchmarks, TAALM proves the state-of-the-art performance upon the baselines, and also shows synergistic compatibility when integrated with previous CKL approaches.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-24
# カラー監督拡散モデルによるSARから光画像への変換

SAR to Optical Image Translation with Color Supervised Diffusion Model ( http://arxiv.org/abs/2407.16921v1 )

ライセンス: Link先を確認
Xinyu Bai, Feng Xu, (参考訳) SAR(Synthetic Aperture Radar)は、全天候で高解像度の撮像機能を提供するが、複雑な撮像機構は解釈に困難をもたらすことが多い。 これらの制約に応えて,SAR画像をより分かりやすい光学画像に変換することによって,SAR画像の解釈可能性を高めるために,革新的な生成モデルを提案する。 具体的には, モデルバックボーンは, 強力な生成能力を有する最近の拡散モデルに基づいている。 サンプリングプロセスでは,SAR画像を条件付きガイドとして使用し,色変化対策を効果的に行うために色管理を統合した。 我々は,SEN12データセットの実験を行い,ピーク信号-雑音比,構造的類似度,フレチェット開始距離を用いて定量的評価を行った。 その結果,本モデルは定量的評価において従来の手法を超えるだけでなく,生成した画像の視覚的品質を著しく向上させることがわかった。

Synthetic Aperture Radar (SAR) offers all-weather, high-resolution imaging capabilities, but its complex imaging mechanism often poses challenges for interpretation. In response to these limitations, this paper introduces an innovative generative model designed to transform SAR images into more intelligible optical images, thereby enhancing the interpretability of SAR images. Specifically, our model backbone is based on the recent diffusion models, which have powerful generative capabilities. We employ SAR images as conditional guides in the sampling process and integrate color supervision to counteract color shift issues effectively. We conducted experiments on the SEN12 dataset and employed quantitative evaluations using peak signal-to-noise ratio, structural similarity, and fr\'echet inception distance. The results demonstrate that our model not only surpasses previous methods in quantitative assessments but also significantly enhances the visual quality of the generated images.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-24
# 深層学習に基づく局所化のためのハンドリングデバイスの不均一性

Handling Device Heterogeneity for Deep Learning-based Localization ( http://arxiv.org/abs/2407.16923v1 )

ライセンス: Link先を確認
Ahmed Shokry, Moustafa Youssef, (参考訳) ディープラーニングベースのフィンガープリントは、携帯電話ネットワークにおける屋外ローカライズのための、現在有望な技術の1つである。 しかし、不均一な携帯電話にそのようなローカライズシステムを配置することは、携帯電話の受信信号強度(RSS)が異なるため、その精度に影響を及ぼす。 本稿では,深層学習に基づくローカライゼーションシステムにおいて,電話の不均一性問題に対処するテクニックをいくつか紹介する。 基本的な考え方は、異なるデバイス間で細胞のRSS測定をマッピングする関数を近似するか、あるいはそれらの知識を伝達するかである。 4つの独立したテストベッド上で異なるAndroid端末を用いて提案手法の評価を行った結果,本手法は4つのテストベッドに対して,最先端のシステムと比較して,220%以上のローカライズ精度を向上できることがわかった。 このことは、さまざまなデバイスにディープラーニングベースのローカライゼーションシステムを広範囲に展開可能にするための、提案されたデバイス不均一性ハンドリングテクニックの約束を強調している。

Deep learning-based fingerprinting is one of the current promising technologies for outdoor localization in cellular networks. However, deploying such localization systems for heterogeneous phones affects their accuracy as the cellular received signal strength (RSS) readings vary for different types of phones. In this paper, we introduce a number of techniques for addressing the phones heterogeneity problem in the deep-learning based localization systems. The basic idea is either to approximate a function that maps the cellular RSS measurements between different devices or to transfer the knowledge across them. Evaluation of the proposed techniques using different Android phones on four independent testbeds shows that our techniques can improve the localization accuracy by more than 220% for the four testbeds as compared to the state-of-the-art systems. This highlights the promise of the proposed device heterogeneity handling techniques for enabling a wide deployment of deep learning-based localization systems over different devices.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-24
# DeepCell: ユビキタスな正確なプロバイダサイドセルベースのローカライゼーション

DeepCell: A Ubiquitous Accurate Provider-side Cellular-based Localization ( http://arxiv.org/abs/2407.16927v1 )

ライセンス: Link先を確認
Ahmed Shokry, Moustafa Youssef, (参考訳) 屋外のローカライゼーションは、GPSの普及によって既に一般市民や企業が利用できるが、ローエンドの電話ではサポートされていない。 現在のフィンガープリントソリューションは、高精度なローカライゼーションを提供するが、クライアント側に基づいている。 これにより、ユビキタスなデプロイメントと精度が制限される。 本稿では,どの携帯電話にも高精度な指紋位置決めシステムであるDeepCellを紹介する。 指紋を作成するためにDeepCellは、携帯電話プロバイダが記録した未ラベルの細胞計測を活用し、選択したクライアントデバイスと同期して位置ラベルを取得する。 次に指紋を使用して、ローカライゼーションに使用されるディープニューラルネットワークモデルをトレーニングする。 この目標を達成するためにDeepCellは、プロバイダ側からのラベルなしデータの使用、ノイズとスパーシリティの処理、大規模な領域へのデータのスケーリング、さらにはオーバーヘッドのないディープモデルのトレーニングに必要な十分なデータの提供など、さまざまな課題に対処する必要がある。 典型的な現実的な環境でのDeepCellの評価は、一貫した中央値の精度が29mに達することを示している。 この精度は、最先端のクライアントベースのセルベースシステムより75.4%以上優れている。 さらに、同じ精度をローエンドの電話にも拡張する。

Although outdoor localization is already available to the general public and businesses through the wide spread use of the GPS, it is not supported by low-end phones, requires a direct line of sight to satellites and can drain phone battery quickly. The current fingerprinting solutions can provide high-accuracy localization but are based on the client side. This limits their ubiquitous deployment and accuracy. In this paper, we introduce DeepCell: a provider-side fingerprinting localization system that can provide high accuracy localization for any cell phone. To build its fingerprint, DeepCell leverages the unlabeled cellular measurements recorded by the cellular provider while opportunistically synchronizing with selected client devices to get location labels. The fingerprint is then used to train a deep neural network model that is harnessed for localization. To achieve this goal, DeepCell need to address a number of challenges including using unlabeled data from the provider side, handling noise and sparsity, scaling the data to large areas, and finally providing enough data that is required for training deep models without overhead. Evaluation of DeepCell in a typical realistic environment shows that it can achieve a consistent median accuracy of 29m. This accuracy outperforms the state-of-the-art client-based cellular-based systems by more than 75.4%. In addition, the same accuracy is extended to low-end phones.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-24
# 砂からマンション:LLMによるフルライフサイクルサイバー攻撃の自動化

From Sands to Mansions: Enabling Automatic Full-Life-Cycle Cyberattack Construction with LLM ( http://arxiv.org/abs/2407.16928v1 )

ライセンス: Link先を確認
Lingzhi Wang, Jiahui Wang, Kyle Jung, Kedar Thiagarajan, Emily Wei, Xiangmin Shen, Yan Chen, Zhenyuan Li, (参考訳) サイバーセキュリティにおける攻撃者と防衛者の間の戦闘の激化は、攻撃者の視点からの防衛能力のテストと評価を義務付ける。 しかしながら、フルライフサイクルのサイバー攻撃の構築とレッドチームエミュレーションの実行には、セキュリティ専門家によるかなりの時間とドメイン知識が必要である。 既存のサイバー攻撃シミュレーションフレームワークは、限られた技術的カバレッジ、フルライフサイクルの攻撃を行うことができないこと、手動のインフラ構築の必要性といった課題に直面している。 これらの制限は、構築された攻撃の品質と多様性を妨げる。 本稿では,Large Language Models(LLM)の機能を活用し,既存の攻撃情報から知識を要約し,人間の知識に基づいて実行可能なマシンコードを生成する。 我々は,自動エンドツーエンドサイバー攻撃構築とエミュレーションの枠組みであるAURORAを提案した。 AURORAは、サイバー脅威インテリジェンス(CTI)レポートに基づいて、自律的に多段階のサイバー攻撃計画を構築でき、エミュレーションインフラを構築し、攻撃手順を実行することができる。 また,攻撃手法に関する知識を,各種情報源からの高度なサイバー攻撃のライフサイクル全体を通して統合する攻撃手順知識グラフも開発した。 我々は,既存のCTIレポートに基づいて,20以上のフルライフサイクルサイバー攻撃を構築し,評価した。 従来の攻撃シミュレーションフレームワークと比較して、AURORAは人間の介入なしに数分で多段階攻撃とインフラを構築することができる。 さらにAURORAは、プロのレッドチームよりも効率的な方法で、より広い範囲(40%以上)の攻撃テクニックを構築された攻撃に組み込んでいる。 さらなる研究の恩恵を得るために、20のエミュレートされたサイバー攻撃による実行ファイルとインフラを含むデータセットをオープンソース化した。

The escalating battles between attackers and defenders in cybersecurity make it imperative to test and evaluate defense capabilities from the attackers' perspective. However, constructing full-life-cycle cyberattacks and performing red team emulations requires significant time and domain knowledge from security experts. Existing cyberattack simulation frameworks face challenges such as limited technical coverage, inability to conduct full-life-cycle attacks, and the need for manual infrastructure building. These limitations hinder the quality and diversity of the constructed attacks. In this paper, we leveraged the capabilities of Large Language Models (LLMs) in summarizing knowledge from existing attack intelligence and generating executable machine code based on human knowledge. we proposed AURORA, an automatic end-to-end cyberattack construction and emulation framework. AURORA can autonomously build multi-stage cyberattack plans based on Cyber Threat Intelligence (CTI) reports, construct the emulation infrastructures, and execute the attack procedures. We also developed an attack procedure knowledge graph to integrate knowledge about attack techniques throughout the full life cycle of advanced cyberattacks from various sources. We constructed and evaluated more than 20 full-life-cycle cyberattacks based on existing CTI reports. Compared to previous attack simulation frameworks, AURORA can construct multi-step attacks and the infrastructures in several minutes without human intervention. Furthermore, AURORA incorporates a wider range (40% more) of attack techniques into the constructed attacks in a more efficient way than the professional red teams. To benefit further research, we open-sourced the dataset containing the execution files and infrastructures of 20 emulated cyberattacks.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-24
# 合成データ、類似性に基づくプライバシメトリクス、および規制(ノン-)コンプライアンス

Synthetic Data, Similarity-based Privacy Metrics, and Regulatory (Non-)Compliance ( http://arxiv.org/abs/2407.16929v1 )

ライセンス: Link先を確認
Georgi Ganev, (参考訳) 本稿では,類似性に基づくプライバシメトリクスが,合成データの規制コンプライアンスを保証できないことを論じる。 我々の分析と反例は、歌い出しやリンク性から保護されていないことを示し、基本的な問題として、モチベーションのある侵入者テストを完全に無視している。

In this paper, we argue that similarity-based privacy metrics cannot ensure regulatory compliance of synthetic data. Our analysis and counter-examples show that they do not protect against singling out and linkability and, among other fundamental issues, completely ignore the motivated intruder test.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-24
# ScholarChemQA: 化学研究における言語モデルの力の解明

ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering ( http://arxiv.org/abs/2407.16931v1 )

ライセンス: Link先を確認
Xiuying Chen, Tairan Wang, Taicheng Guo, Kehan Guo, Juexiao Zhou, Haoyang Li, Mingchen Zhuge, Jürgen Schmidhuber, Xin Gao, Xiangliang Zhang, (参考訳) 質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。 QAデータセットは一般ドメインやバイオメディシンのような領域では豊富だが、学術的な化学は研究されていない。 化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。 このギャップに対処するため,化学論文から構築した大規模QAデータセットであるScholarChemQAを紹介する。 このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。 これに対応して、収集したデータを完全に活用して、化学的な疑問に効果的に答えるように設計されたQAMatchモデルを導入する。 まず、各クラスの逆周波数に基づいてインスタンス単位の損失を再重み付けし、最適化時にマイノリティクラスが多数派に支配されないようにすることで、不均衡なラベル分布の問題に対処する。 次に、ラベルのないデータを用いて学習プロセスを強化し、SoftMix操作に基づいて様々な拡張を生成し、それらの予測が同じターゲット、すなわち擬似ラベルと整合することを保証する。 擬似ラベルの品質を確保するために,個々のサンプルの擬似ラベル推定を所望の真理分布と密接に整合させるキャリブレーション手法を提案する。 実験の結果、我々のQAMatchはScholarChemQAデータセットだけでなく、4つのベンチマークデータセットでも、最近の類似のベースラインとLarge Language Models(LLMs)を大きく上回っていることがわかった。 当社のベンチマークとモデルが化学QA研究の促進と促進を期待する。

Question Answering (QA) effectively evaluates language models' reasoning and knowledge depth. While QA datasets are plentiful in areas like general domain and biomedicine, academic chemistry is less explored. Chemical QA plays a crucial role in both education and research by effectively translating complex chemical information into readily understandable format. Addressing this gap, we introduce ScholarChemQA, a large-scale QA dataset constructed from chemical papers. This dataset reflects typical real-world challenges, including an imbalanced data distribution and a substantial amount of unlabeled data that can be potentially useful. Correspondingly, we introduce a QAMatch model, specifically designed to effectively answer chemical questions by fully leveraging our collected data. We first address the issue of imbalanced label distribution by re-weighting the instance-wise loss based on the inverse frequency of each class, ensuring minority classes are not dominated by majority ones during optimization. Next, we utilize the unlabeled data to enrich the learning process, generating a variety of augmentations based on a SoftMix operation and ensuring their predictions align with the same target, i.e., pseudo-labels. To ensure the quality of the pseudo-labels, we propose a calibration procedure aimed at closely aligning the pseudo-label estimates of individual samples with a desired ground truth distribution. Experiments show that our QAMatch significantly outperforms the recent similar-scale baselines and Large Language Models (LLMs) not only on our ScholarChemQA dataset but also on four benchmark datasets. We hope our benchmark and model can facilitate and promote more research on chemical QA.
翻訳日:2024-07-25 15:12:43 公開日:2024-07-24
# 深層クープマンによる多段製造システムの品質変動制御

Deep Koopman-based Control of Quality Variation in Multistage Manufacturing Systems ( http://arxiv.org/abs/2407.16933v1 )

ライセンス: Link先を確認
Zhiyi Chen, Harshal Maske, Devesh Upadhyay, Huanyi Shui, Xun Huan, Jun Ni, (参考訳) 本稿では,多段階製造システム(MMS)の品質管理問題に対処するためのモデリング制御合成を提案する。 MMSのプロセス障害による品質変動を最小限に抑えるために,新しいフィードフォワード制御方式を開発した。 特に、制御フレームワークは確率的な深いクープマン(SDK)モデルを利用して、MMSの品質伝搬機構を捉える。 2つのロール・ツー・ロールケーススタディを提案し,提案手法の有効性を実証した。 全体的な手法は非線形MMSに適しており、豊富な専門知識を必要としない。

This paper presents a modeling-control synthesis to address the quality control challenges in multistage manufacturing systems (MMSs). A new feedforward control scheme is developed to minimize the quality variations caused by process disturbances in MMSs. Notably, the control framework leverages a stochastic deep Koopman (SDK) model to capture the quality propagation mechanism in the MMSs, highlighted by its ability to transform the nonlinear propagation dynamics into a linear one. Two roll-to-roll case studies are presented to validate the proposed method and demonstrate its effectiveness. The overall method is suitable for nonlinear MMSs and does not require extensive expert knowledge.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# 多出力ガウス過程におけるフェデレーション付き遅延可変選択

Federated Automatic Latent Variable Selection in Multi-output Gaussian Processes ( http://arxiv.org/abs/2407.16935v1 )

ライセンス: Link先を確認
Jingyi Gao, Seokhyun Chung, (参考訳) 本稿では,多出力ガウス過程(MGP)における潜在過程の数を自動選択するフェデレート学習手法を提案する。 MGPは、複数のソース/ユニット/エンティティからデータが生成されるとき、転送学習ツールとして大きな成功を収めています。 ユニット間で知識を伝達するMGPの一般的なアプローチは、各ユニットから中央サーバーにすべてのデータを収集し、共有潜在パターンの線形結合として各ユニットを表現するための共通の独立潜在プロセスを抽出することである。 しかし、このアプローチは重要な課題を提起する。 一 適正な潜伏過程数及び潜伏過程数の決定 (II) 集中型学習に頼って, プライバシーリスクや計算負荷の増大につながる。 これらの問題に対処するために、各潜伏過程の係数にスパイク・アンド・スラブ先行を配置する階層モデルを提案する。 これらの先行は、不要なものの係数を0に縮めることで、必要な潜在プロセスのみを自動的に選択するのに役立つ。 集中学習の欠点を回避しつつモデルを推定するために,フェデレートされた設定と互換性のある最適化問題としてモデル推論を定式化する変分推論に基づくアプローチを提案する。 次に、ユニットがデータを共有することなく、共通の潜在プロセスを共同で選択し、推論することのできる、連合学習アルゴリズムを設計する。 また、提案するフェデレーションフレームワーク内で、新しいユニットに対する効率的な学習手法についても論じる。 リチウムイオン電池劣化のシミュレーションとケーススタディにより, 提案手法の利点が示された。

This paper explores a federated learning approach that automatically selects the number of latent processes in multi-output Gaussian processes (MGPs). The MGP has seen great success as a transfer learning tool when data is generated from multiple sources/units/entities. A common approach in MGPs to transfer knowledge across units involves gathering all data from each unit to a central server and extracting common independent latent processes to express each unit as a linear combination of the shared latent patterns. However, this approach poses key challenges in (i) determining the adequate number of latent processes and (ii) relying on centralized learning which leads to potential privacy risks and significant computational burdens on the central server. To address these issues, we propose a hierarchical model that places spike-and-slab priors on the coefficients of each latent process. These priors help automatically select only needed latent processes by shrinking the coefficients of unnecessary ones to zero. To estimate the model while avoiding the drawbacks of centralized learning, we propose a variational inference-based approach, that formulates model inference as an optimization problem compatible with federated settings. We then design a federated learning algorithm that allows units to jointly select and infer the common latent processes without sharing their data. We also discuss an efficient learning approach for a new unit within our proposed federated framework. Simulation and case studies on Li-ion battery degradation and air temperature data demonstrate the advantageous features of our proposed approach.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# 非log-concaveサンプリングにおけるanaled Langevin Monte Carloの確率的ベネフィット

Provable Benefit of Annealed Langevin Monte Carlo for Non-log-concave Sampling ( http://arxiv.org/abs/2407.16936v1 )

ライセンス: Link先を確認
Wei Guo, Molei Tao, Yongxin Chen, (参考訳) 非log-concave および multimodal である可能性のある非正規化密度からのサンプリングの問題に対処する。 単純なマルコフ連鎖モンテカルロ法 (MCMC) の性能を高めるため, 焼鈍型法が広く用いられている。 しかし、これらの手法の定量的な保証は未発見である。 本研究は、焼鈍MCMCの非漸近解析を提供するための第一歩となる。 具体的には、まず最初のオラクル複雑性を$\widetilde{O}\left(\frac{d\beta^2{\cal A}^2}{\varepsilon^6}\right)$で確立し、単純なアンニールランジェヴィン・モンテカルロアルゴリズムにより、ターゲット分布へのKullback-Leibler分散の精度を$\pi\propto{\rm e}^{-V}$で$\mathbb{R}^d$で$\beta$-smooth potential $V$とする。 ここで、${\cal A}$ は対象分布 $\pi$ と容易にサンプリング可能な分布を補間する確率測度の曲線の作用を表す。

We address the outstanding problem of sampling from an unnormalized density that may be non-log-concave and multimodal. To enhance the performance of simple Markov chain Monte Carlo (MCMC) methods, techniques of annealing type have been widely used. However, quantitative theoretical guarantees of these techniques are under-explored. This study takes a first step toward providing a non-asymptotic analysis of annealed MCMC. Specifically, we establish, for the first time, an oracle complexity of $\widetilde{O}\left(\frac{d\beta^2{\cal A}^2}{\varepsilon^6}\right)$ for simple annealed Langevin Monte Carlo algorithm to achieve $\varepsilon^2$ accuracy in Kullback-Leibler divergence to the target distribution $\pi\propto{\rm e}^{-V}$ on $\mathbb{R}^d$ with $\beta$-smooth potential $V$. Here, ${\cal A}$ represents the action of a curve of probability measures interpolating the target distribution $\pi$ and a readily sampleable distribution.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# 畳み込みニューラルネットワークによる合成軌道生成

Synthetic Trajectory Generation Through Convolutional Neural Networks ( http://arxiv.org/abs/2407.16938v1 )

ライセンス: Link先を確認
Jesse Merhi, Erik Buchholz, Salil S. Kanhere, (参考訳) ロケーション・トラジェクトリーは、都市計画からパンデミックコントロールへの応用に貴重な洞察を提供する。 しかし、モビリティデータは、政治的意見、宗教的信念、性的指向などの個人に関する機密情報を明らかにすることもできる。 このデータを公開するための既存のプライバシ保護アプローチは、大きなユーティリティプライバシトレードオフに直面している。 ディープラーニングによって生成された合成軌道データのリースは、有望なソリューションを提供する。 軌道のシーケンシャルな性質のため、既存のモデルのほとんどはリカレントニューラルネットワーク(RNN)に基づいている。 しかし、GAN(Generative Adversarial Network)の研究は主に画像生成に畳み込みニューラルネットワーク(CNN)を使用している。 この矛盾は、コンピュータビジョンの進歩が軌道生成に応用できるかどうかという問題を提起する。 本研究では, トラジェクトリをCNNモデルに適したフォーマットに適応させるRTCT(Reversible Trajectory-to-CNN Transformation)を提案する。 我々は、この変換をよく知られたDCGANと概念実証(PoC)に統合し、2つのデータセットにまたがる4つのメトリクスを用いて、RNNベースの軌道GANに対してその性能を評価した。 PoCは、RNNモデルと比較して空間分布を捉えるのに優れていたが、逐次的および時間的特性の複製が困難であった。 The PoC's utility is not enough for practical applications, the results showed the transformation's potential to help the use of CNNs for trajectory generation, open up paths for future research。 継続的な研究をサポートするため、すべてのソースコードはオープンソースライセンスの下で利用可能になっている。

Location trajectories provide valuable insights for applications from urban planning to pandemic control. However, mobility data can also reveal sensitive information about individuals, such as political opinions, religious beliefs, or sexual orientations. Existing privacy-preserving approaches for publishing this data face a significant utility-privacy trade-off. Releasing synthetic trajectory data generated through deep learning offers a promising solution. Due to the trajectories' sequential nature, most existing models are based on recurrent neural networks (RNNs). However, research in generative adversarial networks (GANs) largely employs convolutional neural networks (CNNs) for image generation. This discrepancy raises the question of whether advances in computer vision can be applied to trajectory generation. In this work, we introduce a Reversible Trajectory-to-CNN Transformation (RTCT) that adapts trajectories into a format suitable for CNN-based models. We integrated this transformation with the well-known DCGAN in a proof-of-concept (PoC) and evaluated its performance against an RNN-based trajectory GAN using four metrics across two datasets. The PoC was superior in capturing spatial distributions compared to the RNN model but had difficulty replicating sequential and temporal properties. Although the PoC's utility is not sufficient for practical applications, the results demonstrate the transformation's potential to facilitate the use of CNNs for trajectory generation, opening up avenues for future research. To support continued research, all source code has been made available under an open-source license.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# 解釈可能性を高めた潜在的ブレークスルー技術の早期スクリーニング:特許固有の階層的注意ネットワークモデル

Early screening of potential breakthrough technologies with enhanced interpretability: A patent-specific hierarchical attention network model ( http://arxiv.org/abs/2407.16939v1 )

ライセンス: Link先を確認
Jaewoong Choi, Janghyeok Yoon, Changyong Lee, (参考訳) 潜在的なブレークスルー技術の早期スクリーニングに機械学習アプローチが有用であるにもかかわらず、その実用性は不透明なモデルによって妨げられることが多い。 そこで本研究では,特許固有の階層型アテンションネットワーク(PatentHAN)モデルを用いて,特許文書から将来の引用数を予測するための解釈可能な機械学習手法を提案する。 本手法は,(1)特許固有の事前学習言語モデル,(2)特許請求項における技術的単語の意味を抽出する,(2)階層的なネットワーク構造,(3)請求レベルで詳細な分析を可能にする,(3)請求に関する自己認識機構,そして,審査過程における重要な主張を明らかにする。 35,376の医薬品特許のケーススタディでは、解釈可能性を確保しつつ、潜在的ブレークスルー技術の早期スクリーニングにおける我々のアプローチの有効性を実証している。 さらに、異なる言語モデルとクレームタイプを用いた追加分析を行い、アプローチの堅牢性について検討する。 提案手法は,テキストマイニングから技術価値への新たな洞察を提供するとともに,ブレークスルー技術を特定するための専門家と機械の連携を強化することが期待されている。

Despite the usefulness of machine learning approaches for the early screening of potential breakthrough technologies, their practicality is often hindered by opaque models. To address this, we propose an interpretable machine learning approach to predicting future citation counts from patent texts using a patent-specific hierarchical attention network (PatentHAN) model. Central to this approach are (1) a patent-specific pre-trained language model, capturing the meanings of technical words in patent claims, (2) a hierarchical network structure, enabling detailed analysis at the claim level, and (3) a claim-wise self-attention mechanism, revealing pivotal claims during the screening process. A case study of 35,376 pharmaceutical patents demonstrates the effectiveness of our approach in early screening of potential breakthrough technologies while ensuring interpretability. Furthermore, we conduct additional analyses using different language models and claim types to examine the robustness of the approach. It is expected that the proposed approach will enhance expert-machine collaboration in identifying breakthrough technologies, providing new insight derived from text mining into technological value.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# GV-Rep:遺伝的変数表現学習のための大規模データセット

GV-Rep: A Large-Scale Dataset for Genetic Variant Representation Learning ( http://arxiv.org/abs/2407.16940v1 )

ライセンス: Link先を確認
Zehui Li, Vallijah Subasri, Guy-Bart Stan, Yiren Zhao, Bo Wang, (参考訳) 遺伝的変異(GVs)は、個体間のDNA配列の違いとして定義され、遺伝疾患の診断と治療において重要な役割を果たす。 次世代シークエンシングコストの急激な低下は、患者レベルのGVデータの増加に繋がった。 この成長は、患者固有のGVを効率よく優先順位付けし、既存のゲノムデータベースと統合して患者の管理を知らせなければならない臨床医にとって課題となる。 GVの解釈に対処するために、ゲノム基盤モデル(GFM)が登場した。 しかし、これらのモデルは標準化された性能評価を欠き、モデル評価にかなりのばらつきをもたらす。 ディープラーニング手法は、未知のGVをどの程度効果的に分類し、臨床的に検証されたGVと整合させるのか? 生データを意味のある特徴空間に変換する表現学習は、インデックス化と分類の両課題に対処するための効果的なアプローチである、と我々は主張する。 我々はGV-Repという名前の大規模遺伝的バリアントデータセットを導入し、可変長コンテキストと詳細なアノテーションを特徴とし、さまざまな特性、疾患、組織タイプ、実験コンテキストのGV表現を深層学習モデルで学習するように設計された。 私たちの貢献は3倍です。 (i)700万レコードからなる包括的データセットの構築,および17,548件の遺伝子ノックアウトテスト,1,107件の細胞タイプ,1,808件の変異組み合わせ,および実世界の患者からの156件の特異な臨床検査GVについて,それぞれ特徴をラベル付けした。 (ii)データセットの構造と特性の分析。 三 事前訓練したGFMを用いたデータセットの実験。 その結果, GFMの現在の能力と正確な GV 表現との間に大きな差が認められた。 このデータセットが、このギャップを埋めるためにゲノム深層学習を前進させることを期待しています。

Genetic variants (GVs) are defined as differences in the DNA sequences among individuals and play a crucial role in diagnosing and treating genetic diseases. The rapid decrease in next generation sequencing cost has led to an exponential increase in patient-level GV data. This growth poses a challenge for clinicians who must efficiently prioritize patient-specific GVs and integrate them with existing genomic databases to inform patient management. To addressing the interpretation of GVs, genomic foundation models (GFMs) have emerged. However, these models lack standardized performance assessments, leading to considerable variability in model evaluations. This poses the question: How effectively do deep learning methods classify unknown GVs and align them with clinically-verified GVs? We argue that representation learning, which transforms raw data into meaningful feature spaces, is an effective approach for addressing both indexing and classification challenges. We introduce a large-scale Genetic Variant dataset, named GV-Rep, featuring variable-length contexts and detailed annotations, designed for deep learning models to learn GV representations across various traits, diseases, tissue types, and experimental contexts. Our contributions are three-fold: (i) Construction of a comprehensive dataset with 7 million records, each labeled with characteristics of the corresponding variants, alongside additional data from 17,548 gene knockout tests across 1,107 cell types, 1,808 variant combinations, and 156 unique clinically verified GVs from real-world patients. (ii) Analysis of the structure and properties of the dataset. (iii) Experimentation of the dataset with pre-trained GFMs. The results show a significant gap between GFMs current capabilities and accurate GV representation. We hope this dataset will help advance genomic deep learning to bridge this gap.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# McGAN: 製造ルールを条件付き生成逆ネットワークに組み込むことで製造可能な設計を創出する

McGAN: Generating Manufacturable Designs by Embedding Manufacturing Rules into Conditional Generative Adversarial Network ( http://arxiv.org/abs/2407.16943v1 )

ライセンス: Link先を確認
Zhichao Wang, Xiaoliang Yan, Shreyes Melkote, David Rosen, (参考訳) ジェネレーティブデザイン(ジェネレーティブデザイン、Generative Design、GD)は、機能的あるいは審美的な設計要件を満たす幅広いデザインを自動的に生成することを目的としている。 しかしながら、これまでの研究は、生成した設計の製作可能性に関する考慮を欠いている。 そこで本研究では,深層ニューラルネットワークを用いてDFMルールを符号化し,部品設計を改良し,製造プロセスで製造できるようにする,新しいGD手法を提案する。 具体的には、3段階のアプローチが提案されている。まず、部分設計をサブリージョンに分解するために、インスタンスセグメンテーション手法であるMask R-CNNを使用する。 第2に、条件付き生成逆境ニューラルネットワーク(cGAN)Pix2Pixは、製造不可能な分解されたサブリージョンを製造不能なサブリージョンに変換する。 設計の変換されたサブリージョンはその後、統一された製造可能な設計に再統合される。 これらの3つのステップ、Mask-RCNN、Pix2Pix、再統合は、提案されたManufacturable Conditional GAN(McGAN)フレームワークの基礎となる。 実験結果から,McGANは既存の製造不可能な設計を変換して対応する製造不可能な設計を自動生成し,特定の製造ルールを効率的かつ堅牢に実現できることが示唆された。 射出成形プロセスの2次元設計ケーススタディにより, マクカンの有効性を実証した。

Generative design (GD) methods aim to automatically generate a wide variety of designs that satisfy functional or aesthetic design requirements. However, research to date generally lacks considerations of manufacturability of the generated designs. To this end, we propose a novel GD approach by using deep neural networks to encode design for manufacturing (DFM) rules, thereby modifying part designs to make them manufacturable by a given manufacturing process. Specifically, a three-step approach is proposed: first, an instance segmentation method, Mask R-CNN, is used to decompose a part design into subregions. Second, a conditional generative adversarial neural network (cGAN), Pix2Pix, transforms unmanufacturable decomposed subregions into manufacturable subregions. The transformed subregions of designs are subsequently reintegrated into a unified manufacturable design. These three steps, Mask-RCNN, Pix2Pix, and reintegration, form the basis of the proposed Manufacturable conditional GAN (McGAN) framework. Experimental results show that McGAN can transform existing unmanufacturable designs to generate their corresponding manufacturable counterparts automatically that realize the specified manufacturing rules in an efficient and robust manner. The effectiveness of McGAN is demonstrated through two-dimensional design case studies of an injection molding process.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# 適応的勾配正規化法

An Adaptive Gradient Regularization Method ( http://arxiv.org/abs/2407.16944v1 )

ライセンス: Link先を確認
Huixiu Jiang, Yu Bao, Rutong Si, (参考訳) 最適化は、高い効率とパフォーマンスを持つニューラルネットワークトレーニングにおいて重要な役割を果たす。 勾配に基づく重み更新は、オプティマイザの中心部分である。 重みと勾配の正規化および標準化操作は、トレーニングプロセスを加速し、ウェイト標準化(WS)、ウェイト正規化(WN)、勾配正規化(GN)などの性能を向上させることが示されている。 本研究では,任意の次元の勾配ベクトルを係数ベクトルとして正規化し,バニラ勾配によって勾配とその係数ベクトルの積を減算する勾配ベクトルの勾配等級に基づく新しい最適化手法を提案する。 これは適応的な勾配クリッピング法と見なすことができる。 AGRは、より安定したトレーニングプロセスとより優れた一般化性能により、損失関数リプシッツネスを改善することができることを示す。 AGRは3行のコードだけで、AdanやAdamWといったバニラオプティマイザに組み込むことができる。 実験は画像生成,画像分類,言語表現において行われ,AGRがトレーニング結果を改善することを示す。

Optimizer plays an important role in neural network training with high efficiency and performance. Weight update based on its gradient is the central part of the optimizer. It has been shown that normalization and standardization operation on weight and gradient can accelerate the training process and improve performance such as Weight Standardization (WS), weight normalization (WN) and gradient normalization (GN); there is also gradient centralization (GC). In this work, we introduce a new optimization technique based on the gradient magnitude in a gradient vector named adaptive gradient regularization (AGR), which normalizes the gradient vector in all dimensions as a coefficient vector and subtracts the product of the gradient and its coefficient vector by the vanilla gradient. It can be viewed as an adaptive gradient clipping method. We show that the AGR can improve the loss function Lipschitzness with a more stable training process and better generalization performance. AGR is very simple to be embedded into vanilla optimizers such as Adan and AdamW with only three lines of code. Our experiments are conducted in image generation, image classification and language representation, which shows that our AGR improves the training result.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# プログレッシブラーニングによる感情行動分析

Affective Behaviour Analysis via Progressive Learning ( http://arxiv.org/abs/2407.16945v1 )

ライセンス: Link先を確認
Chen Liu, Wei Zhang, Feng Qiu, Lincheng Li, Xin Yu, (参考訳) 感情行動分析(Affective Behavior Analysis)は、人間の感情を認識し、反応できる感情知的な技術を開発することを目的とする。 これを進めるために、第7回Affective Behavior Analysis in-the-Wild (ABAW)コンペティションは、マルチタスク学習(MTL)チャレンジと、Aff-Wild2とC-EXPR-DBデータセットに基づく複合表現(CE)チャレンジの2つのトラックを確立する。 本稿では,2つの競合トラックに対する提案手法と実験結果について述べる。 具体的には、以下の4つの側面で要約できる。 1) 高品質な顔機能を実現するために, マスケッドオートエンコーダを自己指導的に訓練する。 2) 時間収束モジュールを考案し,ビデオフレーム間の時間的情報を取得し,各サブタスクにおけるウィンドウサイズとシーケンス長の影響を探索する。 3) 各種サブタスクの協調最適化を容易にするため, タスク毎の性能改善に対するサブタスク共同訓練と個別タスクからの特徴融合の影響について検討した。 4) カリキュラム学習を利用して, 単一表現の認識から複合表現の認識へモデルを移行し, 複合表現の認識精度を向上させる。 大規模な実験は、我々の設計の優越性を実証している。

Affective Behavior Analysis aims to develop emotionally intelligent technology that can recognize and respond to human emotions. To advance this, the 7th Affective Behavior Analysis in-the-wild (ABAW) competition establishes two tracks: i.e., the Multi-task Learning (MTL) Challenge and the Compound Expression (CE) challenge based on Aff-Wild2 and C-EXPR-DB datasets. In this paper, we present our methods and experimental results for the two competition tracks. Specifically, it can be summarized in the following four aspects: 1) To attain high-quality facial features, we train a Masked-Auto Encoder in a self-supervised manner. 2) We devise a temporal convergence module to capture the temporal information between video frames and explore the impact of window size and sequence length on each sub-task. 3) To facilitate the joint optimization of various sub-tasks, we explore the impact of sub-task joint training and feature fusion from individual tasks on each task performance improvement. 4) We utilize curriculum learning to transition the model from recognizing single expressions to recognizing compound expressions, thereby improving the accuracy of compound expression recognition. Extensive experiments demonstrate the superiority of our designs.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# トランスフォーマーとFew-shot LearningによるGitHubアクションの自動分類

Automatic Categorization of GitHub Actions with Transformers and Few-shot Learning ( http://arxiv.org/abs/2407.16946v1 )

ライセンス: Link先を確認
Phuong T. Nguyen, Juri Di Rocco, Claudio Di Sipio, Mudita Shakya, Davide Di Ruscio, Massimiliano Di Penta, (参考訳) GitHubエコシステムでは、ワークフローが開発タスクの自動化と継続的インテグレーションとデリバリ(CI/CDパイプライン)のセットアップに有効な手段として使用される。 GitHub Actions(GHA)は、開発者がワークフローを作成してメンテナンスするための実用的なツールを提供し、車輪の再発明を避け、シェルコマンドでワークフローを乱すように考えられている。 GitHub Actionsのパワーを適切に活用することは、開発プロセスを促進し、コラボレーションを強化し、プロジェクトの成果に大きな影響を与える。 検索エンジンにアクションを公開するために、GitHubは開発者がそれらを1つ以上のカテゴリに手動で割り当てることを可能にする。 これらは、同様の機能を共有するアクションをグループ化する効果的な手段として使用される。 それでも、ワークフローを実行する実践的な方法を提供する一方で、多くのアクションは明確な目的を持ち、時には分類されない。 本稿では、GitHubにおけるアクションの可視性を高めるための実践的なソリューションであるGavelを概念化することによって、このようなギャップを埋める。 アクション毎にREADME.MDファイルの内容を活用することで、ディープラーニングアルゴリズムであるTransformerを用いて、アクションに適切なカテゴリを割り当てる。 実験的な調査を行い,Gvelを最先端のベースラインと比較した。 実験の結果,提案手法はGitHubのアクションにカテゴリを効果的に割り当てることが可能であり,最先端のベースラインよりも優れていることがわかった。

In the GitHub ecosystem, workflows are used as an effective means to automate development tasks and to set up a Continuous Integration and Delivery (CI/CD pipeline). GitHub Actions (GHA) have been conceived to provide developers with a practical tool to create and maintain workflows, avoiding reinventing the wheel and cluttering the workflow with shell commands. Properly leveraging the power of GitHub Actions can facilitate the development processes, enhance collaboration, and significantly impact project outcomes. To expose actions to search engines, GitHub allows developers to assign them to one or more categories manually. These are used as an effective means to group actions sharing similar functionality. Nevertheless, while providing a practical way to execute workflows, many actions have unclear purposes, and sometimes they are not categorized. In this work, we bridge such a gap by conceptualizing Gavel, a practical solution to increasing the visibility of actions in GitHub. By leveraging the content of README.MD files for each action, we use Transformer--a deep learning algorithm--to assign suitable categories to the action. We conducted an empirical investigation and compared Gavel with a state-of-the-art baseline. The experimental results show that our proposed approach can assign categories to GitHub actions effectively, thus outperforming the state-of-the-art baseline.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# 暗号自己選択の有益な操作は統計的に検出できる

Profitable Manipulations of Cryptographic Self-Selection are Statistically Detectable ( http://arxiv.org/abs/2407.16949v1 )

ライセンス: Link先を確認
Linda Cai, Jingyi Liu, S. Matthew Weinberg, Chenghan Zhou, (参考訳) Cryptographic Self-Selectionは、Proof-of-Stakeブロックチェーンプロトコルの基本となる、一般的なプリミティブなリーダ選択である。 この概念はAlgorand [CM19]で最初に一般化され、プロトコルが操作可能であることも観察された。 [FHWY22]任意の大きさのステークホルダーに対して厳格に黒字な具体的な操作を提供する(かつ、操作による利得の上限も高い)。 別途、[YSZ23, BM24]はBitcoinのProof-of-Work長鎖プロトコルのための精巧なセルフリッシュマイニング戦略(ES14)に焦点を当てて、コンセンサスプロトコルの未発見利益操作の研究を開始する。 彼らは、十分に大きな鉱山労働者のために、厳格に黒字であるが、定期的なレイテンシーから見物人にも区別できない利己的なマイニングを設計している(つまり、十分に大きな利益を最大化するマイニング業者は、ネットワークの他の部分でも、誰もが正直に見えるように、誠実さよりも厳格に利益を得るために、彼らの戦略を利用することができる。これは、攻撃検出によって基盤となる暗号通貨の価値に悪影響を及ぼすリスクを回避している)。 本稿では, [CM19] で導入され, [FHWY22] で研究されている標準暗号自己選択リーダー選択プロトコルの利益率操作の検知可能性について検討し, $\alpha < \frac{3-\sqrt{5}}{2} \approx 0.38$%の利害関係を持つプレイヤーに対して, 厳密な利益率操作が統計的に検出可能であることを確認した。 具体的には、各ラウンドのランダムなシードのみを見る見物人について検討する(他のプレイヤーによる他のブロードキャストを見る必要はない)。 プレイヤーがプロトコルを収益的に操作している場合のランダムな種数列の分布は、正直な利害関係者がオフラインあるいはタイミングアウト(正直なタイムアウトの自然なスタイル化モデルの場合)によって生じる可能性のある分布と矛盾することを示す。

Cryptographic Self-Selection is a common primitive underlying leader-selection for Proof-of-Stake blockchain protocols. The concept was first popularized in Algorand [CM19], who also observed that the protocol might be manipulable. [FHWY22] provide a concrete manipulation that is strictly profitable for a staker of any size (and also prove upper bounds on the gains from manipulation). Separately, [YSZ23, BM24] initiate the study of undetectable profitable manipulations of consensus protocols with a focus on the seminal Selfish Mining strategy [ES14] for Bitcoin's Proof-of-Work longest-chain protocol. They design a Selfish Mining variant that, for sufficiently large miners, is strictly profitable yet also indistinguishable to an onlooker from routine latency (that is, a sufficiently large profit-maximizing miner could use their strategy to strictly profit over being honest in a way that still appears to the rest of the network as though everyone is honest but experiencing mildly higher latency. This avoids any risk of negatively impacting the value of the underlying cryptocurrency due to attack detection). We investigate the detectability of profitable manipulations of the canonical cryptographic self-selection leader selection protocol introduced in [CM19] and studied in [FHWY22], and establish that for any player with $\alpha < \frac{3-\sqrt{5}}{2} \approx 0.38$ fraction of the total stake, every strictly profitable manipulation is statistically detectable. Specifically, we consider an onlooker who sees only the random seed of each round (and does not need to see any other broadcasts by any other players). We show that the distribution of the sequence of random seeds when any player is profitably manipulating the protocol is inconsistent with any distribution that could arise by honest stakers being offline or timing out (for a natural stylized model of honest timeouts).
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# トランスファー・アンラーニングに向けて : クロスドメインバイアス緩和の実証的証拠

Towards Transfer Unlearning: Empirical Evidence of Cross-Domain Bias Mitigation ( http://arxiv.org/abs/2407.16951v1 )

ライセンス: Link先を確認
Huimin Lu, Masaru Isonuma, Junichiro Mori, Ichiro Sakata, (参考訳) 大規模な言語モデル(LLM)は、大量のトレーニングコーパスからのバイアスを継承することが多い。 従来の脱バイアス法はある程度有効であるが、LLMの記憶バイアスや毒性を完全に排除するものではない。 本稿では, 少数民族に対するヘイトスピーチの段階的上昇, すなわち, 偏りや有害な内容の可能性を最小化することにより, LLMの非学習的偏りを抑える手法について検討する。 具体的には,テキストの有害部分を解き放つマスク言語モデリングアンラーニング手法を提案する。 LLMは、偏りのある有害な内容から選択的に忘れ、解離することができる。 実験の結果,言語モデリング能力を維持しながらバイアスを減少させる手法の有効性が示された。 驚くべきことに、この結果は、非学習のドメイン間移動の予期せぬ可能性も明らかにしている: 1つのバイアス形態(例えば性別)での偏見は、他者(例えば人種や宗教)の緩和に寄与するかもしれない。

Large language models (LLMs) often inherit biases from vast amounts of training corpora. Traditional debiasing methods, while effective to some extent, do not completely eliminate memorized biases and toxicity in LLMs. In this paper, we study an unlearning-based approach to debiasing in LLMs by performing gradient ascent on hate speech against minority groups, i.e., minimizing the likelihood of biased or toxic content. Specifically, we propose a mask language modeling unlearning technique, which unlearns the harmful part of the text. This method enables LLMs to selectively forget and disassociate from biased and harmful content. Experimental results demonstrate the effectiveness of our approach in diminishing bias while maintaining the language modeling abilities. Surprisingly, the results also unveil an unexpected potential for cross-domain transfer unlearning: debiasing in one bias form (e.g. gender) may contribute to mitigating others (e.g. race and religion).
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# 医用画像における人工知能の公正性に関するオープンチャレンジ

Open Challenges on Fairness of Artificial Intelligence in Medical Imaging Applications ( http://arxiv.org/abs/2407.16953v1 )

ライセンス: Link先を確認
Enzo Ferrante, Rodrigo Echeveste, (参考訳) 近年,医用画像解析のためのAIシステムの開発・展開時に生じる可能性のある公平性の問題について,コンピュータ化された医用画像研究コミュニティが議論し,対処し始めている。 本章では、この領域で研究を行う際に遭遇した諸問題について取り上げ、疑問を提起し、この研究分野への参入を目指す人々のために、思考のための食事を提供することを目的としている。 この章ではまず、データ収集、モデルトレーニング、臨床展開など、さまざまなバイアス源と、医療画像コンピューティングにおける機械学習アルゴリズムの公平性への影響について論じている。 次に、我々は、研究者や実践者からの注意を必要とするオープンな課題と、この分野における一般的な手法の適用の潜在的な落とし穴について議論する。 フェアネスの監査における偏りのある指標の影響、レベルダウン効果、サブグループ間のタスクの難易度の変化、目に見えない集団における偏りの発見、標準的人口統計属性を超えた偏りの説明など、さまざまなトピックについて取り上げる。

Recently, the research community of computerized medical imaging has started to discuss and address potential fairness issues that may emerge when developing and deploying AI systems for medical image analysis. This chapter covers some of the pressing challenges encountered when doing research in this area, and it is intended to raise questions and provide food for thought for those aiming to enter this research field. The chapter first discusses various sources of bias, including data collection, model training, and clinical deployment, and their impact on the fairness of machine learning algorithms in medical image computing. We then turn to discussing open challenges that we believe require attention from researchers and practitioners, as well as potential pitfalls of naive application of common methods in the field. We cover a variety of topics including the impact of biased metrics when auditing for fairness, the leveling down effect, task difficulty variations among subgroups, discovering biases in unseen populations, and explaining biases beyond standard demographic attributes.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# DVPE:多視点3Dオブジェクト検出のための分割ビュー位置埋め込み

DVPE: Divided View Position Embedding for Multi-View 3D Object Detection ( http://arxiv.org/abs/2407.16955v1 )

ライセンス: Link先を確認
Jiasen Wang, Zhenglin Li, Ke Sun, Xianyuan Liu, Yang Zhou, (参考訳) スパースクエリに基づくパラダイムは、自動運転車のマルチビュー3D検出において大きな成功を収めている。 現在の研究は、受容場の拡大と多視点特徴の集約時の干渉の低減のバランスをとることの課題に直面している。 さらに、異なるカメラのポーズは、グローバルアテンションモデルのトレーニングにおける課題を示す。 このような問題に対処するために,視覚的交叉機構を通じてグローバルに特徴をモデル化する分割ビュー手法を提案する。 これにより、他の無関係な特徴からの干渉を効果的に低減し、カメラポーズから埋め込まれた位置を分離することにより、変圧器の訓練困難を軽減することができる。 さらに、高レベルな視覚的意味情報を利用するために、オブジェクト中心の時間モデリングに2Dの歴史的RoI特徴が組み込まれている。 このモデルは安定性を高めるために1対多の割り当て戦略を用いて訓練される。 我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。 コードはhttps://github.com/dop0/DVPEで入手できる。

Sparse query-based paradigms have achieved significant success in multi-view 3D detection for autonomous vehicles. Current research faces challenges in balancing between enlarging receptive fields and reducing interference when aggregating multi-view features. Moreover, different poses of cameras present challenges in training global attention models. To address these problems, this paper proposes a divided view method, in which features are modeled globally via the visibility crossattention mechanism, but interact only with partial features in a divided local virtual space. This effectively reduces interference from other irrelevant features and alleviates the training difficulties of the transformer by decoupling the position embedding from camera poses. Additionally, 2D historical RoI features are incorporated into the object-centric temporal modeling to utilize highlevel visual semantic information. The model is trained using a one-to-many assignment strategy to facilitate stability. Our framework, named DVPE, achieves state-of-the-art performance (57.2% mAP and 64.5% NDS) on the nuScenes test set. Codes will be available at https://github.com/dop0/DVPE.
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# 雨滴の明瞭さ:昼と夜の雨滴除去のための二重焦点データセット

Raindrop Clarity: A Dual-Focused Dataset for Day and Night Raindrop Removal ( http://arxiv.org/abs/2407.16957v1 )

ライセンス: Link先を確認
Yeying Jin, Xin Li, Jiadong Wang, Yan Zhang, Malu Zhang, (参考訳) 既存の雨滴除去データセットには2つの欠点がある。 まず、背景に焦点をあてたカメラが撮影した画像から、ぼやけた雨滴の存在に繋がる。 私たちの知る限り、これらのデータセットには、雨滴に特に焦点が当てられているイメージが含まれていません。 第2に、これらのデータセットは主に昼間の画像で構成されており、夜間降雨のシナリオが欠如している。 その結果、これらのデータセットでトレーニングされたアルゴリズムは、雨滴や夜間のシナリオで効果的に実行するのに苦労する可能性がある。 雨滴と夜間雨滴に特化して設計されたデータセットの欠如は、この地域の研究を制約している。 本稿では,降雨明瞭度という,大規模で現実的な降雨除去データセットを提案する。 雨滴明瞭度は、雨滴と対応する鮮明な背景画像を含む画像の高品質なペア/トリップレット(雨滴、ぼかし、背景)15,186枚からなる。 昼間降雨量は5,442枚、夜間降雨量は9,744枚である。 具体的には、日中の5,442枚の画像は、雨滴3,606枚と背景に焦点を当てた1,836枚を含む。 9,744枚の夜景画像には4,838枚の雨滴と4,906枚の背景画像が含まれている。 私たちのデータセットは、日中や夜間に特有の課題を含む、背景に焦点を当てた、雨滴に焦点を当てたイメージをコミュニティが探索することを可能にする。 我々のデータとコードは以下の通りである。

Existing raindrop removal datasets have two shortcomings. First, they consist of images captured by cameras with a focus on the background, leading to the presence of blurry raindrops. To our knowledge, none of these datasets include images where the focus is specifically on raindrops, which results in a blurry background. Second, these datasets predominantly consist of daytime images, thereby lacking nighttime raindrop scenarios. Consequently, algorithms trained on these datasets may struggle to perform effectively in raindrop-focused or nighttime scenarios. The absence of datasets specifically designed for raindrop-focused and nighttime raindrops constrains research in this area. In this paper, we introduce a large-scale, real-world raindrop removal dataset called Raindrop Clarity. Raindrop Clarity comprises 15,186 high-quality pairs/triplets (raindrops, blur, and background) of images with raindrops and the corresponding clear background images. There are 5,442 daytime raindrop images and 9,744 nighttime raindrop images. Specifically, the 5,442 daytime images include 3,606 raindrop- and 1,836 background-focused images. While the 9,744 nighttime images contain 4,838 raindrop- and 4,906 background-focused images. Our dataset will enable the community to explore background-focused and raindrop-focused images, including challenges unique to daytime and nighttime conditions. Our data and code are available at: \url{https://github.com/jinyeying/RaindropClarity}
翻訳日:2024-07-25 15:02:58 公開日:2024-07-24
# Cheems: 素晴らしい行列がより効率的で効果的なアーキテクチャになる

Cheems: Wonderful Matrices More Efficient and More Effective Architecture ( http://arxiv.org/abs/2407.16958v1 )

ライセンス: Link先を確認
Jingze Shi, Lu He, Yuhan Wang, Tianyu He, Bingheng Wu, Mingkun Hou, (参考訳) 近年の研究では、相対的な位置符号化は選択的な状態空間モデルスキャンアルゴリズムにおいて良好に機能し、SSMと注意のバランスをとるアーキテクチャはアルゴリズムの効率と有効性を高める一方で、専門家の混合物の疎活性化はトレーニングコストを削減することが示されている。 構造化状態空間双対アルゴリズムにおける異なる位置符号化の有効性と、より効率的なSSD-Attn内部および外部関数混合法について検討し、より効率的なクロスドメイン混合の設計を行った。 同じマトリックスは、異なるアルゴリズムで非常に素晴らしいので、新しいハイブリッドスパースアーキテクチャ(Cheems)を確立することができます。 他のハイブリッドアーキテクチャと比較すると、言語モデリングタスクではより効率的で効果的です。

Recent studies have shown that, relative position encoding performs well in selective state space model scanning algorithms, and the architecture that balances SSM and Attention enhances the efficiency and effectiveness of the algorithm, while the sparse activation of the mixture of experts reduces the training cost. I studied the effectiveness of using different position encodings in structured state space dual algorithms, and the more effective SSD-Attn internal and external function mixing method, and designed a more efficient cross domain mixture of experts. I found that the same matrix is very wonderful in different algorithms, which allows us to establish a new hybrid sparse architecture: Cheems. Compared with other hybrid architectures, it is more efficient and more effective in language modeling tasks.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# 空間時間位置符号化を用いた動的グラフ変換器

Dynamic Graph Transformer with Correlated Spatial-Temporal Positional Encoding ( http://arxiv.org/abs/2407.16959v1 )

ライセンス: Link先を確認
Zhe Wang, Sheng Zhou, Jiawei Chen, Zhen Zhang, Binbin Hu, Yan Feng, Chun Chen, Can Wang, (参考訳) 連続時間動的グラフ(CTDG)の効果的な表現の学習は、ノード間の複雑な相互作用をモデル化する強力な能力のために、大きな研究の関心を集めている。 CTDGにおける表現学習の基本的かつ重要な要件は、近接性の適切な推定と保存である。 しかし、CTDGのスパースと進化特性のため、高次近傍に固有の時空間特性はほとんど探索されていない。 その重要性にもかかわらず、この性質は、パーソナライズされた相互作用強度の推定とCTDGの動的特性の計算的に集約的な性質により、重大な課題を呈している。 そこで本研究では,ポアソン点過程の弱い仮定の下で,パラメータフリーなパーソナライズされた相互作用強度推定を組み込んだ新しい空間-時間位置エンコーディングを提案する。 これに基づいて,CTDGにおける効率的なノード表現学習のための時空間高次近接性を効率的に維持する,Correlated Space-Temporal Positional Encoding (CorDGT) を用いた動的グラフ変換器を導入する。 大規模な7つのデータセットと2つのデータセットに対する大規模な実験は、提案したCorDGTの優れたパフォーマンスとスケーラビリティを示している。

Learning effective representations for Continuous-Time Dynamic Graphs (CTDGs) has garnered significant research interest, largely due to its powerful capabilities in modeling complex interactions between nodes. A fundamental and crucial requirement for representation learning in CTDGs is the appropriate estimation and preservation of proximity. However, due to the sparse and evolving characteristics of CTDGs, the spatial-temporal properties inherent in high-order proximity remain largely unexplored. Despite its importance, this property presents significant challenges due to the computationally intensive nature of personalized interaction intensity estimation and the dynamic attributes of CTDGs. To this end, we propose a novel Correlated Spatial-Temporal Positional encoding that incorporates a parameter-free personalized interaction intensity estimation under the weak assumption of the Poisson Point Process. Building on this, we introduce the Dynamic Graph Transformer with \Correlated Spatial-Temporal Positional Encoding (CorDGT), which efficiently retains the evolving spatial-temporal high-order proximity for effective node representation learning in CTDGs. Extensive experiments on seven small and two large-scale datasets demonstrate the superior performance and scalability of the proposed CorDGT.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# 水中検査のためのカメラ画像からの姿勢推定

Pose Estimation from Camera Images for Underwater Inspection ( http://arxiv.org/abs/2407.16961v1 )

ライセンス: Link先を確認
Luyuan Peng, Hari Vishnu, Mandar Chitre, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan, (参考訳) 高精度のローカライゼーションは水中再検査ミッションにおいて重要な役割を担っている。 慣性航法システム、ドップラー速度計、音響位置決めといった従来のローカライゼーション手法は重要な課題に直面しており、一部のアプリケーションでは費用対効果がない。 このような場合、視覚的ローカライゼーションはコスト効率の良い代替手段であり、既存の検査車両に搭載されたカメラを利用して周囲のシーンの画像からポーズを推定する。 これらのうち、画像からの機械学習によるポーズ推定は、水中環境における将来性を示し、以前にマッピングされたシーンに基づいて訓練されたモデルを用いて効率的な再局在を行う。 本研究では, 画像形式, モデルアーキテクチャ, トレーニングデータ多様性の影響を評価し, 清浄・濁水検査ミッションにおける学習型ポーズ推定装置の有効性について検討する。 我々は、新しいビュー合成モデルを用いて、拡張トレーニングデータを生成することにより、未探索領域におけるポーズ推定を大幅に強化する。 さらに,ポーズ推定器出力を拡張Kalmanフィルタを介してセンサデータと統合することにより,位置推定精度を向上し,軌道の滑らかさと精度を向上させた。

High-precision localization is pivotal in underwater reinspection missions. Traditional localization methods like inertial navigation systems, Doppler velocity loggers, and acoustic positioning face significant challenges and are not cost-effective for some applications. Visual localization is a cost-effective alternative in such cases, leveraging the cameras already equipped on inspection vehicles to estimate poses from images of the surrounding scene. Amongst these, machine learning-based pose estimation from images shows promise in underwater environments, performing efficient relocalization using models trained based on previously mapped scenes. We explore the efficacy of learning-based pose estimators in both clear and turbid water inspection missions, assessing the impact of image formats, model architectures and training data diversity. We innovate by employing novel view synthesis models to generate augmented training data, significantly enhancing pose estimation in unexplored regions. Moreover, we enhance localization accuracy by integrating pose estimator outputs with sensor data via an extended Kalman filter, demonstrating improved trajectory smoothness and accuracy.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# DSAによる最適ストローク診断と不確実性治療のための統合的意思決定フレームワークの実現に向けて

Toward an Integrated Decision Making Framework for Optimized Stroke Diagnosis with DSA and Treatment under Uncertainty ( http://arxiv.org/abs/2407.16962v1 )

ライセンス: Link先を確認
Nur Ahmad Khatim, Ahmad Azmul Asmar Irfan, Amaliya Mata'ul Hayah, Mansur M. Arief, (参考訳) 本研究は,大動脈瘤,動静脈奇形(AVM),閉塞などの脳卒中症状の急激な進行と重症化を考慮し,不確実性下での脳卒中診断と治療の課題に対処する。 DSA (Digital Subtraction Angiography) などの最近の診断法は, 高コストと侵襲性による限界に直面している。 これらの課題を克服するために、我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いた新しいアプローチを提案する。 本モデルは,脳卒中診断に固有の不確実性を考慮した意思決定アルゴリズムと,高度な診断ツールと治療アプローチを統合した。 提案手法では,CTスキャン,Sirirajスコア,DSAレポートからノイズを抽出し,その後の治療法について報告する。 木探索法と粒子フィルタを用いたオンライン解法DESPOTを用いて,今後のシナリオをシミュレートし,戦略を導出する。 以上の結果から,POMDPフレームワークは診断と治療の目標のバランスを保ち,DSAなどの侵襲的手順による正確な脳卒中診断の必要性と,院内や在宅観察のようなより費用対効果の高い戦略を必要とする限られた医療資源の制約とのトレードオフを,シミュレーションロールアウトにのみ依存し,事前知識を含まないことで達成した。 本研究は,脳卒中診断と治療のプロセスを最適に統合し,さまざまな不確実性を考慮し,脳卒中管理におけるケアと成果を改善するための体系的枠組みを提示することによって,重要な貢献を提供する。

This study addresses the challenge of stroke diagnosis and treatment under uncertainty, a critical issue given the rapid progression and severe consequences of stroke conditions such as aneurysms, arteriovenous malformations (AVM), and occlusions. Current diagnostic methods, including Digital Subtraction Angiography (DSA), face limitations due to high costs and its invasive nature. To overcome these challenges, we propose a novel approach using a Partially Observable Markov Decision Process (POMDP) framework. Our model integrates advanced diagnostic tools and treatment approaches with a decision-making algorithm that accounts for the inherent uncertainties in stroke diagnosis. Our approach combines noisy observations from CT scans, Siriraj scores, and DSA reports to inform the subsequent treatment options. We utilize the online solver DESPOT, which employs tree-search methods and particle filters, to simulate potential future scenarios and guide our strategies. The results indicate that our POMDP framework balances diagnostic and treatment objectives, striking a tradeoff between the need for precise stroke identification via invasive procedures like DSA and the constraints of limited healthcare resources that necessitate more cost-effective strategies, such as in-hospital or at-home observation, by relying only relying on simulation rollouts and not imposing any prior knowledge. Our study offers a significant contribution by presenting a systematic framework that optimally integrates diagnostic and treatment processes for stroke and accounting for various uncertainties, thereby improving care and outcomes in stroke management.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# AIがパスワードの偽装を廃止! パスワードとハニーワードを識別するディープラーニングフレームワーク

When AI Defeats Password Deception! A Deep Learning Framework to Distinguish Passwords and Honeywords ( http://arxiv.org/abs/2407.16964v1 )

ライセンス: Link先を確認
Jimmy Dani, Brandon McCulloh, Nitesh Saxena, (参考訳) 「Honeywords」は、偽のパスワードで攻撃者を欺くことによって、データ漏洩を検出し、オフライン辞書攻撃(ODA)を偽装するための有望な防御メカニズムとして登場した。 本稿では,新しい深層学習(DL)ベースの攻撃フレームワークであるPassFilterを提案する。ユーザアカウントに関連付けられたスイートワードのセットからパスワードを識別し,様々なハニーワード生成技術(HGT)に効果的に挑戦する。 PassFilterのDLモデルは、事前に収集または逆向きに生成されたパスワードとハニーワードのセットでトレーニングされ、スイーツワードがパスワードかハニーワードかを予測するために慎重に編成される。 具体的には、9つの公開パスワードデータセットを用いて分析したところ、PassFilterはベースラインのランダムな推測成功率5%を大きく上回っており、第1次推理の試みでは6.10%から52.78%を達成している。 この成功率は、アカウントロックアウトの前に追加のログインの試みによって急速に増加する。 例えば、5回の試行で41.78%から96.80%、10回の試行で72.87%から99.00%まで、それぞれ25%と50%のランダムな推測である。 また、Yuらによって提案されたような汎用言語モデルに対してPassFilterを検証したところ、このハニーワードは攻撃に弱いことが判明し、第1回の推測では14.19%の成功率が30.23%、41.70%、第3回、第5回、第10回の予測では63.10%に増加した。 以上の結果から,PassFilter に実装した DL モデルが,最先端HGT に侵入し,ODA に基づくパスワードセキュリティを向上する効果が示唆された。

"Honeywords" have emerged as a promising defense mechanism for detecting data breaches and foiling offline dictionary attacks (ODA) by deceiving attackers with false passwords. In this paper, we propose PassFilter, a novel deep learning (DL) based attack framework, fundamental in its ability to identify passwords from a set of sweetwords associated with a user account, effectively challenging a variety of honeywords generation techniques (HGTs). The DL model in PassFilter is trained with a set of previously collected or adversarially generated passwords and honeywords, and carefully orchestrated to predict whether a sweetword is the password or a honeyword. Our model can compromise the security of state-of-the-art, heuristics-based, and representation learning-based HGTs proposed by Dionysiou et al. Specifically, our analysis with nine publicly available password datasets shows that PassFilter significantly outperforms the baseline random guessing success rate of 5%, achieving 6.10% to 52.78% on the 1st guessing attempt, considering 20 sweetwords per account. This success rate rapidly increases with additional login attempts before account lock-outs, often allowed on many real-world online services to maintain reasonable usability. For example, it ranges from 41.78% to 96.80% for five attempts, and from 72.87% to 99.00% for ten attempts, compared to 25% and 50% random guessing, respectively. We also examined PassFilter against general-purpose language models used for honeyword generation, like those proposed by Yu et al. These honeywords also proved vulnerable to our attack, with success rates of 14.19% for 1st guessing attempt, increasing to 30.23%, 41.70%, and 63.10% after 3rd, 5th, and 10th guessing attempts, respectively. Our findings demonstrate the effectiveness of DL model deployed in PassFilter in breaching state-of-the-art HGTs and compromising password security based on ODA.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# グラフスペーサ性最適化における確率的変動による反復的ハード閾値化

Stochastic Variance-Reduced Iterative Hard Thresholding in Graph Sparsity Optimization ( http://arxiv.org/abs/2407.16968v1 )

ライセンス: Link先を確認
Derek Fox, Samuel Hernandez, Qianqian Tong, (参考訳) 確率最適化アルゴリズムは、氷点当たりのコストが低いため、大規模データ解析に広く用いられているが、固有の分散に起因する漸近収束が遅いことがしばしばある。 したがって、パリシティ誘導ノルムや$\ell_0$-normsを利用した構造化スパースモデルでは、この問題に対処するためにばらつき低減技術が用いられている。 しかし、これらの手法は複雑な(非凸)グラフ空間モデルには直接適用されない。 本稿では,グラフスペーサ性最適化法であるGraphSVRG-IHTとGraphSCSG-IHTを提案する。 我々は理論解析のための一般的なフレームワークを提供し、この手法が線形収束速度を楽しむことを示す。 大規模な実験検証

Stochastic optimization algorithms are widely used for large-scale data analysis due to their low per-iteration costs, but they often suffer from slow asymptotic convergence caused by inherent variance. Variance-reduced techniques have been therefore used to address this issue in structured sparse models utilizing sparsity-inducing norms or $\ell_0$-norms. However, these techniques are not directly applicable to complex (non-convex) graph sparsity models, which are essential in applications like disease outbreak monitoring and social network analysis. In this paper, we introduce two stochastic variance-reduced gradient-based methods to solve graph sparsity optimization: GraphSVRG-IHT and GraphSCSG-IHT. We provide a general framework for theoretical analysis, demonstrating that our methods enjoy a linear convergence speed. Extensive experiments validate
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# テキストフィードバックによる言語モデルの調整に向けて

Towards Aligning Language Models with Textual Feedback ( http://arxiv.org/abs/2407.16970v1 )

ライセンス: Link先を確認
Saüc Abadal Lloret, Shehzaad Dhuliawala, Keerthiram Murugesan, Mrinmaya Sachan, (参考訳) ALT(Alignment with Textual feedback)は,言語モデルとユーザの好みをテキストで表現したアプローチである。 テキストはより表現力が高く、ユーザーは簡単な比較選好よりもリッチなフィードバックを提供でき、このリッチなフィードバックはより効率的で効果的なアライメントをもたらす可能性がある、と我々は主張する。 ALTは、その生成をテキストフィードバックに条件付けすることでモデルを整列させる。 提案手法は,言語モデリング技術のみに頼り,最小限のハイパーパラメータチューニングを必要とするが,RLに基づくアライメントアルゴリズムの主な利点は残っており,テキストフィードバックから効果的に学習することができる。 本稿では, 有害度低減, 要約, 対話応答生成など, さまざまなタスクにおけるテキストフィードバックの有効性と効率について検討する。 その結果, ALT は PPO よりも有毒度低減の課題に優れており, 総和時の性能は 20% のサンプルで一致していることがわかった。 また、既存のLLMからのフィードバックでALTをどのように利用できるかを検討し、制約付きおよび制約なしのテキストフィードバックを提供するLLMを探索する。 また、モデルと自然言語のフィードバックを合わせるための今後の方向性について概説する。

We present ALT (ALignment with Textual feedback), an approach that aligns language models with user preferences expressed in text. We argue that text offers greater expressiveness, enabling users to provide richer feedback than simple comparative preferences and this richer feedback can lead to more efficient and effective alignment. ALT aligns the model by conditioning its generation on the textual feedback. Our method relies solely on language modeling techniques and requires minimal hyper-parameter tuning, though it still presents the main benefits of RL-based alignment algorithms and can effectively learn from textual feedback. We explore the efficacy and efficiency of textual feedback across different tasks such as toxicity reduction, summarization, and dialog response generation. We find that ALT outperforms PPO for the task of toxicity reduction while being able to match its performance on summarization with only 20% of the samples. We also explore how ALT can be used with feedback provided by an existing LLM where we explore an LLM providing constrained and unconstrained textual feedback. We also outline future directions to align models with natural language feedback.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# SelfPiCo: LLMによるセルフガイド部分コード実行

SelfPiCo: Self-Guided Partial Code Execution with LLMs ( http://arxiv.org/abs/2407.16974v1 )

ライセンス: Link先を確認
Zhipeng Xue, Zhipeng Gao, Shaohua Wang, Xing Hu, Xin Xia, Shanping Li, (参考訳) コードの実行可能性は、ソフトウェアデバッグとテスト(例えば、実行時例外の検出やアサーション違反)において重要な役割を果たす。 しかしながら、コード実行、特に部分的あるいは任意のコード実行は、定義の欠如と複雑なサードパーティの依存関係のため、非自明なタスクである。 部分的なコード(Webにポストされたコードスニペットや複雑なソフトウェアプロジェクト内部のコードフラグメントなど)を実行可能なものにするために、既存の研究では、未定義の要素タイプを予測し、事前に定義されたダミー値を実行に注入するマシンラーニングモデルが提案されている。 しかし、単純な設計のダミー値と学習を継続できないため、ツールのパフォーマンスは制限されている。 本稿では,オープンソースのLLM(Code Llama)をインタラクティブループに組み込むことで,部分的なコード実行を動的にガイドする,SelfPiCo(Self Guided partial Code Executor)という新しいフレームワークの設計と実装を行う。 特に、SelfPiCoは、コードラマモデルを微調整した人間の知識と論理的推論を引き出すために、文脈内学習と思考の連鎖的推論を利用する。 SelfPiCoは、コード実行結果から継続的に学び、ステップ後の予測を洗練します。 我々の評価では、オープンソースコードとStack Overflowスニペットの72.7%と83.3%がSelfPiCoで実行でき、最新のLexecutorをそれぞれ37.9%、33.5%上回っている。 さらに、SelfPiCoは8つのGitHubソフトウェアプロジェクトと43のStack Overflowポストから部分的なコードを実行することで、18と33のランタイムタイプのエラー問題の検出に成功した。

Code executability plays a vital role in software debugging and testing (e.g., detecting runtime exceptions or assertion violations). However, code execution, especially partial or arbitrary code execution, is a non-trivial task due to missing definitions and complex third-party dependencies. To make partial code (such as code snippets posted on the web or code fragments deep inside complex software projects) executable, the existing study has proposed a machine learning model to predict the undefined element types and inject the pre-defined dummy values into execution. However, the performance of their tool is limited due to its simply designed dummy values and the inability to continue learning. In this paper, we design and implement a novel framework, named SelfPiCo (Self Guided Partial Code Executor), to dynamically guide partial code execution by incorporating the open-source LLM (i.e., Code Llama) within an interactive loop. Particularly, SelfPiCo leverages few-shot in-context learning and chain-of-thought reasoning to elicit human knowledge and logical reasoning based on fine-tuning the Code Llama model. SelfPiCo continuously learns from code execution results and refines its predictions step after step. Our evaluations demonstrate that SelfPiCo can execute 72.7% and 83.3% of all lines in the open-source code and Stack Overflow snippets, outperforming the most recent state-of-the-art Lexecutor by 37.9% and 33.5%, respectively. Moreover, SelfPiCo successfully detected 18 and 33 runtime type error issues by executing the partial code from eight GitHub software projects and 43 Stack Overflow posts, demonstrating the practical usage and potential application of our framework in practice.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# 部分観測された線形因果モデルのパラメータ同定可能性について

On the Parameter Identifiability of Partially Observed Linear Causal Models ( http://arxiv.org/abs/2407.16975v1 )

ライセンス: Link先を確認
Xinshuai Dong, Ignavier Ng, Biwei Huang, Yuewen Sun, Songyao Jin, Roberto Legaspi, Peter Spirtes, Kun Zhang, (参考訳) 線形因果モデルは因果関係をモデル化するための重要なツールであるが、実際には変数のサブセットしか観察できない。 本稿では,これらのモデルのパラメータ識別性について,因果構造と部分的に観測されたデータからエッジ係数を復元できるかどうかを検証して検討する。 我々の設定は以前の研究よりも一般的であり、観測された変数と潜伏変数の両方を含む全ての変数が柔軟に関連付けられ、全てのエッジの係数を考えるが、既存の研究は観測された変数間のエッジのみに焦点を当てている。 理論的には、部分的に観察された線形因果モデルにおけるパラメータの3種類の不確定性を同定する。 次に、すべてのパラメータを識別するのに十分なグラフィカルな条件を提供し、それらのうちいくつかは確実に必要であることを示す。 提案手法は,特定の方法で潜伏変数の分散不確定性に対処し,基本パラメータを自明な不確定性まで漸近的に回復することのできる,新しい確率に基づくパラメータ推定手法を提案する。 合成および実世界の両方のデータセットに関する実証的研究は、我々の識別可能性理論と有限サンプル法における提案手法の有効性を検証した。

Linear causal models are important tools for modeling causal dependencies and yet in practice, only a subset of the variables can be observed. In this paper, we examine the parameter identifiability of these models by investigating whether the edge coefficients can be recovered given the causal structure and partially observed data. Our setting is more general than that of prior research - we allow all variables, including both observed and latent ones, to be flexibly related, and we consider the coefficients of all edges, whereas most existing works focus only on the edges between observed variables. Theoretically, we identify three types of indeterminacy for the parameters in partially observed linear causal models. We then provide graphical conditions that are sufficient for all parameters to be identifiable and show that some of them are provably necessary. Methodologically, we propose a novel likelihood-based parameter estimation method that addresses the variance indeterminacy of latent variables in a specific way and can asymptotically recover the underlying parameters up to trivial indeterminacy. Empirical studies on both synthetic and real-world datasets validate our identifiability theory and the effectiveness of the proposed method in the finite-sample regime.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# Few-shot CLIPのための選択的な視覚言語部分空間投影

Selective Vision-Language Subspace Projection for Few-shot CLIP ( http://arxiv.org/abs/2407.16977v1 )

ライセンス: Link先を確認
Xingyu Zhu, Beier Zhu, Yi Tan, Shuo Wang, Yanbin Hao, Hanwang Zhang, (参考訳) CLIPのような視覚言語モデルは、異なるモダリティデータを統一された特徴空間にマッピングすることができ、与えられた画像やテキストの類似度を測定してゼロ/フェーショット推論を可能にする。 しかし、既存のほとんどの手法は、CLIPの符号化された特徴のモダリティギャップを見落としている。 この問題に対処するため,SSP (Selective Vision-Language Subspace Projection) と呼ばれる手法を導入する。 具体的には,視覚プロジェクタと言語プロジェクタの2つの並列モジュールで構成されている。 どちらのプロジェクタも、ローカルな画像特徴を利用して、画像とテキストのサブスペースにまたがって、画像とテキストの特徴をそれぞれのサブスペースに投影し、アライメントを実現する。 さらに,本手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。 11のデータセットに対する大規模な実験は、SSPの優れたテキストイメージアライメント能力を示し、最先端アライメント方法よりも優れています。 コードはhttps://github.com/zhuhsingyuu/SSPで入手できる。

Vision-language models such as CLIP are capable of mapping the different modality data into a unified feature space, enabling zero/few-shot inference by measuring the similarity of given images and texts. However, most existing methods overlook modality gaps in CLIP's encoded features, which is shown as the text and image features lie far apart from each other, resulting in limited classification performance. To tackle this issue, we introduce a method called Selective Vision-Language Subspace Projection (SSP), which incorporates local image features and utilizes them as a bridge to enhance the alignment between image-text pairs. Specifically, our SSP framework comprises two parallel modules: a vision projector and a language projector. Both projectors utilize local image features to span the respective subspaces for image and texts, thereby projecting the image and text features into their respective subspaces to achieve alignment. Moreover, our approach entails only training-free matrix calculations and can be seamlessly integrated into advanced CLIP-based few-shot learning frameworks. Extensive experiments on 11 datasets have demonstrated SSP's superior text-image alignment capabilities, outperforming the state-of-the-art alignment methods. The code is available at https://github.com/zhuhsingyuu/SSP
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# ケースエンハンスド・ビジョン・トランス: ViT を用いた類似度指標による画像類似度説明の改善

Case-Enhanced Vision Transformer: Improving Explanations of Image Similarity with a ViT-based Similarity Metric ( http://arxiv.org/abs/2407.16981v1 )

ライセンス: Link先を確認
Ziwei Zhao, David Leake, Xiaomeng Ye, David Crandall, (参考訳) 本稿では,画像データに対する類似度評価の説明可能性向上を目的とした類似度測定手法であるCEViTについて予備研究を行う。 最初の実験結果から、CEViTをk-Nearest Neighbor(k-NN)分類に統合すると、最先端のコンピュータビジョンモデルに匹敵する分類精度が得られ、クラス間の違いを説明できる能力が追加されることが示唆された。 CEViTの説明は、これらのケースに関連する類似性の側面を説明するために、以前のケースに影響される可能性がある。

This short paper presents preliminary research on the Case-Enhanced Vision Transformer (CEViT), a similarity measurement method aimed at improving the explainability of similarity assessments for image data. Initial experimental results suggest that integrating CEViT into k-Nearest Neighbor (k-NN) classification yields classification accuracy comparable to state-of-the-art computer vision models, while adding capabilities for illustrating differences between classes. CEViT explanations can be influenced by prior cases, to illustrate aspects of similarity relevant to those cases.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# Diffree: 拡散モデルによるテキストガイド形自由物体の塗布

Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model ( http://arxiv.org/abs/2407.16982v1 )

ライセンス: Link先を確認
Lirui Zhao, Tianshuo Yang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Kaipeng Zhang, Rongrong Ji, (参考訳) 本稿では,テキストガイダンスのみを用いた画像のオブジェクト追加に関する重要な問題に対処する。 なぜなら、新しいオブジェクトは、照明、テクスチャ、空間的位置など、一貫した視覚的コンテキストで画像にシームレスに統合されなければならないからである。 既存のテキスト誘導画像の塗り絵はオブジェクトを追加することができるが、背景の一貫性を保たないか、バウンディングボックスやユーザー記述マスクの指定に煩雑な人間の介入を伴う。 この課題に対処するために、テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを導入する。 そこで我々は,高度な画像インペイント技術を用いてオブジェクトを除去することにより,精密な合成データセットであるOABenchをキュレートする。 OABenchは、オリジナル画像の現実世界のタプル74K、被写体を除去した塗装画像、オブジェクトマスク、オブジェクト記述を含む。 マスク予測モジュールを追加した安定拡散モデルを用いてOABenchでトレーニングされたDiffreeは、新しいオブジェクトの位置をユニークに予測し、テキストのみからのガイダンスでオブジェクトの追加を達成する。 大規模な実験により、Diffreeは、背景の一貫性、空間的適切性、およびオブジェクトの関連性と品質を維持しながら、高い成功率で新しいオブジェクトを追加することに長けていることが示された。

This paper addresses an important problem of object addition for images with only text guidance. It is challenging because the new object must be integrated seamlessly into the image with consistent visual context, such as lighting, texture, and spatial location. While existing text-guided image inpainting methods can add objects, they either fail to preserve the background consistency or involve cumbersome human intervention in specifying bounding boxes or user-scribbled masks. To tackle this challenge, we introduce Diffree, a Text-to-Image (T2I) model that facilitates text-guided object addition with only text control. To this end, we curate OABench, an exquisite synthetic dataset by removing objects with advanced image inpainting techniques. OABench comprises 74K real-world tuples of an original image, an inpainted image with the object removed, an object mask, and object descriptions. Trained on OABench using the Stable Diffusion model with an additional mask prediction module, Diffree uniquely predicts the position of the new object and achieves object addition with guidance from only text. Extensive experiments demonstrate that Diffree excels in adding new objects with a high success rate while maintaining background consistency, spatial appropriateness, and object relevance and quality.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# グリーンライトの3光分極エンタングルメント

Three-Photon Polarization Entanglement of Green Light ( http://arxiv.org/abs/2407.16983v1 )

ライセンス: Link先を確認
Yan-Chao Lou, Zhi-Cheng Ren, Chao Chen, Pei Wan, Wen-Zheng Zhu, Jing Wang, Shu-Tian Xue, Bo-Wen Dong, Jianping Ding, Xi-Lin Wang, Hui-Tian Wang, (参考訳) 近年、様々な波長で複数の光子の絡み合い、様々なシナリオで応用された光量子情報に対する様々な自由度において大きな進歩を遂げている。 しかし、水面下の緑色光の透過窓における多光子絡みは報告されていない。 ここでは、フェムト秒レーザーによる多光子絡み合いと絡み合い維持周波数アップコンバージョン法を組み合わせることにより、それぞれ 0.993$\mathbf{\pm}$0.002 および 0.595$\mathbf{\pm}$0.023 のグリーン2光子偏光共役ベル状態とグリーン3光子グリーンバーガー・ホルン・ザイリンガー状態(GHZ)状態を生成することに成功した。 この結果は、水中量子情報に幅広い応用が期待できるグリーン多光子エンタングルメントを作成するためのスケーラブルな方法を提供する。

Recently, great progress has been made in the entanglement of multiple photons at various wavelengths and in different degrees of freedom for optical quantum information applied in diverse scenarios. However, multi-photon entanglement in the transmission window of green light under the water has not been reported yet. Here, by combining femtosecond laser based multi-photon entanglement and entanglement-maintaining frequency upconversion techniques, we successfully generate a green two-photon polarization-entangled Bell state and a green three-photon Greenberger-Horne-Zeilinger (GHZ) state, whose state fidelities are 0.893$\mathbf{\pm}$0.002 and 0.595$\mathbf{\pm}$0.023, respectively. Our result provides a scalable method to prepare green multi-photon entanglement, which may have wide applications in underwater quantum information.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# scGHSOM: 階層型SOMを用いた単一セルとCRISPRデータの階層的クラスタリングと可視化

scGHSOM: Hierarchical clustering and visualization of single-cell and CRISPR data using growing hierarchical SOM ( http://arxiv.org/abs/2407.16984v1 )

ライセンス: Link先を確認
Shang-Jung Wen, Jia-Ming Chang, Fang Yu, (参考訳) 高次元単細胞データは、細胞状態の複雑さと不均一性により、基礎となる生物学的パターンを識別する上で大きな課題となる。 単一セルシークエンシングやCRISPRスクリーンなどの高次元単一セルデータの解析に特化して設計されたGHSOM(Growing Hierarchical Self-Organizing Map)を提案する。 GHSOMは、クラスタの自己成長構造が必要な変動を満足するように階層構造でクラスタサンプルに適用される。 本稿では,クラスタを識別する特徴を特定するために,新しい属性同定アルゴリズムを提案する。 このアルゴリズムは、クラスタ内の最小限のばらつきで属性をピンポイントするが、クラスタ間ではかなりのばらつきがある。 これらのキー属性は、ターゲットデータ検索と下流分析に使用できる。 さらに,クラスタ特徴マップとクラスタ分布マップの2つの革新的な可視化ツールを提案する。 Cluster Feature Mapは、GHSOMクラスタの階層構造にまたがる特定の機能の分散を強調している。 これにより、選択した機能に基づいたクラスタのユニークさの迅速な視覚的評価が可能になる。 クラスタ分布マップでは、リーフクラスタをGHSOMグリッド上の円として描いている。 本分析を3つの単一セルデータセットと1つのCRISPRデータセット(セルジーンデータベース)に適用し,内部および外部CHおよびARIスコアを用いたクラスタリング手法の評価を行った。 GHSOMは、内部評価において最高のパフォーマーである(CH=4.2)。 外部評価では、GHSOMは全手法の3番目に高い性能を持つ。

High-dimensional single-cell data poses significant challenges in identifying underlying biological patterns due to the complexity and heterogeneity of cellular states. We propose a comprehensive gene-cell dependency visualization via unsupervised clustering, Growing Hierarchical Self-Organizing Map (GHSOM), specifically designed for analyzing high-dimensional single-cell data like single-cell sequencing and CRISPR screens. GHSOM is applied to cluster samples in a hierarchical structure such that the self-growth structure of clusters satisfies the required variations between and within. We propose a novel Significant Attributes Identification Algorithm to identify features that distinguish clusters. This algorithm pinpoints attributes with minimal variation within a cluster but substantial variation between clusters. These key attributes can then be used for targeted data retrieval and downstream analysis. Furthermore, we present two innovative visualization tools: Cluster Feature Map and Cluster Distribution Map. The Cluster Feature Map highlights the distribution of specific features across the hierarchical structure of GHSOM clusters. This allows for rapid visual assessment of cluster uniqueness based on chosen features. The Cluster Distribution Map depicts leaf clusters as circles on the GHSOM grid, with circle size reflecting cluster data size and color customizable to visualize features like cell type or other attributes. We apply our analysis to three single-cell datasets and one CRISPR dataset (cell-gene database) and evaluate clustering methods with internal and external CH and ARI scores. GHSOM performs well, being the best performer in internal evaluation (CH=4.2). In external evaluation, GHSOM has the third-best performance of all methods.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# 教師なし特徴選択のためのテンソル分解によるスパーステンソルPCA

Sparse Tensor PCA via Tensor Decomposition for Unsupervised Feature Selection ( http://arxiv.org/abs/2407.16985v1 )

ライセンス: Link先を確認
Junjing Zheng, Xinyu Zhang, Weidong Jiang, (参考訳) 近年,教師なし特徴選択(UFS)にテンソル分解法(TD)を導入することが研究の要点となっている。 テンソル構造は、異なるモード間の関係をマイニングし、計算負担を軽減するのに有用である。 しかし、既存の手法では、データテンソルの再構成誤差を最小限に抑えるためにTDを利用するが、係数行列の解釈可能かつ識別的情報を十分に利用していない。 さらに、ほとんどのメソッドは機能選択を行うためにドメイン知識を必要とします。 上記の問題を解決するために,因子行列の投影方向を利用してUFSを行う2つのスパーステンソル主成分分析(STPCA)モデルを開発した。 最初のモデルはタッカー分解をマルチビュースパース回帰形式に拡張し、代わりに解決された凸部分プロブレムに変換する。 第2のモデルはテンソル特異値分解(T-SVD)ファミリーのスパースバージョンを定式化し、個々の凸サブプロブレムに変換する。 どちらのモデルに対しても、各サブプロブレムの最適解がHermitian Positive Semidefinite Cone (HPSD) に落ちることを証明している。 そこで我々はHPSDプロジェクションに基づく2つの高速アルゴリズムを設計し,その収束性を証明する。 2つのオリジナルの合成データセット(OrbitとArray Signal)と5つの実世界のデータセットの実験結果によると、提案手法は異なるデータテンソルシナリオの処理に適している。

Recently, introducing Tensor Decomposition (TD) methods into unsupervised feature selection (UFS) has been a rising research point. A tensor structure is beneficial for mining the relations between different modes and helps relieve the computation burden. However, while existing methods exploit TD to minimize the reconstruction error of a data tensor, they don't fully utilize the interpretable and discriminative information in the factor matrices. Moreover, most methods require domain knowledge to perform feature selection. To solve the above problems, we develop two Sparse Tensor Principal Component Analysis (STPCA) models that utilize the projection directions in the factor matrices to perform UFS. The first model extends Tucker Decomposition to a multiview sparse regression form and is transformed into several alternatively solved convex subproblems. The second model formulates a sparse version of the family of Tensor Singular Value Decomposition (T-SVDs) and is transformed into individual convex subproblems. For both models, we prove the optimal solution of each subproblem falls onto the Hermitian Positive Semidefinite Cone (HPSD). Accordingly, we design two fast algorithms based on HPSD projection and prove their convergence. According to the experimental results on two original synthetic datasets (Orbit and Array Signal) and five real-world datasets, the two proposed methods are suitable for handling different data tensor scenarios and outperform the state-of-the-art UFS methods.
翻訳日:2024-07-25 14:53:14 公開日:2024-07-24
# ドリームカー:3Dカーの改造に先駆けて車に特化

DreamCar: Leveraging Car-specific Prior for in-the-wild 3D Car Reconstruction ( http://arxiv.org/abs/2407.16988v1 )

ライセンス: Link先を確認
Xiaobiao Du, Haiyang Sun, Ming Lu, Tianqing Zhu, Xin Yu, (参考訳) 自動運転産業は通常、プロのアーティストを雇って、精巧な3D自動車を作っている。 しかし、大規模なデジタル資産を作るのは高価である。 自動車の画像を含むデータセットはすでに多数存在するので、これらのデータセットから高品質な3Dカーモデルを再構築することに重点を置いています。 しかし、これらのデータセットは前方移動シーンにおける車の片側のみを含む。 既存の生成モデルを使って、より監督的な情報を提供しようとしているが、車固有のものではなく、合成データセットで訓練されているため、車内での一般化に苦慮している。 また,3次元車両のテクスチャの誤りは,撮影画像の撮影時にカメラポーズ推定の誤差が大きいためである。 これらの制限により、従来の3D車両の改造は困難である。 これらの問題に対処するために,DreamCarという新しい手法を提案する。 生成モデルを一般化するために、Car360という名前の自動車データセットを5,600台以上の車両で収集する。 このデータセットにより、生成モデルを車に対してより堅牢にする。 我々は、車に特異的なこの生成的前駆体を用いて、スコア蒸留サンプリングを通してその再構築を誘導する。 監視情報をさらに補完するために,車両の幾何学的・外観対称性を利用する。 最後に、テクスチャのミスアライメントに取り組むために、ポーズを修正できるポーズ最適化手法を提案する。 大規模な実験により, 高品質な3D車両の再構築において, 既存手法よりも優れた性能が得られた。 https://xiaobiaodu.github.io/dreamcar-project/}{Our コードは利用可能である。 ※

Self-driving industries usually employ professional artists to build exquisite 3D cars. However, it is expensive to craft large-scale digital assets. Since there are already numerous datasets available that contain a vast number of images of cars, we focus on reconstructing high-quality 3D car models from these datasets. However, these datasets only contain one side of cars in the forward-moving scene. We try to use the existing generative models to provide more supervision information, but they struggle to generalize well in cars since they are trained on synthetic datasets not car-specific. In addition, The reconstructed 3D car texture misaligns due to a large error in camera pose estimation when dealing with in-the-wild images. These restrictions make it challenging for previous methods to reconstruct complete 3D cars. To address these problems, we propose a novel method, named DreamCar, which can reconstruct high-quality 3D cars given a few images even a single image. To generalize the generative model, we collect a car dataset, named Car360, with over 5,600 vehicles. With this dataset, we make the generative model more robust to cars. We use this generative prior specific to the car to guide its reconstruction via Score Distillation Sampling. To further complement the supervision information, we utilize the geometric and appearance symmetry of cars. Finally, we propose a pose optimization method that rectifies poses to tackle texture misalignment. Extensive experiments demonstrate that our method significantly outperforms existing methods in reconstructing high-quality 3D cars. \href{https://xiaobiaodu.github.io/dreamcar-project/}{Our code is available.}
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# LoFormer: 画像劣化のためのローカル周波数変換器

LoFormer: Local Frequency Transformer for Image Deblurring ( http://arxiv.org/abs/2407.16993v1 )

ライセンス: Link先を確認
Xintian Mao, Jiansheng Wang, Xingran Xie, Qingli Li, Yan Wang, (参考訳) 自己注意(SA)の計算複雑性のため、画像劣化の一般的な技術は、局所的なSAを採用するか、大まかに大まかなSA手法を採用するかのいずれかを利用することが多い。 細かな細部を犠牲にすることなく、長距離依存関係を効果的にモデル化し、この問題に対処するために、LoFormerと呼ばれる新しいアプローチを導入する。 LoFormerの各ユニットに、周波数領域(Freq-LC)にローカルチャネル対応SAを組み込み、低周波および高周波のローカルウィンドウ内の相互共分散を同時にキャプチャする。 これらの操作は,(1)粗粒度構造と細粒度微細度の両方に対して適切な学習機会を確保すること,(2)粗粒度グローバルSA法と比較して幅広い表現特性を探索することの利点を提供する。 さらに,Freq-LCを補完するMPP Gating機構を導入し,グローバルな学習能力を高めつつ,無関係な特徴をフィルタリングする。 実験の結果,126G FLOPsのGoProデータセット上でPSNR34.09dBを達成することにより,LoFormerは画像劣化タスクの性能を著しく向上することが示された。 https://github.com/DeepMed-Lab-ECNU/Single-Image-Deblur

Due to the computational complexity of self-attention (SA), prevalent techniques for image deblurring often resort to either adopting localized SA or employing coarse-grained global SA methods, both of which exhibit drawbacks such as compromising global modeling or lacking fine-grained correlation. In order to address this issue by effectively modeling long-range dependencies without sacrificing fine-grained details, we introduce a novel approach termed Local Frequency Transformer (LoFormer). Within each unit of LoFormer, we incorporate a Local Channel-wise SA in the frequency domain (Freq-LC) to simultaneously capture cross-covariance within low- and high-frequency local windows. These operations offer the advantage of (1) ensuring equitable learning opportunities for both coarse-grained structures and fine-grained details, and (2) exploring a broader range of representational properties compared to coarse-grained global SA methods. Additionally, we introduce an MLP Gating mechanism complementary to Freq-LC, which serves to filter out irrelevant features while enhancing global learning capabilities. Our experiments demonstrate that LoFormer significantly improves performance in the image deblurring task, achieving a PSNR of 34.09 dB on the GoPro dataset with 126G FLOPs. https://github.com/DeepMed-Lab-ECNU/Single-Image-Deblur
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# 漸近的に安全な言語モデル出力のための発声型確率的解法フレームワーク

A Voter-Based Stochastic Rejection-Method Framework for Asymptotically Safe Language Model Outputs ( http://arxiv.org/abs/2407.16994v1 )

ライセンス: Link先を確認
Jake R. Watts, Joel Sokol, (参考訳) 本稿では,LLMの確率性を利用して,安全でない,あるいは低品質な大規模言語モデル(LLM)の出力を防止する手法を提案する。 本稿では,LCMチェッカーが生成した出力の受理性に投票し,不承認のしきい値に達した場合,十分なチェッカーが承認されるまでそれを再生するシステムを提案する。 さらに、コストと故障率の推定器を提案し、アプリケーションに適した実験データとに基づいて、最小限のコストで所望の故障率を達成するアルゴリズムを提案する。 これらのモデルでは, 投票者数と閾値がアルゴリズムによって選択された場合のコスト関数として, 故障率は指数関数的に減少し, 限られたデータであっても, 実際に動作しているシステムの性能を合理的に推定することを示した。

This paper proposes a new method for preventing unsafe or otherwise low quality large language model (LLM) outputs, by leveraging the stochasticity of LLMs. We propose a system whereby LLM checkers vote on the acceptability of a generated output, regenerating it if a threshold of disapproval is reached, until sufficient checkers approve. We further propose estimators for cost and failure rate, and based on those estimators and experimental data tailored to the application, we propose an algorithm that achieves a desired failure rate at the least possible cost. We demonstrate that, under these models, failure rate decreases exponentially as a function of cost when voter count and threshold are chosen according to the algorithm, and that the models reasonably estimate the actual performance of such a system in action, even with limited data.
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# ハリー・ポッターの再考 : 因果的介入の視点からの未学習の目標に向けて

Revisiting Who's Harry Potter: Towards Targeted Unlearning from a Causal Intervention Perspective ( http://arxiv.org/abs/2407.16997v1 )

ライセンス: Link先を確認
Yujian Liu, Yang Zhang, Tommi Jaakkola, Shiyu Chang, (参考訳) 本稿では,LLMアンラーニングの先駆的手法であるWho's Harry Potter (WHP)について検討する。 私たちはそれを2つのステップで探求します。 まず、学習対象(例えば、人物)と学習対象(学習対象)が与えられた場合、学習対象(学習対象)に関する情報のみを学習対象とする。 さらに、未学習の成功は、ジベリッシュをアウトプットしない、未学習の目標に関する事実を作らない、脱獄攻撃の事実情報を公開しない、といった基準を満たすべきだと論じる。 第2に,未学習対象の知識をLLM入力と出力の共著者としてモデル化し,未学習過程を分離プロセスとして,未学習対象の因果的介入フレームワークを構築した。 このフレームワークはWHPを正当化し拡張し、WHPを特殊なケースとして含む単純な未学習アルゴリズムを導出する。 既存のデータセットと新しいデータセットの実験では、上記の基準を明示的に最適化することなく、これらのすべてにおいて競合的なパフォーマンスを達成することが示されています。 私たちのコードはhttps://github.com/UCSB-NLP-Chang/causal_unlearn.gitで利用可能です。

This paper investigates Who's Harry Potter (WHP), a pioneering yet insufficiently understood method for LLM unlearning. We explore it in two steps. First, we introduce a new task of LLM targeted unlearning, where given an unlearning target (e.g., a person) and some unlearning documents, we aim to unlearn only the information about the target, rather than everything in the unlearning documents. We further argue that a successful unlearning should satisfy criteria such as not outputting gibberish, not fabricating facts about the unlearning target, and not releasing factual information under jailbreak attacks. Second, we construct a causal intervention framework for targeted unlearning, where the knowledge of the unlearning target is modeled as a confounder between LLM input and output, and the unlearning process as a deconfounding process. This framework justifies and extends WHP, deriving a simple unlearning algorithm that includes WHP as a special case. Experiments on existing and new datasets show that our approach, without explicitly optimizing for the aforementioned criteria, achieves competitive performance in all of them. Our code is available at https://github.com/UCSB-NLP-Chang/causal_unlearn.git.
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# SepsisLab: 不確かさの定量化とアクティブセンシングによる早期セプシス予測

SepsisLab: Early Sepsis Prediction with Uncertainty Quantification and Active Sensing ( http://arxiv.org/abs/2407.16999v1 )

ライセンス: Link先を確認
Changchang Yin, Pin-Yu Chen, Bingsheng Yao, Dakuo Wang, Jeffrey Caterino, Ping Zhang, (参考訳) セプシスは米国での院内死亡の主な原因である。 早期敗血症発症予測および診断は敗血症患者の生存率を有意に向上させる可能性がある。 既存の予測モデルは、情報不足の少ない高品質なデータでトレーニングされるのが一般的であるが、実際の臨床シナリオ(特に病院に入院した最初の時間)には、欠落した値が広く存在し、精度が大幅に低下し、予測モデルの不確実性が増大する。 欠落した値を扱う一般的な方法は、計算不能な変数を観測データから推定値に置き換える計算法である。 計算結果の不確実性は, セプシス予測や不確実性定量化に関する既存の研究で研究されていないセプシス予測出力に伝播することができる。 本研究では,まず予測出力の分散として伝播不確実性を定義し,伝播不確実性を定量化する不確実性伝播法を導入する。 また, 信頼性の低い高リスク患者に対しては, 信頼性を高めるために, 臨床医に最も情報に富む変数の観察を積極的に勧めることにより, 能動的センシングアルゴリズムを提案する。 我々は,提案したモデルを,オハイオ州立大学ウェクスナー医療センター(OSUWMC)の公開データ(MIMIC-IIIとアムステルダムUMCdb)と独自データの両方で検証する。 実験結果から, 病院への入院開始当初において, 伝播不確実性が支配的であり, 提案アルゴリズムは, 最先端の能動センシング法よりも優れていた。 最後に、事前学習したモデルに基づいて、早期敗血症予測とアクティブセンシングのためのSepsisLabシステムを実装した。 臨床医および潜在的な敗血症患者は、敗血症の早期予測と診断において、システムから恩恵を受けることができる。

Sepsis is the leading cause of in-hospital mortality in the USA. Early sepsis onset prediction and diagnosis could significantly improve the survival of sepsis patients. Existing predictive models are usually trained on high-quality data with few missing information, while missing values widely exist in real-world clinical scenarios (especially in the first hours of admissions to the hospital), which causes a significant decrease in accuracy and an increase in uncertainty for the predictive models. The common method to handle missing values is imputation, which replaces the unavailable variables with estimates from the observed data. The uncertainty of imputation results can be propagated to the sepsis prediction outputs, which have not been studied in existing works on either sepsis prediction or uncertainty quantification. In this study, we first define such propagated uncertainty as the variance of prediction output and then introduce uncertainty propagation methods to quantify the propagated uncertainty. Moreover, for the potential high-risk patients with low confidence due to limited observations, we propose a robust active sensing algorithm to increase confidence by actively recommending clinicians to observe the most informative variables. We validate the proposed models in both publicly available data (i.e., MIMIC-III and AmsterdamUMCdb) and proprietary data in The Ohio State University Wexner Medical Center (OSUWMC). The experimental results show that the propagated uncertainty is dominant at the beginning of admissions to hospitals and the proposed algorithm outperforms state-of-the-art active sensing methods. Finally, we implement a SepsisLab system for early sepsis prediction and active sensing based on our pre-trained models. Clinicians and potential sepsis patients can benefit from the system in early prediction and diagnosis of sepsis.
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# 周辺画像からのバードアイビューセマンティックセマンティックセマンティックセマンティックセグメンテーションのためのプログレッシブクエリリファインメントフレームワーク

Progressive Query Refinement Framework for Bird's-Eye-View Semantic Segmentation from Surrounding Images ( http://arxiv.org/abs/2407.17003v1 )

ライセンス: Link先を確認
Dooseop Choi, Jungyu Kang, Taeghyun An, Kyounghwan Ahn, KyoungWook Min, (参考訳) マルチリゾリューション(MR)機能を持つ画像の表現は多くのコンピュータビジョンタスクで広く採用されている。 本稿では,自律運転のためのBバード・アイビュー(BEV)セマンティックセマンティックセグメンテーションにMRの概念を導入する。 この導入により,提案した残差学習を通して,運転シーンのグローバルな特徴とローカルな特徴の両方を捉えることが可能になった。 具体的には、MR BEVクエリマップのセットが与えられた場合、最低解像度のクエリマップは、ビュー変換(VT)エンコーダを使用して最初に更新される。 この更新されたクエリマップはアップスケールされ、高解像度のクエリマップとマージされ、その後のVTエンコーダでさらなる更新が行われる。 このプロセスは、更新されたクエリマップの解像度がターゲットに到達するまで繰り返される。 最後に、最下位の解像度マップを対象の解像度に追加し、最終クエリマップを生成する。 トレーニング中は,最下位の問合せマップと最終の問合せマップを併用して,地上のBEVセマンティックマップと整合させ,我々のモデルがグローバルな特徴とローカルな特徴を効果的に捉えるのに役立つ。 また,画像間と特徴レベル間の相互作用を促進する視覚的特徴相互作用ネットワークを提案し,性能改善に大きく貢献する。 大規模な実世界のデータセットを用いて、我々のモデルを評価する。 実験結果から,本モデルがIoU測定値でSOTAモデルより優れていることが示された。 コードはhttps://github.com/d1024choi/ProgressiveQueryRefineNetで入手できる。

Expressing images with Multi-Resolution (MR) features has been widely adopted in many computer vision tasks. In this paper, we introduce the MR concept into Bird's-Eye-View (BEV) semantic segmentation for autonomous driving. This introduction enhances our model's ability to capture both global and local characteristics of driving scenes through our proposed residual learning. Specifically, given a set of MR BEV query maps, the lowest resolution query map is initially updated using a View Transformation (VT) encoder. This updated query map is then upscaled and merged with a higher resolution query map to undergo further updates in a subsequent VT encoder. This process is repeated until the resolution of the updated query map reaches the target. Finally, the lowest resolution map is added to the target resolution to generate the final query map. During training, we enforce both the lowest and final query maps to align with the ground-truth BEV semantic map to help our model effectively capture the global and local characteristics. We also propose a visual feature interaction network that promotes interactions between features across images and across feature levels, thus highly contributing to the performance improvement. We evaluate our model on a large-scale real-world dataset. The experimental results show that our model outperforms the SOTA models in terms of IoU metric. Codes are available at https://github.com/d1024choi/ProgressiveQueryRefineNet
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# Pensieveが語る: AIによるスケーラブルな小グループCSチューニングシステム

Pensieve Discuss: Scalable Small-Group CS Tutoring System with AI ( http://arxiv.org/abs/2407.17007v1 )

ライセンス: Link先を確認
Yoonseok Yang, Jack Liu, J. D. Zamfirescu-Pereira, John DeNero, (参考訳) コンピュータサイエンス(CS)における小グループチューターは有効であるが、各グループに専用のチューターを提供し、大規模なグループメンバー間のコラボレーションを促進するという課題が提示されている。 我々はPensieve Discussという,足場のあるプログラミング問題に対する同期編集をオンラインの人間とAIのチューターと統合するソフトウェアプラットフォームを紹介した。 CS1コースの学生800名を対象に,一貫したコラボレーション率,AI指導者の有用性と正しさに対する肯定的なフィードバック,グループ指導経験への満足度の向上,質問数の増加などを行った。 システムの利用は、AIチューターと同期編集機能が欠如しているインタフェースよりも好まれていた。 私たちの経験から,小グループ学習セッションは,今後のAI研究にとって重要な道のりであることを示唆している。

Small-group tutoring in Computer Science (CS) is effective, but presents the challenge of providing a dedicated tutor for each group and encouraging collaboration among group members at scale. We present Pensieve Discuss, a software platform that integrates synchronous editing for scaffolded programming problems with online human and AI tutors, designed to improve student collaboration and experience during group tutoring sessions. Our semester-long deployment to 800 students in a CS1 course demonstrated consistently high collaboration rates, positive feedback about the AI tutor's helpfulness and correctness, increased satisfaction with the group tutoring experience, and a substantial increase in question volume. The use of our system was preferred over an interface lacking AI tutors and synchronous editing capabilities. Our experiences suggest that small-group tutoring sessions are an important avenue for future research in educational AI.
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# インテクスト学習の展開 : 作業メカニズムを理解するための協調システム

Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism ( http://arxiv.org/abs/2407.17011v1 )

ライセンス: Link先を確認
Anhao Zhao, Fanghua Ye, Jinlan Fu, Xiaoyu Shen, (参考訳) 大規模言語モデル(LLM)は、優れたインコンテキスト学習(ICL)能力を示す。 しかし、ICLの基盤となる作用機構はいまだよく理解されていない。 最近の研究は、ICLに関する2つの矛盾する見解を提示している: 1つは、LCMが本来持つタスク認識能力、ラベルの正しさとデモのショット番号を重要ではないとみなすこと、もう1つは、同様の例がデモに与える影響を強調し、ラベルの正しさとより多くのショットの必要性を強調している。 本研究では,両ビューを体系的なフレームワークに統合する2次元コーディネートシステムを提案する。 このフレームワークは、2つの直交変数を通してICLの振る舞いを説明している。 本研究では, LLMのタスク認識能力を検出するために, ピーク逆ランク測定法を提案し, 類似性の異なる定義に対するLLMの反応について検討する。 これらに基づいて、複数の代表分類タスクにおいて、各四角形に対してICL関数がどのように機能するかを解明するための広範な実験を行う。 最後に, 解析結果を生成タスクに拡張することにより, 生成タスクのICLを効果的に解釈できることを示す。

Large language models (LLMs) exhibit remarkable in-context learning (ICL) capabilities. However, the underlying working mechanism of ICL remains poorly understood. Recent research presents two conflicting views on ICL: One attributes it to LLMs' inherent ability of task recognition, deeming label correctness and shot numbers of demonstrations as not crucial; the other emphasizes the impact of similar examples in the demonstrations, stressing the need for label correctness and more shots. In this work, we provide a Two-Dimensional Coordinate System that unifies both views into a systematic framework. The framework explains the behavior of ICL through two orthogonal variables: whether LLMs can recognize the task and whether similar examples are presented in the demonstrations. We propose the peak inverse rank metric to detect the task recognition ability of LLMs and study LLMs' reactions to different definitions of similarity. Based on these, we conduct extensive experiments to elucidate how ICL functions across each quadrant on multiple representative classification tasks. Finally, we extend our analyses to generation tasks, showing that our coordinate system can also be used to interpret ICL for generation tasks effectively.
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# EAFormer:エッジ対応トランスを用いたシーンテキストセグメンテーション

EAFormer: Scene Text Segmentation with Edge-Aware Transformers ( http://arxiv.org/abs/2407.17020v1 )

ライセンス: Link先を確認
Haiyang Yu, Teng Fu, Bin Li, Xiangyang Xue, (参考訳) シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。 既存のテキストセグメンテーション手法では、パフォーマンス向上のために様々なテキスト関連の監督を行う傾向がある。 しかし、そのほとんどは、下流アプリケーションにとって重要なテキストエッジの重要性を無視している。 本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ・アウェア・トランスフォーマーであるEAFormerを提案する。 具体的には、まずテキスト領域のエッジを検出し、非テキスト領域のエッジをフィルタリングするテキストエッジ抽出器を設計する。 そこで本研究では,テキストエッジに着目したエッジガイドエンコーダを提案する。 最後に、MLPベースのデコーダを用いてテキストマスクを予測する。 我々は、EAFormerの有効性を検証するために、一般的なベンチマークで広範な実験を行った。 実験の結果,提案手法は,特にテキストエッジのセグメンテーションにおいて,従来の手法よりも優れていることがわかった。 いくつかのベンチマーク(例えばCOCO_TSやMLT_S)のアノテーションは、我々のメソッドを適切に評価するのに十分ではないので、これらのデータセットを緩和しました。 実験により,より正確なアノテーションをトレーニングに使用する場合,本手法がより高い性能向上を実現することが確認された。

Scene text segmentation aims at cropping texts from scene images, which is usually used to help generative models edit or remove texts. The existing text segmentation methods tend to involve various text-related supervisions for better performance. However, most of them ignore the importance of text edges, which are significant for downstream applications. In this paper, we propose Edge-Aware Transformers, termed EAFormer, to segment texts more accurately, especially at the edge of texts. Specifically, we first design a text edge extractor to detect edges and filter out edges of non-text areas. Then, we propose an edge-guided encoder to make the model focus more on text edges. Finally, an MLP-based decoder is employed to predict text masks. We have conducted extensive experiments on commonly-used benchmarks to verify the effectiveness of EAFormer. The experimental results demonstrate that the proposed method can perform better than previous methods, especially on the segmentation of text edges. Considering that the annotations of several benchmarks (e.g., COCO_TS and MLT_S) are not accurate enough to fairly evaluate our methods, we have relabeled these datasets. Through experiments, we observe that our method can achieve a higher performance improvement when more accurate annotations are used for training.
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# EUと米国のデータプライバシフレームワーク:ドラゴンは独自の餌を食べているか?

The EU-US Data Privacy Framework: Is the Dragon Eating its Own Tail? ( http://arxiv.org/abs/2407.17021v1 )

ライセンス: Link先を確認
Marcelo Corrales Compagnucci, (参考訳) 2023年7月10日に採択されたEUUSデータプライバシフレームワークに関する欧州委員会は、大西洋横断データ保護において重要な決定を下した。 2022年10月にビデン大統領が発した大統領令に従い、この決定は、米国が個人データ保護に関する欧州連合の基準を満たしていることを確認する。 この決定は、欧州経済圏からこの枠組みに参加する米国の団体へのすべての移行に及んでおり、データ交換を促進しつつプライバシーの権利を推進している。 米国当局による転送データへのアクセスの監視、二重層リフレッシュ機構の導入、データアクセスと修正を含むEU個人への新たな権利付与などだ。 しかし、このフレームワークは、健康データ転送における約束と課題の両方を提示する。 交換の合理化と法的基準の整合化は、異なるプライバシー法を複雑にしている。 最近の連邦プライバシー法導入法案は、進行中の改革の緊急の必要性を強調している。 リンガリングの懸念は、特にEU司法裁判所前における法的闘争の可能性がある中で、枠組みの弾力性について継続している。 EUと米国の間の大西洋横断データ転送の歴史は、オウロボロス(Ouroboros)という古代のサーペントや竜が独自の尾を食べていたことを思い出させ、再び無効化に直面しているフレームワークの略奪の可能性を示している。 この記事では、このフレームワークの主な要件を掘り下げ、医療組織が効果的にナビゲートする方法についての洞察を提供する。

The European Commission adequacy decision on the EU US Data Privacy Framework, adopted on July 10th, 2023, marks a crucial moment in transatlantic data protection. Following an Executive Order issued by President Biden in October 2022, this decision confirms that the United States meets European Union standards for personal data protection. The decision extends to all transfers from the European Economic Area to US entities participating in the framework, promoting privacy rights while facilitating data exchange. Key aspects include oversight of US public authorities access to transferred data, the introduction of a dual tier redress mechanism, and granting new rights to EU individuals, encompassing data access and rectification. However, the framework presents both promise and challenges in health data transfers. While streamlining exchange and aligning legal standards, it grapples with the complexities of divergent privacy laws. The recent bill for the introduction of a US federal privacy law emphasizes the urgent need for ongoing reform. Lingering concerns persist regarding the framework resilience, especially amid potential legal battles before the Court of Justice of the EU. The history of transatlantic data transfers between the EU and the US is riddled with vulnerabilities, reminiscent of the Ouroboros, an ancient symbol of a serpent or dragon eating its own tail, hinting at the looming possibility of the framework facing invalidation once again. This article delves into the main requirements of the framework and offers insights on how healthcare organizations can navigate it effectively.
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# 言語モデルによる人書きテキストの評価は可能か? : 韓国人学生による教育用文章作成を事例として

Can Language Models Evaluate Human Written Text? Case Study on Korean Student Writing for Education ( http://arxiv.org/abs/2407.17022v1 )

ライセンス: Link先を確認
Seungyoon Kim, Seungone Kim, (参考訳) 大規模言語モデル(LLM)に基づく評価パイプラインは、機械生成テキストを堅牢に評価する能力を示した。 この方法論を人書きテキスト評価に拡張することは、直接フィードバックを提供することで、文字スキルを向上させることで、教育的な設定に大きく貢献するが、このアプリケーションは簡単ではない。 本稿では,LLMが教育目的の人文テキストを効果的に評価できるかどうかを検討する。 韓国の学生32名を対象に15種類の文章を収集し,GPT-4-Turboを用いて文法性,流布度,一貫性,一貫性,関連性を基準として評価した。 分析の結果,LLM評価器は,他の基準や書式と競合するが,文法性や流布度を確実に評価できるだけでなく,より客観的な書式も評価できることがわかった。 データセットとフィードバックを公開しています。

Large language model (LLM)-based evaluation pipelines have demonstrated their capability to robustly evaluate machine-generated text. Extending this methodology to assess human-written text could significantly benefit educational settings by providing direct feedback to enhance writing skills, although this application is not straightforward. In this paper, we investigate whether LLMs can effectively assess human-written text for educational purposes. We collected 100 texts from 32 Korean students across 15 types of writing and employed GPT-4-Turbo to evaluate them using grammaticality, fluency, coherence, consistency, and relevance as criteria. Our analyses indicate that LLM evaluators can reliably assess grammaticality and fluency, as well as more objective types of writing, though they struggle with other criteria and types of writing. We publicly release our dataset and feedback.
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# 言語モデルの内部衝突から文脈適応へ

From Internal Conflict to Contextual Adaptation of Language Models ( http://arxiv.org/abs/2407.17023v1 )

ライセンス: Link先を確認
Sara Vera Marjanović, Haeun Yu, Pepa Atanasova, Maria Maistro, Christina Lioma, Isabelle Augenstein, (参考訳) 知識集約型言語理解タスクでは、言語モデル(LM)が関連するコンテキストを統合し、不完全な知識や時代遅れな知識などの固有の弱点を軽減する必要がある。 それでも研究は、LMが提供された文脈を無視することがしばしばあり、事前学習中に学習した既存のLMの記憶と矛盾する可能性があることを示唆している。 さらに、競合する知識は、メモリ内競合と呼ばれるLMのパラメータにすでに存在する。 現存する研究は、2種類の知識紛争を単独で研究している。 我々は、メモリ内コンフリクトの度合いが、LMのコンテキストメモリコンフリクトの処理に影響を及ぼすと推測する。 そこで本研究では, 時間周波数の異なる事象と, 視点によって変化可能な議論可能な動的事実を含む, 時間的動的特性を持つ事象を含むDYNAMICQAデータセットを提案する。 DYNAMICQAは、現実世界の知識紛争を初めて含み、異なる種類の知識紛争の関連を研究する文脈を提供する。 提案したデータセットでは,メモリ内コンフリクトの測定に不確実性を用いることを評価し,新しいコヒーレント・パースケーション(CP)スコアを導入し,LMのセマンティックアウトプットを伝達するコンテキストの能力を評価する。 我々の広範な実験により、変化しそうもない静的事実は、時間的および議論の余地のある事実に対して、追加の文脈でより容易に更新されることが明らかとなった。

Knowledge-intensive language understanding tasks require Language Models (LMs) to integrate relevant context, mitigating their inherent weaknesses, such as incomplete or outdated knowledge. Nevertheless, studies indicate that LMs often ignore the provided context as it can conflict with the pre-existing LM's memory learned during pre-training. Moreover, conflicting knowledge can already be present in the LM's parameters, termed intra-memory conflict. Existing works have studied the two types of knowledge conflicts only in isolation. We conjecture that the (degree of) intra-memory conflicts can in turn affect LM's handling of context-memory conflicts. To study this, we introduce the DYNAMICQA dataset, which includes facts with a temporal dynamic nature where a fact can change with a varying time frequency and disputable dynamic facts, which can change depending on the viewpoint. DYNAMICQA is the first to include real-world knowledge conflicts and provide context to study the link between the different types of knowledge conflicts. With the proposed dataset, we assess the use of uncertainty for measuring the intra-memory conflict and introduce a novel Coherent Persuasion (CP) score to evaluate the context's ability to sway LM's semantic output. Our extensive experiments reveal that static facts, which are unlikely to change, are more easily updated with additional context, relative to temporal and disputable facts.
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# マルチスペクトルイメージングによる環境モニタリングの強化:湖岸廃棄物のセマンティックセグメンテーションのための廃棄物MSデータセット

Enhancing Environmental Monitoring through Multispectral Imaging: The WasteMS Dataset for Semantic Segmentation of Lakeside Waste ( http://arxiv.org/abs/2407.17028v1 )

ライセンス: Link先を確認
Qinfeng Zhu, Ningxin Weng, Lei Fan, Yuanzhi Cai, (参考訳) 湖岸緑地の環境モニタリングは環境保護に不可欠である。 手動検査と比較して、コンピュータビジョン技術は、現場に配備された場合、より効率的なソリューションを提供する。 マルチスペクトルイメージングは、異なるスペクトル下での物体についての多様な情報を提供し、廃棄物と湖岸の芝生の環境の分化に寄与する。 本研究では,湖岸廃棄物のセマンティックセグメンテーションのために確立された最初のマルチスペクトルデータセットであるDesteMSを紹介する。 WasteMSは、様々な照明条件下で捕獲された芝生の環境において、さまざまな種類の廃棄物を含む。 画像中の無駄をラベル付けするための厳密なアノテーションプロセスを実装した。 WasteMSを用いてセグメンテーションの精度を評価するために,代表的セグメンテーションフレームワークを用いた。 湖岸芝生における廃棄物処理における廃棄物処理の課題について考察した。 WasteMSデータセットはhttps://github.com/zhuqinfeng 1999/WasteMSで公開されている。

Environmental monitoring of lakeside green areas is crucial for environmental protection. Compared to manual inspections, computer vision technologies offer a more efficient solution when deployed on-site. Multispectral imaging provides diverse information about objects under different spectrums, aiding in the differentiation between waste and lakeside lawn environments. This study introduces WasteMS, the first multispectral dataset established for the semantic segmentation of lakeside waste. WasteMS includes a diverse range of waste types in lawn environments, captured under various lighting conditions. We implemented a rigorous annotation process to label waste in images. Representative semantic segmentation frameworks were used to evaluate segmentation accuracy using WasteMS. Challenges encountered when using WasteMS for segmenting waste on lakeside lawns were discussed. The WasteMS dataset is available at https://github.com/zhuqinfeng1999/WasteMS.
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# 最適バランスによる量子化大言語モデルの高精度かつ効率的な微調整

Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance ( http://arxiv.org/abs/2407.17029v1 )

ライセンス: Link先を確認
Ao Shen, Qiang Wang, Zhiquan Lai, Xionglve Li, Dongsheng Li, (参考訳) 大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。 しかし、膨大な数のモデルパラメーターが微調整を難しくし、アプリケーションやデプロイメントを著しく制限します。 既存のソリューションはパラメータ量子化とローランド適応(LoRA)を組み合わせることで、メモリ使用量を大幅に削減するが、顕著な性能低下をもたらす。 本稿では,微調整型量子化事前学習モデルにおける不均衡を同定する。 本稿では,Q-BaRA(Quantized LLMs with Balanced-rank Adaptation)を提案する。 さらに,LLMを低精度推論モデルとして展開する必要のあるシナリオに対しては,適応入力と出力を簡略化し,事前学習したモデルのブロックワイド量子化と整合し,より高いランクを達成するために単一行列を用いる量子化対応ファインタニング(QA-HiRA)を導入する。 Q-BaRAとQA-HiRAはいずれも簡単に実装でき、以下の最適化を提供している。 (i)Q-BaRAは、ベースラインや他の変種と比較して常に高い精度を達成し、同じ数のトレーニング可能なパラメータと計算作業を必要とする。 (II)QA-HiRAは、微調整後のブロックワイド量子化モデルに自然にアダプタパラメータをマージし、他の手法と比較して高い精度を達成する。 このQ-BaRAとQA-HiRAをLLaMAとLLaMA2モデルファミリに適用し、異なる微調整データセットと下流シナリオで有効性を検証する。 コードは \href{https://github.com/xiaocaigou/qbaraqahira}{https://github.com/xiaocaigou/qbaraqahira} で公開される。

Large Language Models (LLMs) have demonstrated impressive performance across various domains. However, the enormous number of model parameters makes fine-tuning challenging, significantly limiting their application and deployment. Existing solutions combine parameter quantization with Low-Rank Adaptation (LoRA), greatly reducing memory usage but resulting in noticeable performance degradation. In this paper, we identify an imbalance in fine-tuning quantized pre-trained models: overly complex adapter inputs and outputs versus low effective trainability of the adaptation. We propose Quantized LLMs with Balanced-rank Adaptation (Q-BaRA), which simplifies the adapter inputs and outputs while increasing the adapter's rank to achieve a more suitable balance for fine-tuning quantized LLMs. Additionally, for scenarios where fine-tuned LLMs need to be deployed as low-precision inference models, we introduce Quantization-Aware Fine-tuning with Higher Rank Adaptation (QA-HiRA), which simplifies the adapter inputs and outputs to align with the pre-trained model's block-wise quantization while employing a single matrix to achieve a higher rank. Both Q-BaRA and QA-HiRA are easily implemented and offer the following optimizations: (i) Q-BaRA consistently achieves the highest accuracy compared to baselines and other variants, requiring the same number of trainable parameters and computational effort; (ii) QA-HiRA naturally merges adapter parameters into the block-wise quantized model after fine-tuning, achieving the highest accuracy compared to other methods. We apply our Q-BaRA and QA-HiRA to the LLaMA and LLaMA2 model families and validate their effectiveness across different fine-tuning datasets and downstream scenarios. Code will be made available at \href{https://github.com/xiaocaigou/qbaraqahira}{https://github.com/xiaocaigou/qbaraqahira}
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# Gymnasium:強化学習環境の標準インターフェース

Gymnasium: A Standard Interface for Reinforcement Learning Environments ( http://arxiv.org/abs/2407.17032v1 )

ライセンス: Link先を確認
Mark Towers, Ariel Kwiatkowski, Jordan Terry, John U. Balis, Gianluca De Cola, Tristan Deleu, Manuel Goulão, Andreas Kallinteris, Markus Krimmel, Arjun KG, Rodrigo Perez-Vicente, Andrea Pierré, Sander Schulhoff, Jun Jet Tai, Hannah Tan, Omar G. Younis, (参考訳) Gymnasiumはオープンソースのライブラリで、強化学習環境のためのAPIを提供する。 その主な貢献は、ベンチマーク環境とトレーニングアルゴリズムの間の広範な相互運用性のための中心的な抽象化である。 Gymnasiumには様々な組み込み環境とユーティリティがあり、研究者の作業を簡素化し、ほとんどのトレーニングライブラリがサポートしている。 本稿では、Gymnasiumの主な設計決定、その重要な特徴、代替APIの違いについて概説する。

Gymnasium is an open-source library providing an API for reinforcement learning environments. Its main contribution is a central abstraction for wide interoperability between benchmark environments and training algorithms. Gymnasium comes with various built-in environments and utilities to simplify researchers' work along with being supported by most training libraries. This paper outlines the main design decisions for Gymnasium, its key features, and the differences to alternative APIs.
翻訳日:2024-07-25 14:43:30 公開日:2024-07-24
# 深いガウス過程におけるスパース誘導点:拡散変分推論によるモデリングの強化

Sparse Inducing Points in Deep Gaussian Processes: Enhancing Modeling with Denoising Diffusion Variational Inference ( http://arxiv.org/abs/2407.17033v1 )

ライセンス: Link先を確認
Jian Xu, Delu Zeng, John Paisley, (参考訳) ディープガウス過程 (Deep Gaussian process, DGPs) はベイズ深層学習のための堅牢なパラダイムを提供する。 DGPでは、モデルの後部分布を近似するために、誘導点と呼ばれるスパース積分位置の集合が選択される。 これは計算の複雑さを減らし、モデルの効率を改善するためである。 しかし、誘導点の後方分布を推定することは簡単ではない。 後部近似に対する従来の変分推論アプローチは、しばしば大きなバイアスを引き起こす。 この問題に対処するために,拡散確率微分方程式(SDE)を用いて誘導変数の後続サンプルを生成するDDVI(Denoising Diffusion Variational Inference)という手法を提案する。 我々は,ニューラルネットワークを用いてスコア関数を近似するために,拡散モデルの雑音化のためのスコアマッチング手法を頼りにしている。 さらに、SDEの古典的数学的理論と近似過程と真過程のKL偏差の最小化を組み合わせることで、DGPの限界確率関数に対する新しい明らかな変分下界を提案する。 各種データセットの実験とベースライン法との比較を通じて, DGPモデルにおけるインジェクションポイントの後方推論におけるDDVIの有効性を実証的に実証した。

Deep Gaussian processes (DGPs) provide a robust paradigm for Bayesian deep learning. In DGPs, a set of sparse integration locations called inducing points are selected to approximate the posterior distribution of the model. This is done to reduce computational complexity and improve model efficiency. However, inferring the posterior distribution of inducing points is not straightforward. Traditional variational inference approaches to posterior approximation often lead to significant bias. To address this issue, we propose an alternative method called Denoising Diffusion Variational Inference (DDVI) that uses a denoising diffusion stochastic differential equation (SDE) to generate posterior samples of inducing variables. We rely on score matching methods for denoising diffusion model to approximate score functions with a neural network. Furthermore, by combining classical mathematical theory of SDEs with the minimization of KL divergence between the approximate and true processes, we propose a novel explicit variational lower bound for the marginal likelihood function of DGP. Through experiments on various datasets and comparisons with baseline methods, we empirically demonstrate the effectiveness of DDVI for posterior inference of inducing points for DGP models.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# Q-Ground: 大規模マルチモダリティモデルによる画質グラウンド

Q-Ground: Image Quality Grounding with Large Multi-modality Models ( http://arxiv.org/abs/2407.17035v1 )

ライセンス: Link先を確認
Chaofeng Chen, Sensen Yang, Haoning Wu, Liang Liao, Zicheng Zhang, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin, (参考訳) 大規模多モードモデル(LMM)の最近の進歩は、画像品質評価(IQA)法の視覚コンテンツの品質評価と説明能力を大幅に向上させてきた。 しかし、これらの進歩は主に全体的な品質評価に焦点が当てられており、総合的な視覚的理解に欠かせない局所的な品質の詳細な検証はいまだに未解明である。 そこで本研究では,大規模マルチモダリティモデルと詳細な視覚的品質分析を組み合わせることで,視覚的品質グラウンドに対処する最初のフレームワークであるQ-Groundを紹介する。 QGround-100Kデータセットは100kのトリプル(画像、品質テキスト、歪みセグメンテーション)を含む新しいリソースで、視覚的品質の深い調査を容易にする。 データセットは、正確な品質評価のための人間ラベル付きアノテーションと、GPT4VなどのLMMによって自動的にラベル付けされ、データ収集のコストを削減しつつ、モデルトレーニングの堅牢性を改善する。 QGround-100Kデータセットを用いて,テキストプロンプトに基づく画像品質応答と歪みセグメンテーションの両方を実行することができるモデルを学習するための,マルチスケール特徴学習を備えたLMMベースの手法を提案する。 このデュアルキャパビリティアプローチは、領域認識の画像品質に対するモデルの理解を洗練させるだけでなく、画像の品質と特定の歪みに関する複雑なテキストベースのクエリに対話的に応答することを可能にする。 Q-Groundは、より精密な視覚的品質分析への一歩を踏み出し、この分野における将来の研究のための新しいベンチマークを確立する。 コードとデータセットはhttps://github.com/Q-Future/Q-Ground.comで公開されている。

Recent advances of large multi-modality models (LMM) have greatly improved the ability of image quality assessment (IQA) method to evaluate and explain the quality of visual content. However, these advancements are mostly focused on overall quality assessment, and the detailed examination of local quality, which is crucial for comprehensive visual understanding, is still largely unexplored. In this work, we introduce Q-Ground, the first framework aimed at tackling fine-scale visual quality grounding by combining large multi-modality models with detailed visual quality analysis. Central to our contribution is the introduction of the QGround-100K dataset, a novel resource containing 100k triplets of (image, quality text, distortion segmentation) to facilitate deep investigations into visual quality. The dataset comprises two parts: one with human-labeled annotations for accurate quality assessment, and another labeled automatically by LMMs such as GPT4V, which helps improve the robustness of model training while also reducing the costs of data collection. With the QGround-100K dataset, we propose a LMM-based method equipped with multi-scale feature learning to learn models capable of performing both image quality answering and distortion segmentation based on text prompts. This dual-capability approach not only refines the model's understanding of region-aware image quality but also enables it to interactively respond to complex, text-based queries about image quality and specific distortions. Q-Ground takes a step towards sophisticated visual quality analysis in a finer scale, establishing a new benchmark for future research in the area. Codes and dataset are available at https://github.com/Q-Future/Q-Ground.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# RE活動における文化的影響--芸術の実態分析の拡充

Cultural influence on RE activities: An extended analysis of state of the art ( http://arxiv.org/abs/2407.17038v1 )

ライセンス: Link先を確認
Chowdhury Shahriar Muzammel, Maria Spichkova, James Harland, (参考訳) 文化的な文脈に合わせてモバイルソフトウェアを設計することは、人間とコンピュータの相互作用の最適化に不可欠である。 文化的影響を考慮することは、機能的/非機能的要件の実際のセットだけでなく、要求工学(RE)プロセス全体にも不可欠である。 RE活動における文化的影響の明確な理解がなければ、正確で完全な要件セットを精査することはほとんど不可能です。 本研究は,全国文化がRE関連活動に与える影響を最近の研究に基づいて調査する。 我々は,2019-2023年に発表された研究の体系的文献レビュー(SLR)を行い,2000-2018年の古いSLRと比較した。 我々は17の関連研究を特定し,RE活動に影響を与える33の文化的影響を抽出し,ソフトウェア開発研究の文化的分析に広く用いられているHofstedeモデルにマッピングした。 我々の研究は、RE活動における国民文化の重要役割を強調し、現在の研究動向を要約し、モバイルアプリ/ソフトウェア開発における文化的影響を実践者が考えるのを助ける。

Designing mobile software that aligns with cultural contexts is crucial for optimizing human-computer interaction. Considering cultural influences is essential not only for the actual set of functional/non-functional requirements, but also for the whole Requirement Engineering (RE) process. Without a clear understanding of cultural influences on RE activities, it's hardly possible to elaborate a correct and complete set of requirements. This research explores the impact of national culture on RE-related activities based on recent studies. We conducted a Systematic Literature Review (SLR) of studies published in 2019-2023 and compared them to an older SLR covering 2000-2018. We identified 17 relevant studies, extracted 33 cultural influences impacting RE activities, and mapped them to the Hofstede model, widely used for cultural analysis in software development research. Our work highlights the critical role of national culture in RE activities, summarizes current research trends, and helps practitioners consider cultural influences for mobile app/software development.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# 多変量ラジアル基底関数ニューラルネットワークによる時系列ミス計算

Time Series Missing Imputation with Multivariate Radial Basis Function Neural Network ( http://arxiv.org/abs/2407.17040v1 )

ライセンス: Link先を確認
Chanyoung Jung, Yun Jang, (参考訳) 研究者たちは、時系列データに欠落する値の問題に絶えず取り組んできた。 データの分布を推定するために多くのモデルが提案されている。 Radial Basis Functions Neural Network (RBFNN) は先日,データ分布の推定において異常な性能を示した。 本稿では,RBFNNに基づく時系列計算モデルを提案する。 我々の計算モデルは、タイムスタンプから局所情報を学習し、連続関数を生成する。 さらに、欠落した値の項を考慮し、学習情報を容易にするための時間ギャップも組み込んだ。 我々はこのモデルをMissing Imputation Multivariate RBFNN (MIM-RBFNN)と名付けた。 しかし、MIM-RBFNNは、時間情報の活用に困難をもたらすローカル情報に基づく学習アプローチに依存している。 そこで本研究では,MIM-RBFNNが生成した連続関数を用いたMIRNN-CF(Missing Value Imputation Recurrent Neural Network with Continuous Function)と呼ばれる拡張を提案する。 非ランダムでランダムなパターンを欠いた2つの実世界のデータセットを用いて評価を行い、MIM-RBFNNとMIRNN-CFを比較してアブレーション実験を行った。

Researchers have been persistently working to address the issue of missing values in time series data. Numerous models have been proposed, striving to estimate the distribution of the data. The Radial Basis Functions Neural Network (RBFNN) has recently exhibited exceptional performance in estimating data distribution. In this paper, we propose a time series imputation model based on RBFNN. Our imputation model learns local information from timestamps to create a continuous function. Additionally, we incorporate time gaps to facilitate learning information considering the missing terms of missing values. We name this model the Missing Imputation Multivariate RBFNN (MIM-RBFNN). However, MIM-RBFNN relies on a local information-based learning approach, which presents difficulties in utilizing temporal information. Therefore, we propose an extension called the Missing Value Imputation Recurrent Neural Network with Continuous Function (MIRNN-CF) using the continuous function generated by MIM-RBFNN. We evaluate the performance using two real-world datasets with non-random missing and random missing patterns, and conduct an ablation study comparing MIM-RBFNN and MIRNN-CF.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# マルチスポットホログラフィー・ツイーザのフィードバック強度等化

Feedback Intensity Equalization for Multi-Spots Holographic Tweezer ( http://arxiv.org/abs/2407.17049v1 )

ライセンス: Link先を確認
Shaoxiong Wang, Yaoting Zhou, Peng Lan, Yifei Hu, Heng Shen, Zhongxiao Xu, (参考訳) 高度調整性のおかげで、ホログラフィック・ツイーザーアレイは任意のジオメトリ原子配列を作るのに最適な選択であることが証明された。 ホログラフィックトウィーザーアレイ実験では、通常、空間光変調器(SLM)によって生成された光トウィーザーが静的トウィーザーアレイとして使用される。 交流スタークシフト効果により、トラップの強度差は異なる光シフトを引き起こす。 したがって、強度等化の最適化は、単原子からなる多体系において非常に重要である。 本稿では,強度等化アルゴリズムの研究について報告する。 このアルゴリズムにより、ツイーザーの大きさが1000より大きい場合、ツイーザーの均一性が96%を超える。 解析により、さらなる均一性には光学系のさらなる最適化が必要であることが示された。 強度等化アルゴリズムの実現は、単一原子配列に基づく多体実験において非常に重要である。

Thanks to the high degree of adjustability, holographic tweezer array has been proved to be the best choice to create arbitrary geometries atomic array. In holographic tweezer array experiment, optical tweezer generated by spatial light modulator (SLM) usually is used as static tweezer array. Due to the alternating current(AC) stark shifts effect, intensity difference of traps will cause different light shift. So, the optimization of intensity equalization is very important in many-body system consist of single atoms. Here we report a work on studying of intensity equalization algorithm. Through this algorithm, the uniformity of tweezer can exceed 96% when the number of tweezer size is bigger than 1000. Our analysis shows that further uniformity requires further optimization of optical system. The realization of the intensity equalization algorithm is of great significance to the many-body experiments based on single atom array.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# コード中心のソフトウェア脆弱性の自動評価: どれくらいの距離にあるか? C/C++における実証的研究

Automated Code-centric Software Vulnerability Assessment: How Far Are We? An Empirical Study in C/C++ ( http://arxiv.org/abs/2407.17053v1 )

ライセンス: Link先を確認
Anh The Nguyen, Triet Huynh Minh Le, M. Ali Babar, (参考訳) 背景: C言語とC++言語は、実際に広く使われているため、ソフトウェア工学の研究において重要な役割を担っている。 機械学習(ML)とディープラーニング(DL)技術を使って、これらの言語で書かれたソースコードのソフトウェア脆弱性(SV)を検出する。 しかし,これらの手法を機能レベルのSV評価に適用することは,ほとんど研究されていない。 SVアセスメントは、セキュリティ欠陥の悪用性、影響、深刻さに関する詳細な情報を提供するため、ますます重要になっている。 Aims: C/C++における関数レベルのSV評価において,MLモデルとDLモデルの性能を調査・比較するための最初の実証的研究を行い,その多くをSV検出に用いた。 方法:9,993個の脆弱なC/C++関数を用いて,CVSS(Common Vulnerability Scoring System)に基づいて,SV評価のための6つの多クラスMLモデルと5つの多クラスDLモデルの性能評価を行った。 さらに、共通の脆弱なコードを利用して、単一のモデルで全てのSV評価出力を同時に予測できるマルチタスク学習について検討し、このモデルの有効性と効率を元のマルチクラスモデルと比較する。 結果: ML は,関数レベルの SV 評価のためのマルチクラス DL モデルと比較して,学習時間を大幅に短縮した,整合性や性能が向上していることが示唆された。 マルチタスク学習を利用することで、DLモデルは大幅に改善され、平均してマシューズ相関係数(MCC)は8-22%増加した。 結論: C/C++における関数レベルのSV評価にデータ駆動技術を用いるプラクティスを精査する。 これにより、この領域における将来の仕事の強力な基盤が確立できる。

Background: The C and C++ languages hold significant importance in Software Engineering research because of their widespread use in practice. Numerous studies have utilized Machine Learning (ML) and Deep Learning (DL) techniques to detect software vulnerabilities (SVs) in the source code written in these languages. However, the application of these techniques in function-level SV assessment has been largely unexplored. SV assessment is increasingly crucial as it provides detailed information on the exploitability, impacts, and severity of security defects, thereby aiding in their prioritization and remediation. Aims: We conduct the first empirical study to investigate and compare the performance of ML and DL models, many of which have been used for SV detection, for function-level SV assessment in C/C++. Method: Using 9,993 vulnerable C/C++ functions, we evaluated the performance of six multi-class ML models and five multi-class DL models for the SV assessment at the function level based on the Common Vulnerability Scoring System (CVSS). We further explore multi-task learning, which can leverage common vulnerable code to predict all SV assessment outputs simultaneously in a single model, and compare the effectiveness and efficiency of this model type with those of the original multi-class models. Results: We show that ML has matching or even better performance compared to the multi-class DL models for function-level SV assessment with significantly less training time. Employing multi-task learning allows the DL models to perform significantly better, with an average of 8-22% increase in Matthews Correlation Coefficient (MCC). Conclusions: We distill the practices of using data-driven techniques for function-level SV assessment in C/C++, including the use of multi-task DL to balance efficiency and effectiveness. This can establish a strong foundation for future work in this area.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# 量子カオス可積分遷移の秩序パラメータとしてのクリロフ複雑性

Krylov complexity as an order parameter for quantum chaotic-integrable transitions ( http://arxiv.org/abs/2407.17054v1 )

ライセンス: Link先を確認
Matteo Baggioli, Kyoung-Bum Huh, Hyun-Sik Jeong, Keun-Young Kim, Juan F. Pedraza, (参考訳) Krylov複雑性は、最近、多体システムにおける量子カオスを特徴付ける新しいパラダイムとして登場した。 しかしながら、クリャロフ複雑性の特徴は量子カオスシステムの先駆的であり、スペクトル統計学やOTOC(out-of-time-order correlator)のようなより標準的なプローブとどのように関係するかは未解決のままである。 近年の知見によると、量子カオス系では、Krylov状態の複雑性は、よく理解された深夜高原に沈む前に、時間進化の間にはっきりとしたピークを示す。 本研究では、このKrylov複雑性ピーク(KCP)が量子カオスシステムの目印であり、その高さが量子カオスの「順序パラメータ」として機能することを提案する。 我々は、KCPが、質量変形したSachdev-Ye-Kitaevモデルにおけるカオス可積分遷移を、スペクトル統計学およびOTOCsの結果と整合して、無限温度と有限温度の両方で効果的に同定することを示した。 我々の発見は、演算子に依存しない新しい量子カオスの診断ツールを提供し、より「ユニバーサル」な洞察と、量子カオスシステムにおける一般的な性質のより深い理解をもたらす可能性がある。

Krylov complexity has recently emerged as a new paradigm to characterize quantum chaos in many-body systems. However, which features of Krylov complexity are prerogative of quantum chaotic systems and how they relate to more standard probes, such as spectral statistics or out-of-time-order correlators (OTOCs), remain open questions. Recent insights have revealed that in quantum chaotic systems Krylov state complexity exhibits a distinct peak during time evolution before settling into a well-understood late-time plateau. In this work, we propose that this Krylov complexity peak (KCP) is a hallmark of quantum chaotic systems and suggest that its height could serve as an `order parameter' for quantum chaos. We demonstrate that the KCP effectively identifies chaotic-integrable transitions in the mass-deformed Sachdev-Ye-Kitaev model at both infinite and finite temperature, aligning with results from spectral statistics and OTOCs. Our findings offer a new diagnostic tool for quantum chaos that is operator-independent, potentially leading to more `universal' insights and a deeper understanding of general properties in quantum chaotic systems.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# DiffCD: ニューラル・インシシティ・サーフェス・フィッティングのための対称微分可能なチャンファー距離

DiffCD: A Symmetric Differentiable Chamfer Distance for Neural Implicit Surface Fitting ( http://arxiv.org/abs/2407.17058v1 )

ライセンス: Link先を確認
Linus Härenstam-Nielsen, Lu Sang, Abhishek Saroha, Nikita Araslanov, Daniel Cremers, (参考訳) ニューラルな暗黙の表面は、不完全な点雲から正確な3次元幾何学を復元するために用いられる。 本研究では,片側チャンファー距離の近似を最小化することにより,最先端技術が動作することを示す。 この形状の計量は対称ではなく、点雲が表面に近いがその逆ではないことを保証しているだけである。 その結果、既存の方法では、粗い表面を持つ不正確な再構築が可能である。 突発性表面に対する1つのアプローチは文献で広く用いられているが、理論的および実験的に、表面積の正則化と等価であることを示し、結果として過度な平滑化をもたらす。 より魅力的な代替として、対称チャンファー距離に対応する新しい損失関数であるDiffCDを提案する。 以前の研究とは対照的に、DiffCDは表面が点雲の近くにあることを保証する。 実験により,DiffCDは高い形状のディテールを確実に回復し,表面の複雑さやノイズレベルによって既存の作業よりも大幅に優れることを示した。 プロジェクトのコードはhttps://github.com/linusnie/diffcd.comで公開されている。

Neural implicit surfaces can be used to recover accurate 3D geometry from imperfect point clouds. In this work, we show that state-of-the-art techniques work by minimizing an approximation of a one-sided Chamfer distance. This shape metric is not symmetric, as it only ensures that the point cloud is near the surface but not vice versa. As a consequence, existing methods can produce inaccurate reconstructions with spurious surfaces. Although one approach against spurious surfaces has been widely used in the literature, we theoretically and experimentally show that it is equivalent to regularizing the surface area, resulting in over-smoothing. As a more appealing alternative, we propose DiffCD, a novel loss function corresponding to the symmetric Chamfer distance. In contrast to previous work, DiffCD also assures that the surface is near the point cloud, which eliminates spurious surfaces without the need for additional regularization. We experimentally show that DiffCD reliably recovers a high degree of shape detail, substantially outperforming existing work across varying surface complexity and noise levels. Project code is available at https://github.com/linusnie/diffcd.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# 大規模視線モデルのための高効率画像圧縮

High Efficiency Image Compression for Large Visual-Language Models ( http://arxiv.org/abs/2407.17060v1 )

ライセンス: Link先を確認
Binzhe Li, Shurun Wang, Shiqi Wang, Yan Ye, (参考訳) 近年,大規模視覚言語モデル (LVLM) は多モーダルタスクにおいて優れた性能と有望な一般化能力を示しており,様々なアプリケーションシナリオにおける視覚情報の受信機として人間を置き換えている。 本稿では,異なるLVLMに対して有望なレート精度を実現するために,事前編集モジュールとエンドツーエンドコーデックで構成される可変ビットレート画像圧縮フレームワークを提案する。 特に,特定のタスクや複数の代表タスクに対して適応型事前編集ネットワークを最適化する代わりに,トークンレベルの歪みとランクを持つ表現と識別能力に基づいて,LVLMに適した新しい最適化戦略を提案する。 プレ編集モジュールと可変ビットレートエンドツーエンドの画像コーデックは、大きなモデルのセマンティックトークンに基づいて損失によって共同で訓練され、様々なデータやタスクの一般化機能が導入される。 実験結果から,提案フレームワークは,最先端の符号化標準であるVersatile Video Codingと比較して,効率よくレート精度を向上できることが示された。 一方,マルチモーダルタスクを用いた実験により,提案フレームワークの堅牢性と一般化能力が明らかにされた。

In recent years, large visual language models (LVLMs) have shown impressive performance and promising generalization capability in multi-modal tasks, thus replacing humans as receivers of visual information in various application scenarios. In this paper, we pioneer to propose a variable bitrate image compression framework consisting of a pre-editing module and an end-to-end codec to achieve promising rate-accuracy performance for different LVLMs. In particular, instead of optimizing an adaptive pre-editing network towards a particular task or several representative tasks, we propose a new optimization strategy tailored for LVLMs, which is designed based on the representation and discrimination capability with token-level distortion and rank. The pre-editing module and the variable bitrate end-to-end image codec are jointly trained by the losses based on semantic tokens of the large model, which introduce enhanced generalization capability for various data and tasks. {Experimental results demonstrate that the proposed framework could efficiently achieve much better rate-accuracy performance compared to the state-of-the-art coding standard, Versatile Video Coding.} Meanwhile, experiments with multi-modal tasks have revealed the robustness and generalization capability of the proposed framework.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# AIに基づく密度認識

AI-based Density Recognition ( http://arxiv.org/abs/2407.17064v1 )

ライセンス: Link先を確認
Simone Müller, Daniel Kolb, Matthias Müller, Dieter Kranzlmüller, (参考訳) 画像の学習に基づく分析は、安全な環境運動と相互作用のための移動とロボット工学の分野で一般的に用いられている。 これはオブジェクト認識だけでなく、特定のプロパティの割り当ても必要です。 この情報によって、因果関係の行動は異なる状況に適応することができる。 このような論理的相互作用は、オブジェクト指定プロパティを認識することで最適化できる。 物理的性質としての密度は、物体がどれだけ重いか、どの物質でできているか、どの力が働いているか、そしてどの物質が環境に与える影響を認識できる。 このアプローチでは,関連画像を用いてオブジェクトに物理的プロパティを割り当てる,AIベースの概念を導入している。 合成データに基づいて、ニューラルネットワークを用いて2次元画像から特定のパターンを抽出し、ボリューム、材料、密度などのさらなる情報を抽出する。 そこで本研究では,属性に基づく特徴抽出による因果関係論理の改善の可能性について論じる。

Learning-based analysis of images is commonly used in the fields of mobility and robotics for safe environmental motion and interaction. This requires not only object recognition but also the assignment of certain properties to them. With the help of this information, causally related actions can be adapted to different circumstances. Such logical interactions can be optimized by recognizing object-assigned properties. Density as a physical property offers the possibility to recognize how heavy an object is, which material it is made of, which forces are at work, and consequently which influence it has on its environment. Our approach introduces an AI-based concept for assigning physical properties to objects through the use of associated images. Based on synthesized data, we derive specific patterns from 2D images using a neural network to extract further information such as volume, material, or density. Accordingly, we discuss the possibilities of property-based feature extraction to improve causally related logics.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# PatchFinder: オープンソースソフトウェアにおける公開脆弱性に対するセキュリティパッチトレースのための2相アプローチ

PatchFinder: A Two-Phase Approach to Security Patch Tracing for Disclosed Vulnerabilities in Open-Source Software ( http://arxiv.org/abs/2407.17065v1 )

ライセンス: Link先を確認
Kaixuan Li, Jian Zhang, Sen Chen, Han Liu, Yang Liu, Yixiang Chen, (参考訳) オープンソースソフトウェア(OSS)の脆弱性はますます広まり、セキュリティパッチの重要性を強調している。 しかし、NVDのような広く使われているセキュリティプラットフォームでは、かなりの数のCVEレコードにパッチのトレースリンクがない。 セキュリティパッチのトレースにはランクベースのアプローチが提案されているが、シングルステップフレームワークのハンドクラフト機能に大きく依存しているため、その有効性は制限されている。 本稿では,エンドツーエンドの相関学習を併用した2段階のPatchFinderを提案する。 The **initial search** phase, we use a hybrid patch retriever to account for both lexical and semantic matching based on the code changes and the description of a CVE, to narrow down the search space by extracts as the candidate of the CVE descriptions。 その後、**-re- rank* フェーズにおいて、CVE記述とコミット間の意味的相関を学習するための教師付き微調整パラダイムの下で、エンドツーエンドアーキテクチャを設計する。 このようにして、計算オーバーヘッドを低く保ちながら、相関スコアに基づいて候補を自動的にランク付けすることができる。 532のOSSプロジェクトから4,789のCVEを比較した。 PatchFinder は 80.63% の Recall@10 と平均 Reciprocal Rank (MRR) の 0.7951 を達成している。 さらに、Manual Effort@10は2.77に短縮され、現在のリードメソッドよりも1.94倍改善されている。 PatchFinderを実際に適用する場合、最初は533件のパッチコミットを特定し、公式に送ったのですが、そのうち482件はCVE Numbering Authoritiesによって確認されました。

Open-source software (OSS) vulnerabilities are increasingly prevalent, emphasizing the importance of security patches. However, in widely used security platforms like NVD, a substantial number of CVE records still lack trace links to patches. Although rank-based approaches have been proposed for security patch tracing, they heavily rely on handcrafted features in a single-step framework, which limits their effectiveness. In this paper, we propose PatchFinder, a two-phase framework with end-to-end correlation learning for better-tracing security patches. In the **initial retrieval** phase, we employ a hybrid patch retriever to account for both lexical and semantic matching based on the code changes and the description of a CVE, to narrow down the search space by extracting those commits as candidates that are similar to the CVE descriptions. Afterwards, in the **re-ranking** phase, we design an end-to-end architecture under the supervised fine-tuning paradigm for learning the semantic correlations between CVE descriptions and commits. In this way, we can automatically rank the candidates based on their correlation scores while maintaining low computation overhead. We evaluated our system against 4,789 CVEs from 532 OSS projects. The results are highly promising: PatchFinder achieves a Recall@10 of 80.63% and a Mean Reciprocal Rank (MRR) of 0.7951. Moreover, the Manual Effort@10 required is curtailed to 2.77, marking a 1.94 times improvement over current leading methods. When applying PatchFinder in practice, we initially identified 533 patch commits and submitted them to the official, 482 of which have been confirmed by CVE Numbering Authorities.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# 時間ネットワークのためのカリキュラム負マイニング

Curriculum Negative Mining For Temporal Networks ( http://arxiv.org/abs/2407.17070v1 )

ライセンス: Link先を確認
Ziyue Chen, Tongya Zheng, Mingli Song, (参考訳) テンポラルネットワークは、ソーシャルネットワークやeコマースネットワークなど、時間とともにネットワークの進化する相互作用を捉えるのに有効である。 近年、研究者は、時間ノードとエッジの表現品質を改善するために、時間グラフニューラルネットワーク(TGNN)の特定のモデルアーキテクチャの開発に集中している。 しかし,TGNNのトレーニングにおいて,陰性サンプルの品質に限定的な注意が払われている。 静的ネットワークと比較すると、時間的ネットワークは、正のスパシティと正のシフトという、負のサンプリングのための2つの特定の課題を提示する。 正のスパーシリティは、各タイムスタンプにおける多くの負のサンプルの中で1つの正のサンプルが存在することを指すが、正のシフトは異なるタイムスタンプにおける正のサンプルの変動に関係している。 TGNNのトレーニングにおけるこれらの課題に頑健に対処するために、負サンプルの難易度を適応的に調整するモデル対応カリキュラム学習フレームワークCurNM(Curculum Negative Mining)を紹介した。 この枠組みの中で、我々はまず、ランダム、歴史的、ハードな負のバランスをとる動的に更新された負のプールを確立し、正の間隔によって生じる課題に対処する。 第2に,最近活動しているエッジの絡み合った要因から学ぶことに焦点を当てた時間認識型ネガティブ選択モジュールを実装し,切り替えの好みを正確に把握する。 12のデータセットと3のTGNNの大規模な実験により、本手法がベースライン法よりも有意なマージンで優れていることが示された。 さらに、徹底的なアブレーション研究とパラメータ感度実験により、我々のアプローチの有用性と堅牢性を検証する。 私たちのコードはhttps://github.com/zziyue83/CurNM.comで利用可能です。

Temporal networks are effective in capturing the evolving interactions of networks over time, such as social networks and e-commerce networks. In recent years, researchers have primarily concentrated on developing specific model architectures for Temporal Graph Neural Networks (TGNNs) in order to improve the representation quality of temporal nodes and edges. However, limited attention has been given to the quality of negative samples during the training of TGNNs. When compared with static networks, temporal networks present two specific challenges for negative sampling: positive sparsity and positive shift. Positive sparsity refers to the presence of a single positive sample amidst numerous negative samples at each timestamp, while positive shift relates to the variations in positive samples across different timestamps. To robustly address these challenges in training TGNNs, we introduce Curriculum Negative Mining (CurNM), a model-aware curriculum learning framework that adaptively adjusts the difficulty of negative samples. Within this framework, we first establish a dynamically updated negative pool that balances random, historical, and hard negatives to address the challenges posed by positive sparsity. Secondly, we implement a temporal-aware negative selection module that focuses on learning from the disentangled factors of recently active edges, thus accurately capturing shifting preferences. Extensive experiments on 12 datasets and 3 TGNNs demonstrate that our method outperforms baseline methods by a significant margin. Additionally, thorough ablation studies and parameter sensitivity experiments verify the usefulness and robustness of our approach. Our code is available at https://github.com/zziyue83/CurNM.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# ベイジアンネットワーク構造学習のための効率的な手法

An Efficient Procedure for Computing Bayesian Network Structure Learning ( http://arxiv.org/abs/2407.17072v1 )

ライセンス: Link先を確認
Hongming Huang, Joe Suzuki, (参考訳) 本稿では,段階的にレベル付けされたスコアリング手法に基づいて,グローバルに最適なベイズネットワーク構造探索アルゴリズムを提案する。 ベイジアンネットワーク構造探索は確率的グラフィカルモデルにおける基本的なNPハード問題であり、変数の数が増えるにつれてメモリ使用量は指数関数的に増加する。 Silander と Myllym\"aki が提案した単純かつ効果的な手法はこの分野で広く応用され、局所的なスコアを漸進的に計算して大域的最適性を達成する。 しかし、ディスクストレージを利用する既存の方法では、多数の変数を持つネットワークを扱うことができながら、レイテンシ、フラグメンテーション、ディスクI/O操作に関連するオーバーヘッドなどの問題を提起している。 これらの問題を回避するため,計算効率をさらに向上し,メモリのみを用いたピークメモリ使用量を削減する方法について検討する。 本研究では,局所構造全体の1つのトラバースしか必要とせず,現在の計算に必要なデータと情報のみを保持する効率的な階層計算手法を導入し,効率を向上し,メモリ要求を大幅に削減する。 実験結果から,本手法はメモリのみを使用する場合,ピークメモリ使用量を削減するだけでなく,既存手法と比較して計算効率も向上し,大規模ネットワークの処理に優れたスケーラビリティを示し,安定した実験結果を示した。 最終的に、28変数のベイズネットワークをメモリのみを用いて処理することに成功しました。

We propose a globally optimal Bayesian network structure discovery algorithm based on a progressively leveled scoring approach. Bayesian network structure discovery is a fundamental yet NP-hard problem in the field of probabilistic graphical models, and as the number of variables increases, memory usage grows exponentially. The simple and effective method proposed by Silander and Myllym\"aki has been widely applied in this field, as it incrementally calculates local scores to achieve global optimality. However, existing methods that utilize disk storage, while capable of handling networks with a larger number of variables, introduce issues such as latency, fragmentation, and additional overhead associated with disk I/O operations. To avoid these problems, we explore how to further enhance computational efficiency and reduce peak memory usage using only memory. We introduce an efficient hierarchical computation method that requires only a single traversal of all local structures, retaining only the data and information necessary for the current computation, thereby improving efficiency and significantly reducing memory requirements. Experimental results indicate that our method, when using only memory, not only reduces peak memory usage but also improves computational efficiency compared to existing methods, demonstrating good scalability for handling larger networks and exhibiting stable experimental results. Ultimately, we successfully achieved the processing of a Bayesian network with 28 variables using only memory.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# コントラスト学習は準周期時系列に最適ではない

Contrastive Learning Is Not Optimal for Quasiperiodic Time Series ( http://arxiv.org/abs/2407.17073v1 )

ライセンス: Link先を確認
Adrian Atienza, Jakob Bardram, Sadasivan Puthusserypady, (参考訳) 時系列分析における自己監視学習(SSL)の最近の進歩にもかかわらず、期待される成果と実際のパフォーマンスとの間には顕著なギャップが持続している。 これらの手法は,各ドメインに最小限のラベルを持つ有意な一般化能力を示すものであるが,注釈付きレコードの限られた数に基づいて異なるクラスを区別する効果は顕著に欠落している。 我々の仮説は、従来のSOTA(State-of-the-art)手法における共有トレーニング目標であるContrastive Learning(コントラシブラーニング)が広く使われていることによる。 異なるレコードから引き出された負のペアの表現の区別を強制することにより、この手法は、ユニークなレコードベースのパターンを符号化するモデルを補完するが、同時にレコード全体で発生する変化を無視する。 本論文では,心電図(ECG)データなどの準周期時系列に適した非コントラスト法を提案する。 負ペアの使用を避けることで、モデルの盲点を時間的変化に緩和するだけでなく、"Gradual Loss (Lgra)"関数の統合も可能にします。 この関数は、レコード全体で進化する動的パターンを効果的にキャプチャするためにモデルを導く。 DEAPSは、学習した表現に基づいて機械学習(ML)モデルに適合するように、いくつかの注釈付きレコードが提示された場合、既存のSOTAメソッドよりも10%も大幅に改善されていることを実証している。

Despite recent advancements in Self-Supervised Learning (SSL) for time series analysis, a noticeable gap persists between the anticipated achievements and actual performance. While these methods have demonstrated formidable generalization capabilities with minimal labels in various domains, their effectiveness in distinguishing between different classes based on a limited number of annotated records is notably lacking. Our hypothesis attributes this bottleneck to the prevalent use of Contrastive Learning, a shared training objective in previous state-of-the-art (SOTA) methods. By mandating distinctiveness between representations for negative pairs drawn from separate records, this approach compels the model to encode unique record-based patterns but simultaneously neglects changes occurring across the entire record. To overcome this challenge, we introduce Distilled Embedding for Almost-Periodic Time Series (DEAPS) in this paper, offering a non-contrastive method tailored for quasiperiodic time series, such as electrocardiogram (ECG) data. By avoiding the use of negative pairs, we not only mitigate the model's blindness to temporal changes but also enable the integration of a "Gradual Loss (Lgra)" function. This function guides the model to effectively capture dynamic patterns evolving throughout the record. The outcomes are promising, as DEAPS demonstrates a notable improvement of +10% over existing SOTA methods when just a few annotated records are presented to fit a Machine Learning (ML) model based on the learned representation.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# SAFETY-J:批判による安全性の評価

SAFETY-J: Evaluating Safety with Critique ( http://arxiv.org/abs/2407.17075v1 )

ライセンス: Link先を確認
Yixiu Liu, Yuxiang Zheng, Shijie Xia, Yuan Guo, Jiajun Li, Yi Tu, Chaoling Song, Pengfei Liu, (参考訳) コンテンツ生成におけるLLM(Large Language Models)の展開は、特にコンテンツ評価の透明性と解釈可能性に関して、重要な安全性上の懸念を提起する。 現在の方法は、主にバイナリ安全性の分類に焦点を当てており、詳細な批判のためのメカニズムが欠如しており、モデルの改善とユーザ信頼のためにその実用性を制限している。 これらの制約に対処するために、批判に基づく判断を伴う英語と中国語のバイリンガル生成安全評価器であるSAFETY-Jを紹介する。 SAFETY-Jは、多様な対話と拡張されたクエリ応答ペアを含む堅牢なトレーニングデータセットを使用して、さまざまなシナリオの安全性を総合的に評価する。 我々は,人間の介入を最小限に抑えて批評の質を客観的に評価し,スケーラブルで継続的な改善を促進する自動メタ評価ベンチマークを確立する。 さらに、SAFETY-Jはメタ評価や批判に基づいて安全性評価を動的に洗練するために反復的な選好学習技術を採用している。 SAFETY-Jはよりニュアンスで正確な安全性評価を提供し、複雑なコンテンツシナリオにおける批判的品質と予測信頼性の両面を向上することを示した。 さらなる研究と応用を容易にするため、SAFETY-Jのトレーニングプロトコル、データセット、コードをオープンソース化します。

The deployment of Large Language Models (LLMs) in content generation raises significant safety concerns, particularly regarding the transparency and interpretability of content evaluations. Current methods, primarily focused on binary safety classifications, lack mechanisms for detailed critique, limiting their utility for model improvement and user trust. To address these limitations, we introduce SAFETY-J, a bilingual generative safety evaluator for English and Chinese with critique-based judgment. SAFETY-J utilizes a robust training dataset that includes diverse dialogues and augmented query-response pairs to assess safety across various scenarios comprehensively. We establish an automated meta-evaluation benchmark that objectively assesses the quality of critiques with minimal human intervention, facilitating scalable and continuous improvement. Additionally, SAFETY-J employs an iterative preference learning technique to dynamically refine safety assessments based on meta-evaluations and critiques. Our evaluations demonstrate that SAFETY-J provides more nuanced and accurate safety evaluations, thereby enhancing both critique quality and predictive reliability in complex content scenarios. To facilitate further research and application, we will open-source SAFETY-J's training protocols, datasets, and code.
翻訳日:2024-07-25 14:33:39 公開日:2024-07-24
# 森林図 : 特定の研究トピックに対する多様性視点の獲得

A Survey Forest Diagram : Gain a Divergent Insight View on a Specific Research Topic ( http://arxiv.org/abs/2407.17081v1 )

ライセンス: Link先を確認
Jinghong Li, Wen Gu, Koichi Ota, Shinobu Hasegawa, (参考訳) 論文数の増加とAI研究の動向により、情報検索や質問応答にジェネレーティブAIが用いられている。 しかし、特定の分野に精通していない初心者研究者は、その分野で異種思考を発達させていないため、生成的AIと相互作用する際の効率を著しく改善しない可能性がある。 本研究は,複数の論文の引用手がかりを提示することにより,研究トピックについて考える初心者研究者を誘導する,詳細な調査林図を作成することを目的としている。

With the exponential growth in the number of papers and the trend of AI research, the use of Generative AI for information retrieval and question-answering has become popular for conducting research surveys. However, novice researchers unfamiliar with a particular field may not significantly improve their efficiency in interacting with Generative AI because they have not developed divergent thinking in that field. This study aims to develop an in-depth Survey Forest Diagram that guides novice researchers in divergent thinking about the research topic by indicating the citation clues among multiple papers, to help expand the survey perspective for novice researchers.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# テキストと画像が混ざらないとき:異常検出のためのバイアス補正言語-画像類似度スコア

When Text and Images Don't Mix: Bias-Correcting Language-Image Similarity Scores for Anomaly Detection ( http://arxiv.org/abs/2407.17083v1 )

ライセンス: Link先を確認
Adam Goodge, Bryan Hooi, Wee Siong Ng, (参考訳) コントラスト言語-画像事前学習(CLIP)は、画像とテキスト入力の埋め込みをアライメントすることで、様々な下流タスクにおいて顕著な性能を達成し、異常検出に大いに期待する。 しかし, 実験実験の結果, テキスト入力の埋め込みは, 画像埋め込みから遠ざかって, 予期せず密集しており, 画像テキスト入力ペアを整列するモデルの対照的な学習目標とは対照的であることがわかった。 この現象は、画像と通常のラベルテキストの埋め込みの類似性のバイアスにより、偽陰性および偽陽性の誤りが発生する「類似性バイアス」を引き起こすことを示す。 このバイアスに対処するために、補助的な外部テキスト入力を用いて、この類似性バイアスを直接考慮するBLISSと呼ばれる新しい手法を提案する。 BLISSは単純で、異常な振る舞いに関する強い帰納バイアスや高価なトレーニングプロセスを必要としない。

Contrastive Language-Image Pre-training (CLIP) achieves remarkable performance in various downstream tasks through the alignment of image and text input embeddings and holds great promise for anomaly detection. However, our empirical experiments show that the embeddings of text inputs unexpectedly tightly cluster together, far away from image embeddings, contrary to the model's contrastive training objective to align image-text input pairs. We show that this phenomenon induces a `similarity bias' - in which false negative and false positive errors occur due to bias in the similarities between images and the normal label text embeddings. To address this bias, we propose a novel methodology called BLISS which directly accounts for this similarity bias through the use of an auxiliary, external set of text inputs. BLISS is simple, it does not require strong inductive biases about anomalous behaviour nor an expensive training process, and it significantly outperforms baseline methods on benchmark image datasets, even when access to normal data is extremely limited.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# OVR: ビデオにおける語彙の時間的反復数のためのデータセット

OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos ( http://arxiv.org/abs/2407.17085v1 )

ライセンス: Link先を確認
Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson, Andrew Zisserman, (参考訳) ビデオに時間的繰り返しのアノテーションのデータセットを導入する。 データセットであるOVRには72Kビデオのアノテーションが含まれており、各アノテーションには繰り返し回数、繰り返しの開始と終了時間、そして何が繰り返されているかのフリーフォームの記述が含まれている。 アノテーションはKineeticsとEgo4Dからソースされたビデオに提供され、それによってExoとEgoの両方の視聴条件をカバーし、さまざまなアクションとアクティビティを持つ。 さらに、OVRはビデオ繰り返しのデータセットよりも桁違いに大きい。 また,最大320フレームの動画をローカライズ・カウント可能なベースライントランスフォーマーベースのカウントモデルOVRCounterを提案する。 モデルは、OVRデータセットに基づいてトレーニングされ、評価され、そのパフォーマンスは、テキストを使用してカウントするターゲットクラスを指定することなく評価される。 パフォーマンスは、前回の繰り返しカウントモデルと比較される。 データセットは、https://sites.google.com/view/openvocabreps/でダウンロードできる。

We introduce a dataset of annotations of temporal repetitions in videos. The dataset, OVR (pronounced as over), contains annotations for over 72K videos, with each annotation specifying the number of repetitions, the start and end time of the repetitions, and also a free-form description of what is repeating. The annotations are provided for videos sourced from Kinetics and Ego4D, and consequently cover both Exo and Ego viewing conditions, with a huge variety of actions and activities. Moreover, OVR is almost an order of magnitude larger than previous datasets for video repetition. We also propose a baseline transformer-based counting model, OVRCounter, that can localise and count repetitions in videos that are up to 320 frames long. The model is trained and evaluated on the OVR dataset, and its performance assessed with and without using text to specify the target class to count. The performance is also compared to a prior repetition counting model. The dataset is available for download at: https://sites.google.com/view/openvocabreps/
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# 量子化学特性のための多要素機械学習の非重要構成評価

Assessing Non-Nested Configurations of Multifidelity Machine Learning for Quantum-Chemical Properties ( http://arxiv.org/abs/2407.17087v1 )

ライセンス: Link先を確認
Vivin Vinod, Peter Zaspel, (参考訳) 量子化学(QC)特性に対するMFML(Multifidelity Machine Learning)は近年,強力な発展を遂げている。 この手法は,高精度な低コストMLモデルのトレーニングデータ生成コストを低減できることが示されている。 このようなセットアップでは、MLモデルは分子測地と、様々な計算化学の精度や忠実度で計算される関心の性質に基づいて訓練される。 これらはMFMLモデルのトレーニングで組み合わせられる。 いくつかの多重忠実度モデルでは、トレーニングデータはネストされる必要があり、全ての忠実度をまたいだ特性を計算するために同じ分子的ジオメトリーを含む。 これらの多重忠実度モデルでは、ネストされた構成の要求は、異なる忠実度でのサンプルの選択中に実行できるサンプリングの種類を制限する。 本研究は,MFMLと最適化MFML(o-MFML)の2つの手法の非ネステッドトレーニングデータの利用を評価する。 この評価は、CheMFiデータセットの多様な分子集合の基底状態エネルギーと最初の垂直励起エネルギーの予測のために行われる。 結果から,MFML法は依然としてトレーニングデータのネスト構造を必要とすることが示唆された。 しかし、o-MFML法は、ネストした構成に匹敵するモデル誤差を持つ非ネスト多重忠実度トレーニングデータに対して有望な結果を示す。

Multifidelity machine learning (MFML) for quantum chemical (QC) properties has seen strong development in the recent years. The method has been shown to reduce the cost of generating training data for high-accuracy low-cost ML models. In such a set-up, the ML models are trained on molecular geometries and some property of interest computed at various computational chemistry accuracies, or fidelities. These are then combined in training the MFML models. In some multifidelity models, the training data is required to be nested, that is the same molecular geometries are included to calculate the property across all the fidelities. In these multifidelity models, the requirement of a nested configuration restricts the kind of sampling that can be performed while selection training samples at different fidelities. This work assesses the use of non-nested training data for two of these multifidelity methods, namely MFML and optimized MFML (o-MFML). The assessment is carried out for the prediction of ground state energies and first vertical excitation energies of a diverse collection of molecules of the CheMFi dataset. Results indicate that the MFML method still requires a nested structure of training data across the fidelities. However, the o-MFML method shows promising results for non-nested multifidelity training data with model errors comparable to the nested configurations.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# 量子ミキサーを用いたライドバーグ原子系マイクロ波センサの応答周波数連続拡大

Continuously Expanding the Response Frequency of Rydberg Atom-Based Microwave Sensor by Using Quantum Mixer ( http://arxiv.org/abs/2407.17088v1 )

ライセンス: Link先を確認
Sheng-Xian Xiao, Tao Wang, (参考訳) ライドバーグ原子を用いたマイクロ波電界測定(MW)は、ライドバーグ状態と個別のMW周波数共鳴に制限されるにもかかわらず、顕著な感度を達成し、顕著な進歩をみせた。 近年、様々な連続周波数測定方式が出現している。 しかし、MWデチューニングが1GHzを超えると、感度は共鳴測定よりも1桁以上低下する。 本稿では、量子ミキサーとヘテロダイン技術と組み合わせて制御された駆動場を利用して応答周波数範囲を拡張し、理論的には無限のスケーラビリティを実現する。 特に、量子混合による2階効果は、正確な電場測定を保証するために慎重に考慮する必要がある。 また, 共振器測定と比較して1GHzを超える遠距離のMWフィールドの感度低下は2倍以下であり, 代替方式よりも数桁の精度向上が見られた。 さらに、制御されたフィールドの強度と周波数を増大させることにより、遠距離補正されたMWフィールドの感度を効率的に向上することができる。 100MHzから2GHzまでのデチューニングには、最適感度値とそれに対応する方法を提案する。 その結果,Rydberg原子系MW受信機は感度が高く,帯域幅も極めて広いことが判明した。

Microwave electric (MW) field measurements utilizing Rydberg atoms have witnessed significant advancements, achieving remarkable sensitivity, albeit limited to discrete MW frequencies resonant with Rydberg states. Recently, various continuous-frequency measurement schemes have emerged. However, when the MW detuning surpasses 1 GHz, the sensitivity degrades by over an order of magnitude compared to resonant measurements. In this paper, we successfully extend the response frequency range by harnessing a controlled driving field in conjunction with a quantum mixer and heterodyne technology, theoretically enabling infinite scalability. Notably, second-order effects stemming from quantum mixing necessitate careful consideration to ensure accurate electric field measurements. In addition, compared to resonant measurements, the sensitivity decline for far-detuned MW fields exceeding 1 GHz is less than twice, representing a significant improvement of several orders of magnitude over alternative schemes. Furthermore, the sensitivity of far-detuned MW fields can be efficiently enhanced by augmenting the intensity and frequency of the controlled field. For detunings ranging from 100 MHz to 2 GHz, we present optimal sensitivity values and the corresponding methods to achieve them. Our findings pave the way for Rydberg atom-based MW receivers characterized by both high sensitivity and an exceptionally broad bandwidth.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# MemBench: 拡散モデルのためのメモリ化されたイメージトリガープロンプトデータセット

MemBench: Memorized Image Trigger Prompt Dataset for Diffusion Models ( http://arxiv.org/abs/2407.17095v1 )

ライセンス: Link先を確認
Chunsan Hong, Tae-Hyun Oh, Minhyuk Sung, (参考訳) 拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収め、多くの商用モデルの開発に繋がった。 しかし、近年の研究では、拡散モデルは特定のプロンプトによってトリガーされた列車データに複製された画像をしばしば生成し、著作権からプライバシーへの懸念まで社会問題を引き起こす可能性があると報告されている。 記憶化を助長するために,拡散モデルのための記憶化緩和法の開発が近年行われている。 それでも、ベンチマークの欠如は、これらの手法の真の有効性の評価を妨げている。 本稿では,画像記憶の緩和手法を評価するための最初のベンチマークであるMemBenchを紹介する。 我々のベンチマークには、近年最も広く使われているモデルであるStable Diffusionに、多数の記憶された画像トリガープロンプトが含まれている。 さらに, トリガープロンプトと一般プロンプトの両方で評価された指標を, トリガープロンプトと一般プロンプトの双方で評価し, 一般プロンプトの性能を維持しつつ, メモリ化問題に対処できるかどうかを検証した。 これは、それまでの作業が見落としていた実践的応用を考えると、重要な展開である。 MemBenchの評価を通じて、既存の画像記憶緩和法の性能がまだ拡散モデルに適用するには不十分であることを検証した。

Diffusion models have achieved remarkable success in Text-to-Image generation tasks, leading to the development of many commercial models. However, recent studies have reported that diffusion models often generate replicated images in train data when triggered by specific prompts, potentially raising social issues ranging from copyright to privacy concerns. To sidestep the memorization, there have been recent studies for developing memorization mitigation methods for diffusion models. Nevertheless, the lack of benchmarks impedes the assessment of the true effectiveness of these methods. In this work, we present MemBench, the first benchmark for evaluating image memorization mitigation methods. Our benchmark includes a large number of memorized image trigger prompts in Stable Diffusion, the most popularly used model nowadays. Furthermore, in contrast to the prior work evaluating mitigation performance only on trigger prompts, we present metrics evaluating on both trigger prompts and general prompts, so that we can see whether mitigation methods address the memorization issue while maintaining performance for general prompts. This is an important development considering the practical applications which previous works have overlooked. Through evaluation on MemBench, we verify that the performance of existing image memorization mitigation methods is still insufficient for application to diffusion models.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# k-スパース注意によるロバスト知識追跡モデルに向けて

Towards Robust Knowledge Tracing Models via k-Sparse Attention ( http://arxiv.org/abs/2407.17097v1 )

ライセンス: Link先を確認
Shuyan Huang, Zitao Liu, Xiangyu Zhao, Weiqi Luo, Jian Weng, (参考訳) 知識追跡(KT)は,学生の過去のインタラクションシーケンスに基づいて,将来のパフォーマンスを予測する問題である。 文脈的長期依存を捕捉する高度な能力により、注意機構は多くの深層学習に基づくKT(DLKT)モデルにおいて重要な要素の1つである。 これらの注目すべきDLKTモデルによって達成された印象的なパフォーマンスにもかかわらず、それらの多くは、特に小規模の教育データセットにおいて、過度に適合するリスクを負うために脆弱であることが多い。 そこで,本稿では,注意に基づくDLKTアプローチの堅牢性と一般化を改善するための,シンプルかつ効果的なフレームワークである「textsc{sparseKT}」を提案する。 具体的には,注目度の高い項目のみを選択するために,k-selectionモジュールを組み込んだ。 本研究では,(1)ソフトスレッショルドなスパース・アテンション,(2)トップ・ドル・スパース・アテンションの2つのスペーシフィケーション・ヒューリスティックスを提案する。 我々は,現在公開されている3つの実世界の教育データセット上の11のKTモデルと比較して,注目のKTモデルが無関係な学生相互作用を排除し,それと同程度の予測性能を持つことを示す。 再現可能な研究を促進するため、私たちはデータを \url{https://github.com/pykt-team/pykt-toolkit}\footnote{} で公開し、そのモデルを \url{https://pykt.org/} の \textsc{pyKT} ベンチマークにマージしました。 と。

Knowledge tracing (KT) is the problem of predicting students' future performance based on their historical interaction sequences. With the advanced capability of capturing contextual long-term dependency, attention mechanism becomes one of the essential components in many deep learning based KT (DLKT) models. In spite of the impressive performance achieved by these attentional DLKT models, many of them are often vulnerable to run the risk of overfitting, especially on small-scale educational datasets. Therefore, in this paper, we propose \textsc{sparseKT}, a simple yet effective framework to improve the robustness and generalization of the attention based DLKT approaches. Specifically, we incorporate a k-selection module to only pick items with the highest attention scores. We propose two sparsification heuristics : (1) soft-thresholding sparse attention and (2) top-$K$ sparse attention. We show that our \textsc{sparseKT} is able to help attentional KT models get rid of irrelevant student interactions and have comparable predictive performance when compared to 11 state-of-the-art KT models on three publicly available real-world educational datasets. To encourage reproducible research, we make our data and code publicly available at \url{https://github.com/pykt-team/pykt-toolkit}\footnote{We merged our model to the \textsc{pyKT} benchmark at \url{https://pykt.org/}.}.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# PiPa++: 自己教師型学習によるドメイン適応セマンティックセマンティックセグメンテーションの統一を目指して

PiPa++: Towards Unification of Domain Adaptive Semantic Segmentation via Self-supervised Learning ( http://arxiv.org/abs/2407.17101v1 )

ライセンス: Link先を確認
Mu Chen, Zhedong Zheng, Yi Yang, (参考訳) 教師なしドメイン適応セグメンテーションは、それらのドメインのラベル付きデータに頼ることなく、ターゲットドメイン上のモデルのセグメンテーション精度を向上させることを目的としている。 ターゲットドメインデータが不足している、あるいは利用できない場合、このアプローチは不可欠である。 ソースドメイン(ラベル付きデータが利用可能な場所)とターゲットドメイン(ラベルなしデータのみが存在する場所)の特徴表現を調整し、モデルがターゲットドメインに適切に一般化できるようにする。 現在のイメージレベルとビデオレベルのドメイン適応は、基盤となるコネクションにもかかわらず、異なるフレームワークと専門的なフレームワーク、トレーニング戦略、最適化を使用して対処されている。 本稿では,(1)クラス内コンパクト性とクラス間分離性を備えた識別的画素ワイド特徴の学習を明示的に促進し,(2)異なるコンテキストや変動に対して同一パッチの堅牢な特徴学習を促進し,(3)動的環境下での時間的連続性学習を可能にする統一的なフレームワークPiPa++を提案する。 デザインされたタスクスマートな対照的なサンプリング戦略により、PiPa++はタスク要求に応じて、より情報に富んだトレーニングサンプルのマイニングを可能にする。 画像レベルの領域適応ベンチマークとビデオレベルの領域適応ベンチマークにおいて,本手法の有効性を実証した。 さらに,提案手法は他のUDA手法と互換性があり,パラメータの追加を伴わずにさらなる性能向上を図ることができる。

Unsupervised domain adaptive segmentation aims to improve the segmentation accuracy of models on target domains without relying on labeled data from those domains. This approach is crucial when labeled target domain data is scarce or unavailable. It seeks to align the feature representations of the source domain (where labeled data is available) and the target domain (where only unlabeled data is present), thus enabling the model to generalize well to the target domain. Current image- and video-level domain adaptation have been addressed using different and specialized frameworks, training strategies and optimizations despite their underlying connections. In this paper, we propose a unified framework PiPa++, which leverages the core idea of ``comparing'' to (1) explicitly encourage learning of discriminative pixel-wise features with intraclass compactness and inter-class separability, (2) promote the robust feature learning of the identical patch against different contexts or fluctuations, and (3) enable the learning of temporal continuity under dynamic environments. With the designed task-smart contrastive sampling strategy, PiPa++ enables the mining of more informative training samples according to the task demand. Extensive experiments demonstrate the effectiveness of our method on both image-level and video-level domain adaption benchmarks. Moreover, the proposed method is compatible with other UDA approaches to further improve the performance without introducing extra parameters.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# 量子チャネルの可視性に対する十分な基準

A Sufficient Criterion for Divisibility of Quantum Channels ( http://arxiv.org/abs/2407.17103v1 )

ライセンス: Link先を確認
Frederik vom Ende, (参考訳) 我々は、ある量子チャネル $\Phi$ が可除であることを保証する単純で次元に依存しない基準、すなわち、非自明な分解 $\Phi=\Phi_1\Phi_2$ が存在することを提示する。 まず "elementary" チャネル $\Phi_2$ を定義し、次に $\Phi\Phi_2^{-1}$ が完全に正であるときに解析する。 この方法で得られる十分条件は、$\Phi$ の明示的な因数分解をもたらそうとするものであり、$\langle x^\perp|\mathcal K_\Phi\mathcal K_\Phi^\perp|x\rangle=\langle x|\mathcal K_\Phi\mathcal K_\Phi\mathcal K_\Phi^\perp|x\rangle=\{0\}$ ここで$\mathcal K_\Phi$ は $\Phi$ のクラウス部分空間であり、$\mathcal K_\Phi^\perp$ はその直交補空間である。 もちろん、線型性を用いることで、この基準は有限個の等式に還元できる。 一般論として、この分割はクラウス階数をさらに低くするので、繰り返しアプリケーション(可能であれば)は、ある意味では「単純な」チャネルに$\Phi$を分解する。 最後に、我々の技術は私たちが選択した特定の基本チャネルに限らないことに注意してください。

We present a simple, dimension-independent criterion which guarantees that some quantum channel $\Phi$ is divisible, i.e.~that there exists a non-trivial factorization $\Phi=\Phi_1\Phi_2$. The idea is to first define an "elementary" channel $\Phi_2$ and then to analyze when $\Phi\Phi_2^{-1}$ is completely positive. The sufficient criterion obtained this way -- which even yields an explicit factorization of $\Phi$ -- is that one has to find orthogonal unit vectors $x,x^\perp$ such that $\langle x^\perp|\mathcal K_\Phi\mathcal K_\Phi^\perp|x\rangle=\langle x|\mathcal K_\Phi\mathcal K_\Phi^\perp|x\rangle=\{0\}$ where $\mathcal K_\Phi$ is the Kraus subspace of $\Phi$ and $\mathcal K_\Phi^\perp$ is its orthogonal complement. Of course, using linearity this criterion can be reduced to finitely many equalities. Generically, this division even lowers the Kraus rank which is why repeated application -- if possible -- results in a factorization of $\Phi$ into in some sense "simple" channels. Finally, be aware that our techniques are not limited to the particular elementary channel we chose.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# Quanv4EO: 準進化型ニューラルネットワークによる地球観測の強化

Quanv4EO: Empowering Earth Observation by means of Quanvolutional Neural Networks ( http://arxiv.org/abs/2407.17108v1 )

ライセンス: Link先を確認
Alessandro Sebastianelli, Francesco Mauro, Giulia Ciabatti, Dario Spiller, Bertrand Le Saux, Paolo Gamba, Silvia Ullo, (参考訳) リモートセンシングされた膨大な量のデータは、地球観測(EO)によって毎日発生し、地球上の様々な国で観測される。 自然災害モニタリング、地球規模の気候変動、都市計画など、さまざまなアプリケーションがこれらのデータを利用している。 リモートセンシングアプリケーションのコンテキストにおいて、これらのビッグデータを使用することによって、多くの課題がもたらされる。 近年、機械学習(ML)とディープラーニング(DL)ベースのアルゴリズムは、これらのデータのより効率的な利用を可能にしている。 本稿は、大量のリモートセンシングデータの処理において、量子コンピューティング技術を活用することへの大きなシフトを取り上げる。 提案したQuanv4EOモデルでは,多次元EOデータを前処理するための準進化法が導入された。 まず、MNISTおよびFashion MNISTデータセットの画像分類タスクにより、その効果を実証し、その後、リモートセンシング画像分類とフィルタリングの能力を示す。 主な知見は,提案モデルが画像分類の精度を維持するだけでなく,従来の手法と比較して,EOのユースケースの約5倍の精度向上を図っていることを示唆している。 さらに、提案するフレームワークは、パラメータサイズの削減と量子カーネルのトレーニングの欠如により、大量のデータセットを処理するためのスケーラビリティの向上を実現している。 これらの進歩は、リモートセンシングアプリケーションにおける古典的アルゴリズムの限界に対処する量子コンピューティングの有望な可能性を強調し、画像データ分類と解析のより効率的で効果的な代替手段を提供する。

A significant amount of remotely sensed data is generated daily by many Earth observation (EO) spaceborne and airborne sensors over different countries of our planet. Different applications use those data, such as natural hazard monitoring, global climate change, urban planning, and more. Many challenges are brought by the use of these big data in the context of remote sensing applications. In recent years, employment of machine learning (ML) and deep learning (DL)-based algorithms have allowed a more efficient use of these data but the issues in managing, processing, and efficiently exploiting them have even increased since classical computers have reached their limits. This article highlights a significant shift towards leveraging quantum computing techniques in processing large volumes of remote sensing data. The proposed Quanv4EO model introduces a quanvolution method for preprocessing multi-dimensional EO data. First its effectiveness is demonstrated through image classification tasks on MNIST and Fashion MNIST datasets, and later on, its capabilities on remote sensing image classification and filtering are shown. Key findings suggest that the proposed model not only maintains high precision in image classification but also shows improvements of around 5\% in EO use cases compared to classical approaches. Moreover, the proposed framework stands out for its reduced parameter size and the absence of training quantum kernels, enabling better scalability for processing massive datasets. These advancements underscore the promising potential of quantum computing in addressing the limitations of classical algorithms in remote sensing applications, offering a more efficient and effective alternative for image data classification and analysis.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# ニューラルデューリングバンド

Neural Dueling Bandits ( http://arxiv.org/abs/2407.17112v1 )

ライセンス: Link先を確認
Arun Verma, Zhongxiang Dai, Xiaoqiang Lin, Patrick Jaillet, Bryan Kian Hsiang Low, (参考訳) コンテキスト・デュエル・バンディットは、学習者のゴールは、過去のコンテキストに対する選択されたアームに対するノイズの多い好みフィードバックを用いて、与えられたコンテキストに対して最適なアームを見つけることである。 しかし、既存のアルゴリズムでは、報酬関数は線形であり、オンラインレコメンデーションやWeb検索結果のランク付けなど、現実の多くのアプリケーションでは複雑で非線形である可能性がある。 この課題を克服するために、ニューラルネットワークを用いて、選択した腕の好みフィードバックを用いて報酬関数を推定する。 本稿では,各ラウンドの腕を効率よく選択するサブ線形後悔保証付き高信頼有界サンプリングとトンプソンサンプリングに基づくアルゴリズムを提案する。 次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。 合成データセットから得られた問題事例に関する実験結果が理論的結果を裏付ける。

Contextual dueling bandit is used to model the bandit problems, where a learner's goal is to find the best arm for a given context using observed noisy preference feedback over the selected arms for the past contexts. However, existing algorithms assume the reward function is linear, which can be complex and non-linear in many real-life applications like online recommendations or ranking web search results. To overcome this challenge, we use a neural network to estimate the reward function using preference feedback for the previously selected arms. We propose upper confidence bound- and Thompson sampling-based algorithms with sub-linear regret guarantees that efficiently select arms in each round. We then extend our theoretical results to contextual bandit problems with binary feedback, which is in itself a non-trivial contribution. Experimental results on the problem instances derived from synthetic datasets corroborate our theoretical results.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# 転移性卵巣癌における局所反応パターンの自己監督的画像登録法

A Self-Supervised Image Registration Approach for Measuring Local Response Patterns in Metastatic Ovarian Cancer ( http://arxiv.org/abs/2407.17114v1 )

ライセンス: Link先を確認
Inês P. Machado, Anna Reithmeir, Fryderyk Kogl, Leonardo Rundo, Gabriel Funingana, Marika Reinius, Gift Mungmeeprued, Zeyu Gao, Cathal McCague, Eric Kerfoot, Ramona Woitek, Evis Sala, Yangming Ou, James Brenton, Julia Schnabel, Mireia Crispin, (参考訳) 高次卵巣癌 (HGSOC) は, 進行転移期に出現する, 空間的, 時間的異質性に特徴付けられる。 進行HGSOC治療における大きな課題は、ネオアジュバント化学療法(NACT)中の複数の部位にわたる腫瘍の局所的変化を効果的にモニタリングし、長期の病態反応と全体の生存を予測することである。 本研究では, 画像特徴抽出のための汎用画像エンコーダを用いた自己教師型デフォルマブル画像登録アルゴリズムを提案する。 本手法は,高度に複雑な腫瘍の変形と治療中の縦断的病変マッチングによる課題に対処する。 複数の疾患部位およびそのマクロ領域における登録変形のジャコビアン決定地図(例えば、低濃度(嚢胞性/壊死性)、高密度(石灰化)、中間密度(軟組織)部分)を用いて、局所的な腫瘍変化を計算する。 汎用画像エンコーダの役割を解明するための一連の実験を行い,HGSOCにおける新補助化学療法における腫瘍負担の変化の定量化への応用について検討した。 この研究は、複雑な多部位HGSOC患者において、NATにより誘発される局所的な腫瘍変化を定量化するための、自己監督型画像登録アプローチの可能性を示す最初のものである。

High-grade serous ovarian carcinoma (HGSOC) is characterised by significant spatial and temporal heterogeneity, typically manifesting at an advanced metastatic stage. A major challenge in treating advanced HGSOC is effectively monitoring localised change in tumour burden across multiple sites during neoadjuvant chemotherapy (NACT) and predicting long-term pathological response and overall patient survival. In this work, we propose a self-supervised deformable image registration algorithm that utilises a general-purpose image encoder for image feature extraction to co-register contrast-enhanced computerised tomography scan images acquired before and after neoadjuvant chemotherapy. This approach addresses challenges posed by highly complex tumour deformations and longitudinal lesion matching during treatment. Localised tumour changes are calculated using the Jacobian determinant maps of the registration deformation at multiple disease sites and their macroscopic areas, including hypo-dense (i.e., cystic/necrotic), hyper-dense (i.e., calcified), and intermediate density (i.e., soft tissue) portions. A series of experiments is conducted to understand the role of a general-purpose image encoder and its application in quantifying change in tumour burden during neoadjuvant chemotherapy in HGSOC. This work is the first to demonstrate the feasibility of a self-supervised image registration approach in quantifying NACT-induced localised tumour changes across the whole disease burden of patients with complex multi-site HGSOC, which could be used as a potential marker for ovarian cancer patient's long-term pathological response and survival.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# EverAdapt: 動的マシン故障診断環境への継続的適応

EverAdapt: Continuous Adaptation for Dynamic Machine Fault Diagnosis Environments ( http://arxiv.org/abs/2407.17117v1 )

ライセンス: Link先を確認
Edward, Mohamed Ragab, Yuecong Xu, Min Wu, Yuecong Xu, Zhenghua Chen, Abdulla Alseiari, Xiaoli Li, (参考訳) 教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、データ駆動型障害診断において重要なソリューションとして登場し、モデルが環境の変化に不適合な領域シフトに対処している。 しかし、常に変化する環境の下では、UDAは、新しいドメインに適応する際、これまで見られた領域ではパフォーマンスが低下する傾向にある。 この制限に対処するために、動的環境における継続的モデル適応に特化して設計されたEverAdaptフレームワークを紹介します。 Central to EverAdaptは、ソースドメイン統計を参照ポイントとして活用し、ドメイン間の特徴表現を標準化する、新しい連続バッチ正規化(CBN)である。 EverAdaptは、以前のドメインの統計情報を保持するだけでなく、新しいシナリオに効果的に適応する。 CBNを補完し、ターゲットドメインの効果的な統合のためのクラス条件付きドメインアライメントモジュールを設計し、メモリ保持を強化するためのサンプル効率のリプレイ戦略を設計する。 実世界のデータセットの実験では、動的環境における堅牢な障害診断を維持する上で、EverAdaptの方が優れていることが示されている。 https://github.com/mohamedr002/EverAdapt

Unsupervised Domain Adaptation (UDA) has emerged as a key solution in data-driven fault diagnosis, addressing domain shift where models underperform in changing environments. However, under the realm of continually changing environments, UDA tends to underperform on previously seen domains when adapting to new ones - a problem known as catastrophic forgetting. To address this limitation, we introduce the EverAdapt framework, specifically designed for continuous model adaptation in dynamic environments. Central to EverAdapt is a novel Continual Batch Normalization (CBN), which leverages source domain statistics as a reference point to standardize feature representations across domains. EverAdapt not only retains statistical information from previous domains but also adapts effectively to new scenarios. Complementing CBN, we design a class-conditional domain alignment module for effective integration of target domains, and a Sample-efficient Replay strategy to reinforce memory retention. Experiments on real-world datasets demonstrate EverAdapt superiority in maintaining robust fault diagnosis in dynamic environments. Our code is available: https://github.com/mohamedr002/EverAdapt
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# 連続学習のためのパラメータ効率の良いファインチューニング:ニューラル・タンジェント・カーネル・パースペクティブ

Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective ( http://arxiv.org/abs/2407.17120v1 )

ライセンス: Link先を確認
Jingren Liu, Zhong Ji, YunLong Yu, Jiale Cao, Yanwei Pang, Jungong Han, Xuelong Li, (参考訳) 連続学習のためのパラメータ効率の良い微調整(PEFT-CL)は、破滅的な忘れ込み問題を軽減しつつ、訓練済みモデルを逐次的なタスクに適応する上で有望である。 しかし、このパラダイムで連続的なパフォーマンスを規定するメカニズムを理解することは、いまだ解明されていない。 この複雑さに対処するため,我々は,ニューラル・タンジェント・カーネル(NTK)理論を用いてPEFT-CL力学の厳密な解析を行い,連続シナリオの関連指標を導出する。 NTKを数学的解析ツールとして活用することにより,これらのギャップに影響を及ぼす3つの要因,およびPEFT-CLの性能(トレーニングサンプルサイズ,タスクレベルの特徴直交性,正規化)を抽出し,学習中の定量化ギャップにテストタイムを忘れることの課題を再考する。 これらの課題に対処するために,タスク関連機能を適応的に生成しながらタスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを導入する。 理論的なガイダンスに従って、NTK-CLは各サンプルの特徴表現を3倍にし、理論的かつ経験的にタスク・インタープレイとタスク固有の一般化ギャップの大きさを減らした。 NTK解析では,タスクレベルの特徴の直交性に適応的な指数的移動平均機構と制約を課し,タスク間NTK形式を減衰させながらタスク内NTK形式を維持する。 最終的に、最適化可能なパラメータを適切な正規化で微調整することで、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。 この研究は、PEFT-CLモデルの理解と改善のための理論的基盤を提供し、特徴表現、タスク直交、一般化の間の相互作用に関する洞察を提供し、より効率的な連続学習システムの開発に寄与する。

Parameter-efficient fine-tuning for continual learning (PEFT-CL) has shown promise in adapting pre-trained models to sequential tasks while mitigating catastrophic forgetting problem. However, understanding the mechanisms that dictate continual performance in this paradigm remains elusive. To tackle this complexity, we undertake a rigorous analysis of PEFT-CL dynamics to derive relevant metrics for continual scenarios using Neural Tangent Kernel (NTK) theory. With the aid of NTK as a mathematical analysis tool, we recast the challenge of test-time forgetting into the quantifiable generalization gaps during training, identifying three key factors that influence these gaps and the performance of PEFT-CL: training sample size, task-level feature orthogonality, and regularization. To address these challenges, we introduce NTK-CL, a novel framework that eliminates task-specific parameter storage while adaptively generating task-relevant features. Aligning with theoretical guidance, NTK-CL triples the feature representation of each sample, theoretically and empirically reducing the magnitude of both task-interplay and task-specific generalization gaps. Grounded in NTK analysis, our approach imposes an adaptive exponential moving average mechanism and constraints on task-level feature orthogonality, maintaining intra-task NTK forms while attenuating inter-task NTK forms. Ultimately, by fine-tuning optimizable parameters with appropriate regularization, NTK-CL achieves state-of-the-art performance on established PEFT-CL benchmarks. This work provides a theoretical foundation for understanding and improving PEFT-CL models, offering insights into the interplay between feature representation, task orthogonality, and generalization, contributing to the development of more efficient continual learning systems.
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# 振る舞いテスト: 大規模言語モデルは曖昧なエンティティを暗黙的に解決できるか?

Behavioral Testing: Can Large Language Models Implicitly Resolve Ambiguous Entities? ( http://arxiv.org/abs/2407.17125v1 )

ライセンス: Link先を確認
Anastasiia Sedova, Robert Litschko, Diego Frassinelli, Benjamin Roth, Barbara Plank, (参考訳) 大規模言語モデル(LLM)の顕著な性能に寄与する主要な側面の1つは、事前学習中に蓄積された膨大な事実知識である。 しかし、多くのLDMは自己整合性に悩まされており、信頼性と信頼性に疑問を呈している。 本稿では,エンティティ型あいまいさに着目し,その能力と一貫性について現状のLCMを解析し,あいまいさのあるエンティティに対して,現実的な知識を適用した。 そこで本研究では,49個のエンティティ上で,知識の適用から知識を逸脱する評価プロトコルを提案し,最先端のLCMをテストした。 実験の結果,LSMは不明瞭なプロンプトで性能が悪く,80%の精度しか達成できないことがわかった。 以上の結果から,LLMの行動の系統的相違や,情報の一貫した適用の失敗が示され,このモデルが活用不可能な知識,好ましくない読みのバイアス,自己の不整合を呈する可能性が示唆された。 我々の研究は、より信頼性の高いLCMのための将来におけるエンティティ曖昧性を扱うことの重要性を強調している。

One of the major aspects contributing to the striking performance of large language models (LLMs) is the vast amount of factual knowledge accumulated during pre-training. Yet, many LLMs suffer from self-inconsistency, which raises doubts about their trustworthiness and reliability. In this paper, we focus on entity type ambiguity and analyze current state-of-the-art LLMs for their proficiency and consistency in applying their factual knowledge when prompted for entities under ambiguity. To do so, we propose an evaluation protocol that disentangles knowing from applying knowledge, and test state-of-the-art LLMs on 49 entities. Our experiments reveal that LLMs perform poorly with ambiguous prompts, achieving only 80% accuracy. Our results further demonstrate systematic discrepancies in LLM behavior and their failure to consistently apply information, indicating that the models can exhibit knowledge without being able to utilize it, significant biases for preferred readings, as well as self inconsistencies. Our study highlights the importance of handling entity ambiguity in future for more trustworthy LLMs
翻訳日:2024-07-25 14:23:43 公開日:2024-07-24
# SDoH-GPT:大規模言語モデルを用いた社会要因の抽出(SDoH)

SDoH-GPT: Using Large Language Models to Extract Social Determinants of Health (SDoH) ( http://arxiv.org/abs/2407.17126v1 )

ライセンス: Link先を確認
Bernardo Consoli, Xizhi Wu, Song Wang, Xinyu Zhao, Yanshan Wang, Justin Rousseau, Tom Hartvigsen, Li Shen, Huanmei Wu, Yifan Peng, Qi Long, Tianlong Chen, Ying Ding, (参考訳) 健康の社会的決定因子(SDoH)を非構造化医療ノートから抽出することは、労働集約的なアノテーションに大きく依存する。 本研究では,SDoH-GPTを導入した。LLM法は,医用アノテーションや人為的介入に頼らずに,SDoHを抽出するための対照的な例と簡潔な指示を活用できる。 これは時間とコストでそれぞれ10倍と20倍の削減を実現し、コーエンのカッパの最大0.92で測定された人間のアノテータとの整合性が向上した。 SDoH-GPTとXGBoostの革新的な組み合わせは両者の強みを活用し、精度と計算効率を確保しつつ、0.90以上のAUROCスコアを一貫して維持する。 3つの異なるデータセットでテストした結果、その堅牢性と正確性が確認された。 本研究は, LLMを医療ノート分類に革命をもたらす可能性を強調し, 時間とコストを大幅に削減して, 高精度な分類を実現する能力を示す。

Extracting social determinants of health (SDoH) from unstructured medical notes depends heavily on labor-intensive annotations, which are typically task-specific, hampering reusability and limiting sharing. In this study we introduced SDoH-GPT, a simple and effective few-shot Large Language Model (LLM) method leveraging contrastive examples and concise instructions to extract SDoH without relying on extensive medical annotations or costly human intervention. It achieved tenfold and twentyfold reductions in time and cost respectively, and superior consistency with human annotators measured by Cohen's kappa of up to 0.92. The innovative combination of SDoH-GPT and XGBoost leverages the strengths of both, ensuring high accuracy and computational efficiency while consistently maintaining 0.90+ AUROC scores. Testing across three distinct datasets has confirmed its robustness and accuracy. This study highlights the potential of leveraging LLMs to revolutionize medical note classification, demonstrating their capability to achieve highly accurate classifications with significantly reduced time and cost.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# 基礎モデルの個人的・社会的・生物圏的影響のマッピング

Mapping the individual, social, and biospheric impacts of Foundation Models ( http://arxiv.org/abs/2407.17129v1 )

ライセンス: Link先を確認
Andrés Domínguez Hernández, Shyam Krishna, Antonella Maia Perini, Michael Katell, SJ Bennett, Ann Borda, Youmna Hashem, Semeli Hadjiloizou, Sabeehah Mahomed, Smera Jayadeva, Mhairi Aitken, David Leslie, (参考訳) ファウンデーションモデル、大規模言語モデル、そして生成AIの迅速なロールアウトと大規模商業化に対応して、新たな仕事の原動力は、これらの技術が社会全体にもたらす無数の影響に光を当てることだ。 このような研究は、差別的、偽物、有害なアウトプットの生産、プライバシーと著作権の侵害から、労働と天然資源の不正な抽出まで幅広い。 英国のAI Safety SummitやG7の広島プロセスなど、世界北部で著名なAIガバナンスイニシアチブのいくつかは、AIガバナンスに関する国際対話の多くに影響を与えている。 多くの注意深い物語とアルゴリズム的害の証拠にもかかわらず、AIガバナンスに関する言論の中で、安全と世界的な破滅的または実在的なリスクに関する技術的な問題に関する過度な議論が進行中である。 この絞り込まれた焦点は、現在のAIアプリケーションの残酷な産業化によって引き起こされる社会的および倫理的課題から注目を集める傾向にある。 このような現実的な結果と投機的リスクの可視的ギャップに対処するために,本論文は,基礎モデルと生成AIの社会的,政治的,環境的側面を考慮に入れた重要な枠組みを提供する。 リスクと害の14のカテゴリを特定し、それらの個人的、社会的、および生物圏的影響に応じてそれらをマッピングする。 基礎モデルとその下流応用の最も急激なネガティブな影響に対処するための統合的な視点を提供する。 我々は、この類型学が技術的、規範的な介入にどのように活用され、責任あるAIを前進させるか、という勧告で締めくくります。

Responding to the rapid roll-out and large-scale commercialization of foundation models, large language models, and generative AI, an emerging body of work is shedding light on the myriad impacts these technologies are having across society. Such research is expansive, ranging from the production of discriminatory, fake and toxic outputs, and privacy and copyright violations, to the unjust extraction of labor and natural resources. The same has not been the case in some of the most prominent AI governance initiatives in the global north like the UK's AI Safety Summit and the G7's Hiroshima process, which have influenced much of the international dialogue around AI governance. Despite the wealth of cautionary tales and evidence of algorithmic harm, there has been an ongoing over-emphasis within the AI governance discourse on technical matters of safety and global catastrophic or existential risks. This narrowed focus has tended to draw attention away from very pressing social and ethical challenges posed by the current brute-force industrialization of AI applications. To address such a visibility gap between real-world consequences and speculative risks, this paper offers a critical framework to account for the social, political, and environmental dimensions of foundation models and generative AI. We identify 14 categories of risks and harms and map them according to their individual, social, and biospheric impacts. We argue that this novel typology offers an integrative perspective to address the most urgent negative impacts of foundation models and their downstream applications. We conclude with recommendations on how this typology could be used to inform technical and normative interventions to advance responsible AI.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# RT-DETRv2:リアルタイム検出変換器のためのバグオブフリービーによるベースライン改善

RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer ( http://arxiv.org/abs/2407.17140v1 )

ライセンス: Link先を確認
Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu, (参考訳) 本稿では,RT-DETR TRansformer (RT-DETR) の改良版 RT-DETRv2 を提案する。 RT-DETRv2は、従来の最先端リアルタイム検出器RT-DETR上に構築され、柔軟性と実用性のための一連のフリービーを開放するとともに、トレーニング戦略を最適化し、性能の向上を実現している。 フレキシビリティを向上させるために,デコーダによって選択的なマルチスケール特徴抽出を実現するために,変形可能な注目度において異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。 実用性を高めるため,RT-DETR に特有の Grid_sample 演算子を YOLO に置き換える,任意の離散サンプリング演算子を提案する。 これにより、一般的にDETRに関連するデプロイメントの制約が取り除かれる。 トレーニング戦略として,速度を落とさずに性能を向上させるため,動的データ拡張とスケール適応型ハイパーパラメータのカスタマイズを提案する。 ソースコードと事前訓練されたモデルはhttps://github.com/lyuwenyu/RT-DETR.comで入手できる。

In this report, we present RT-DETRv2, an improved Real-Time DEtection TRansformer (RT-DETR). RT-DETRv2 builds upon the previous state-of-the-art real-time detector, RT-DETR, and opens up a set of bag-of-freebies for flexibility and practicality, as well as optimizing the training strategy to achieve enhanced performance. To improve the flexibility, we suggest setting a distinct number of sampling points for features at different scales in the deformable attention to achieve selective multi-scale feature extraction by the decoder. To enhance practicality, we propose an optional discrete sampling operator to replace the grid_sample operator that is specific to RT-DETR compared to YOLOs. This removes the deployment constraints typically associated with DETRs. For the training strategy, we propose dynamic data augmentation and scale-adaptive hyperparameters customization to improve performance without loss of speed. Source code and pre-trained models will be available at https://github.com/lyuwenyu/RT-DETR.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# SimCT: LLM開発ライフサイクルにおける簡易一貫性テストプロトコル

SimCT: A Simple Consistency Test Protocol in LLMs Development Lifecycle ( http://arxiv.org/abs/2407.17150v1 )

ライセンス: Link先を確認
Fufangchen Zhao, Guoqiang Jin, Rui Zhao, Jiangheng Huang, Fei Tan, (参考訳) 本稿では,Large Language Models (LLMs) や LLMs ベースのシステムやサービスを産業で開発するための,標準的な運用手順の策定に向けた取り組みについて報告する。 我々は,LDLC(Large Language Model Development Lifecycle)の概念を導入し,デリバリ品質を保証する上での一貫性テストの重要性を強調した。 しかし、一貫性テストの原則的な解決策は、通常、産業従事者によって見落とされ、アカデミアでは緊急ではなく、現在の実践的な解決策は厳密で労働集約的なものである。 そこで我々は,SimCTという,シンプルで効果的な一貫性テストプロトコルを提案する。 SimCTは、主に、モデルアーティファクトにアクセスすることなく、"ベアメタル" LLM または関連するサービスの異なる開発段階間の一貫性を積極的にチェックし、異なる開発段階に関わる複数のチーム間のバック・フォー・フォー・アライメント通信を減らし、デリバリを迅速化する試みである。 具体的には、SimCTはレスポンスワイドおよびモデルワイドテストを含んでいる。 本プロトコルは,2つのコンポーネントに対してそれぞれLightGBMと学生のt-testを実装し,SimCTと関連するコンポーネントの有効性を実証するための広範囲な実験を行う。

In this work, we report our efforts to advance the standard operation procedure of developing Large Language Models (LLMs) or LLMs-based systems or services in industry. We introduce the concept of Large Language Model Development Lifecycle (LDLC) and then highlight the importance of consistency test in ensuring the delivery quality. The principled solution of consistency test, however, is usually overlooked by industrial practitioners and not urgent in academia, and current practical solutions are insufficiently rigours and labor-intensive. We thus propose a simple yet effective consistency test protocol, named SimCT. SimCT is mainly to proactively check the consistency across different development stages of "bare metal" LLMs or associated services without accessing the model artifacts, in an attempt to expedite the delivery by reducing the back-and-forth alignment communications among multiple teams involved in different development stages. Specifically, SimCT encompasses response-wise and model-wise tests. We implement the protocol with LightGBM and Student's t-test for two components respectively, and perform extensive experiments to substantiate the effectiveness of SimCT and the involved components.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# XMeCap: サブイメージ適応性を備えたミームキャプション生成

XMeCap: Meme Caption Generation with Sub-Image Adaptability ( http://arxiv.org/abs/2407.17152v1 )

ライセンス: Link先を確認
Yuyan Chen, Songzhou Yan, Zhihong Zhu, Zhixu Li, Yanghua Xiao, (参考訳) 社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。 自然言語処理の進歩はあったが、現実世界のユーモアは、しばしばマルチモーダルな文脈で繁栄し、ミームによって独特にカプセル化されている。 本稿では,マルチイメージがミームキャプションに与える影響を特に強調する。 その後、革新的報酬モデルに基づく教師付き微調整と強化学習を取り入れた新しいアプローチである「textsc{XMeCap} framework」を導入する。 また,同時代のモデルに対してベンチマークを行った結果,単一画像および複数画像のミームと異なるミームカテゴリのキャプション生成に顕著な改善が認められた。 \textsc{XMeCap} は、シングルイメージのミームの平均評価スコアが 75.85 であり、マルチイメージのミームは 66.32 であり、それぞれ最高のベースラインを 3.71 % と 4.82 % で上回っている。 この研究は、ミーム関連研究における新たなフロンティアを確立するだけでなく、マルチモーダル環境でのユーモアの理解と生成における機械の可能性も浮き彫りにしている。

Humor, deeply rooted in societal meanings and cultural details, poses a unique challenge for machines. While advances have been made in natural language processing, real-world humor often thrives in a multi-modal context, encapsulated distinctively by memes. This paper poses a particular emphasis on the impact of multi-images on meme captioning. After that, we introduce the \textsc{XMeCap} framework, a novel approach that adopts supervised fine-tuning and reinforcement learning based on an innovative reward model, which factors in both global and local similarities between visuals and text. Our results, benchmarked against contemporary models, manifest a marked improvement in caption generation for both single-image and multi-image memes, as well as different meme categories. \textsc{XMeCap} achieves an average evaluation score of 75.85 for single-image memes and 66.32 for multi-image memes, outperforming the best baseline by 3.71\% and 4.82\%, respectively. This research not only establishes a new frontier in meme-related studies but also underscores the potential of machines in understanding and generating humor in a multi-modal setting.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# FIIH:安全でロバストな画像隠蔽

FIIH: Fully Invertible Image Hiding for Secure and Robust ( http://arxiv.org/abs/2407.17155v1 )

ライセンス: Link先を確認
Lang Huang, Lin Huo, Zheng Gan, Xinrong He, (参考訳) 画像隠蔽(英: Image hidden)とは、秘密の画像をコンテナイメージに埋め込み、ステゴ画像を生成し、通常の画像と外観的に類似させる隠蔽と透過の技法の研究である。 しかし、既存の画像隠蔽法では、隠蔽処理が完全には逆転できないという深刻な問題があり、それによって秘密画像を無傷で復元できないネットワークとなり、セキュアでないネットワーク環境において、秘密画像の高忠実性とセキュアな送信を同時に行うことが不可能となる。 この問題を解決するために,本研究では,データとネットワークの両方で非可逆な秘密画像の非可逆的隠蔽を実現するために,可逆的ニューラルネットワークに基づく完全可逆的画像隠蔽アーキテクチャを提案する。 この巧妙なアーキテクチャに基づいて、深層学習に基づく画像ステガナリシスに耐えることができる。 また,伝送中の干渉後のステゴ画像のロバスト性を向上させる新しい手法を提案する。 実験により、本論文で提案したFIIHは、単一の画像を隠す際に、他の最先端画像隠蔽法よりも大幅に優れ、また、ロバスト性やセキュリティにおいて、他の最先端画像隠蔽法よりも著しく優れていることが示された。

Image hiding is the study of techniques for covert storage and transmission, which embeds a secret image into a container image and generates stego image to make it similar in appearance to a normal image. However, existing image hiding methods have a serious problem that the hiding and revealing process cannot be fully invertible, which results in the revealing network not being able to recover the secret image losslessly, which makes it impossible to simultaneously achieve high fidelity and secure transmission of the secret image in an insecure network environment. To solve this problem,this paper proposes a fully invertible image hiding architecture based on invertible neural network,aiming to realize invertible hiding of secret images,which is invertible on both data and network. Based on this ingenious architecture, the method can withstand deep learning based image steganalysis. In addition, we propose a new method for enhancing the robustness of stego images after interference during transmission. Experiments demonstrate that the FIIH proposed in this paper significantly outperforms other state-of-the-art image hiding methods in hiding a single image, and also significantly outperforms other state-of-the-art methods in robustness and security.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# 強化学習手法を用いた自転車モデルの経路追従と安定化

Path Following and Stabilisation of a Bicycle Model using a Reinforcement Learning Approach ( http://arxiv.org/abs/2407.17156v1 )

ライセンス: Link先を確認
Sebastian Weyrer, Peter Manzl, A. L. Schwab, Johannes Gerstmayr, (参考訳) 長年にわたり、自転車の動きを制御するための複雑な制御手法が開発されてきた。 マシンラーニングのブランチである強化学習(RL)は、いわゆるエージェントのデプロイを容易にする。 展開エージェントは、機械システムのコントローラに代わるものとして、ますます考えられている。 本研究は、仮想自転車モデルを用いて経路追従を行うためのRLアプローチを導入し、同時に横に安定化させる。 この自転車は、Whippleベンチマークモデルとしてモデル化され、マルチボディシステムのダイナミクスを使用している。 エージェントは、PDコントローラを介してステアリングトルクに変換するステアリング角を出力することによって、自転車モデルの経路追従及び安定化を両立させる。 カリキュラム学習は最先端の訓練戦略として応用される。 実装されたRLフレームワークの異なる設定について検討し、比較した。 デプロイされたエージェントの性能は、異なる種類のパスと測定値を用いて評価される。 展開エージェントが2m/sから7m/sの間を走行する自転車モデルの経路追従と安定化を行う能力は、全円、スラローム運動、車線変化を含む複雑な経路に沿って行われる。 機械学習のための説明的手法は、デプロイされたエージェントの機能を分析し、導入したRLアプローチと自転車力学の分野の研究を結びつけるために用いられる。

Over the years, complex control approaches have been developed to control the motion of a bicycle. Reinforcement Learning (RL), a branch of machine learning, promises easy deployment of so-called agents. Deployed agents are increasingly considered as an alternative to controllers for mechanical systems. The present work introduces an RL approach to do path following with a virtual bicycle model while simultaneously stabilising it laterally. The bicycle, modelled as the Whipple benchmark model and using multibody system dynamics, has no stabilisation aids. The agent succeeds in both path following and stabilisation of the bicycle model exclusively by outputting steering angles, which are converted into steering torques via a PD controller. Curriculum learning is applied as a state-of-the-art training strategy. Different settings for the implemented RL framework are investigated and compared to each other. The performance of the deployed agents is evaluated using different types of paths and measurements. The ability of the deployed agents to do path following and stabilisation of the bicycle model travelling between 2m/s and 7m/s along complex paths including full circles, slalom manoeuvres, and lane changes is demonstrated. Explanatory methods for machine learning are used to analyse the functionality of a deployed agent and link the introduced RL approach with research in the field of bicycle dynamics.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# 深層学習における全スライド画像予測と診断証拠部分領域の完全因果関係の確立

Establishing Truly Causal Relationship Between Whole Slide Image Predictions and Diagnostic Evidence Subregions in Deep Learning ( http://arxiv.org/abs/2407.17157v1 )

ライセンス: Link先を確認
Tianhang Nan, Yong Ding, Hao Quan, Deliang Li, Mingchen Zou, Xiaoyu Cui, (参考訳) 深層学習駆動型全スライド画像(WSI)分類の分野では、スライドレベルの診断ラベルのみを用いてトレーニングできるため、MIL(Multiple Instance Learning)が注目されている。 これまでのMILの研究は、WSIをグローバルに分析するための特徴集約器の強化に重点を置いていたが、診断における因果関係を見落としている。 この限界に対処し、モデル予測と診断証拠領域の真の因果関係を確立するために、因果推論多重インスタンス学習(CI-MIL)を提案する。 CI-MILは、特徴蒸留と新しいパッチデコリレーション機構を統合し、2段階の因果推論アプローチを用いて、高い診断値のパッチを蒸留および処理する。 当初、CI-MILは特徴蒸留を利用して腫瘍細胞を含む可能性のあるパッチを同定し、対応する特徴表現を抽出する。 これらの特徴はランダムなフーリエ特徴空間にマッピングされ、学習可能な重み付けスキームを用いて、機能間相関を最小化し、同種パッチからの冗長性を効果的に低減し、データのバイアスを軽減する。 これらのプロセスは、モデル予測と診断関連領域の因果関係を強化し、予測をより直接的で信頼性の高いものにする。 実験の結果,CI-MILは最先端の手法よりも優れていた。 さらに、CI-MILは、その選択された領域が地上の真実のアノテーションと高い一貫性を示し、病理学者にとってより信頼性の高い診断支援を約束しているため、優れた解釈可能性を示す。

In the field of deep learning-driven Whole Slide Image (WSI) classification, Multiple Instance Learning (MIL) has gained significant attention due to its ability to be trained using only slide-level diagnostic labels. Previous MIL researches have primarily focused on enhancing feature aggregators for globally analyzing WSIs, but overlook a causal relationship in diagnosis: model's prediction should ideally stem solely from regions of the image that contain diagnostic evidence (such as tumor cells), which usually occupy relatively small areas. To address this limitation and establish the truly causal relationship between model predictions and diagnostic evidence regions, we propose Causal Inference Multiple Instance Learning (CI-MIL). CI-MIL integrates feature distillation with a novel patch decorrelation mechanism, employing a two-stage causal inference approach to distill and process patches with high diagnostic value. Initially, CI-MIL leverages feature distillation to identify patches likely containing tumor cells and extracts their corresponding feature representations. These features are then mapped to random Fourier feature space, where a learnable weighting scheme is employed to minimize inter-feature correlations, effectively reducing redundancy from homogenous patches and mitigating data bias. These processes strengthen the causal relationship between model predictions and diagnostically relevant regions, making the prediction more direct and reliable. Experimental results demonstrate that CI-MIL outperforms state-of-the-art methods. Additionally, CI-MIL exhibits superior interpretability, as its selected regions demonstrate high consistency with ground truth annotations, promising more reliable diagnostic assistance for pathologists.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# バイリンガルおよびトリリンガルWav2Vecモデルによる多言語口頭史アーカイブの自動音声認識の比較分析

A Comparative Analysis of Bilingual and Trilingual Wav2Vec Models for Automatic Speech Recognition in Multilingual Oral History Archives ( http://arxiv.org/abs/2407.17160v1 )

ライセンス: Link先を確認
Jan Lehečka, Josef V. Psutka, Luboš Šmídl, Pavel Ircing, Josef Psutka, (参考訳) 本稿では,単言語Wav2Vec 2.0モデルと多言語モデルを比較し,混合文を含む独自の口頭歴史アーカイブにおける音声認識性能を向上できるかを検討する。 私たちの主な目標は、このユニークなデータセットの研究を前進させることです。 以上の結果から,非母語話者の混合文を多言語モデルで処理した場合においても,単言語音声認識モデルは多言語モデルよりも優れていることが示唆された。 また、公開CommonVoiceデータセットで同じ実験を行い、結果を確認しました。 トレーニング済みのモデルを一般公開することで、リサーチコミュニティにコントリビュートしています。

In this paper, we are comparing monolingual Wav2Vec 2.0 models with various multilingual models to see whether we could improve speech recognition performance on a unique oral history archive containing a lot of mixed-language sentences. Our main goal is to push forward research on this unique dataset, which is an extremely valuable part of our cultural heritage. Our results suggest that monolingual speech recognition models are, in most cases, superior to multilingual models, even when processing the oral history archive full of mixed-language sentences from non-native speakers. We also performed the same experiments on the public CommonVoice dataset to verify our results. We are contributing to the research community by releasing our pre-trained models to the public.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# 量子教師付き学習

Quantum Supervised Learning ( http://arxiv.org/abs/2407.17161v1 )

ライセンス: Link先を確認
Antonio Macaluso, (参考訳) 量子コンピューティングの最近の進歩は、複雑な計算課題に取り組むための先進的なソリューションとして位置づけられ、教師あり学習はその応用の有望な領域として浮上している。 この可能性にもかかわらず、量子機械学習の分野はまだ初期段階にあり、近い将来の量子優位性に関する懐疑的なレベルが持続している。 本稿では、従来の機械学習の原則を量子機械学習の進歩と共に効果的にブリッジし、教師付き学習のための現在の量子アルゴリズムに関する古典的な視点を提供することを目的とする。 具体的には、古典的方法論の前提条件から導かれ、量子アプローチの潜在的影響を解明するために、量子機械学習文学の主要な焦点から分岐する研究軌道をグラフ化する。 本研究の目的は,古典的手法と量子的手法の収束の理解を深めることであり,量子機械学習分野における古典的実践者の関与を促進することにある。

Recent advancements in quantum computing have positioned it as a prospective solution for tackling intricate computational challenges, with supervised learning emerging as a promising domain for its application. Despite this potential, the field of quantum machine learning is still in its early stages, and there persists a level of skepticism regarding a possible near-term quantum advantage. This paper aims to provide a classical perspective on current quantum algorithms for supervised learning, effectively bridging traditional machine learning principles with advancements in quantum machine learning. Specifically, this study charts a research trajectory that diverges from the predominant focus of quantum machine learning literature, originating from the prerequisites of classical methodologies and elucidating the potential impact of quantum approaches. Through this exploration, our objective is to deepen the understanding of the convergence between classical and quantum methods, thereby laying the groundwork for future advancements in both domains and fostering the involvement of classical practitioners in the field of quantum machine learning.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# 歩行者インテントのコンテキスト認識型マルチタスク学習と軌道予測

Context-aware Multi-task Learning for Pedestrian Intent and Trajectory Prediction ( http://arxiv.org/abs/2407.17162v1 )

ライセンス: Link先を確認
Farzeen Munir, Tomasz Piotr Kucner, (参考訳) 社会的に認識された自動運転車の進歩は、人間の行動の正確なモデリングに依存している。 この幅広いパラダイムの中で、特定の課題は歩行者の軌道と意図を正確に予測することにある。 伝統的な方法論は歴史的軌跡データに大きく依存しており、しばしば歩行者特有の特徴や環境要因といった重要な状況の手がかりを見落としている。 さらに、軌跡と意図予測は、相互依存にもかかわらず、主に別の問題としてアプローチされてきたため、顕著な知識ギャップがある。 このギャップを埋めるために,過去の軌道観測,局所的状況的特徴(個人的歩行者行動),グローバルな特徴(標識,マーキングなど)を組み合わせることで,軌道と意図の予測を共同で学習するPTINet(Pedestrian Trajectory and Intention Prediction Network)を紹介した。 提案手法の有効性は, JAAD と PIE で評価され, 軌道および意図予測における既存の最先端モデルよりも優れた性能を示した。 本実験およびアブレーション研究の結果は,歩行者行動モデリングのための意図と軌道予測を共同で検討する上で,PTINetの有効性を確実に検証した。 実験により, 歩行者軌跡と意図予測にグローバル・ローカル・コンテクスト的特徴を用いることの利点が示された。 歩行者行動予測におけるPTINetの有効性は、都市部における歩行者とのシームレスな対話が可能な自動システムの開発の道を開くものである。

The advancement of socially-aware autonomous vehicles hinges on precise modeling of human behavior. Within this broad paradigm, the specific challenge lies in accurately predicting pedestrian's trajectory and intention. Traditional methodologies have leaned heavily on historical trajectory data, frequently overlooking vital contextual cues such as pedestrian-specific traits and environmental factors. Furthermore, there's a notable knowledge gap as trajectory and intention prediction have largely been approached as separate problems, despite their mutual dependence. To bridge this gap, we introduce PTINet (Pedestrian Trajectory and Intention Prediction Network), which jointly learns the trajectory and intention prediction by combining past trajectory observations, local contextual features (individual pedestrian behaviors), and global features (signs, markings etc.). The efficacy of our approach is evaluated on widely used public datasets: JAAD and PIE, where it has demonstrated superior performance over existing state-of-the-art models in trajectory and intention prediction. The results from our experiments and ablation studies robustly validate PTINet's effectiveness in jointly exploring intention and trajectory prediction for pedestrian behaviour modelling. The experimental evaluation indicates the advantage of using global and local contextual features for pedestrian trajectory and intention prediction. The effectiveness of PTINet in predicting pedestrian behavior paves the way for the development of automated systems capable of seamlessly interacting with pedestrians in urban settings.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# dlordinal: 詳細な順序分類のためのPythonパッケージ

dlordinal: a Python package for deep ordinal classification ( http://arxiv.org/abs/2407.17163v1 )

ライセンス: Link先を確認
Francisco Bérchez-Moreno, Víctor M. Vargas, Rafael Ayllón-Gavilán, David Guijo-Rubio, César Hervás-Martínez, Juan C. Fernández, Pedro A. Gutiérrez, (参考訳) dlordinalは新しいPythonライブラリで、文献で利用可能な多くの最近のディープ順序分類方法論を統合する。 基礎となるフレームワークとしてPyTorchを使用して開発されたこのフレームワークは、日常的な分類問題に対して、最先端のディープラーニング技術を実装している。 通常のアプローチは、ターゲット変数に存在する順序付け情報を活用するように設計されている。 具体的には、損失関数、様々な出力層、ドロップアウトテクニック、ソフトラベリング手法、その他の分類戦略を含み、これらすべてが順序情報を適切に組み込むように設計されている。 さらに、順序分類における新規提案を評価するための性能指標は、順序尺度における目標クラスと予測クラスの距離に依存するため、適切な順序評価指標も含んでいる。 dlordinalはBSD-3-Clauseライセンスで配布されており、https://github.com/ayrna/dlordinal.comで入手できる。

dlordinal is a new Python library that unifies many recent deep ordinal classification methodologies available in the literature. Developed using PyTorch as underlying framework, it implements the top performing state-of-the-art deep learning techniques for ordinal classification problems. Ordinal approaches are designed to leverage the ordering information present in the target variable. Specifically, it includes loss functions, various output layers, dropout techniques, soft labelling methodologies, and other classification strategies, all of which are appropriately designed to incorporate the ordinal information. Furthermore, as the performance metrics to assess novel proposals in ordinal classification depend on the distance between target and predicted classes in the ordinal scale, suitable ordinal evaluation metrics are also included. dlordinal is distributed under the BSD-3-Clause license and is available at https://github.com/ayrna/dlordinal.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# 事象と発生の両方のラベルノイズ下でのロバストな深部ホークス過程

Robust Deep Hawkes Process under Label Noise of Both Event and Occurrence ( http://arxiv.org/abs/2407.17164v1 )

ライセンス: Link先を確認
Xiaoyu Tan, Bin Li, Xihe Qiu, Jingjing Huang, Yinghui Xu, Wei Chu, (参考訳) ディープニューラルネットワークとホークスプロセスを統合することで、ファイナンス、健康情報学、情報技術における予測能力が大幅に向上した。 それにもかかわらず、これらのモデルは実世界の環境、特にかなりのラベルノイズのためにしばしば課題に直面している。 この問題は、電子カルテや誤診の遅れによってラベルノイズが発生し、予測リスクが増大する医療分野において重要な関心事である。 我々の研究は、ディープホークスプロセスモデルがラベルノイズを扱うとき、特にイベントタイプとタイミングに影響を及ぼすとき、ロバスト性を低下させることを示唆している。 これらの課題に対処するために、まず、近似強度関数におけるラベルノイズの影響について検討し、新しいフレームワークであるRDHP(Robust Deep Hawkes Process)を提案し、これらの事象とその発生を考慮し、ラベルノイズがホークスモデルの強度関数に与える影響を克服する。 我々は,複数のオープンソースベンチマークと合成ノイズを用いてRDHPを試験し,本質的なラベル付き実環境において閉塞性睡眠時無呼吸症候群(OSAHS)の症例的検討を行った。 その結果,RDHPはイベントやそのタイミングに関するノイズがあっても,分類や回帰処理を効果的に行うことができることがわかった。 私たちの知る限りでは、ディープホークスプロセスモデルにおけるイベントとタイムラベルのノイズに対処し、医療応用、特にOSAHSの診断において有望なソリューションを提供する最初の研究である。

Integrating deep neural networks with the Hawkes process has significantly improved predictive capabilities in finance, health informatics, and information technology. Nevertheless, these models often face challenges in real-world settings, particularly due to substantial label noise. This issue is of significant concern in the medical field, where label noise can arise from delayed updates in electronic medical records or misdiagnoses, leading to increased prediction risks. Our research indicates that deep Hawkes process models exhibit reduced robustness when dealing with label noise, particularly when it affects both event types and timing. To address these challenges, we first investigate the influence of label noise in approximated intensity functions and present a novel framework, the Robust Deep Hawkes Process (RDHP), to overcome the impact of label noise on the intensity function of Hawkes models, considering both the events and their occurrences. We tested RDHP using multiple open-source benchmarks with synthetic noise and conducted a case study on obstructive sleep apnea-hypopnea syndrome (OSAHS) in a real-world setting with inherent label noise. The results demonstrate that RDHP can effectively perform classification and regression tasks, even in the presence of noise related to events and their timing. To the best of our knowledge, this is the first study to successfully address both event and time label noise in deep Hawkes process models, offering a promising solution for medical applications, specifically in diagnosing OSAHS.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# 集中治療室における多剤耐性獲得の時間的不規則分類のための説明可能な人工知能技術

Explainable Artificial Intelligence Techniques for Irregular Temporal Classification of Multidrug Resistance Acquisition in Intensive Care Unit Patients ( http://arxiv.org/abs/2407.17165v1 )

ライセンス: Link先を確認
Óscar Escudero-Arnanz, Cristina Soguero-Ruiz, Joaquín Álvarez-Rodríguez, Antonio G. Marques, (参考訳) 抗微生物抵抗性は集中治療室 (ICU) において重要な課題であり, 患者は多剤耐性 (MDR) 感染のリスクが高い。 本研究では,GRU(Gated Recurrent Units, GRUs)と高度な内在的, ポストホック的解釈可能性技術を統合し, 経時的にMDRの発症を検出する手法を提案する。 本稿では,不規則な多変量時間系列(MTS)を扱うための説明可能な人工知能(XAI)手法を提案する。 本手法はICU患者のMDRに関連する特定の危険因子を同定することを目的としている。 アダマールの注意を引いたGRUは、長期間のICU滞在中の感染リスクの増加に関連して、高い初期特異性を示し、時間とともに感受性を高めた。 アダマール・アテンションとIT-SHAPによって強化されたXAI分析は、以前の非耐性培養、特定の抗生物質の使用パターン、病院の環境動態などの重要な要因を特定した。 これらの知見は、リスクの高い患者を早期に検出することは、予防的隔離や治療のカスタマイズといった介入を通知し、臨床成績を著しく改善する可能性があることを示唆している。 時間的分類のためのGRUモデルは78.27+-1.26の曲線の下での平均受信特性領域を達成し、高い予測性能を示した。 本研究は,予測精度と解釈可能性を組み合わせることで,専門家によるより効果的な医療介入を促進する手法の臨床的有用性を強調した。

Antimicrobial Resistance represents a significant challenge in the Intensive Care Unit (ICU), where patients are at heightened risk of Multidrug-Resistant (MDR) infections-pathogens resistant to multiple antimicrobial agents. This study introduces a novel methodology that integrates Gated Recurrent Units (GRUs) with advanced intrinsic and post-hoc interpretability techniques for detecting the onset of MDR in patients across time. Within interpretability methods, we propose Explainable Artificial Intelligence (XAI) approaches to handle irregular Multivariate Time Series (MTS), introducing Irregular Time Shapley Additive Explanations (IT-SHAP), a modification of Shapley Additive Explanations designed for irregular MTS with Recurrent Neural Networks focused on temporal outputs. Our methodology aims to identify specific risk factors associated with MDR in ICU patients. GRU with Hadamard's attention demonstrated high initial specificity and increasing sensitivity over time, correlating with increased nosocomial infection risks during prolonged ICU stays. XAI analysis, enhanced by Hadamard attention and IT-SHAP, identified critical factors such as previous non-resistant cultures, specific antibiotic usage patterns, and hospital environment dynamics. These insights suggest that early detection of at-risk patients can inform interventions such as preventive isolation and customized treatments, significantly improving clinical outcomes. The proposed GRU model for temporal classification achieved an average Receiver Operating Characteristic Area Under the Curve of 78.27 +- 1.26 over time, indicating strong predictive performance. In summary, this study highlights the clinical utility of our methodology, which combines predictive accuracy with interpretability, thereby facilitating more effective healthcare interventions by professionals.
翻訳日:2024-07-25 14:14:00 公開日:2024-07-24
# チェコ語音声T5モデルを用いたゼロショット対Few-Shot Multi-Speaker TTS

Zero-Shot vs. Few-Shot Multi-Speaker TTS Using Pre-trained Czech SpeechT5 Model ( http://arxiv.org/abs/2407.17167v1 )

ライセンス: Link先を確認
Jan Lehečka, Zdeněk Hanzlíček, Jindřich Matoušek, Daniel Tihelka, (参考訳) 本稿では,大規模データセット上で事前学習したSpeechT5モデルを実験した。 基礎モデルをスクラッチから事前訓練し,大規模頑健なマルチ話者テキスト音声(TTS)タスクで微調整した。 ゼロショットと少数ショットのシナリオでモデル機能をテストしました。 2つの聴力試験に基づいて,合成音声の音質と,合成音声が実際の音声とどのように類似しているかを評価した。 その結果,SpeechT5モデルは,対象話者の1分間のデータのみを用いて,任意の話者に対して合成音声を生成することができることがわかった。 チェコの政治家や有名人に対して、私たちの合成音声の質の高さと類似性を実証することに成功しました。

In this paper, we experimented with the SpeechT5 model pre-trained on large-scale datasets. We pre-trained the foundation model from scratch and fine-tuned it on a large-scale robust multi-speaker text-to-speech (TTS) task. We tested the model capabilities in a zero- and few-shot scenario. Based on two listening tests, we evaluated the synthetic audio quality and the similarity of how synthetic voices resemble real voices. Our results showed that the SpeechT5 model can generate a synthetic voice for any speaker using only one minute of the target speaker's data. We successfully demonstrated the high quality and similarity of our synthetic voices on publicly known Czech politicians and celebrities.
翻訳日:2024-07-25 14:13:59 公開日:2024-07-24
# SWIN変換器を用いた領域一般化再キャプチャ画像識別

Domain Generalized Recaptured Screen Image Identification Using SWIN Transformer ( http://arxiv.org/abs/2407.17170v1 )

ライセンス: Link先を確認
Preeti Mehta, Aman Sagar, Suchi Kumari, (参考訳) イメージリブロードキャストと再適応の問題、保険詐欺、顔の偽造、ビデオ海賊行為の標準的な攻撃戦略に対処するために、多くの分類手法が開発されている。 しかし、そのほとんどはスケールのバリエーションやドメインの一般化のシナリオを無視し、ドメインシフトを伴うインスタンスではパフォーマンスが悪く、ドメイン間とドメイン間のスケールのばらつきによって一般的に悪化した。 これらの課題を克服するために,本研究では,データセット表現の相違について検討し,現在研究中のデータ拡張とSWIN変換器領域一般化フレームワーク(DAST-DG)を提案する。 特徴生成装置は、様々な領域の正像を識別不能にするために訓練される。 このプロセスは、再適応された画像に適用され、二重対角学習セットを生成する。 大規模な実験により、我々のアプローチは実用的であり、異なるデータベースにまたがる最先端の手法を超越していることが示された。 提案モデルでは,高分散データセット上で約82 %の精度を95 %の精度で達成する。

An increasing number of classification approaches have been developed to address the issue of image rebroadcast and recapturing, a standard attack strategy in insurance frauds, face spoofing, and video piracy. However, most of them neglected scale variations and domain generalization scenarios, performing poorly in instances involving domain shifts, typically made worse by inter-domain and cross-domain scale variances. To overcome these issues, we propose a cascaded data augmentation and SWIN transformer domain generalization framework (DAST-DG) in the current research work Initially, we examine the disparity in dataset representation. A feature generator is trained to make authentic images from various domains indistinguishable. This process is then applied to recaptured images, creating a dual adversarial learning setup. Extensive experiments demonstrate that our approach is practical and surpasses state-of-the-art methods across different databases. Our model achieves an accuracy of approximately 82\% with a precision of 95\% on high-variance datasets.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# 音声編集 - 概要

Speech Editing -- a Summary ( http://arxiv.org/abs/2407.17172v1 )

ライセンス: Link先を確認
Tobias Kässmann, Yining Liu, Danni Liu, (参考訳) ビデオ制作やソーシャルメディアの普及に伴い、クリエーターにとって、誤認識や単語の欠落、音声録音の混乱といった問題に対処する上で、音声編集が不可欠になっている。 本稿では,手動による波形編集を必要とせず,テキストの書き起こしによって音声を編集するテキストベースの音声編集手法について検討する。 これらのアプローチは、メルスペクトルを変化させることで、編集されたオーディオがオリジナルと区別できないことを保証する。 文脈認識の韻律補正や高度な注意機構などの最近の進歩は、音声編集の質を改善している。 本稿では、最先端の手法をレビューし、鍵となる指標を比較し、広く使われているデータセットについて検討する。 目的は、進行中の問題を強調し、音声編集におけるさらなる研究と革新を刺激することである。

With the rise of video production and social media, speech editing has become crucial for creators to address issues like mispronunciations, missing words, or stuttering in audio recordings. This paper explores text-based speech editing methods that modify audio via text transcripts without manual waveform editing. These approaches ensure edited audio is indistinguishable from the original by altering the mel-spectrogram. Recent advancements, such as context-aware prosody correction and advanced attention mechanisms, have improved speech editing quality. This paper reviews state-of-the-art methods, compares key metrics, and examines widely used datasets. The aim is to highlight ongoing issues and inspire further research and innovation in speech editing.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# NarrationDep: 自動抑うつ検出のためのソーシャルメディアに関するナラティブ

NarrationDep: Narratives on Social Media For Automatic Depression Detection ( http://arxiv.org/abs/2407.17174v1 )

ライセンス: Link先を確認
Hamad Zogan, Imran Razzak, Shoaib Jameel, Guandong Xu, (参考訳) ソーシャルメディアの投稿は、ユーザーが落ち込んでいるかどうかを自動的にモデル化する機会を含む、ユーザーの物語とその意図に関する貴重な洞察を提供する。 この課題は、オンラインソーシャルメディア投稿からユーザーストーリーを忠実にモデル化することにある。 我々は,抑うつに関連する物語を検出することに焦点を当てた,新規で効果的なモデルである「texttt{NarrationDep}」を開発した。 ユーザのつぶやきを分析することで、‘texttt{NarrationDep} は重要な物語を正確に識別する。 \texttt{NarrationDep}は、個々のツイート表現とユーザのツイートのクラスタを共同でモデル化するディープラーニングフレームワークである。 その結果,<texttt{NarrationDep} は,ソーシャルメディアのテキスト投稿を用いた第1層モデルと,クラスタに関連するツイートの意味表現を学習する第2層という,新しい2層ディープラーニングモデルによって特徴づけられる。 これらのクラスタ表現を忠実にモデル化するために、第2のレイヤでは、ユーザの投稿から階層的に学習する新しいコンポーネントが組み込まれている。 その結果、我々のフレームワークは、最近開発された様々なデータセットのモデルを含め、他の比較モデルよりも優れていることが示された。

Social media posts provide valuable insight into the narrative of users and their intentions, including providing an opportunity to automatically model whether a social media user is depressed or not. The challenge lies in faithfully modelling user narratives from their online social media posts, which could potentially be useful in several different applications. We have developed a novel and effective model called \texttt{NarrationDep}, which focuses on detecting narratives associated with depression. By analyzing a user's tweets, \texttt{NarrationDep} accurately identifies crucial narratives. \texttt{NarrationDep} is a deep learning framework that jointly models individual user tweet representations and clusters of users' tweets. As a result, \texttt{NarrationDep} is characterized by a novel two-layer deep learning model: the first layer models using social media text posts, and the second layer learns semantic representations of tweets associated with a cluster. To faithfully model these cluster representations, the second layer incorporates a novel component that hierarchically learns from users' posts. The results demonstrate that our framework outperforms other comparative models including recently developed models on a variety of datasets.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# Trans2Unet: Nuclei Semantic Segmentation のためのニューラルフュージョン

Trans2Unet: Neural fusion for Nuclei Semantic Segmentation ( http://arxiv.org/abs/2407.17181v1 )

ライセンス: Link先を確認
Dinh-Phu Tran, Quoc-Anh Nguyen, Van-Truong Pham, Thi-Thao Tran, (参考訳) 病理組織学的画像解析の基本的な役割にもかかわらず、核分割は依然として課題である。 この課題の主な課題は、独立した核の分離をより複雑にする重なり合う領域の存在である。 本稿では,UnetネットワークとTransUnetネットワークを組み合わせた2分岐アーキテクチャを提案する。 提案したアーキテクチャ、すなわちTrans2Unetでは、入力画像が最後の畳み込み層を除去したUnetブランチに最初に送信される。 このブランチは、入力画像の異なる空間領域の特徴を結合させ、より正確に関心領域をローカライズする。 入力画像も第2ブランチに入力される。 TransUnetブランチと呼ばれる第2のブランチでは、入力イメージはイメージのパッチに分割される。 アーキテクチャにおけるビジョントランスフォーマー(ViT)により、TransUnetは、医療画像セグメンテーションタスクのための強力なエンコーダとして機能し、局所化された空間情報を復元することで、画像の詳細性を高めることができる。 そこで我々は,Trans2Unetの効率向上と性能向上のために,Waterfall (Waterfall) Atrous Spatial Pooling with Skip Connection (WASP-KC) モジュールにインスパイアされたTrans2Unetに,Waterfall (Waterfall) Atrous Space Pooling (WASP) モジュールと呼ばれる計算効率のばらつきを注入することを提案した。 2018 Data Science Bowlベンチマークの実験結果は、従来のセグメンテーションモデルと比較しながら、提案アーキテクチャの有効性と性能を示している。

Nuclei segmentation, despite its fundamental role in histopathological image analysis, is still a challenge work. The main challenge of this task is the existence of overlapping areas, which makes separating independent nuclei more complicated. In this paper, we propose a new two-branch architecture by combining the Unet and TransUnet networks for nuclei segmentation task. In the proposed architecture, namely Trans2Unet, the input image is first sent into the Unet branch whose the last convolution layer is removed. This branch makes the network combine features from different spatial regions of the input image and localizes more precisely the regions of interest. The input image is also fed into the second branch. In the second branch, which is called TransUnet branch, the input image will be divided into patches of images. With Vision transformer (ViT) in architecture, TransUnet can serve as a powerful encoder for medical image segmentation tasks and enhance image details by recovering localized spatial information. To boost up Trans2Unet efficiency and performance, we proposed to infuse TransUnet with a computational-efficient variation called "Waterfall" Atrous Spatial Pooling with Skip Connection (WASP-KC) module, which is inspired by the "Waterfall" Atrous Spatial Pooling (WASP) module. Experiment results on the 2018 Data Science Bowl benchmark show the effectiveness and performance of the proposed architecture while compared with previous segmentation models.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# DeepONet型ニューラルネットワークによる電気インピーダンストモグラフィー問題の解法:理論と応用

Solving the Electrical Impedance Tomography Problem with a DeepONet Type Neural Network: Theory and Application ( http://arxiv.org/abs/2407.17182v1 )

ライセンス: Link先を確認
Anuj Abhishek, Thilo Strauss, (参考訳) 本研究では,電流-電圧マップ(Neumann-to-Dirichlet演算子)から発生するデータから媒体の導電率を回復させることが問題となる,電気インピーダンストモグラフィの非侵襲的医用画像モダリティについて考察する。 この逆問題を、ノイマン-ディリクレ作用素の空間から許容導電性空間への暗黙的に定義された作用素-函数写像を学習する演算子-学習問題として定式化する。 次に、一般にDeepONetsと呼ばれる演算子学習アーキテクチャを用いて、この演算子から関数へのマップを学習する。 これまでのところ、演算子学習アーキテクチャのほとんどは、関数空間間の演算子を学習するために実装されている。 本研究では,DeepONetを使って演算子から関数へのマップを実際に学習する。 我々は、ノイマン-ディリクレ作用素空間と導電関数空間の間の暗黙的に定義された作用素-函数写像が、そのようなDeepONetを用いて任意の次数に近似できることを保証する普遍近似定理型結果を提供する。 さらに,提案手法の計算的実装を提供し,標準ベースラインと比較する。 提案手法は, 提案手法を改良し, ベースライン法より優れていることを示す。

In this work, we consider the non-invasive medical imaging modality of Electrical Impedance Tomography, where the problem is to recover the conductivity in a medium from a set of data that arises out of a current-to-voltage map (Neumann-to-Dirichlet operator) defined on the boundary of the medium. We formulate this inverse problem as an operator-learning problem where the goal is to learn the implicitly defined operator-to-function map between the space of Neumann-to-Dirichlet operators to the space of admissible conductivities. Subsequently, we use an operator-learning architecture, popularly called DeepONets, to learn this operator-to-function map. Thus far, most of the operator learning architectures have been implemented to learn operators between function spaces. In this work, we generalize the earlier works and use a DeepONet to actually {learn an operator-to-function} map. We provide a Universal Approximation Theorem type result which guarantees that this implicitly defined operator-to-function map between the space of Neumann-to-Dirichlet operator to the space of conductivity function can be approximated to an arbitrary degree using such a DeepONet. Furthermore, we provide a computational implementation of our proposed approach and compare it against a standard baseline. We show that the proposed approach achieves good reconstructions and outperforms the baseline method in our experiments.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# エネルギーインフォームド拡散モデルによる非対光リアル画像のデライニング

Unpaired Photo-realistic Image Deraining with Energy-informed Diffusion Model ( http://arxiv.org/abs/2407.17193v1 )

ライセンス: Link先を確認
Yuanbo Wen, Tao Gao, Ting Chen, (参考訳) 既存画像デライン化手法では, 雨領域と清浄領域の区別特性を正確に把握し, 画像の劣化や色歪みを再現する。 そこで本研究では,不対光実写画像デライニング(UPID-EDM)のためのエネルギーインフォームド拡散モデルを提案する。 当初、コントラスト言語画像事前学習モデル(CLIP)に埋め込まれた複雑な視覚言語事前学習を探索し、CLIPが雨やきれいな画像の識別に有効であることを実証した。 さらに,降雨関連特性を排除しつつ,降雨関連特性を保ちつつ,二成分エネルギー関数(DEF)を導入する。 このエネルギー関数は、非対応の雨ときれいな画像によって訓練される。 また,Retro-Relevance Discarding Energy Function (RDEF) とRetro-Rerelevance Preserving Energy Function (RPEF) を用いて,事前学習した拡散モデルの逆サンプリング手順を指示し,画像内容を保存しながら雨害を効果的に除去する。 大規模な実験により、我々のエネルギーインフォームドモデルは、教師付きと非参照の両方の指標で既存の未学習のアプローチを超越していることが示された。

Existing unpaired image deraining approaches face challenges in accurately capture the distinguishing characteristics between the rainy and clean domains, resulting in residual degradation and color distortion within the reconstructed images. To this end, we propose an energy-informed diffusion model for unpaired photo-realistic image deraining (UPID-EDM). Initially, we delve into the intricate visual-language priors embedded within the contrastive language-image pre-training model (CLIP), and demonstrate that the CLIP priors aid in the discrimination of rainy and clean images. Furthermore, we introduce a dual-consistent energy function (DEF) that retains the rain-irrelevant characteristics while eliminating the rain-relevant features. This energy function is trained by the non-corresponding rainy and clean images. In addition, we employ the rain-relevance discarding energy function (RDEF) and the rain-irrelevance preserving energy function (RPEF) to direct the reverse sampling procedure of a pre-trained diffusion model, effectively removing the rain streaks while preserving the image contents. Extensive experiments demonstrate that our energy-informed model surpasses the existing unpaired learning approaches in terms of both supervised and no-reference metrics.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# 量子ネットワークにおけるサロゲート誘導最適化

Surrogate-guided optimization in quantum networks ( http://arxiv.org/abs/2407.17195v1 )

ライセンス: Link先を確認
Luise Prielinger, Álvaro G. Iñesta, Gayane Vardoyan, (参考訳) 量子通信ネットワークの設計と性能を改善する最適化アルゴリズムを提案する。 解析的手法では物理アーキテクチャが複雑すぎると、量子ネットワークの振る舞いを研究するには数値シミュレーションが不可欠となる。 非常に有益ではあるが、これらのシミュレーションには既知の解析形式を持たない複雑な数値関数が含まれており、連続性、微分可能性、凸性を仮定する伝統的な最適化手法が適用できない。 さらに、量子ネットワークシミュレーションは計算的に要求され、シミュレートされたアニーリングや遺伝的アルゴリズムのような、広範な機能評価を必要とするグローバルなアプローチをレンダリングしている。 対象関数のサロゲートとして機能する機械学習モデルを用いて,より効率的な最適化ワークフローを導入する。 本稿では、量子ネットワークにおける3つのよく知られた最適化問題、例えば、複数のネットワークノードに対する量子メモリ割り当て、量子エンタングルメントスイッチの全物理リンクにおける実験パラメータのチューニング、大規模な非対称量子ネットワークにおける効率的なプロトコル設定の発見によるアプローチの有効性を実証する。 提案アルゴリズムで得られた解は,提案手法の基準値であるシミュレート・アナリングとベイズ最適化をそれぞれ最大18%,ベイズ最適化を最大20倍に向上させる。 これにより、サロゲート支援最適化と既存の量子ネットワークシミュレータの統合により、より包括的な量子ネットワーク研究が可能になる。

We propose an optimization algorithm to improve the design and performance of quantum communication networks. When physical architectures become too complex for analytical methods, numerical simulation becomes essential to study quantum network behavior. Although highly informative, these simulations involve complex numerical functions without known analytical forms, making traditional optimization techniques that assume continuity, differentiability, or convexity inapplicable. Additionally, quantum network simulations are computationally demanding, rendering global approaches like Simulated Annealing or genetic algorithms, which require extensive function evaluations, impractical. We introduce a more efficient optimization workflow using machine learning models, which serve as surrogates for a given objective function. We demonstrate the effectiveness of our approach by applying it to three well-known optimization problems in quantum networking: quantum memory allocation for multiple network nodes, tuning an experimental parameter in all physical links of a quantum entanglement switch, and finding efficient protocol settings within a large asymmetric quantum network. The solutions found by our algorithm consistently outperform those obtained with our baseline approaches -- Simulated Annealing and Bayesian optimization -- in the allotted time limit by up to 18\% and 20\%, respectively. Our framework thus allows for more comprehensive quantum network studies, integrating surrogate-assisted optimization with existing quantum network simulators.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# ALPI:2次元ラベルのみを用いた3次元物体検出のためのプロキシインジェクション付きオートラボラ

ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only ( http://arxiv.org/abs/2407.17197v1 )

ライセンス: Link先を確認
Saad Lahlali, Nicolas Granger, Hervé Le Borgne, Quoc-Cuong Pham, (参考訳) 3Dオブジェクト検出は、自動運転車、ロボット工学、拡張現実など、さまざまな応用において重要な役割を果たす。 しかし、3D検出器のトレーニングには、大規模なデータセットへのアノテーションのスケーリングの障害となる、コストのかかる正確なアノテーションが必要である。 この課題に対処するために,画像から2次元境界ボックスアノテーションのみに依存する弱教師付き3Dアノテータを提案する。 1つの大きな問題は、異なる3Dポーズと同一の2Dプロジェクションとのあいまいさのため、2Dボックスのみを用いた3D検出モデルを監督することは信頼性が低いことである。 私たちはアノテーションを使って3Dプロキシオブジェクトを構築し、それらをトレーニングデータセットに追加します。 我々の手法は、新しいクラスに適応するために、サイズのみを必要とする。 そこで本手法は,2次元損失の新たな表現と深度不変性を両立させる。 最後に、より困難なインスタンスを検出するために、アノテータはオフラインの擬似ラベリング方式に従い、3Dの擬似ラベルを徐々に改善する。 KITTIデータセットの大規模な実験により,本手法は車種別だけでなく,より難易度の高いクラスにおける完全教師付き手法に近い性能が得られることが示された。 より挑戦的なnuScenesデータセットを最初に実験することで,提案手法の有効性とロバスト性をさらに実証する。 また、人間のアノテーションの代わりにMS-COCOで事前訓練された2D検出器から弱いラベルを得る環境を提案する。

3D object detection plays a crucial role in various applications such as autonomous vehicles, robotics and augmented reality. However, training 3D detectors requires a costly precise annotation, which is a hindrance to scaling annotation to large datasets. To address this challenge, we propose a weakly supervised 3D annotator that relies solely on 2D bounding box annotations from images, along with size priors. One major problem is that supervising a 3D detection model using only 2D boxes is not reliable due to ambiguities between different 3D poses and their identical 2D projection. We introduce a simple yet effective and generic solution: we build 3D proxy objects with annotations by construction and add them to the training dataset. Our method requires only size priors to adapt to new classes. To better align 2D supervision with 3D detection, our method ensures depth invariance with a novel expression of the 2D losses. Finally, to detect more challenging instances, our annotator follows an offline pseudo-labelling scheme which gradually improves its 3D pseudo-labels. Extensive experiments on the KITTI dataset demonstrate that our method not only performs on-par or above previous works on the Car category, but also achieves performance close to fully supervised methods on more challenging classes. We further demonstrate the effectiveness and robustness of our method by being the first to experiment on the more challenging nuScenes dataset. We additionally propose a setting where weak labels are obtained from a 2D detector pre-trained on MS-COCO instead of human annotations.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# 絡み合いを特徴付ける純粋状態から混合状態へのシュミットベクトルの拡張

Extending Schmidt vector from pure to mixed states for characterizing entanglement ( http://arxiv.org/abs/2407.17199v1 )

ライセンス: Link先を確認
F. Meroi, M. Losada, G. M. Bosyk, (参考訳) 本研究では,シュミットベクトルの概念を純粋状態から混合二部体状態へ拡張することにより,絡み合い変換の理解と定量化を強化し,偏化の格子構造を利用する。 バイパルタイト混合状態のシュミットベクトルは、2つの異なる方法で定義される: 純粋な状態のシュミットベクトルの凹凸屋根拡張として、または同値で、局所演算と古典通信(LOCC)を通じて混合状態に変換できる純状態の集合から定義される。 我々はシュミットベクトルが分離可能かつ最大絡み合った状態を完全に特徴づけることを示した。 さらに、シュミットベクトルがLOCCの下で単調で強い単調であることを証明し、混合状態間の変換に必要な条件を与える。 さらに、シュミット階数の定義を純粋な状態から混合状態へと拡張し、シュミットベクトルの支持の基数として、以前の研究(Phys. Rev. A 61, 040301 (R, 2000))で導入されたシュミット数と等しいことを示す。 最後に、シュミットベクトルに適用される凹凸関数と対称関数を考慮し、絡み合いモノトンの族を導入する。

In this study, we enhance the understanding of entanglement transformations and their quantification by extending the concept of Schmidt vector from pure to mixed bipartite states, exploiting the lattice structure of majorization. The Schmidt vector of a bipartite mixed state is defined using two distinct methods: as a concave roof extension of Schmidt vectors of pure states, or equivalently, from the set of pure states that can be transformed into the mixed state through local operations and classical communication (LOCC). We demonstrate that the Schmidt vector fully characterizes separable and maximally entangled states. Furthermore, we prove that the Schmidt vector is monotonic and strongly monotonic under LOCC, giving necessary conditions for conversions between mixed states. Additionally, we extend the definition of the Schmidt rank from pure states to mixed states as the cardinality of the support of the Schmidt vector and show that it is equal to the Schmidt number introduced in previous work [Phys. Rev. A 61, 040301 (R), 2000]. Finally, we introduce a family of entanglement monotones by considering concave and symmetric functions applied to the Schmidt vector.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# 組合せ最適化問題に対するサロゲートポリシの一般化境界

Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems ( http://arxiv.org/abs/2407.17200v1 )

ライセンス: Link先を確認
Pierre-Cyril Aubin-Frankowski, Yohann De Castro, Axel Parmentier, Alessandro Rudi, (参考訳) 最近の構造化学習手法のストリームは、操作研究で遭遇する複雑な目的を伴う様々な組合せ最適化問題の実践的状況を改善している。 このようなアプローチは、任意の問題のインスタンスを実現可能な解にマッピングするために、代理組合せ最適化オラクルで統計モデルをチェーンするポリシーを訓練する。 鍵となる考え方は、インスタンスを別々に扱うのではなく、インスタンス上の統計分布を利用することだ。 しかしながら、リスク最小化によるこのような政策の学習は、経験的リスクがパラメータの断片的に一定であり、これまで理論的な保証がほとんど提供されていないため、困難である。 本稿では,最適化の容易化と一般化の向上を図り,リスクの平滑化を図る。 我々の主な貢献は、摂動バイアス、統計的学習誤差、最適化誤差を制御する一般化境界である。 我々の分析は、統計モデルと代理組合せ最適化オラクルの相互作用を捕捉し定量化する、一様弱特性の導入に依存している。 この性質は、統計モデル、代理最適化、およびインスタンスデータ分布に関する軽微な仮定の下で成り立つ。 本稿では,確率的車両スケジューリングなど,様々な応用について述べる。 特に、このようなポリシーは文脈確率最適化に関係しており、我々の結果はこのケースをカバーしている。

A recent stream of structured learning approaches has improved the practical state of the art for a range of combinatorial optimization problems with complex objectives encountered in operations research. Such approaches train policies that chain a statistical model with a surrogate combinatorial optimization oracle to map any instance of the problem to a feasible solution. The key idea is to exploit the statistical distribution over instances instead of dealing with instances separately. However learning such policies by risk minimization is challenging because the empirical risk is piecewise constant in the parameters, and few theoretical guarantees have been provided so far. In this article, we investigate methods that smooth the risk by perturbing the policy, which eases optimization and improves generalization. Our main contribution is a generalization bound that controls the perturbation bias, the statistical learning error, and the optimization error. Our analysis relies on the introduction of a uniform weak property, which captures and quantifies the interplay of the statistical model and the surrogate combinatorial optimization oracle. This property holds under mild assumptions on the statistical model, the surrogate optimization, and the instance data distribution. We illustrate the result on a range of applications such as stochastic vehicle scheduling. In particular, such policies are relevant for contextual stochastic optimization and our results cover this case.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# 量子最適化アルゴリズムにおける絡み合いの影響

The Questionable Influence of Entanglement in Quantum Optimisation Algorithms ( http://arxiv.org/abs/2407.17204v1 )

ライセンス: Link先を確認
Tobias Rohe, Daniëlle Schuman, Jonas Nüßlein, Leo Sünkel, Jonas Stein, Claudia Linnhoff-Popien, (参考訳) 変分量子固有解器(VQE)の性能は他の量子アルゴリズムと比較して有望であるが、基礎となる量子回路の適切な設計にも大きく依存する。 Bowles, Ahmend \& Schuld, 2024 [1] による最近の研究は、量子機械学習アルゴリズムにおける回路の絡み合いの有効性に関する疑問を提起している。 本稿では,量子最適化の領域において,アダマールゲートによる状態準備の有効性とCNOTゲートによる絡み合いについて論じる。 実装の詳細によって異なる8つの異なる回路を構築し、100個のランダムに生成されたMaxCut問題を解く。 その結果,回路の最初に施したアダマールゲートでは改善が得られなかった。 さらに, エンタングルメントは, 小型実験において, 溶液品質に肯定的な影響を示さない。 対照的に, 絡み合いを用いた調査回路では, 回路層数が増加すると劣化する傾向がみられた。 この結果から,量子回路において,各パラメータの変化が複数の量子ビットに分散するなど,絡み合いは協調的な役割を果たすことができるが,この正の効果は急速に過剰化して負に変化するという仮説を立てた。 この仮説の検証は将来の研究の課題であり、新しいハイブリッドアルゴリズムの開発に大きな影響を与える可能性がある。

The performance of the Variational Quantum Eigensolver (VQE) is promising compared to other quantum algorithms, but also depends significantly on the appropriate design of the underlying quantum circuit. Recent research by Bowles, Ahmend \& Schuld, 2024 [1] raises questions about the effectiveness of entanglement in circuits for quantum machine learning algorithms. In our paper we want to address questions about the effectiveness of state preparation via Hadamard gates and entanglement via CNOT gates in the realm of quantum optimisation. We have constructed a total of eight different circuits, varying in implementation details, solving a total of 100 randomly generated MaxCut problems. Our results show no improvement with Hadamard gates applied at the beginning of the circuits. Furthermore, also entanglement shows no positive effect on the solution quality in our small scale experiments. In contrast, the investigated circuits that used entanglement generally showed lower, as well as deteriorating results when the number of circuit layers is increased. Based on our results, we hypothesise that entanglement can play a coordinating role, such that changes in individual parameters are distributed across multiple qubits in quantum circuits, but that this positive effect can quickly be overdosed and turned negative. The verification of this hypothesis represents a challenge for future research and can have a considerable influence on the development of new hybrid algorithms.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# ステップと再考:自己改善型ニューラルネットワーク最適化のためのシーケンスデコーディング

Take a Step and Reconsider: Sequence Decoding for Self-Improved Neural Combinatorial Optimization ( http://arxiv.org/abs/2407.17206v1 )

ライセンス: Link先を確認
Jonathan Pirnay, Dominik G. Grimm, (参考訳) Neural Combinatorial Optimization(NCO)における構成的アプローチは、組合せ最適化問題を有限マルコフ決定プロセスとして扱い、ニューラルネットワークによって導かれる一連の決定を通じてソリューションを段階的に構築する。 政策を訓練するために、近年の研究は強化学習と教師付きアプローチの限界に対処する「自己改善型」学習方法論へと移行しつつある。 ここでは、ポリシーは監督的な方法で反復的に訓練され、現在の方針から派生した解決策は擬似ラベルとして機能する。 これらの解がポリシーから得られる方法は、擬似ラベルの品質を決定する。 本稿では,置換のないサンプリングシーケンスに基づく自己改善学習のための,単純かつ問題に依存しないシーケンス復号法を提案する。 得られた最良の解を段階的に追従し、中間部分解からのサンプリングプロセスを繰り返す。 以前にサンプリングされたシーケンスを無視するためにポリシーを変更することで、見つからない代替案のみを考えることを強制し、解の多様性を増大させる。 トラベリングセールスマンとキャパシタントカールーティング問題の実験結果が,その性能を実証している。 さらに,本手法は,ジョブショップスケジューリング問題における従来のNCO手法よりも優れていた。

The constructive approach within Neural Combinatorial Optimization (NCO) treats a combinatorial optimization problem as a finite Markov decision process, where solutions are built incrementally through a sequence of decisions guided by a neural policy network. To train the policy, recent research is shifting toward a 'self-improved' learning methodology that addresses the limitations of reinforcement learning and supervised approaches. Here, the policy is iteratively trained in a supervised manner, with solutions derived from the current policy serving as pseudo-labels. The way these solutions are obtained from the policy determines the quality of the pseudo-labels. In this paper, we present a simple and problem-independent sequence decoding method for self-improved learning based on sampling sequences without replacement. We incrementally follow the best solution found and repeat the sampling process from intermediate partial solutions. By modifying the policy to ignore previously sampled sequences, we force it to consider only unseen alternatives, thereby increasing solution diversity. Experimental results for the Traveling Salesman and Capacitated Vehicle Routing Problem demonstrate its strong performance. Furthermore, our method outperforms previous NCO approaches on the Job Shop Scheduling Problem.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# 単一ビットを用いたトラベリングセールスマン問題の解法

Solving The Travelling Salesman Problem Using A Single Qubit ( http://arxiv.org/abs/2407.17207v1 )

ライセンス: Link先を確認
Kapil Goswami, Gagan Anekonda Veereshi, Peter Schmelcher, Rick Mukherjee, (参考訳) トラベリングセールスマン問題(TSP)は、セールスマンが一度異なる都市を旅して初期都市に戻るのに最適な方法を見つける必要がある、NP-ハード組合せ最適化問題である。 量子システム上でのTSPを解く既存の方法は、ゲートベースまたはバイナリ変数ベースエンコーディングである。 どちらの手法も、量子ビットの個数という点では資源に精通するが、従来のアルゴリズムに比べて小さな問題であっても性能は劣る。 本稿では,量子並列性(quantum parallelism)の原理を導出し,単一量子ビットを用いて任意のTSPを解くアルゴリズムを提案する。 都市はブロッホ球上の量子状態として表され、重畳状態の準備により複数の経路を同時に通過することができる。 我々のアルゴリズムの基盤となるフレームワークは、古典的ブラキストクロンのアプローチの量子バージョンである。 最適制御法は、与えられたTSPの最も短い経路を見つけるために、量子状態の選択的な重ね合わせを作成するために用いられる。 数値シミュレーションは、正確な解が得られる4から9の都市のサンプルを解く。 このアルゴリズムは、量子ビットを効率的に回転させ、状態トモグラフィー測定を可能にするあらゆる量子プラットフォームに実装することができる。 この研究で考慮されたTSP問題のサイズについて、我々のアルゴリズムは既存の量子アルゴリズムよりもリソース効率が高く正確であり、スケーラビリティの可能性がある。 古典的アルゴリズムによる多項式時間の潜在的な高速化について論じる。

The travelling salesman problem (TSP) is a popular NP-hard-combinatorial optimization problem that requires finding the optimal way for a salesman to travel through different cities once and return to the initial city. The existing methods of solving TSPs on quantum systems are either gate-based or binary variable-based encoding. Both approaches are resource-expensive in terms of the number of qubits while performing worse compared to existing classical algorithms even for small-size problems. We present an algorithm that solves an arbitrary TSP using a single qubit by invoking the principle of quantum parallelism. The cities are represented as quantum states on the Bloch sphere while the preparation of superposition states allows us to traverse multiple paths at once. The underlying framework of our algorithm is a quantum version of the classical Brachistochrone approach. Optimal control methods are employed to create a selective superposition of the quantum states to find the shortest route of a given TSP. The numerical simulations solve a sample of four to nine cities for which exact solutions are obtained. The algorithm can be implemented on any quantum platform capable of efficiently rotating a qubit and allowing state tomography measurements. For the TSP problem sizes considered in this work, our algorithm is more resource-efficient and accurate than existing quantum algorithms with the potential for scalability. A potential speed-up of polynomial time over classical algorithms is discussed.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# 教育における非言語即時分析:マルチモーダル計算モデル

Nonverbal Immediacy Analysis in Education: A Multimodal Computational Model ( http://arxiv.org/abs/2407.17209v1 )

ライセンス: Link先を確認
Uroš Petković, Jonas Frenkel, Olaf Hellwich, Rebecca Lazarides, (参考訳) 本稿では,非言語的社会的行動分析のための新しい計算手法を提案する。 表情、ジェスチャーの強さ、空間力学などの多モーダルな行動手がかりを統合することで、RGB教室のビデオから教師の非言語的即時性(NVI)を評価する。 モデルトレーニングと検証のために、ドイツの教室から400の30秒のビデオセグメントのデータセットを構築した。 ジェスチャー強度回帰器は0.84,知覚距離回帰器0.55,NVIモデル0.44の相関性を示した。 このモデルは, 個人のレーティングの精度を近似し, 非言語行動評価に有用な支援を提供する可能性を実証している。 調査データと受講者評価の双方に対して,本モデルは関連する教育結果と中程度から強い相関関係を示し,効果的な教育行動の反映効果を示した。 本研究は,非言語コミュニケーション行動の客観的評価を推進し,教育研究の新たな道を開くものである。

This paper introduces a novel computational approach for analyzing nonverbal social behavior in educational settings. Integrating multimodal behavioral cues, including facial expressions, gesture intensity, and spatial dynamics, the model assesses the nonverbal immediacy (NVI) of teachers from RGB classroom videos. A dataset of 400 30-second video segments from German classrooms was constructed for model training and validation. The gesture intensity regressor achieved a correlation of 0.84, the perceived distance regressor 0.55, and the NVI model 0.44 with median human ratings. The model demonstrates the potential to provide a valuable support in nonverbal behavior assessment, approximating the accuracy of individual human raters. Validated against both questionnaire data and trained observer ratings, our models show moderate to strong correlations with relevant educational outcomes, indicating their efficacy in reflecting effective teaching behaviors. This research advances the objective assessment of nonverbal communication behaviors, opening new pathways for educational research.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# 連結自動運転車の理論的知識と技能を駆動する大規模言語モデルのテスト

Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles ( http://arxiv.org/abs/2407.17211v1 )

ライセンス: Link先を確認
Zuoyin Tang, Jianhua He, Dashuai Pei, Kezhong Liu, Tao Gao, (参考訳) ロングテールコーナーのケースを扱うことは、自動運転車(AV)が直面する大きな課題である。 大規模言語モデル(LLM)は、高度な一般化と説明能力を持つコーナーケースを扱う大きな可能性を秘めており、自律運転への適用に対する研究の関心が高まりつつあるが、厳密なモデル性能やLLMの膨大な計算資源要求など、取り組まなければならない技術的障壁は依然として残っている。 本稿では,遠隔走行を支援するために遠隔走行型LLMとエッジ式LLMを併用する新しい手法について検討する。 このような運転支援システムの鍵となる課題は、運転理論と技能の理解に基づくLCMの評価であり、CAVの安全クリティカルな運転支援タスクを遂行する資格を確保することである。 我々は,500以上の多重選択理論テスト問題を伴う,いくつかの独自LLMモデル(OpenAI GPTモデル,Baidu Ernie,Ali QWen)およびオープンソースLLMモデル(Tsinghua MiniCPM-2B,MiniCPM-Llama3-V2.5)の駆動理論テストの設計と実行を行った。 実験からモデル精度,コスト,処理遅延を測定した。 実験結果から、モデルGPT-4はドメイン知識を改良してテストに合格し、アーニーは精度が85%(パスしきい値の86%以下)であるのに対し、GPT-3.5を含む他のLCMモデルはテストに失敗することがわかった。 画像を用いたテストでは,マルチモーダルモデル GPT4-o の精度は 96% であり,MiniCPM-Llama3-V2.5 の精度は 76% である。 GPT-4 は CAV 運転支援システムの可能性が強いが、モデル GPT4 のコストは GPT3.5 の約50倍である。 その結果、既存のLCMをCAVアプリケーションに使用することや、モデルの性能とコストのバランスを決めるのに役立ちます。

Handling long tail corner cases is a major challenge faced by autonomous vehicles (AVs). While large language models (LLMs) hold great potentials to handle the corner cases with excellent generalization and explanation capabilities and received increasing research interest on application to autonomous driving, there are still technical barriers to be tackled, such as strict model performance and huge computing resource requirements of LLMs. In this paper, we investigate a new approach of applying remote or edge LLMs to support autonomous driving. A key issue for such LLM assisted driving system is the assessment of LLMs on their understanding of driving theory and skills, ensuring they are qualified to undertake safety critical driving assistance tasks for CAVs. We design and run driving theory tests for several proprietary LLM models (OpenAI GPT models, Baidu Ernie and Ali QWen) and open-source LLM models (Tsinghua MiniCPM-2B and MiniCPM-Llama3-V2.5) with more than 500 multiple-choices theory test questions. Model accuracy, cost and processing latency are measured from the experiments. Experiment results show that while model GPT-4 passes the test with improved domain knowledge and Ernie has an accuracy of 85% (just below the 86% passing threshold), other LLM models including GPT-3.5 fail the test. For the test questions with images, the multimodal model GPT4-o has an excellent accuracy result of 96%, and the MiniCPM-Llama3-V2.5 achieves an accuracy of 76%. While GPT-4 holds stronger potential for CAV driving assistance applications, the cost of using model GPT4 is much higher, almost 50 times of that of using GPT3.5. The results can help make decision on the use of the existing LLMs for CAV applications and balancing on the model performance and cost.
翻訳日:2024-07-25 14:04:14 公開日:2024-07-24
# スペクトルインフォームド多段階ニューラルネットワーク:機械精度のマルチスケール関数近似器

Spectrum-Informed Multistage Neural Networks: Multiscale Function Approximators of Machine Precision ( http://arxiv.org/abs/2407.17213v1 )

ライセンス: Link先を確認
Jakin Ng, Yongji Wang, Ching-Yao Lai, (参考訳) ディープラーニングフレームワークは,広範に応用されている乱流などの科学的問題にアプローチするための強力なツールとなっている。 しかし、実際、既存の科学的機械学習アプローチは、科学的な文脈で必要とされるように、複雑なマルチスケールの力学系を非常に高精度に適合させることが困難である。 本稿では、スペクトルインフォームド初期化を用いた新しい多段階ニューラルネットワーク手法を用いて、前段階から残差を学習し、ニューラルネットワークに付随するスペクトルバイアスを利用して残差の高周波特性を捕捉し、ニューラルネットワークのスペクトルバイアスにうまく取り組むことを提案する。 このアプローチにより、ニューラルネットワークはターゲット関数を二重浮動小数点マシン精度$O(10^{-16})$に適合させることができる。

Deep learning frameworks have become powerful tools for approaching scientific problems such as turbulent flow, which has wide-ranging applications. In practice, however, existing scientific machine learning approaches have difficulty fitting complex, multi-scale dynamical systems to very high precision, as required in scientific contexts. We propose using the novel multistage neural network approach with a spectrum-informed initialization to learn the residue from the previous stage, utilizing the spectral biases associated with neural networks to capture high frequency features in the residue, and successfully tackle the spectral bias of neural networks. This approach allows the neural network to fit target functions to double floating-point machine precision $O(10^{-16})$.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# 浅水方程式におけるサブグリッドフラックスモデリングへの機械学習と凸限界の適用

Application of Machine Learning and Convex Limiting to Subgrid Flux Modeling in the Shallow-Water Equations ( http://arxiv.org/abs/2407.17214v1 )

ライセンス: Link先を確認
Ilya Timofeyev, Alexey Schwarzmann, Dmitri Kuzmin, (参考訳) 本研究では1次元浅水方程式に対するフラックス制限有限体積法の文脈における特性保存サブグリッドスケールモデリングのための機械学習とフラックス制限の組み合わせを提案する。 ニューラルネットワークを用いてモノトーン細グリッド離散化の粗メッシュ平均に、保守目標スキームの数値フラックスを取り付け、サブグリッドスケール成分をパラメトリズする。 正の保存と局所最大原理の妥当性を確保するため、同値なゆらぎ形式の中間状態を制限するフラックスリミッターを用いて凸許容集合に留まる。 その結果,機械学習とモノリシック凸制限の組み合わせが,ネットワークの訓練を受けていないシナリオにおいても意味のあるクロージャを生じさせることを確認した。

We propose a combination of machine learning and flux limiting for property-preserving subgrid scale modeling in the context of flux-limited finite volume methods for the one-dimensional shallow-water equations. The numerical fluxes of a conservative target scheme are fitted to the coarse-mesh averages of a monotone fine-grid discretization using a neural network to parametrize the subgrid scale components. To ensure positivity preservation and the validity of local maximum principles, we use a flux limiter that constrains the intermediate states of an equivalent fluctuation form to stay in a convex admissible set. The results of our numerical studies confirm that the proposed combination of machine learning with monolithic convex limiting produces meaningful closures even in scenarios for which the network was not trained.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# 自動検証のためのUMLステートマシンの形式化 -- 調査

Formalizing UML State Machines for Automated Verification -- A Survey ( http://arxiv.org/abs/2407.17215v1 )

ライセンス: Link先を確認
Étienne André, Shuang Liu, Yang Liu, Christine Choppy, Jun Sun, Jin Song Dong, (参考訳) UML(Unified Modeling Language)は、動的システムのモデリングの標準である。 UMLの振舞い状態マシンはオブジェクト指向設計の動的振舞いをモデル化するために使用される。 Object Management Group (OMG) が管理するUML仕様は、(形式言語とは対照的に)自然言語で文書化されている。 自然言語の本質的な曖昧さは、結果のステートマシンモデルに矛盾をもたらす可能性がある。 UMLステートマシン仕様の形式化は、曖昧さの問題を解決し、ソフトウェア設計者と開発者に統一的なビューを提供することを目的としています。 このような形式化はまた、UMLステートマシンモデルの自動検証のための基盤を提供することも目標としている。 ここでは、設計段階でモデルチェックを行う目的でUML状態マシンセマンティクスの形式化に関する1997年から2021年までの既存の研究を包括的に調査する。

The Unified Modeling Language (UML) is a standard for modeling dynamic systems. UML behavioral state machines are used for modeling the dynamic behavior of object-oriented designs. The UML specification, maintained by the Object Management Group (OMG), is documented in natural language (in contrast to formal language). The inherent ambiguity of natural languages may introduce inconsistencies in the resulting state machine model. Formalizing UML state machine specification aims at solving the ambiguity problem and at providing a uniform view to software designers and developers. Such a formalization also aims at providing a foundation for automatic verification of UML state machine models, which can help to find software design vulnerabilities at an early stage and reduce the development cost. We provide here a comprehensive survey of existing work from 1997 to 2021 related to formalizing UML state machine semantics for the purpose of conducting model checking at the design stage.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# 非凸非滑らかな合成最適化のための適応二階法

An Adaptive Second-order Method for a Class of Nonconvex Nonsmooth Composite Optimization ( http://arxiv.org/abs/2407.17216v1 )

ライセンス: Link先を確認
Hao Wang, Xiangyu Yang, Yichen Zhu, (参考訳) 本稿では,非凸空間空間の正規化問題,すなわち$\ell_p$-norm正規化を含む問題と,連続的に微分可能な損失関数を併用した特定のタイプの非凸空間空間空間の正規化問題について検討する。 本稿では,この難解な非凸問題と非滑らかな問題に効果的に対処するために,いくつかの革新的な特徴を示す新しい2次アルゴリズムを提案する。 (i)reweighted $\ell_1$ regularized subproblemと部分空間近似ニュートンステップを解くための交互戦略の使用。 (ii)reweighted $\ell_1$ regularized subproblem は凸近似を非凸正規化項に頼り、軟弱作用素を特徴とする閉形式解を可能にする。 本手法は, 様々な非凸正規化問題に適用可能である。 3) このアルゴリズムは, 繰り返しが符号値を維持することを保証し, 非零成分が十分な回数の反復のために0から遠ざけられ, 最終的に摂動ニュートン法に遷移する。 (4)このアルゴリズムでは,大域収束の理論的保証,クルディカ・オジャシエヴィチ(KL)特性の存在による局所超線型収束,およびニュートンの正確なステップを用いる場合の局所二次収束について述べる。 また,様々なモデル予測問題に対する実験を通じて,本手法の有効性を示す。

This paper explores a specific type of nonconvex sparsity-promoting regularization problems, namely those involving $\ell_p$-norm regularization, in conjunction with a twice continuously differentiable loss function. We propose a novel second-order algorithm designed to effectively address this class of challenging nonconvex and nonsmooth problems, showcasing several innovative features: (i) The use of an alternating strategy to solve a reweighted $\ell_1$ regularized subproblem and the subspace approximate Newton step. (ii) The reweighted $\ell_1$ regularized subproblem relies on a convex approximation to the nonconvex regularization term, enabling a closed-form solution characterized by the soft-thresholding operator. This feature allows our method to be applied to various nonconvex regularization problems. (iii) Our algorithm ensures that the iterates maintain their sign values and that nonzero components are kept away from 0 for a sufficient number of iterations, eventually transitioning to a perturbed Newton method. (iv) We provide theoretical guarantees of global convergence, local superlinear convergence in the presence of the Kurdyka-\L ojasiewicz (KL) property, and local quadratic convergence when employing the exact Newton step in our algorithm. We also showcase the effectiveness of our approach through experiments on a diverse set of model prediction problems.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# グラフニューラルネットワーク: 潜在3次元医用画像分類におけるMLPの好適な選択肢は何か?

Graph Neural Networks: A suitable Alternative to MLPs in Latent 3D Medical Image Classification? ( http://arxiv.org/abs/2407.17219v1 )

ライセンス: Link先を確認
Johannes Kiechle, Daniel M. Lang, Stefan M. Fischer, Lina Felsner, Jan C. Peeken, Julia A. Schnabel, (参考訳) 近年の研究では、医療画像データのゼロショット設定においても、強力な特徴抽出器として機能する自然画像基盤モデルの能力が強調されている。 最も一般的には、機能抽出器に浅層パーセプトロン(MLP)を付加して、エンドツーエンドの学習と分類などの下流予測タスクを容易にし、デファクト標準を表す。 しかし,近年の医学研究において,グラフニューラルネットワーク(GNN)が様々なタスクにおいて実践可能な選択肢となっているため,3次元画像分類のタスクにおいて,GNNがMPP予測ヘッドと比較して有効かという問題に注意を向け,その代替案として提案する。 実験では,各ボリュームデータセットの主観レベルグラフを考案した。 ボリューム内の全てのスライスを遅延的に表現し、DINOv2事前訓練された視覚変換器(ViT)を通じて符号化し、ノードとそのノードの特徴を構成する。 公開データセットを用いて、分類ヘッドを数値的に比較し、実験で様々なグラフ構築法とグラフ畳み込み法を評価する。 MLP予測ヘッドと比較して,GNNの分類性能の向上と実行時の大幅な改善が見られた。 さらなるロバスト性評価はGNNの有望な性能をさらに検証し、従来のMPP分類ヘッドに代わるものとして推奨する。 私たちのコードは、https://github.com/compai-lab/2024-miccai-grail-kiechleで公開されています。

Recent studies have underscored the capabilities of natural imaging foundation models to serve as powerful feature extractors, even in a zero-shot setting for medical imaging data. Most commonly, a shallow multi-layer perceptron (MLP) is appended to the feature extractor to facilitate end-to-end learning and downstream prediction tasks such as classification, thus representing the de facto standard. However, as graph neural networks (GNNs) have become a practicable choice for various tasks in medical research in the recent past, we direct attention to the question of how effective GNNs are compared to MLP prediction heads for the task of 3D medical image classification, proposing them as a potential alternative. In our experiments, we devise a subject-level graph for each volumetric dataset instance. Therein latent representations of all slices in the volume, encoded through a DINOv2 pretrained vision transformer (ViT), constitute the nodes and their respective node features. We use public datasets to compare the classification heads numerically and evaluate various graph construction and graph convolution methods in our experiments. Our findings show enhancements of the GNN in classification performance and substantial improvements in runtime compared to an MLP prediction head. Additional robustness evaluations further validate the promising performance of the GNN, promoting them as a suitable alternative to traditional MLP classification heads. Our code is publicly available at: https://github.com/compai-lab/2024-miccai-grail-kiechle
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# 連続時間線形量子強化学習におけるアクタ臨界アルゴリズムのサブ線形回帰

Sublinear Regret for An Actor-Critic Algorithm in Continuous-Time Linear-Quadratic Reinforcement Learning ( http://arxiv.org/abs/2407.17226v1 )

ライセンス: Link先を確認
Yilie Huang, Yanwei Jia, Xun Yu Zhou, (参考訳) 状態過程のボラティリティが状態変数と制御変数に依存する拡散に対する連続時間線形二乗法(LQ)制御問題のクラスに対する強化学習(RL)について検討する。 本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。 本研究の主な貢献は,新しい探索スケジュールの導入と提案アルゴリズムの後悔分析である。 最適パラメータに対するポリシーパラメータの収束率を示し、アルゴリズムが対数係数まで$O(N^{\frac{3}{4}})$の後悔境界を達成したことを証明する。 本研究は,提案アルゴリズムの有効性と信頼性を検証し,理論的結果を検証するためのシミュレーション研究である。 また,本手法と最近のモデルに基づく確率的LQ RL研究の数値比較を行った。

We study reinforcement learning (RL) for a class of continuous-time linear-quadratic (LQ) control problems for diffusions where volatility of the state processes depends on both state and control variables. We apply a model-free approach that relies neither on knowledge of model parameters nor on their estimations, and devise an actor-critic algorithm to learn the optimal policy parameter directly. Our main contributions include the introduction of a novel exploration schedule and a regret analysis of the proposed algorithm. We provide the convergence rate of the policy parameter to the optimal one, and prove that the algorithm achieves a regret bound of $O(N^{\frac{3}{4}})$ up to a logarithmic factor. We conduct a simulation study to validate the theoretical results and demonstrate the effectiveness and reliability of the proposed algorithm. We also perform numerical comparisons between our method and those of the recent model-based stochastic LQ RL studies adapted to the state- and control-dependent volatility setting, demonstrating a better performance of the former in terms of regret bounds.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# LEAN-GitHub: 汎用LEAN証明のためにGitHub LEANリポジトリをコンパイルする

LEAN-GitHub: Compiling GitHub LEAN repositories for a versatile LEAN prover ( http://arxiv.org/abs/2407.17227v1 )

ライセンス: Link先を確認
Zijian Wu, Jiayu Wang, Dahua Lin, Kai Chen, (参考訳) 近年,大規模言語モデルは形式的数学的推論を支援する上で有望な結果をもたらしている。 しかし、それらの性能は、形式的定理証明データが不足しているために制限されており、これは生の形式的言語コーパスから追加の労力を必要とする。 一方、人文言語コーパスの大量使用は未使用のままである。 この問題に対処するため、私たちは、GitHub上のほぼすべてのLean 4リポジトリから抽出された大規模なフォーマルデータからなるデータセットであるLEAN-GitHubを提案する。 このデータセットを微調整した後、我々のモデルは1回のパスで48.8%、64回のパスで54.5%、Lean 4 miniF2Fテストで54.5%に達し、最先端のメソッドを52%上回った。 他にも2つのLean 4ベンチマーク(ProofNetとPutnam)で、さまざまな分野や数学レベルをターゲットにしています。 これらの結果から,提案したデータセットは,幅広い数学トピックに関する公式な推論に有用であることが示唆された。 当社のモデルをhttps://GitHub.comで公開しています。 https://huggingface.co/ datas/InternLM/Lean-GitHub

Recently, large language models have presented promising results in aiding formal mathematical reasoning. However, their performance is restricted due to the scarcity of formal theorem-proving data, which requires additional effort to be extracted from raw formal language corpora. Meanwhile, a significant amount of human-written formal language corpora remains underutilized. To address this issue, we propose LEAN-GitHub, a dataset consisting of large-scale formal data extracted from almost all Lean 4 repositories on GitHub. After fine-tuning InternLM-math-plus on this dataset, our model achieved accuracies of 48.8% with a single pass and 54.5% with 64 passes on the Lean 4 miniF2F test, surpassing state-of-the-art method at 52%. And it also achieves state-of-the-art on two other Lean 4 benchmarks (ProofNet and Putnam) targeting different fields/levels of math. These results demonstrate that our proposed dataset is beneficial for formal reasoning on a wide range of math topics. We open-source our model at https://GitHub. com/InternLM/InternLM-Math and our data at https://huggingface.co/ datasets/InternLM/Lean-GitHub
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# ハイブリッドカーネル正規化最小二乗アルゴリズム

A Hybrid Federated Kernel Regularized Least Squares Algorithm ( http://arxiv.org/abs/2407.17228v1 )

ライセンス: Link先を確認
Celeste Damiani, Yulia Rodina, Sergio Decherchi, (参考訳) フェデレーション学習は、臨床設定のような重要なプライバシー保護シナリオで機械学習モデルを構築するための、ますます現実的で受け入れられる戦略になりつつある。 関連するデータは、臨床データに限らず、追加のオミクス機能(例えばプロテオミクス)も含むことが多い。 その結果、データは病院だけでなく、バイオサンプルからこのような機能を追加できる実験室であるオミクスセンターにも分散される。 このシナリオは、サンプルと機能の両方でデータが分散するハイブリッドな設定につながります。 本稿では,Kernel Regularized Least Squaresアルゴリズムを効率よく再構成し,2つの変種を導入し,よく確立されたデータセットを用いて検証する。 最後に,攻撃防止のためのセキュリティ対策について論じる。

Federated learning is becoming an increasingly viable and accepted strategy for building machine learning models in critical privacy-preserving scenarios such as clinical settings. Often, the data involved is not limited to clinical data but also includes additional omics features (e.g. proteomics). Consequently, data is distributed not only across hospitals but also across omics centers, which are labs capable of generating such additional features from biosamples. This scenario leads to a hybrid setting where data is scattered both in terms of samples and features. In this hybrid setting, we present an efficient reformulation of the Kernel Regularized Least Squares algorithm, introduce two variants and validate them using well-established datasets. Lastly, we discuss security measures to defend against possible attacks.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# LPGen:拡散モデルによる高忠実景観絵画の創出

LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model ( http://arxiv.org/abs/2407.17229v1 )

ライセンス: Link先を確認
Wanggong Yang, Xiaona Wang, Yingrui Qiu, Yifei Zhao, (参考訳) 風景画の生成は、芸術的創造性と想像力の可能性を拡大する。 伝統的な風景画法では、紙に墨や彩色墨を用い、かなりの時間と労力を要する。 これらの手法は誤りや不整合に影響を受けやすく、線や色を正確に制御できない。 本稿では,画像プロンプトを拡散モデルに統合する新しいマルチモーダルフレームワーク,LPGenを提案する。 対象のランドスケープ画像からキャニーエッジを計算し,そのエッジと輪郭を抽出する。 これらは、自然言語のテキストプロンプトや描画スタイルの参照とともに、潜在拡散モデルに条件として入力される。 我々は、画像とテキストのプロンプトの互換性を確保するために、分離されたクロスアテンション戦略を実装し、マルチモーダル画像生成を容易にする。 デコーダは最終画像を生成する。 定量的・定性的な分析により,本手法は風景画の既存の手法よりも優れており,現状を超越していることが示された。 LPGenネットワークは、ランドスケープ絵画の構成と色を効果的に制御し、より正確な画像を生成し、深層学習に基づくランドスケープ絵画生成のさらなる研究を支援する。

Generating landscape paintings expands the possibilities of artistic creativity and imagination. Traditional landscape painting methods involve using ink or colored ink on rice paper, which requires substantial time and effort. These methods are susceptible to errors and inconsistencies and lack precise control over lines and colors. This paper presents LPGen, a high-fidelity, controllable model for landscape painting generation, introducing a novel multi-modal framework that integrates image prompts into the diffusion model. We extract its edges and contours by computing canny edges from the target landscape image. These, along with natural language text prompts and drawing style references, are fed into the latent diffusion model as conditions. We implement a decoupled cross-attention strategy to ensure compatibility between image and text prompts, facilitating multi-modal image generation. A decoder generates the final image. Quantitative and qualitative analyses demonstrate that our method outperforms existing approaches in landscape painting generation and exceeds the current state-of-the-art. The LPGen network effectively controls the composition and color of landscape paintings, generates more accurate images, and supports further research in deep learning-based landscape painting generation.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# 章ベース名前付きエンティティと注意モデルを用いたICD符号化の改良

Improving ICD coding using Chapter based Named Entities and Attentional Models ( http://arxiv.org/abs/2407.17230v1 )

ライセンス: Link先を確認
Abhijith R. Beeravolu, Mirjam Jonkman, Sami Azam, Friso De Boer, (参考訳) 自然言語処理(NLP)の最近の進歩は、様々な領域における自動化につながっている。 しかし、臨床NLPは実世界のシナリオを正確に反映しないベンチマークデータセットに依存することが多い。 重要なNLPタスクである自動ICD符号化は、MIMIC-IIIのような時代遅れで不均衡なデータセットを使用するのが一般的であり、既存の手法では多くの偽陽性のために平均F1スコアが0.4から0.7の間である。 本研究は、章ベースの名前付きエンティティと注意モデルを用いて、F1スコアを改善するICD符号化の強化手法を提案する。 本手法は, 放電サマリーをICD-9章に分類し, 章別データを用いた注意モデルを構築し, コード識別のための外部データを検討する必要をなくす。 分類には、第IV章を使用して、ニューラルネットワークなしでキーエンティティやウェイトをデバイアスし、影響を与え、正確なしきい値を作成し、人間のバリデーションに解釈性を提供する。 検証後,2方向ゲート型リカレントユニット(GRU)とマルチヘッド型アテンションアーキテクチャを用いたトランスフォーマーを用いて,章IVの3つの頻繁かつ3つの非頻繁なコードに対する注意モデルを構築した。 これらのモデルの平均的なMicro-F1スコアは0.79と0.81であり、ICD符号化の性能は大幅に向上した。

Recent advancements in natural language processing (NLP) have led to automation in various domains. However, clinical NLP often relies on benchmark datasets that may not reflect real-world scenarios accurately. Automatic ICD coding, a vital NLP task, typically uses outdated and imbalanced datasets like MIMIC-III, with existing methods yielding micro-averaged F1 scores between 0.4 and 0.7 due to many false positives. Our research introduces an enhanced approach to ICD coding that improves F1 scores by using chapter-based named entities and attentional models. This method categorizes discharge summaries into ICD-9 Chapters and develops attentional models with chapter-specific data, eliminating the need to consider external data for code identification. For categorization, we use Chapter-IV to de-bias and influence key entities and weights without neural networks, creating accurate thresholds and providing interpretability for human validation. Post-validation, we develop attentional models for three frequent and three non-frequent codes from Chapter-IV using Bidirectional-Gated Recurrent Units (GRUs) with Attention and Transformer with Multi-head Attention architectures. The average Micro-F1 scores of 0.79 and 0.81 from these models demonstrate significant performance improvements in ICD coding.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# 統計的バッチに基づく軸受故障検出

Statistical Batch-Based Bearing Fault Detection ( http://arxiv.org/abs/2407.17236v1 )

ライセンス: Link先を確認
Victoria Jorrya, Zina-Sabrina Duma, Tuomas Sihvonen, Satu-Pia Reinikainen, Lassi Roininen, (参考訳) 回転機械の領域では、ベアリングはボール、インナーおよびアウターレース断層を含む異なる機械的断層に対して脆弱である。 古典的な信号分析から深層学習まで、様々な手法が条件に基づくモニタリングに利用できる。 回転機械の複雑な作業条件に基づいて、Hotellingの$T^2$やSquared Prediction Errorのような多変量統計処理制御チャートは早期警告を提供するのに有用である。 しかし、これらの手法は、データセットの単変量性のため、回転機械の状態監視にはほとんど適用されない。 本稿では,固定時間バッチに対して抽出したフーリエ変換特徴からなる多変量データを用いた多変量統計処理制御に基づく故障検出手法を提案する。 本手法では, 早期の欠陥検出と診断を向上するために, マシンの状態に関するより詳細な情報を記録するフーリエ変換特性の多次元特性を利用する。 様々な振動測定地点(ファンエンド,ドライブエンド)、断層タイプ(ボール,インナーおよびアウターレースフォールト)およびモータ負荷(0-3馬力)を用いて提案手法の有効性を検証する。 その結果, 異常検出における本手法の有効性が示され, 産業保守における幅広い利用の可能性が示唆された。

In the domain of rotating machinery, bearings are vulnerable to different mechanical faults, including ball, inner, and outer race faults. Various techniques can be used in condition-based monitoring, from classical signal analysis to deep learning methods. Based on the complex working conditions of rotary machines, multivariate statistical process control charts such as Hotelling's $T^2$ and Squared Prediction Error are useful for providing early warnings. However, these methods are rarely applied to condition monitoring of rotating machinery due to the univariate nature of the datasets. In the present paper, we propose a multivariate statistical process control-based fault detection method that utilizes multivariate data composed of Fourier transform features extracted for fixed-time batches. Our approach makes use of the multidimensional nature of Fourier transform characteristics, which record more detailed information about the machine's status, in an effort to enhance early defect detection and diagnosis. Experiments with varying vibration measurement locations (Fan End, Drive End), fault types (ball, inner, and outer race faults), and motor loads (0-3 horsepower) are used to validate the suggested approach. The outcomes illustrate our method's effectiveness in fault detection and point to possible broader uses in industrial maintenance.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# 強化学習における事前学習型視覚表現

Pretrained Visual Representations in Reinforcement Learning ( http://arxiv.org/abs/2407.17238v1 )

ライセンス: Link先を確認
Emlyn Williams, Athanasios Polydoros, (参考訳) 近年,視覚的強化学習 (RL) は大きな進歩を遂げているが,視覚的特徴抽出器の選択は依然として重要な設計決定である。 本稿では,畳み込みニューラルネットワーク(CNN)をスクラッチから学習するRLアルゴリズムの性能と,事前学習された視覚表現(PVR)を利用するアルゴリズムとの比較を行った。 ResNet18, DINOv2, Visual Cortex (VC) の3つのPVRに対して, 最先端のビジュアルRL法である Dormant Ratio Minimization (DRM) アルゴリズムを評価した。 比較にはMetaworld Push-v2タスクとDrawer-Open-v2タスクを使用します。 以上の結果から,PVRを最大化するために使用する場合と比較して,スクラッチからトレーニングを選択することはタスク依存であることがわかったが,PVRはリプレイバッファサイズを小さくし,トレーニング時間を短縮できるという利点がある。 また、休眠率とモデル性能の相関関係を強く把握し、視覚的RLにおける探索の重要性を強調した。 我々の研究は、スクラッチからのトレーニングとPVRの使用のトレードオフに関する洞察を提供し、将来のビジュアルRLアルゴリズムの設計を知らせる。

Visual reinforcement learning (RL) has made significant progress in recent years, but the choice of visual feature extractor remains a crucial design decision. This paper compares the performance of RL algorithms that train a convolutional neural network (CNN) from scratch with those that utilize pre-trained visual representations (PVRs). We evaluate the Dormant Ratio Minimization (DRM) algorithm, a state-of-the-art visual RL method, against three PVRs: ResNet18, DINOv2, and Visual Cortex (VC). We use the Metaworld Push-v2 and Drawer-Open-v2 tasks for our comparison. Our results show that the choice of training from scratch compared to using PVRs for maximising performance is task-dependent, but PVRs offer advantages in terms of reduced replay buffer size and faster training times. We also identify a strong correlation between the dormant ratio and model performance, highlighting the importance of exploration in visual RL. Our study provides insights into the trade-offs between training from scratch and using PVRs, informing the design of future visual RL algorithms.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# 歴史的特徴周波数による可塑性パッチのランク付け

Ranking Plausible Patches by Historic Feature Frequencies ( http://arxiv.org/abs/2407.17240v1 )

ライセンス: Link先を確認
Shifat Sahariar Bhuiyan, Abhishek Tiwari, Yu Pei, Carlo A. Furia, (参考訳) 自動プログラム修復(APR)技術は目覚ましい進歩を遂げており、ほんの数年前にその能力をはるかに超えたシナリオで真に正しい修正を生成できるようになった。 それでも、APRテクニックがバグの修正を正しく見つけることができたとしても、修正のランク付けのリスクは、(利用可能なすべてのテストに合格する)不正確である他のパッチよりも低い。 これは、ユーザーが正しいパッチを見つける前に、より多くのパッチを使わなければならないため、このテクニックの実践的効果を著しく損なう可能性がある。 本稿では,APR技術が生成する可塑性パッチを,従来のプログラマによるバグ修正と類似性に応じてランク付けする手法であるPrevaRankについて述べる。 PrevaRankは単純なヒューリスティックスを実装しており、スケーラブルで、プラルーシブルなパッチを生成するAPRツールにも適用できます。 実験的な評価では、81のオープンソースプロジェクトの修正履歴についてPrevaRankをトレーニングした後、168のDefects4Jバグで8つのJava APRツールが生成したパッチのランク付けに使用しました。 例えば、最初のツールよりも27%多いケースで、トップ3のポジションで正しい修正をランク付けした。 他の実験結果から、PrevaRankは様々なAPRツールやバグと共に、無視できるオーバーヘッドで、堅牢に動作することが示されている。

Automated program repair (APR) techniques have achieved conspicuous progress, and are now capable of producing genuinely correct fixes in scenarios that were well beyond their capabilities only a few years ago. Nevertheless, even when an APR technique can find a correct fix for a bug, it still runs the risk of ranking the fix lower than other patches that are plausible (they pass all available tests) but incorrect. This can seriously hurt the technique's practical effectiveness, as the user will have to peruse a larger number of patches before finding the correct one. This paper presents PrevaRank, a technique that ranks plausible patches produced by any APR technique according to their feature similarity with historic programmer-written fixes for similar bugs. PrevaRank implements simple heuristics, which help make it scalable and applicable to any APR tool that produces plausible patches. In our experimental evaluation, after training PrevaRank on the fix history of 81 open-source Java projects, we used it to rank patches produced by 8 Java APR tools on 168 Defects4J bugs. PrevaRank consistently improved the ranking of correct fixes: for example, it ranked a correct fix within the top-3 positions in 27% more cases than the original tools did. Other experimental results indicate that PrevaRank works robustly with a variety of APR tools and bugs, with negligible overhead.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# 時系列予測におけるチャネル対応低ランク適応

Channel-Aware Low-Rank Adaptation in Time Series Forecasting ( http://arxiv.org/abs/2407.17246v1 )

ライセンス: Link先を確認
Tong Nie, Yuewen Mei, Guoyang Qin, Jian Sun, Wei Ma, (参考訳) モデルキャパシティと一般化のバランスは、長期連続予測における最近の議論の重要な焦点となっている。 2つの代表的なチャネル戦略は、チャネル独立(CI)とチャネル依存(CD)を含むモデル表現性と堅牢性と密接に関連している。 前者は個別のチャネル処理を採用し、分散シフトに対してより堅牢であることが示されているが、意味のあるチャネル相互作用をモデル化するのに十分な能力がない。 後者は、複雑なチャネル間の依存関係を表現するためにより表現力があるが、過度に適合する傾向がある。 この2つの戦略のバランスをとるために、チャネル対応の低ランク適応法を、アイデンティティ対応の個別コンポーネント上で条件付きCDモデルに適用する。 プラグインソリューションとして、幅広いバックボーンアーキテクチャに適用可能である。 大規模な実験により、効率と柔軟性を示すことで、CIモデルとCDモデルの両方のパフォーマンスを一貫して、そして、大幅に改善できることが示されている。 コードはhttps://github.com/tongnie/C-LoRAで公開されている。

The balance between model capacity and generalization has been a key focus of recent discussions in long-term time series forecasting. Two representative channel strategies are closely associated with model expressivity and robustness, including channel independence (CI) and channel dependence (CD). The former adopts individual channel treatment and has been shown to be more robust to distribution shifts, but lacks sufficient capacity to model meaningful channel interactions. The latter is more expressive for representing complex cross-channel dependencies, but is prone to overfitting. To balance the two strategies, we present a channel-aware low-rank adaptation method to condition CD models on identity-aware individual components. As a plug-in solution, it is adaptable for a wide range of backbone architectures. Extensive experiments show that it can consistently and significantly improve the performance of both CI and CD models with demonstrated efficiency and flexibility. The code is available at https://github.com/tongnie/C-LoRA.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# 重要なインフラストラクチャセキュリティ - 侵入テストと爆発的開発の観点から

Critical Infrastructure Security: Penetration Testing and Exploit Development Perspectives ( http://arxiv.org/abs/2407.17256v1 )

ライセンス: Link先を確認
Papa Kobina Orleans-Bosomtwe, (参考訳) クリティカルインフラストラクチャー(Critical Infrastructure)とは、社会や経済の機能と安定性に不可欠な物理的およびサイバーシステムを指す。 これらのシステムには、社会や経済の安定に不可欠な医療、エネルギー、水道といった重要な分野が含まれており、国家が支援するハッカーを含む悪意あるアクターにとって、国家の安全と経済の安定を損なおうとする主要なターゲットになりつつある。 本稿では,重要なインフラのセキュリティに関する文献をレビューし,浸透試験と活用開発に焦点をあてる。 重要なインフラストラクチャの特徴、浸透テストの役割と課題、エクスプロイト開発方法論、セキュリティとレジリエンスへのこれらのプラクティスの貢献という、4つの主な疑問を探求する。 本研究は,サイバー攻撃者による重大なインフラや高度な脅威に固有の脆弱性を明らかにするものである。 侵入テストは、セキュリティの弱点を特定し、対処するための重要なツールとして強調され、組織が防御を固めることを可能にする。 さらに、エクスプロイト開発を理解することは潜在的な脅威を予測し軽減し、より堅牢なセキュリティ対策につながる。 このレビューは、継続的かつ積極的なセキュリティアセスメントの必要性を強調し、侵入テストの統合と開発を通常のセキュリティプロトコルに活用することを提唱している。 そうすることで、組織はプリエンプティブにリスクを特定し、緩和し、重要なインフラストラクチャ全体のレジリエンスを高めることができます。 この論文は、進化するサイバー脅威の風景のための革新的なソリューションを開発するために、公共と民間セクター間の継続的な研究と協力の必要性を強調して締めくくっている。 この総合的なレビューは、インフラのセキュリティの基本的な理解を提供し、将来の研究と実践をガイドすることを目的としている。

Critical infrastructure refers to essential physical and cyber systems vital to the functioning and stability of societies and economies. These systems include key sectors such as healthcare, energy, and water supply, which are crucial for societal and economic stability and are increasingly becoming prime targets for malicious actors, including state-sponsored hackers, seeking to disrupt national security and economic stability. This paper reviews literature on critical infrastructure security, focusing on penetration testing and exploit development. It explores four main questions: the characteristics of critical infrastructure, the role and challenges of penetration testing, methodologies of exploit development, and the contribution of these practices to security and resilience. The findings of this paper reveal inherent vulnerabilities in critical infrastructure and sophisticated threats posed by cyber adversaries. Penetration testing is highlighted as a vital tool for identifying and addressing security weaknesses, allowing organizations to fortify their defenses. Additionally, understanding exploit development helps anticipate and mitigate potential threats, leading to more robust security measures. The review underscores the necessity of continuous and proactive security assessments, advocating for integrating penetration testing and exploit development into regular security protocols. By doing so, organizations can preemptively identify and mitigate risks, enhancing the overall resilience of critical infrastructure. The paper concludes by emphasizing the need for ongoing research and collaboration between the public and private sectors to develop innovative solutions for the evolving cyber threat landscape. This comprehensive review aims to provide a foundational understanding of critical infrastructure security and guide future research and practices.
翻訳日:2024-07-25 13:54:30 公開日:2024-07-24
# 効率的なセマンティックセグメンテーションのための推論空間削減型埋め込みフリー変圧器

Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation ( http://arxiv.org/abs/2407.17261v1 )

ライセンス: Link先を確認
Hyunwoo Yu, Yubin Cho, Beoungwoo Kang, Seunghun Moon, Kyeongbo Kong, Suk-Ju Kang, (参考訳) EDAFormer は Embedding-Free Transformer (EFT) エンコーダと Embedding-Free Attention (EFA) 構造を利用する全アテンションデコーダで構成される。 提案するEFAは,クエリやキー,バリューの特定の役割ではなく,グローバルな非線形性(non-linearity)を機能させる,新たなグローバルなコンテキストモデリング機構である。 このデコーダでは,グローバル性を考慮し,セマンティックセグメンテーション性能を向上させるために最適化された構造について検討する。 さらに,計算効率向上のための新しい推論空間還元法を提案する。 従来の空間縮小アテンション法と異なり,提案手法は推論フェーズにおけるキー値の分解能をさらに低減し,効率的なセマンティックセグメンテーションのための計算性能のトレードオフギャップを緩和する。 EDAFormerは、ADE20K、Cityscapes、COCO-Stuffを含む3つの公開ベンチマークにおいて、既存のトランスフォーマーベースのセマンティックセマンティックセグメンテーションモデルと比較して、効率的な計算による最先端性能を示す。 さらに、ISR法は、Cityscapesデータセット上でのmIoU性能の最小化により、計算コストを最大61%削減する。 コードはhttps://github.com/hyunwoo137/EDAFormerで入手できる。

We present an Encoder-Decoder Attention Transformer, EDAFormer, which consists of the Embedding-Free Transformer (EFT) encoder and the all-attention decoder leveraging our Embedding-Free Attention (EFA) structure. The proposed EFA is a novel global context modeling mechanism that focuses on functioning the global non-linearity, not the specific roles of the query, key and value. For the decoder, we explore the optimized structure for considering the globality, which can improve the semantic segmentation performance. In addition, we propose a novel Inference Spatial Reduction (ISR) method for the computational efficiency. Different from the previous spatial reduction attention methods, our ISR method further reduces the key-value resolution at the inference phase, which can mitigate the computation-performance trade-off gap for the efficient semantic segmentation. Our EDAFormer shows the state-of-the-art performance with the efficient computation compared to the existing transformer-based semantic segmentation models in three public benchmarks, including ADE20K, Cityscapes and COCO-Stuff. Furthermore, our ISR method reduces the computational cost by up to 61% with minimal mIoU performance degradation on Cityscapes dataset. The code is available at https://github.com/hyunwoo137/EDAFormer.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# SCIsegV2 : 脊髄損傷における髄内病変の分離のためのユニバーサルツール

SCIsegV2: A Universal Tool for Segmentation of Intramedullary Lesions in Spinal Cord Injury ( http://arxiv.org/abs/2407.17265v1 )

ライセンス: Link先を確認
Enamundram Naga Karthik, Jan Valošek, Lynn Farner, Dario Pfyffer, Simon Schading-Sassenhausen, Anna Lebret, Gergely David, Andrew C. Smith, Kenneth A. Weber II, Maryam Seif, RHSCIR Network Imaging Group, Patrick Freund, Julien Cohen-Adad, (参考訳) 脊髄損傷(英: Spinal cord injury, SCI)は、脊髄内に病変が生じる可能性がある永久麻痺や感覚運動機能の喪失につながる破壊的な事故である。 磁気共鳴イメージング(MRI)スキャンから得られたイメージングバイオマーカーは、SCIによる個人の機能回復を予測し、最適な治療戦略を選択するのに役立つ。 現在、ほとんどの研究は、主観的で退屈なタスクであるこれらのMRI由来のバイオマーカーを手動で定量化している。 本研究で提案する i) <texttt{SCIsegV2} と呼ばれる髄内SCI病変の自動切除のための普遍的ツール 二 分節病変から組織橋の幅を自動的に計算する方法。 組織ブリッジは、SCI患者の機能回復と関連する病変に隣接した脊髄組織を表現している。 異なるSCI相(急性,亜急性,慢性)およびエチオロジー(外傷性SCI,虚血性SCI,変性性頚髄症)の7部位から得られた異種データセットをトレーニングし,評価した。 自動的に定量化される組織ブリッジは手動で計算したブリッジと大きく違いはなく,MRIバイオマーカーの導出に有効であることが示唆された。 \texttt{SCIsegV2} と自動組織ブリッジ計算は、それぞれ、 \texttt{sct\_deepseg -task seg\_sc\_lesion\_t2w\_sci} 関数と \texttt{sct\_analyze\_lesion} 関数を介して、Spinal Cord Toolbox (v6.4以降) で公開されている。

Spinal cord injury (SCI) is a devastating incidence leading to permanent paralysis and loss of sensory-motor functions potentially resulting in the formation of lesions within the spinal cord. Imaging biomarkers obtained from magnetic resonance imaging (MRI) scans can predict the functional recovery of individuals with SCI and help choose the optimal treatment strategy. Currently, most studies employ manual quantification of these MRI-derived biomarkers, which is a subjective and tedious task. In this work, we propose (i) a universal tool for the automatic segmentation of intramedullary SCI lesions, dubbed \texttt{SCIsegV2}, and (ii) a method to automatically compute the width of the tissue bridges from the segmented lesion. Tissue bridges represent the spared spinal tissue adjacent to the lesion, which is associated with functional recovery in SCI patients. The tool was trained and validated on a heterogeneous dataset from 7 sites comprising patients from different SCI phases (acute, sub-acute, and chronic) and etiologies (traumatic SCI, ischemic SCI, and degenerative cervical myelopathy). Tissue bridges quantified automatically did not significantly differ from those computed manually, suggesting that the proposed automatic tool can be used to derive relevant MRI biomarkers. \texttt{SCIsegV2} and the automatic tissue bridges computation are open-source and available in Spinal Cord Toolbox (v6.4 and above) via the \texttt{sct\_deepseg -task seg\_sc\_lesion\_t2w\_sci} and \texttt{sct\_analyze\_lesion} functions, respectively.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# M4: 病理画像解析におけるマルチインスタンス学習のためのエキスパートネットワークのマルチプロキシ・マルチゲート混合

M4: Multi-Proxy Multi-Gate Mixture of Experts Network for Multiple Instance Learning in Histopathology Image Analysis ( http://arxiv.org/abs/2407.17267v1 )

ライセンス: Link先を確認
Junyu Li, Ye Zhang, Wen Shu, Xiaobing Feng, Yingchun Wang, Pengju Yan, Xiaolin Li, Chulin Sha, Min He, (参考訳) マルチ・インスタンス・ラーニング(MIL)は、腫瘍のサブタイプから遺伝子変異の推測、マルチオミクスバイオマーカーまで幅広い予測タスクを可能にする計算病理学における全スライド画像(WSI)解析に成功している。 しかし、既存のMIL手法は主にシングルタスク学習に焦点をあてており、結果として全体的な低効率だけでなく、タスク間の関連性も見落としている。 これらの問題に対処するため、我々はMulti-proxy for multiple instance learning (M4)を用いたマルチゲート・ミックス・オブ・エキスパートのアーキテクチャを提案し、WSIから複数の遺伝的変異を同時予測するためにこのフレームワークを適用した。 提案したM4モデルには,1つの病的スライド上での多遺伝子変異予測のための複数のゲーティング戦略を持つ専門家の混在の利用,2)病的画像情報の包括的かつ効果的なモデリングのためのマルチプロキシ・エキスパートネットワークとゲートネットワークの構築,の2つの主要な革新がある。 我々のモデルは、現在の最先端のシングルタスク手法と比較して、5つのテスト済みTCGAデータセットで大幅に改善された。 コードは、https://github.com/Bigyehahaha/M4.comから入手できる。

Multiple instance learning (MIL) has been successfully applied for whole slide images (WSIs) analysis in computational pathology, enabling a wide range of prediction tasks from tumor subtyping to inferring genetic mutations and multi-omics biomarkers. However, existing MIL methods predominantly focus on single-task learning, resulting in not only overall low efficiency but also the overlook of inter-task relatedness. To address these issues, we proposed an adapted architecture of Multi-gate Mixture-of-experts with Multi-proxy for Multiple instance learning (M4), and applied this framework for simultaneous prediction of multiple genetic mutations from WSIs. The proposed M4 model has two main innovations: (1) utilizing a mixture of experts with multiple gating strategies for multi-genetic mutation prediction on a single pathological slide; (2) constructing multi-proxy expert network and gate network for comprehensive and effective modeling of pathological image information. Our model achieved significant improvements across five tested TCGA datasets in comparison to current state-of-the-art single-task methods. The code is available at:https://github.com/Bigyehahaha/M4.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# 5Gセキュリティ強化のための高度な浸透試験

Advanced Penetration Testing for Enhancing 5G Security ( http://arxiv.org/abs/2407.17269v1 )

ライセンス: Link先を確認
Shari-Ann Smith-Haynes, (参考訳) 第5世代(5G)ネットワークの進歩は、以前のモバイルネットワークと比較して、前例のない信頼性、速度、接続性を実現している。 これらの進歩は、リアルタイムデータ処理を必要とするアプリケーションをサポートすることで、様々な分野に革命をもたらす可能性がある。 しかし、5Gネットワークの迅速な展開と統合は、これらのインフラを安全に運用するために対処しなければならないセキュリティ上の懸念をもたらす。 本稿では,5Gネットワークのセキュリティ脆弱性を特定するための浸透試験手法についてレビューする。 侵入テストは、サイバー攻撃の際にネットワークのセキュリティ姿勢をシミュレートするために使用される倫理的ハッキング技術である。 このレビューは、浸透テストのための最近の5Gターゲットセキュリティツールの機能、利点、限界を強調している。 敵が5Gネットワークの脆弱性を悪用する方法を調べ、5G機能をターゲットにした戦術と戦略をカバーしている。 5Gおよびそれ以前の世代における浸透試験法の比較について検討した。 この記事では、大規模なMIMO、エッジコンピューティング、ネットワークスライシングを含む5Gのユニークな特徴と、これらの側面がいかにして新しい浸透試験方法を必要とするかを詳しく説明している。 これらの違いを理解することは、5Gネットワークに適したより効果的なセキュリティソリューションの開発に役立つ。 我々の研究は、5Gの浸透試験は、現在のセキュリティ問題に対処するために、マルチスレッドアプローチを使用するべきであることを示唆している。 さらに,本論文は,5Gネットワークにおける浸透試験の現実的応用における実践的課題と限界を実証するケーススタディを含む。 5Gネットワークの侵入テストツールの比較分析は、脆弱性を緩和する効果を強調し、5Gデプロイメントにおけるサイバー脅威の進化に対する高度なセキュリティ対策の必要性を強調している。

Advances in fifth-generation (5G) networks enable unprecedented reliability, speed, and connectivity compared to previous mobile networks. These advancements can revolutionize various sectors by supporting applications requiring real-time data processing. However, the rapid deployment and integration of 5G networks bring security concerns that must be addressed to operate these infrastructures safely. This paper reviews penetration testing approaches for identifying security vulnerabilities in 5G networks. Penetration testing is an ethical hacking technique used to simulate a network's security posture in the event of cyberattacks. This review highlights the capabilities, advantages, and limitations of recent 5G-targeting security tools for penetration testing. It examines ways adversaries exploit vulnerabilities in 5G networks, covering tactics and strategies targeted at 5G features. A key topic explored is the comparison of penetration testing methods for 5G and earlier generations. The article delves into the unique characteristics of 5G, including massive MIMO, edge computing, and network slicing, and how these aspects require new penetration testing methods. Understanding these differences helps develop more effective security solutions tailored to 5G networks. Our research also indicates that 5G penetration testing should use a multithreaded approach for addressing current security challenges. Furthermore, this paper includes case studies illustrating practical challenges and limitations in real-world applications of penetration testing in 5G networks. A comparative analysis of penetration testing tools for 5G networks highlights their effectiveness in mitigating vulnerabilities, emphasizing the need for advanced security measures against evolving cyber threats in 5G deployment.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# DenseTrack:密度認識型モーション・アウェアランス・シナジーによるドローンによる群集追跡

DenseTrack: Drone-based Crowd Tracking via Density-aware Motion-appearance Synergy ( http://arxiv.org/abs/2407.17272v1 )

ライセンス: Link先を確認
Yi Lei, Huilin Zhu, Jingling Yuan, Guangli Xiang, Xian Zhong, Shengfeng He, (参考訳) ドローンによる群集の追跡は、物体を空中から正確に識別し、監視するのに困難に直面している。 これらの課題に対処するために、密度認識追跡(DenseTrack)フレームワークを提案する。 DenseTrackは、群衆のカウントに乗じて、オブジェクトの位置を正確に決定し、視覚とモーションのキューを混ぜて、小規模オブジェクトの追跡を改善する。 具体的には、追跡精度と信頼性を高めるために、クロスフレーム動作の問題に対処する。 DenseTrackは、ビデオフレーム内の正確なオブジェクトローカライゼーションのためのアンカーとして、群衆密度推定を使用している。 これらの推定値は、トラッキングネットワークからのモーションと位置情報とマージされ、キートラッキングキューとして動作オフセットが機能する。 さらに、DenseTrackは、視覚言語モデルからの洞察を用いて小さなオブジェクトを区別する機能を強化し、外観をモーションキューに統合する。 このフレームワークはハンガリーのアルゴリズムを利用して、フレーム間の個人間の正確なマッチングを保証する。 DroneCrowdのデータセットを例にとり、当社のアプローチは優れたパフォーマンスを示し、ドローンが捉えたシナリオにおける有効性を確認した。

Drone-based crowd tracking faces difficulties in accurately identifying and monitoring objects from an aerial perspective, largely due to their small size and close proximity to each other, which complicates both localization and tracking. To address these challenges, we present the Density-aware Tracking (DenseTrack) framework. DenseTrack capitalizes on crowd counting to precisely determine object locations, blending visual and motion cues to improve the tracking of small-scale objects. It specifically addresses the problem of cross-frame motion to enhance tracking accuracy and dependability. DenseTrack employs crowd density estimates as anchors for exact object localization within video frames. These estimates are merged with motion and position information from the tracking network, with motion offsets serving as key tracking cues. Moreover, DenseTrack enhances the ability to distinguish small-scale objects using insights from the visual-language model, integrating appearance with motion cues. The framework utilizes the Hungarian algorithm to ensure the accurate matching of individuals across frames. Demonstrated on DroneCrowd dataset, our approach exhibits superior performance, confirming its effectiveness in scenarios captured by drones.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# グラフマッチング問題としてのコンポーネントマッチング

Component Matching as a Graph Matching Problem ( http://arxiv.org/abs/2407.17273v1 )

ライセンス: Link先を確認
Suresh Kamath, (参考訳) IT戦略の開発と、それがビジネスにとって最善のものであることを保証することが、多くの組織が直面する重要な問題です。 この問題は、ビジネスアーキテクチャとITアーキテクチャを、特にアプリケーションアーキテクチャとを結びつけることです。 初期の研究で私たちは、ビジネスとITの世界を統一的な方法で両概念と関係を表現する能力で統一するための形式言語としてカテゴリ理論を提案しました。 インターフェース、コントラクト、コンポーネントの仕様の基盤となるモデルとして、rCOSを使用しました。 擬似分類の概念はビジネスとアプリケーションアーキテクチャの仕様とそれに含まれる関係を表現するために使われる。 契約はITアーキテクチャコンポーネントとビジネスアーキテクチャコンポーネントの両方の仕様に使用される。 それらの間のリンクは現在、ビジネスコンポーネント契約とアプリケーションコンポーネント契約のマッチングを使用して確立されています。 通常、マッチングは手動のプロセスに基づいており、この論文では、自動コンポーネントマッチングプロセスを考慮して作業を拡張する。 本稿では,グラフマッチングを用いたマッチング処理の実装について述べる。

The development of an IT strategy and ensuring that it is the best possible one for business is a key problem many organizations face. This problem is that of linking business architecture to IT architecture in general and application architecture specifically. In our earlier work we proposed Category theory as the formal language to unify the business and IT worlds with the ability to represent the concepts and relations between the two in a unified way. We used rCOS as the underlying model for the specification of interfaces, contracts, and components. The concept of pseudo-category was then utilized to represent the business and application architecture specifications and the relationships contained within. Contracts are used for the specification of both IT and Business architecture components. The linkages between them is now established using the matching of the business component contracts with the application component contracts. Typically, the matching was based on manual process, in this paper we extend the work by considering automated component matching process. In this paper we provide implementation of the matching process using graph matching.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# 自己回帰Token-to-Vokenジェネレーションとしてのテキスト・ツー・イメージ検索の革命

Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation ( http://arxiv.org/abs/2407.17274v1 )

ライセンス: Link先を確認
Yongqi Li, Hongru Cai, Wenjie Wang, Leigang Qu, Yinwei Wei, Wenjie Li, Liqiang Nie, Tat-Seng Chua, (参考訳) テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題であり、意味論的に関連のあるクロスモーダルコンテンツを検索することを目的としている。 伝統的な研究は、典型的にはこのタスクを差別的な問題としてアプローチし、テキストとイメージをクロスアテンション機構(ワン・トウワー・フレームワーク)または共通の埋め込み空間(ツー・トウワー・フレームワーク)を介してマッチングする。 近年,一意の文字列識別子で画像を割り当て,ターゲット識別子を検索対象として生成する新たな研究線として,生成的クロスモーダル検索が出現している。 その大きな可能性にもかかわらず、既存の生成的アプローチは、識別子の視覚的情報不足、ハイレベルなセマンティクスとの相違、検索対象への学習ギャップといった問題によって制限されている。 上記の課題に対処するため,AVG という自動回帰音声生成手法を提案する。 AVGは、画像からトークン、すなわちビジュアルトークンにトークン化し、テキストから画像への検索タスクをトークンからトークンへの生成問題として革新的に定式化する。 AVGは、画像の視覚情報と高レベルのセマンティクスの両方との整合を維持しながら、画像の識別子として、画像の一連のウォケンを識別する。 さらに,生成的学習と検索対象との学習ギャップを埋めるため,トークン・ツー・トークン学習における学習方向の変更に識別的学習を取り入れた。 大規模な実験により、AVGは効果と効率の両方において優れた結果が得られることが示された。

Text-to-image retrieval is a fundamental task in multimedia processing, aiming to retrieve semantically relevant cross-modal content. Traditional studies have typically approached this task as a discriminative problem, matching the text and image via the cross-attention mechanism (one-tower framework) or in a common embedding space (two-tower framework). Recently, generative cross-modal retrieval has emerged as a new research line, which assigns images with unique string identifiers and generates the target identifier as the retrieval target. Despite its great potential, existing generative approaches are limited due to the following issues: insufficient visual information in identifiers, misalignment with high-level semantics, and learning gap towards the retrieval target. To address the above issues, we propose an autoregressive voken generation method, named AVG. AVG tokenizes images into vokens, i.e., visual tokens, and innovatively formulates the text-to-image retrieval task as a token-to-voken generation problem. AVG discretizes an image into a sequence of vokens as the identifier of the image, while maintaining the alignment with both the visual information and high-level semantics of the image. Additionally, to bridge the learning gap between generative training and the retrieval target, we incorporate discriminative training to modify the learning direction during token-to-voken training. Extensive experiments demonstrate that AVG achieves superior results in both effectiveness and efficiency.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# ブロックチェーンへの信頼のブリッジ: オンチェーンアイデンティティに関するシステムレビュー

Bridging Trust into the Blockchain: A Systematic Review on On-Chain Identity ( http://arxiv.org/abs/2407.17276v1 )

ライセンス: Link先を確認
Awid Vaziry, Kaustabh Barman, Patrick Herbke, (参考訳) ブロックチェーンベースのサービスとアプリケーションの継続的な規制は、ブロックチェーンにトランザクションを発行しているユーザの識別を必要とする。 この体系的なレビューは、現在の状況を調査し、研究ギャップを特定し、ブロックチェーン(オンチェーンID)上の信頼性とプライバシに準拠したアイデンティティを確立するための今後の研究の方向性を概説する。 体系的な検索用語が様々な科学データベースに適用され、2232の潜在的研究論文が収集された。 これらの論文は、2つの方法論的に実行されたステップで98、最終的に13の関連資料に絞られた。 関連する記事は、一連のスクリーニング質問に基づいて体系的に分析される。 選択された研究の結果は、オンチェーンのアイデンティティのメカニズムに関する洞察に富んだ知見を与えている。 オンチェーンのアイデンティティは、ゼロ知識証明、公開鍵インフラストラクチャ/認証、信頼のWebを使って確立される。 著者が使用する技術やアーキテクチャも強調されている。 信頼は重要な研究ギャップとして現れ、まず、物理的な人間のデジタルアイデンティティー表現を信頼する方法のギャップ、そして、アイデンティティー確認をチェーン上で発行するアイデンティティープロバイダを信頼する方法のギャップである。 将来的な研究の道は、信頼とオンチェーンのアイデンティティを確立する際の現在のギャップを埋めるのに役立つと提案されている。

The ongoing regulation of blockchain-based services and applications requires the identification of users who are issuing transactions on the blockchain. This systematic review explores the current status, identifies research gaps, and outlines future research directions for establishing trusted and privacy-compliant identities on the blockchain (on-chain identity). A systematic search term was applied across various scientific databases, collecting 2232 potentially relevant research papers. These papers were narrowed down in two methodologically executed steps to 98 and finally to 13 relevant sources. The relevant articles were then systematically analyzed based on a set of screening questions. The results of the selected studies have provided insightful findings on the mechanisms of on-chain identities. On-chain identities are established using zero-knowledge proofs, public key infrastructure/certificates, and web of trust approaches. The technologies and architectures used by the authors are also highlighted. Trust has emerged as a key research gap, manifesting in two ways: firstly, a gap in how to trust the digital identity representation of a physical human; secondly, a gap in how to trust identity providers that issue identity confirmations on-chain. Potential future research avenues are suggested to help fill the current gaps in establishing trust and on-chain identities.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# 正規化による機能学習の強化:ニューラルネットワークとカーネルメソッドの統合

Enhanced Feature Learning via Regularisation: Integrating Neural Networks and Kernel Methods ( http://arxiv.org/abs/2407.17280v1 )

ライセンス: Link先を確認
Bertille Follain, Francis Bach, (参考訳) 正規化経験的リスク最小化による教師あり学習における特徴学習と機能推定の新しい手法を提案する。 提案手法では, ソボレフ関数の期待値として, データの任意の一次元射影に対する期待値とみなす。 このフレームワークはカーネルリッジ回帰に似ており、カーネルは$\mathbb{E}_w (k^{(B)}(w^\top x,w^\top x^\prime))$, with $k^{(B)}(a,b) := \min(|a|, |b|)1_{ab>0}$, the Brownian kernelである。 これは無限幅の1重層ニューラルネットワークと見なすことができ、勾配降下により第1層の重みを最適化し、第2層の非線形性と重みを明示的に調整する。 本稿では,BKernel Neural Network (BKerNN) と呼ばれる推定器の効率的な計算手法を提案する。 最適化はブラウン核の正の同質性によって原理化される。 Rademacher の複雑性を用いて、BKerNN の予測リスクは最小限のリスクに収束し、$O( \min((d/n)^{1/2}, n^{-1/6}))$(対数因子まで)である。 数値実験により最適化直観が確認され、BKerNNはカーネルリッジ回帰よりも優れており、様々な設定や実際のデータセットでReLUをアクティベートした1つの隠れ層ニューラルネットワークと比較することが好ましい。

We propose a new method for feature learning and function estimation in supervised learning via regularised empirical risk minimisation. Our approach considers functions as expectations of Sobolev functions over all possible one-dimensional projections of the data. This framework is similar to kernel ridge regression, where the kernel is $\mathbb{E}_w ( k^{(B)}(w^\top x,w^\top x^\prime))$, with $k^{(B)}(a,b) := \min(|a|, |b|)1_{ab>0}$ the Brownian kernel, and the distribution of the projections $w$ is learnt. This can also be viewed as an infinite-width one-hidden layer neural network, optimising the first layer's weights through gradient descent and explicitly adjusting the non-linearity and weights of the second layer. We introduce an efficient computation method for the estimator, called Brownian Kernel Neural Network (BKerNN), using particles to approximate the expectation. The optimisation is principled due to the positive homogeneity of the Brownian kernel. Using Rademacher complexity, we show that BKerNN's expected risk converges to the minimal risk with explicit high-probability rates of $O( \min((d/n)^{1/2}, n^{-1/6}))$ (up to logarithmic factors). Numerical experiments confirm our optimisation intuitions, and BKerNN outperforms kernel ridge regression, and favourably compares to a one-hidden layer neural network with ReLU activations in various settings and real data sets.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# テキスト分類作業におけるコールドスタート能動学習のための2ステップファインチューニングパイプライン

A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks ( http://arxiv.org/abs/2407.17284v1 )

ライセンス: Link先を確認
Fabiano Belém, Washington Cunha, Celso França, Claudio Andrade, Leonardo Rocha, Marcos André Gonçalves, (参考訳) これは、ラベル付きデータがないために従来の微調整が不可能なコールドスタートシナリオにおける、アクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性を調査する最初の試みである。 主な貢献は、(1)マスク付き言語モデリングによる埋め込みのドメイン適応によるラベルなしデータの完全活用と、(2)ALが選択したラベル付きデータによるモデル重み付けの調整の2つのステップを用いて、ラベル付きデータへの依存を緩和する、より堅牢な微調整パイプラインであるDoTCALの提案である。 提案手法は,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなどの一般的なテキスト表現パラダイムと,ALプロセスの2つの重要な段階において,BERTベースの埋め込みと対比する。 AL予算の異なる8つのATCベンチマーク(ラベル付きインスタンス数)とインスタンス数(約5,000から30,000)で実施された実験は、DoTCALの優れた効果を示し、マクロF1の最大33%の改善を実現し、従来のワンステップ法に比べてラベル付けの労力を半分削減した。 また,複数のタスクにおいて,BoWとLSIはBERTよりも優れた結果(最大59%)を得られることが判明した。

This is the first work to investigate the effectiveness of BERT-based contextual embeddings in active learning (AL) tasks on cold-start scenarios, where traditional fine-tuning is infeasible due to the absence of labeled data. Our primary contribution is the proposal of a more robust fine-tuning pipeline - DoTCAL - that diminishes the reliance on labeled data in AL using two steps: (1) fully leveraging unlabeled data through domain adaptation of the embeddings via masked language modeling and (2) further adjusting model weights using labeled data selected by AL. Our evaluation contrasts BERT-based embeddings with other prevalent text representation paradigms, including Bag of Words (BoW), Latent Semantic Indexing (LSI), and FastText, at two critical stages of the AL process: instance selection and classification. Experiments conducted on eight ATC benchmarks with varying AL budgets (number of labeled instances) and number of instances (about 5,000 to 300,000) demonstrate DoTCAL's superior effectiveness, achieving up to a 33% improvement in Macro-F1 while reducing labeling efforts by half compared to the traditional one-step method. We also found that in several tasks, BoW and LSI (due to information aggregation) produce results superior (up to 59% ) to BERT, especially in low-budget scenarios and hard-to-classify tasks, which is quite surprising.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# LLMはミスリーディング・ビジュアライゼーションを検出できるのか?

How Good (Or Bad) Are LLMs at Detecting Misleading Visualizations? ( http://arxiv.org/abs/2407.17291v1 )

ライセンス: Link先を確認
Leo Yu-Ho Lo, Huamin Qu, (参考訳) 本研究では,情報伝達の整合性を損なう問題として,誤解を招くチャートの増大に対処する。 誤解を招くチャートは、視聴者のデータに対する認識を歪め、誤った情報に基づく誤解や決定につながる。 ミスリードチャートのための効果的な自動検出手法の開発は、緊急研究分野である。 最近のLLM(Multimodal Large Language Models)の進歩により、この問題に対処するための有望な方向性が導入された。 そこで我々は,これらのモデルが複雑なチャートを解析し,モデルの分析に異なるプロンプト戦略が与える影響について検討した。 我々は、インターネットから収集された誤解を招くグラフのデータセットを利用して、単純から複雑まで、9つの異なるプロンプトを作成し、21以上の異なるチャート問題を検出する4つの異なるマルチモーダルLCMの能力をテストする。 初期の調査から詳細な分析まで,3つの実験を通じて,LSMにミスリードチャートの特定を効果的に促す方法についての洞察を段階的に得るとともに,最初の5つの問題から最終実験で21の問題まで,我々の検出範囲を広げる上で直面するスケーラビリティ上の課題に対処するための戦略を開発しました。 以上の結果から,マルチモーダルLLMは,データ解釈におけるチャート理解と批判的思考の強い能力を有することが明らかとなった。 批判的思考を支援し、可視化リテラシーを高めることで、誤解を招く情報に対抗するためにマルチモーダルLLMを使うことには大きな可能性がある。 本研究は,誤解を招くチャートの関心事に対処する上で,LCMの適用性を示すものである。

In this study, we address the growing issue of misleading charts, a prevalent problem that undermines the integrity of information dissemination. Misleading charts can distort the viewer's perception of data, leading to misinterpretations and decisions based on false information. The development of effective automatic detection methods for misleading charts is an urgent field of research. The recent advancement of multimodal Large Language Models (LLMs) has introduced a promising direction for addressing this challenge. We explored the capabilities of these models in analyzing complex charts and assessing the impact of different prompting strategies on the models' analyses. We utilized a dataset of misleading charts collected from the internet by prior research and crafted nine distinct prompts, ranging from simple to complex, to test the ability of four different multimodal LLMs in detecting over 21 different chart issues. Through three experiments--from initial exploration to detailed analysis--we progressively gained insights into how to effectively prompt LLMs to identify misleading charts and developed strategies to address the scalability challenges encountered as we expanded our detection range from the initial five issues to 21 issues in the final experiment. Our findings reveal that multimodal LLMs possess a strong capability for chart comprehension and critical thinking in data interpretation. There is significant potential in employing multimodal LLMs to counter misleading information by supporting critical thinking and enhancing visualization literacy. This study demonstrates the applicability of LLMs in addressing the pressing concern of misleading charts.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# 拡張SMC$^2$:Langevin提案における微分可能な粒子フィルタからの勾配情報の活用

Enhanced SMC$^2$: Leveraging Gradient Information from Differentiable Particle Filters Within Langevin Proposals ( http://arxiv.org/abs/2407.17296v1 )

ライセンス: Link先を確認
Conor Rosato, Joshua Murphy, Alessandro Varsi, Paul Horridge, Simon Maskell, (参考訳) シークエンシャルモンテカルロ・スクエア (Sequential Monte Carlo Squared, SMC$^2$) は、非線型、非ガウス的状態空間モデルの状態とパラメータを推測できるベイズ的手法である。 SMC$^2$の標準的なランダムウォーク提案は、特に高次元パラメータ空間において問題に直面している。 本研究では、PyTorchを用いて、共通乱数-粒子フィルタ(CRN-PF)から導出される一階勾配を利用して、新しいアプローチを概説する。 結果として得られる勾配は、Accept/rejectなしでLangevinの提案内で利用することができる。 この提案にランゲヴィン力学を含めると、ランダムウォークと比較すると、より効果的なサンプルサイズとより正確なパラメータ推定が得られる。 得られたアルゴリズムは、Message Passing Interface (MPI)を使用して分散メモリ上で並列化され、$\mathcal{O}(\log_2N)$ time complexityで実行される。 64コアを使用すると、単一のコアと比較して51倍のスピードアップが得られる。 コードへのアクセスを提供するGitHubリンクが提供される。

Sequential Monte Carlo Squared (SMC$^2$) is a Bayesian method which can infer the states and parameters of non-linear, non-Gaussian state-space models. The standard random-walk proposal in SMC$^2$ faces challenges, particularly with high-dimensional parameter spaces. This study outlines a novel approach by harnessing first-order gradients derived from a Common Random Numbers - Particle Filter (CRN-PF) using PyTorch. The resulting gradients can be leveraged within a Langevin proposal without accept/reject. Including Langevin dynamics within the proposal can result in a higher effective sample size and more accurate parameter estimates when compared with the random-walk. The resulting algorithm is parallelized on distributed memory using Message Passing Interface (MPI) and runs in $\mathcal{O}(\log_2N)$ time complexity. Utilizing 64 computational cores we obtain a 51x speed-up when compared to a single core. A GitHub link is given which provides access to the code.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# 散逸性猫量子ビットにおけるビットフリップ誤差:二階摂動理論

Bit-flip errors in dissipative cat qubits: second-order perturbation theory ( http://arxiv.org/abs/2407.17299v1 )

ライセンス: Link先を確認
Kirill S. Dubovitskii, (参考訳) 非線型散逸性リンドブレディアンの上に二階摂動理論を発達させることにより、様々な摂動による散逸性猫量子ビットのビットフリップ誤差率の計算手法を提案する。 このスキームに従うと、単一光子損失による指数的に小さなビットフリップ率の解析式が導出され、数値シミュレーションとよく一致している。 また、周波数デチューニングやZゲートなどの他の摂動にもこのスキームを適用し、対応するビットフリップ率を求める。

We present a calculation scheme for bit-flip error rates in dissipative cat qubits due to various perturbations, by developing second-order perturbation theory on top of a non-linear dissipative Lindbladian. Following this scheme we derive an analytical expression for the exponentially small bit-flip rate due to single photon loss, which shows good agreement with numerical simulations. We also apply our scheme to other perturbations, such as frequency detuning and Z gate, and find the corresponding bit-flip rates.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# MoveLight: 移動中心の深層強化学習による交通信号制御の強化

MoveLight: Enhancing Traffic Signal Control through Movement-Centric Deep Reinforcement Learning ( http://arxiv.org/abs/2407.17303v1 )

ライセンス: Link先を確認
Junqi Shao, Chenhao Zheng, Yuxuan Chen, Yucheng Huang, Rui Zhang, (参考訳) 本稿では,移動中心の深層強化学習を通じて都市交通管理を強化する新しい交通信号制御システムであるMoveLightを紹介する。 詳細なリアルタイムデータと高度な機械学習技術を活用することで、MoveLightは従来の信号制御手法の限界を克服する。 FRAPアルゴリズムを用いたレーンレベルの制御手法を用いて、動的かつ適応的な信号制御を実現し、トラフィックフローを最適化し、混雑を低減し、全体的な効率を改善する。 本研究は,単一交差点,幹線道路,ネットワークレベルでのMoveLightのスケーラビリティと有効性を示す。 CologneとHangzhouの実際のデータセットを使用した実験結果は、既存の方法と比較して、キューの長さ、遅延、スループットなどのメトリクスが大幅に改善されたことを示している。 本研究は、インテリジェント交通信号制御における深層強化学習の転換可能性を強調し、持続的で効率的な都市交通システムのための新しい標準を構築した。

This paper introduces MoveLight, a novel traffic signal control system that enhances urban traffic management through movement-centric deep reinforcement learning. By leveraging detailed real-time data and advanced machine learning techniques, MoveLight overcomes the limitations of traditional traffic signal control methods. It employs a lane-level control approach using the FRAP algorithm to achieve dynamic and adaptive traffic signal control, optimizing traffic flow, reducing congestion, and improving overall efficiency. Our research demonstrates the scalability and effectiveness of MoveLight across single intersections, arterial roads, and network levels. Experimental results using real-world datasets from Cologne and Hangzhou show significant improvements in metrics such as queue length, delay, and throughput compared to existing methods. This study highlights the transformative potential of deep reinforcement learning in intelligent traffic signal control, setting a new standard for sustainable and efficient urban transportation systems.
翻訳日:2024-07-25 13:44:46 公開日:2024-07-24
# Hebbian と Spike Timing 依存型プラスチックを用いた生体工学的スパイクニューラルネットワークの連続学習 : 調査と展望

Continual Learning in Bio-plausible Spiking Neural Networks with Hebbian and Spike Timing Dependent Plasticity: A Survey and Perspective ( http://arxiv.org/abs/2407.17305v1 )

ライセンス: Link先を確認
Ali Safa, (参考訳) 近年,Hebbian や Spike-Timing-Dependent Plasticity (STDP) などの生物工学的学習技術が,エッジでのオンライン学習が可能な計算効率の高いAIシステムの設計に注目されている。 このニューロモルフィック連続学習システムの新たなクラスにおける重要な差別化要因は、静的トレーニングデータセットが事前利用可能と仮定され、ランダムにシャッフルされてトレーニングセットを独立的かつ同一に分散(i.d.d.)する従来の勾配ベースのオフライントレーニングとは対照的に、学習が自然順で受信されたデータストリームを使用して実行されなければならないという事実にある。 対照的に、この調査でカバーされた神経形連続学習システムの新たなクラスは、ハエの新たな情報を非I.d方法で統合することを学ぶ必要がある。 最先端で継続的に学習できる次世代のニューロモーフィックAIシステムを構築するために、多くの研究グループがSTDP学習を備えたバイオプレースブル・ヘビアンニューラルネットワークアーキテクチャとスパイキングニューラルネットワーク(SNN)の利用を研究している。 しかし、この研究分野はまだ発展途上であるため、これまでの文献で提案されている様々なアプローチの全体像を提供する必要がある。 この目的のために,本研究はニューロモルフィック連続学習の分野における近年の多くの研究を網羅し,興味のある研究者が重要な概念を素早く学習するための背景理論を提供し,本論文で紹介する異なる研究から,今後の重要な研究課題について論じる。 この調査は神経形連続学習の分野での今後の研究に貢献することが期待されている。

Recently, the use bio-plausible learning techniques such as Hebbian and Spike-Timing-Dependent Plasticity (STDP) have drawn significant attention for the design of compute-efficient AI systems that can continuously learn on-line at the edge. A key differentiating factor regarding this emerging class of neuromorphic continual learning system lies in the fact that learning must be carried using a data stream received in its natural order, as opposed to conventional gradient-based offline training where a static training dataset is assumed available a priori and randomly shuffled to make the training set independent and identically distributed (i.i.d). In contrast, the emerging class of neuromorphic continual learning systems covered in this survey must learn to integrate new information on the fly in a non-i.i.d manner, which makes these systems subject to catastrophic forgetting. In order to build the next generation of neuromorphic AI systems that can continuously learn at the edge, a growing number of research groups are studying the use of bio-plausible Hebbian neural network architectures and Spiking Neural Networks (SNNs) equipped with STDP learning. However, since this research field is still emerging, there is a need for providing a holistic view of the different approaches proposed in literature so far. To this end, this survey covers a number of recent works in the field of neuromorphic continual learning; provides background theory to help interested researchers to quickly learn the key concepts; and discusses important future research questions in light of the different works covered in this paper. It is hoped that this survey will contribute towards future research in the field of neuromorphic continual learning.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# Route-Forcing: スケーラブル量子コンピューティングアーキテクチャのためのスケーラブル量子回路マッピング

Route-Forcing: Scalable Quantum Circuit Mapping for Scalable Quantum Computing Architectures ( http://arxiv.org/abs/2407.17306v1 )

ライセンス: Link先を確認
Pau Escofet, Alejandro Gonzalvo, Eduard Alarcón, Carmen G. Almudéver, Sergi Abadal, (参考訳) 量子コンピュータは、現在量子アルゴリズムと量子ハードウェアの間に存在しているギャップを埋めるためにスケールすることが期待されている。 この目的のためには、量子コンパイル技術はハードウェアの制約に従ってスケールし、最適コンパイルを得るという現在のパラダイムを、そのようなソリューションの品質が最適でないとしても、高速な解を可能にするヒューリスティックに依存するようにシフトする必要がある。 重要な懸念は、多くの量子ビットを持つ量子コンピュータに適用すると、現在のマッピング技術の実行時間が顕著に増加することである。 本研究では,最先端のスケーラブルな手法と比較して平均3.7\times$のスピードアップを示す量子回路マッピングアルゴリズムであるRoute-Forcingを紹介し,SWAPゲートを1.3 \times$増やすことを犠牲にして,マッピングした回路の深さを4.7 \times$に減らした。 さらに、提案したマッピングアルゴリズムは、異なるプロセッサを相互接続して量子ビットの総数を増やすことで、より複雑な計算を可能にする次世代の量子コンピュータに適応し、調整する。

Quantum computers are expected to scale in size to close the gap that currently exists between quantum algorithms and quantum hardware. To this end, quantum compilation techniques must scale along with the hardware constraints, shifting the current paradigm of obtaining an optimal compilation to relying on heuristics that allow for a fast solution, even though the quality of such a solution may not be optimal. Significant concerns arise as the execution time of current mapping techniques experiences a notable increase when applied to quantum computers with a high number of qubits. In this work, we present Route-Forcing, a quantum circuit mapping algorithm that shows an average speedup of $3.7\times$ compared to the state-of-the-art scalable techniques, reducing the depth of the mapped circuit by $4.7 \times$ at the expense of adding $1.3 \times$ more SWAP gates. Moreover, the proposed mapping algorithm is adapted and tuned for what is expected to be the next generation of quantum computers, in which different processors are interconnected to increase the total number of qubits, allowing for more complex computations.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# フォノンデコヒーレンスの標準バルクモデルを超えたフォトニック「時間ガラス」設計

Photonic "hourglass" design beyond the standard bulk model of phonon decoherence ( http://arxiv.org/abs/2407.17309v1 )

ライセンス: Link先を確認
José Ferreira Neto, Benedek Gaál, Luca Vannucci, Niels Gregersen, (参考訳) 本研究では, 機械振動が光ファイバー構造の性能に及ぼす影響について検討した。 以前の調査では、この準1次元幾何学に固有の振動モードの影響を無視しており、代わりにフォノンモードの3次元バルク仮定に依存していた。 しかしながら, フォノンの脱コヒーレンスは, バルク媒体に比べて1次元構造に強い影響を与えることが示されている。 ここでは, 振動モードの詳細な記述を組み込んだ場合であっても, ほぼ一様性を達成し, フォトニック時計の設計の頑健さを驚くほど実証する。 我々は、この予期せぬ結果を、フォノンの負の効果を排除した1時間ガラス単光子源の大きなパーセル増強の観点から説明する。 本研究は,低次元構造においても,フォノン脱コヒーレンスによる有害な効果を緩和する上で,高Q光学キャビティが重要な役割を担っていることを明らかにする。

We study the impact of mechanical vibrations on the performance of the photonic "hourglass" structure, which is predicted to emit single photons on-demand with near-unity efficiency and indistinguishability. Previous investigations neglected the impact of vibrational modes inherent to this quasi-1D geometry, relying instead on a three-dimensional bulk assumption for the phonon modes. However, it has been shown that phonon decoherence has a much stronger impact in 1D structures as compared with bulk media. Here, we surprisingly demonstrate the robustness of the photonic hourglass design, achieving close-to-unity indistinguishability even by incorporating a detailed description of the vibrational modes. We explain this unexpected result in terms of the large Purcell enhancement of the hourglass single-photon source, which eliminates the negative effect of phonons. Our findings highlight the key role of high-Q optical cavities in mitigating the detrimental effect of phonon decoherence, even for structures of reduced dimensionality.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# LangOcc: ボリュームレンダリングによる自己監督型オープン語彙職業推定

LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering ( http://arxiv.org/abs/2407.17310v1 )

ライセンス: Link先を確認
Simon Boeder, Fabian Gigengack, Benjamin Risse, (参考訳) 近年,3次元シーン表現の顕著な方法としてセマンティック占有が注目されている。 しかし、既存のカメラベースのほとんどの手法は、訓練用の細粒度の3DボクセルラベルやLiDARスキャンを備えた高価なデータセットに依存しているため、実用性とスケーラビリティが制限され、この領域での自己監督的なアプローチの必要性が高まっている。 さらに、ほとんどのメソッドは事前に定義されたクラスのセットに結び付けられており、検出することができる。 本研究では, カメラ画像のみを用いて学習し, 視覚言語アライメントにより任意の意味を検出可能な, 開語彙占有推定法である「textit{LangOcc}」を提案する。 特に,強力な視覚言語対応エンコーダCLIPの知識を,可変ボリュームレンダリングにより3次元占有モデルに抽出する。 本モデルでは,画像のみを用いた3次元ボクセルグリッドの視覚言語対応機能を推定する。 2次元空間に推定をレンダリングすることで、自己教師型で訓練し、そこでは、基底的特徴を計算できる。 このトレーニングメカニズムは、シーンの幾何学を自動で監視し、明確な幾何学的監督なしに、ストレートフォワードで強力なトレーニング方法を実現できる。 LangOccは、オープンボキャブラリの占有率でLiDARが監督する競合他社よりも、視覚ベースのトレーニングにのみ依存している。 また,Occ3D-nuScenesデータセット上での自己教師型セマンティック占有度推定の結果を,特定のカテゴリに限らず達成し,提案したビジョン言語学習の有効性を実証した。

Semantic occupancy has recently gained significant traction as a prominent method for 3D scene representation. However, most existing camera-based methods rely on costly datasets with fine-grained 3D voxel labels or LiDAR scans for training, which limits their practicality and scalability, raising the need for self-supervised approaches in this domain. Moreover, most methods are tied to a predefined set of classes which they can detect. In this work we present a novel approach for open vocabulary occupancy estimation called \textit{LangOcc}, that is trained only via camera images, and can detect arbitrary semantics via vision-language alignment. In particular, we distill the knowledge of the strong vision-language aligned encoder CLIP into a 3D occupancy model via differentiable volume rendering. Our model estimates vision-language aligned features in a 3D voxel grid using only images. It is trained in a self-supervised manner by rendering our estimations back to 2D space, where ground-truth features can be computed. This training mechanism automatically supervises the scene geometry, allowing for a straight-forward and powerful training method without any explicit geometry supervision. LangOcc outperforms LiDAR-supervised competitors in open vocabulary occupancy by a large margin, solely relying on vision-based training. We also achieve state-of-the-art results in self-supervised semantic occupancy estimation on the Occ3D-nuScenes dataset, despite not being limited to a specific set of categories, thus demonstrating the effectiveness of our proposed vision-language training.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# 形状変化パッチによる単眼深度推定に対する物理対向攻撃

Physical Adversarial Attack on Monocular Depth Estimation via Shape-Varying Patches ( http://arxiv.org/abs/2407.17312v1 )

ライセンス: Link先を確認
Chenxing Zhao, Yang Li, Shihao Wu, Wenyi Tan, Shuangju Zhou, Quan Pan, (参考訳) 単眼深度推定(MDE)システムに対する敵対的攻撃は、特に自律運転のような安全クリティカルな応用において重大な課題を生んでいる。 既存のMDEに対するパッチベースの敵攻撃はパッチの近傍に限られており、ターゲット全体に影響を与えることが困難である。 この制限に対処するため,単分子深度推定に対する物理ベースの逆襲攻撃を提案し,アタック・ウィズ・シェイプ・ヴァレーリング・パッチ (ASP) と呼ばれるフレームワークを用いて,パッチの内容,形状,位置を最適化し,有効性を最大化する。 攻撃の柔軟性と効率を高めるために、四角形、長方形、円形のマスクを含む様々なマスク形状を導入する。 さらに,重なり合う領域を超えてパッチの影響を拡大する新たな損失関数を提案する。 実験結果から, 目標車両の平均深度誤差は18mであり, パッチ面積は1/9であり, 目標車両の98.5%以上に影響を与えることがわかった。

Adversarial attacks against monocular depth estimation (MDE) systems pose significant challenges, particularly in safety-critical applications such as autonomous driving. Existing patch-based adversarial attacks for MDE are confined to the vicinity of the patch, making it difficult to affect the entire target. To address this limitation, we propose a physics-based adversarial attack on monocular depth estimation, employing a framework called Attack with Shape-Varying Patches (ASP), aiming to optimize patch content, shape, and position to maximize effectiveness. We introduce various mask shapes, including quadrilateral, rectangular, and circular masks, to enhance the flexibility and efficiency of the attack. Furthermore, we propose a new loss function to extend the influence of the patch beyond the overlapping regions. Experimental results demonstrate that our attack method generates an average depth error of 18 meters on the target car with a patch area of 1/9, affecting over 98\% of the target area.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# 部分加法過剰によるエントロピー増大--不可逆過程における情報理論

Entropy augmentation through subadditive excess: information theory in irreversible processes ( http://arxiv.org/abs/2407.17322v1 )

ライセンス: Link先を確認
Jürgen T. Stockburger, (参考訳) 適用範囲の範囲内では、ボルツマン方程式はその能力において、ほとんどすべての初期状態から自己平衡の熱状態への遷移を正確に記述するように思われる。 情報理論を用いてマクスウェルとボルツマンの鍵となるアイデアを言い換え、より一般的な抽象アンサッツであるSto{\ss}zahlansatzを開発した。 Gibbs-Shannon-von Neumannエントロピーの増大は、通常の粗粒化を伴わない。 アンザッツの数学的構造は、効率的な計算とシミュレーションのための道を提供する。

Within its range of applicability, the Boltzmann equation seems unique in its capacity to accurately describe the transition from almost any initial state to a self-equilibrated thermal state. Using information-theoretic methods to rephrase the key idea of Maxwell and Boltzmann, the Sto{\ss}zahlansatz, a far more general, abstract ansatz is developed. An increase of the Gibbs-Shannon-von Neumann entropy results without the usual coarse-graining. The mathematical structure of the ansatz also provides avenues for efficient computation and simulation.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# 高齢者の認知症診断における深層学習法とMRI選択法

Enhanced Deep Learning Methodologies and MRI Selection Techniques for Dementia Diagnosis in the Elderly Population ( http://arxiv.org/abs/2407.17324v1 )

ライセンス: Link先を確認
Nikolaos Ntampakis, Konstantinos Diamantaras, Ioanna Chouvarda, Vasileios Argyriou, Panagiotis Sarigianndis, (参考訳) 認知症 (Dementia) は、世界中の何百万もの人に影響を及ぼす神経疾患である。 本研究では3次元脳磁気共鳴画像(MRI)を用いた認知症・非高齢高齢者の分類法について紹介する。 提案手法は,MRIスライスを選択的に処理し,最も関連性の高い脳領域に着目し,少ない情報領域を除外するユニークな手法である。 この方法論は、Dem3D ResNet、Dem3D CNN、Dem3D EfficientNetという3つのカスタムディープラーニングモデルからなる信頼性ベースの分類委員会によって補完されている。 これらのモデルは、総合的な強みを活用して、意思決定の精度を高めるために相乗的に機能する。 OASIS(Open Access Series of Imaging Studies)データセットを用いて,既存の手法を超越した94.12%の精度を達成した。 さらに、アルツハイマー病神経画像イニシアチブ(ADNI)データセットの検証により、我々のアプローチの堅牢性と一般化性が確認された。 説明可能なAI(XAI)技術と包括的アブレーション研究の使用は、我々の技術の有効性をさらに裏付け、意思決定プロセスと方法論の重要性に関する洞察を提供する。 本研究は、認知症診断の大幅な進歩を提供し、臨床応用に極めて正確かつ効率的なツールを提供する。

Dementia, a debilitating neurological condition affecting millions worldwide, presents significant diagnostic challenges. In this work, we introduce a novel methodology for the classification of demented and non-demented elderly patients using 3D brain Magnetic Resonance Imaging (MRI) scans. Our approach features a unique technique for selectively processing MRI slices, focusing on the most relevant brain regions and excluding less informative sections. This methodology is complemented by a confidence-based classification committee composed of three custom deep learning models: Dem3D ResNet, Dem3D CNN, and Dem3D EfficientNet. These models work synergistically to enhance decision-making accuracy, leveraging their collective strengths. Tested on the Open Access Series of Imaging Studies(OASIS) dataset, our method achieved an impressive accuracy of 94.12%, surpassing existing methodologies. Furthermore, validation on the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset confirmed the robustness and generalizability of our approach. The use of explainable AI (XAI) techniques and comprehensive ablation studies further substantiate the effectiveness of our techniques, providing insights into the decision-making process and the importance of our methodology. This research offers a significant advancement in dementia diagnosis, providing a highly accurate and efficient tool for clinical applications.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# 近距離量子ハードウェアにおける雑音対応分散量子近似最適化アルゴリズム

Noise-Aware Distributed Quantum Approximate Optimization Algorithm on Near-term Quantum Hardware ( http://arxiv.org/abs/2407.17325v1 )

ライセンス: Link先を確認
Kuan-Cheng Chen, Xiatian Xu, Felix Burt, Chen-Yu Liu, (参考訳) 本稿では,短期量子ハードウェア上での動作に適した雑音対応分散量子近似最適化アルゴリズム(QAOA)を提案する。 分散フレームワークを活用することで、現在のノイズ中規模量子(NISQ)デバイスの限界に対処する。 提案手法では,大規模QAOA問題を小さなサブプロブレムに分解し,複数の量子処理ユニット(QPU)に分散し,スケーラビリティと性能を向上させる。 ノイズ対応戦略は、量子ビットの忠実度とゲート演算を最適化し、信頼性の高い量子計算を確実にするためのエラー軽減手法を取り入れている。 本稿では,HamilToniQ Benchmarking Toolkitを用いて,各種量子ハードウェア構成における性能を定量化するフレームワークの有効性を評価する。 その結果,分散QAOAフレームワークは計算速度と精度の大幅な向上を実現し,NASQ時代の複雑な最適化問題を効率的に解く可能性を示した。 この研究は、高度なアルゴリズム戦略と実用的な量子システム拡張のステージを設定し、量子優位性を達成するというより広い目標に寄与する。

This paper introduces a noise-aware distributed Quantum Approximate Optimization Algorithm (QAOA) tailored for execution on near-term quantum hardware. Leveraging a distributed framework, we address the limitations of current Noisy Intermediate-Scale Quantum (NISQ) devices, which are hindered by limited qubit counts and high error rates. Our approach decomposes large QAOA problems into smaller subproblems, distributing them across multiple Quantum Processing Units (QPUs) to enhance scalability and performance. The noise-aware strategy incorporates error mitigation techniques to optimize qubit fidelity and gate operations, ensuring reliable quantum computations. We evaluate the efficacy of our framework using the HamilToniQ Benchmarking Toolkit, which quantifies the performance across various quantum hardware configurations. The results demonstrate that our distributed QAOA framework achieves significant improvements in computational speed and accuracy, showcasing its potential to solve complex optimization problems efficiently in the NISQ era. This work sets the stage for advanced algorithmic strategies and practical quantum system enhancements, contributing to the broader goal of achieving quantum advantage.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# DarSwin-Unet: 歪みを意識したエンコーダ・デコーダアーキテクチャ

DarSwin-Unet: Distortion Aware Encoder-Decoder Architecture ( http://arxiv.org/abs/2407.17328v1 )

ライセンス: Link先を確認
Akshaya Athwale, Ichrak Shili, Émile Bergeron, Ola Ahmad, Jean-François Lalonde, (参考訳) 広角魚眼画像は、ロボット工学、セキュリティ、モビリティ(例えばドローン、アビオニクス)などのアプリケーションにおける知覚タスクにおいて、ますます一般的なものになりつつある。 しかし、現在のモデルは広角画像の歪みを無視したり、ピクセルレベルのタスクを実行するのに適さない場合が多い。 本稿では、広角レンズの歪みに適応するラジアル変圧器アーキテクチャに基づくエンコーダ・デコーダモデルを提案する。 分類タスクのみを実行するオリジナルのモデルとは対照的に,画素レベルのタスク用に設計されたU-NetアーキテクチャDarSwin-Unetを導入する。 さらに,入力トークンを作成するために画像のサンプリングを行う際の空間幅を最小化する新しい手法を提案する。 提案手法により,広角魚眼画像における画素レベルのタスクを処理できるモデル能力が向上し,実世界への応用がより効果的になる。 他のベースラインと比較すると、DarSwin-Unetは、さまざまなデータセットで最高の結果を達成する。 本研究では,DarSwin-Unet による広角レンズの歪みに対するゼロショット適応が可能であることを示す。

Wide-angle fisheye images are becoming increasingly common for perception tasks in applications such as robotics, security, and mobility (e.g. drones, avionics). However, current models often either ignore the distortions in wide-angle images or are not suitable to perform pixel-level tasks. In this paper, we present an encoder-decoder model based on a radial transformer architecture that adapts to distortions in wide-angle lenses by leveraging the physical characteristics defined by the radial distortion profile. In contrast to the original model, which only performs classification tasks, we introduce a U-Net architecture, DarSwin-Unet, designed for pixel level tasks. Furthermore, we propose a novel strategy that minimizes sparsity when sampling the image for creating its input tokens. Our approach enhances the model capability to handle pixel-level tasks in wide-angle fisheye images, making it more effective for real-world applications. Compared to other baselines, DarSwin-Unet achieves the best results across different datasets, with significant gains when trained on bounded levels of distortions (very low, low, medium, and high) and tested on all, including out-of-distribution distortions. We demonstrate its performance on depth estimation and show through extensive experiments that DarSwin-Unet can perform zero-shot adaptation to unseen distortions of different wide-angle lenses.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# 白血病における最小残存病変検出のための最適輸送を用いた多施設フローサイトメトリーデータセットの低次元的表現

Low dimensional representation of multi-patient flow cytometry datasets using optimal transport for minimal residual disease detection in leukemia ( http://arxiv.org/abs/2407.17329v1 )

ライセンス: Link先を確認
Erell Gachon, Jérémie Bigot, Elsa Cazelles, Aguirre Mimoun, Jean-Philippe Vial, (参考訳) 急性骨髄性白血病(AML)におけるMRD(minimal Residual Disease)の表現と定量化は,AML患者の予後と予後に必須である。 従来の細胞学的解析では5倍以下の白血病細胞は検出できないため、フローサイトメトリーデータセットの解析はより信頼性の高い結果をもたらすことが期待されている。 本稿では,多患者フローサイトメトリー測定(FCM)データセットを高次元確率分布とみなすための,最適輸送(OT)に基づく統計的学習手法について検討する。 OTの枠組みを用いて,全データを単一点クラウドにマージして平均測度定量化することにより,K平均アルゴリズムを複数の大規模点クラウドの次元的低減に活用することを正当化する。 この量子化ステップの後、構成データの線形化OTまたは対数比PCAを介して、ワーッサーシュタイン主成分分析(PCA)を用いて、低次元量子化確率測度を線形空間に埋め込み、患者内および患者間FCM変動の可視化を行う。 ボルドー大学病院から公開されているFCMデータセットとFCMデータセットを用いて,複数の高次元確率分布から統計学習を行うために,一般的なカーネル平均埋め込み技術に対するアプローチの利点を実証した。 また,FCMからのAMLにおけるMDDのレベルに応じて,低次元投影法とクラスタリング患者測定法の有用性を強調した。 特に,我々のOTベースのアプローチは,多患者FCMを用いたAMLにおけるMDD検出の最先端手法であるFlowSomアルゴリズムの結果の関連性および情報的2次元表現を可能にする。

Representing and quantifying Minimal Residual Disease (MRD) in Acute Myeloid Leukemia (AML), a type of cancer that affects the blood and bone marrow, is essential in the prognosis and follow-up of AML patients. As traditional cytological analysis cannot detect leukemia cells below 5\%, the analysis of flow cytometry dataset is expected to provide more reliable results. In this paper, we explore statistical learning methods based on optimal transport (OT) to achieve a relevant low-dimensional representation of multi-patient flow cytometry measurements (FCM) datasets considered as high-dimensional probability distributions. Using the framework of OT, we justify the use of the K-means algorithm for dimensionality reduction of multiple large-scale point clouds through mean measure quantization by merging all the data into a single point cloud. After this quantization step, the visualization of the intra and inter-patients FCM variability is carried out by embedding low-dimensional quantized probability measures into a linear space using either Wasserstein Principal Component Analysis (PCA) through linearized OT or log-ratio PCA of compositional data. Using a publicly available FCM dataset and a FCM dataset from Bordeaux University Hospital, we demonstrate the benefits of our approach over the popular kernel mean embedding technique for statistical learning from multiple high-dimensional probability distributions. We also highlight the usefulness of our methodology for low-dimensional projection and clustering patient measurements according to their level of MRD in AML from FCM. In particular, our OT-based approach allows a relevant and informative two-dimensional representation of the results of the FlowSom algorithm, a state-of-the-art method for the detection of MRD in AML using multi-patient FCM.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# 分散クロックを用いた量子非局所変調キャンセル

Quantum nonlocal modulation cancellation with distributed clocks ( http://arxiv.org/abs/2407.17330v1 )

ライセンス: Link先を確認
Stephen D. Chapman, Suparna Seshadri, Joseph M. Lukens, Nicholas A. Peters, Jason D. McKinney, Andrew M. Weiner, Hsuan-Hao Lu, (参考訳) 我々は、真に分散されたRFクロックを持つ絡み合った光子の非局所変調を実証する。 古典的なスペクトル干渉によって特徴付けられるRFoF(Radio-over-fiber)システムを応用し、RFoFクロックを周波数結合対から1光子で多重化し、既存の量子古典信号をファイバー上に分散することにより、量子ネットワークの有効性を検証する。 2つの光子の位相変調は、理論とよく一致した非局所的な相関を示す: インフェーズ変調は、結合スペクトル強度において追加のサイドバンドを生成するが、アウト・オブ・フェイズ変調は非局所的にキャンセルされる。 私たちのシンプルでフィードバックのない設計は、30分以上で5.5kmのファイバに$\sim$0.5 ps未満のドリフトを実現し、高次元量子鍵分布やエンタングルメントスワップのような周波数符号化された量子ネットワークプロトコルを容易にし、デプロイされた大都市圏ネットワークにおける実用的な量子通信のための周波数ビンキュービットをアンロックする。

We demonstrate nonlocal modulation of entangled photons with truly distributed RF clocks. Leveraging a custom radio-over-fiber (RFoF) system characterized via classical spectral interference, we validate its effectiveness for quantum networking by multiplexing the RFoF clock with one photon from a frequency-bin-entangled pair and distributing the coexisting quantum-classical signals over fiber. Phase modulation of the two photons reveals nonlocal correlations in excellent agreement with theory: in-phase modulation produces additional sidebands in the joint spectral intensity, while out-of-phase modulation is nonlocally canceled. Our simple, feedback-free design attains sub-picosecond synchronization -- namely, drift less than $\sim$0.5 ps in a 5.5 km fiber over 30 min (fractionally only $\sim$2$\times$10$^{-8}$ of the total fiber delay) -- and should facilitate frequency-encoded quantum networking protocols such as high-dimensional quantum key distribution and entanglement swapping, unlocking frequency-bin qubits for practical quantum communications in deployed metropolitan-scale networks.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# 視覚表現学習のためのマルチラベルクラスタ識別

Multi-label Cluster Discrimination for Visual Representation Learning ( http://arxiv.org/abs/2407.17331v1 )

ライセンス: Link先を確認
Xiang An, Kaicheng Yang, Xiangzi Dai, Ziyong Feng, Jiankang Deng, (参考訳) コントラスト言語画像事前学習(CLIP)は、画像テキストのコントラスト学習によって強化された優れた特徴表現により、様々なタスクで成功した。 しかし、CLIPが使用するインスタンス識別手法では、トレーニングデータのセマンティック構造をほとんどエンコードできない。 この制限に対処するため、反復的なクラスタ割り当てと分類によってクラスタ識別が提案されている。 しかしながら、ほとんどのクラスタ識別アプローチは、画像内の複数ラベル信号を無視して、各画像に対して1つの擬似ラベルを定義するだけである。 本稿では,MLCDと呼ばれる新しいマルチラベルクラスタ識別手法を提案する。 クラスタリングのステップでは、まず大規模なLAION-400Mデータセットを、オフザシェルフの埋め込み機能に基づいて100万のセンタにクラスタ化します。 自然画像には複数の視覚的対象や属性が頻繁に含まれており、補助的なクラスラベルとして複数の最も近い中心を選択する。 識別段階において、我々は、正のクラスと負のクラスから損失を優雅に分離し、決定境界の曖昧さを軽減する、新しい多ラベル分類損失を設計する。 モデルと事前学習データセットの異なるスケールの実験により,提案手法の有効性を検証した。 実験の結果,線形プローブ,ゼロショット分類,画像テキスト検索など,複数の下流タスクにおける最先端性能が得られた。

Contrastive Language Image Pre-training (CLIP) has recently demonstrated success across various tasks due to superior feature representation empowered by image-text contrastive learning. However, the instance discrimination method used by CLIP can hardly encode the semantic structure of training data. To handle this limitation, cluster discrimination has been proposed through iterative cluster assignment and classification. Nevertheless, most cluster discrimination approaches only define a single pseudo-label for each image, neglecting multi-label signals in the image. In this paper, we propose a novel Multi-Label Cluster Discrimination method named MLCD to enhance representation learning. In the clustering step, we first cluster the large-scale LAION-400M dataset into one million centers based on off-the-shelf embedding features. Considering that natural images frequently contain multiple visual objects or attributes, we select the multiple closest centers as auxiliary class labels. In the discrimination step, we design a novel multi-label classification loss, which elegantly separates losses from positive classes and negative classes, and alleviates ambiguity on decision boundary. We validate the proposed multi-label cluster discrimination method with experiments on different scales of models and pre-training datasets. Experimental results show that our method achieves state-of-the-art performance on multiple downstream tasks including linear probe, zero-shot classification, and image-text retrieval.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# グローバル・ローカル信頼度に基づくフラッド検出グラフニューラルネットワーク

Global and Local Confidence Based Fraud Detection Graph Neural Network ( http://arxiv.org/abs/2407.17333v1 )

ライセンス: Link先を確認
Jiaxun Liu, Yue Tian, Guanjun Liu, (参考訳) 本稿では,不正行為におけるヘテロフィリとカモフラージュの課題に対処する,グラフに基づく異常検出の革新的なアプローチであるGlobal and Local Confidence Graph Neural Network (GLC-GNN)を提案する。 グラフのグローバルな特徴をカプセル化し、各ノードのグローバル信頼(GC)値を計算するプロトタイプを導入することで、GLC-GNNは、良質なノードと不正なノードを効果的に区別する。 このモデルは、GCを利用してメッセージアグリゲーションの注意値を生成し、ホモフィリーとヘテロフィリーの両方をキャプチャする能力を高める。 4つのオープンデータセットに関する広範な実験を通じて、GLC-GNNは、コンパクトなモデルサイズと迅速なトレーニングプロセスを維持しながら、精度と収束速度の最先端モデルよりも優れたパフォーマンスを示す。 GLC-GNNにおけるグローバルおよびローカルな信頼度尺度の統合は、グラフ内の異常を検出するための堅牢なソリューションを提供する。

This paper presents the Global and Local Confidence Graph Neural Network (GLC-GNN), an innovative approach to graph-based anomaly detection that addresses the challenges of heterophily and camouflage in fraudulent activities. By introducing a prototype to encapsulate the global features of a graph and calculating a Global Confidence (GC) value for each node, GLC-GNN effectively distinguishes between benign and fraudulent nodes. The model leverages GC to generate attention values for message aggregation, enhancing its ability to capture both homophily and heterophily. Through extensive experiments on four open datasets, GLC-GNN demonstrates superior performance over state-of-the-art models in accuracy and convergence speed, while maintaining a compact model size and expedited training process. The integration of global and local confidence measures in GLC-GNN offers a robust solution for detecting anomalies in graphs, with significant implications for fraud detection across diverse domains.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# 球状ラジアル基底関数を用いたカスケード光伝搬体積

Cascaded Light Propagation Volumes using Spherical Radial Basis Functions ( http://arxiv.org/abs/2407.17336v1 )

ライセンス: Link先を確認
Ludovic Silvestre, João Pereira, (参考訳) 本稿では,動的シーンにおける間接照明をシミュレートする最新の手法のひとつ,カスケード光伝搬ボリュームについて紹介する。 我々の貢献は球面高調波の代わりに球面ラジアル基底関数を用いることで成り立っている。 球面ラジアル基底関数をカスケード光伝搬ボリュームと一体化する方法を説明し,同じ実装に対して,球面高調波を用いて,我々の手法を評価する。

This paper introduces a contribution made to one of the newest methods for simulating indirect lighting in dynamic scenes , the cascaded light propagation volumes . Our contribution consists on using Spherical Radial Basis Functions instead of Spherical Harmonic, since the first achieves much better results when many coefficients are used. We explain how to integrate the Spherical Radial Basis Functions with the cascaded light propagation volumes, and evaluate our technique against the same implementation, but with Spherical harmonics.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# 生データパケットに基づくコンピュータネットワークにおけるサイバーセキュリティ脅威検出のための人工知能手法に関する予備的研究

Preliminary study on artificial intelligence methods for cybersecurity threat detection in computer networks based on raw data packets ( http://arxiv.org/abs/2407.17339v1 )

ライセンス: Link先を確認
Aleksander Ogonowski, Michał Żebrowski, Arkadiusz Ćwiek, Tobiasz Jarosiewicz, Konrad Klimaszewski, Adam Padee, Piotr Wasiuk, Michał Wójcik, (参考訳) コンピュータネットワークにおける侵入検出手法の大部分は,交通流特性に基づくものである。 しかし、このアプローチは、生のパケットから特徴やパターンを直接抽出するディープラーニングアルゴリズムの可能性を完全に活用するものではない。 さらに、処理パイプラインが完了するまで待機し、追加のソフトウェアコンポーネントへの依存性を導入する必要があるため、リアルタイム監視を妨げている。 本稿では,ネットワークトラフィック内の生パケットデータから直接リアルタイムに攻撃を検知できるディープラーニング手法について検討する。 コンピュータビジョンモデルを用いた処理に適した2次元画像表現を用いて,パケットをウィンドウに積み重ねて別々に認識する手法を提案する。 CIC IDS-2017データセットは、良質なトラフィックと一般的な現実世界の攻撃の両方を含んでおり、我々の研究の総合的な基盤となっている。

Most of the intrusion detection methods in computer networks are based on traffic flow characteristics. However, this approach may not fully exploit the potential of deep learning algorithms to directly extract features and patterns from raw packets. Moreover, it impedes real-time monitoring due to the necessity of waiting for the processing pipeline to complete and introduces dependencies on additional software components. In this paper, we investigate deep learning methodologies capable of detecting attacks in real-time directly from raw packet data within network traffic. We propose a novel approach where packets are stacked into windows and separately recognised, with a 2D image representation suitable for processing with computer vision models. Our investigation utilizes the CIC IDS-2017 dataset, which includes both benign traffic and prevalent real-world attacks, providing a comprehensive foundation for our research.
翻訳日:2024-07-25 13:34:51 公開日:2024-07-24
# 超平面予算を用いた凸船体近似の数学的プログラミングアルゴリズム

Mathematical programming algorithms for convex hull approximation with a hyperplane budget ( http://arxiv.org/abs/2407.17341v1 )

ライセンス: Link先を確認
Michele Barbato, Alberto Ceselli, Rosario Messana, (参考訳) d-次元実空間において、正の点の集合と負の点の集合が与えられたとき、正の集合の凸包が負の集合と交わらないように、正の点と負の点の集合が与えられたとき、可能であればすべての正の点を負の集合から分離するK超平面を見つける。 すなわち、ほとんどのK面を持つ凸多面体を探索し、すべての正の点と負の点を含まない。 この問題は純粋凸多面体近似の文献で知られており、我々の関心は制約学習の応用に起因している。 この問題を最適化として,凸多面体内部の負点数を最小限に抑えた。 サポートベクトルマシンにインスパイアされたモデルを導入し、バイナリ変数を持つ2つの数学的プログラミング定式化を設計する。 我々はDantzig-Wolfe分解を利用して拡張定式化を行い、アドホックな価格ルーチンを持つ列生成アルゴリズムを考案する。 我々は、合成データセットに対する全てのアプローチで得られた計算時間と分離誤差値を比較し、数百から数千までのポイント数を比較し、文献の既存のものよりも優れたパフォーマンスを示す。 さらに、予算Kが正の点と負の点とを完全に分離するのに十分なかどうかによって、重要な計算上の違いが生じることを観察する。 8次元の場合(およびそれ以上の場合)、既存の凸船体アルゴリズムは計算不能となり、一方、我々のアルゴリズムは計算の数分で凸船体近似を識別できる。

We consider the following problem in computational geometry: given, in the d-dimensional real space, a set of points marked as positive and a set of points marked as negative, such that the convex hull of the positive set does not intersect the negative set, find K hyperplanes that separate, if possible, all the positive points from the negative ones. That is, we search for a convex polyhedron with at most K faces, containing all the positive points and no negative point. The problem is known in the literature for pure convex polyhedral approximation; our interest stems from its possible applications in constraint learning, where points are feasible or infeasible solutions of a Mixed Integer Program, and the K hyperplanes are linear constraints to be found. We cast the problem as an optimization one, minimizing the number of negative points inside the convex polyhedron, whenever exact separation cannot be achieved. We introduce models inspired by support vector machines and we design two mathematical programming formulations with binary variables. We exploit Dantzig-Wolfe decomposition to obtain extended formulations, and we devise column generation algorithms with ad-hoc pricing routines. We compare computing time and separation error values obtained by all our approaches on synthetic datasets, with number of points from hundreds up to a few thousands, showing our approaches to perform better than existing ones from the literature. Furthermore, we observe that key computational differences arise, depending on whether the budget K is sufficient to completely separate the positive points from the negative ones or not. On 8-dimensional instances (and over), existing convex hull algorithms become computational inapplicable, while our algorithms allow to identify good convex hull approximations in minutes of computation.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# 時空トレードオフを用いた量子計測の高速化

Speeding up quantum measurement using space-time trade-off ( http://arxiv.org/abs/2407.17342v1 )

ライセンス: Link先を確認
C. Corlett, I. Čepaitė, A. J. Daley, C. Gustiani, G. Pelegrí, J. D. Pritchard, N. Linden, P. Skrzypczyk, (参考訳) 本稿では,量子計測の高速化手法を提案する。 このスキームは、アシラリーシステムで測定されるシステムを絡める以前のプロトコルの上に構築されている。 完全エンタングリング操作とデコヒーレンスのない理想的な状況では、正確な時空トレードオフを与え、読み出し時間はアンシラの数と線形に減少する。 ゲートノイズとリードアウト誤差の数値モデリングにより,この手法が実験上の不完全性に対して堅牢であることを検証する。 このハードウェアに依存しないアプローチは、様々な量子技術プラットフォームに広く適用でき、効果的な量子誤り訂正に必要な中間回路測定を高速化する手段を提供する。

We present a scheme for speeding up quantum measurement. The scheme builds on previous protocols that entangle the system to be measured with ancillary systems. In the idealised situation of perfect entangling operations and no decoherence, it gives an exact space-time trade-off meaning the readout time reduces linearly with the number of ancilla. We verify this scheme is robust against experimental imperfections through numerical modelling of gate noise and readout errors, and under certain circumstances our scheme can even lead to better than linear improvement in the speed of measurement with the number of systems measured. This hardware-agnostic approach is broadly applicable to a range of quantum technology platforms and offers a route to accelerate mid-circuit measurement as required for effective quantum error correction.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# 汎用大言語モデルによるラベルアライメントと再割り当てによるクロスドメイン名前付きエンティティ認識の強化

Label Alignment and Reassignment with Generalist Large Language Model for Enhanced Cross-Domain Named Entity Recognition ( http://arxiv.org/abs/2407.17344v1 )

ライセンス: Link先を確認
Ke Bao, Chonghuan Yang, (参考訳) NLPコミュニティでは、ドメイン内教師付きおよび少数ショット設定で名前付きエンティティ認識が広く議論され、大きな進歩を遂げている。 しかし、実際的なシナリオではより一般的なタスクであるクロスドメインのNERは、ほとんどのNERメソッドにとって依然として課題となっている。 これまでの研究は、ラベル情報をソースからターゲットドメインに関連付けるような知識伝達に重点を置いていたが、ラベル競合の問題に注目する研究はほとんどない。 本研究では,ラベルアライメントとリアサインメントのアプローチ,すなわち LAR を導入して,この課題に対処する手法を提案する。 ラベル再割り当てのプロセスは、ChatGPTのような先進的な大規模言語モデルと統合することにより、大幅に向上することができる。 我々は、教師付きシナリオとゼロショットシナリオの両方を含むNERデータセットに対して、幅広い実験を行う。 実証実験により,SOTA法と比較して,教師付きおよび0ショットの領域外設定下での本手法の有効性が実証された。

Named entity recognition on the in-domain supervised and few-shot settings have been extensively discussed in the NLP community and made significant progress. However, cross-domain NER, a more common task in practical scenarios, still poses a challenge for most NER methods. Previous research efforts in that area primarily focus on knowledge transfer such as correlate label information from source to target domains but few works pay attention to the problem of label conflict. In this study, we introduce a label alignment and reassignment approach, namely LAR, to address this issue for enhanced cross-domain named entity recognition, which includes two core procedures: label alignment between source and target domains and label reassignment for type inference. The process of label reassignment can significantly be enhanced by integrating with an advanced large-scale language model such as ChatGPT. We conduct an extensive range of experiments on NER datasets involving both supervised and zero-shot scenarios. Empirical experimental results demonstrate the validation of our method with remarkable performance under the supervised and zero-shot out-of-domain settings compared to SOTA methods.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# インサイダーの脅威 - 浸透テストの役割

Insider Threats Mitigation: Role of Penetration Testing ( http://arxiv.org/abs/2407.17346v1 )

ライセンス: Link先を確認
Krutarth Chauhan, (参考訳) 従来のセキュリティソリューションは、インサイダー攻撃による緊急のサイバーセキュリティ問題に対処するには不十分である。 この分野では、多くの研究が行われてきたが、我々の系統的な文献分析は、インサイダーリスクの低減における浸透試験の役割について、読者に深く理解しようと試みている。 本研究の目的は、基礎理論アプローチを用いて、インサイダー脅威防止に関する知識の体系化と統合を徹底的な文献レビューに活用することである。 この分析は、今日の浸透テストで使われているアプローチを分類し、評価する。 さらに、さまざまな業界で浸透テストがどのように使用されているか、実世界の実装を用いたケーススタディ、ビジネスが克服すべき障害と制約について議論する。 本研究は、インサイダー脅威防衛の重要な部分として浸透試験の知識を改善し、より包括的で成功したセキュリティポリシーを作成することを目的とする。

Conventional security solutions are insufficient to address the urgent cybersecurity challenge posed by insider attacks. While a great deal of research has been done in this area, our systematic literature analysis attempts to give readers a thorough grasp of penetration testing's role in reducing insider risks. We aim to arrange and integrate the body of knowledge on insider threat prevention by using a grounded theory approach for a thorough literature review. This analysis classifies and evaluates the approaches used in penetration testing today, including how well they uncover and mitigate insider threats and how well they work in tandem with other security procedures. Additionally, we look at how penetration testing is used in different industries, present case studies with real-world implementations, and discuss the obstacles and constraints that businesses must overcome. This study aims to improve the knowledge of penetration testing as a critical part of insider threat defense, helping to create more comprehensive and successful security policies.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# 対話型数学教育のためのソクラティック手法による大規模言語モデルの構築

Boosting Large Language Models with Socratic Method for Conversational Mathematics Teaching ( http://arxiv.org/abs/2407.17349v1 )

ライセンス: Link先を確認
Yuyang Ding, Hanglei Hu, Jie Zhou, Qin Chen, Bo Jiang, Liang He, (参考訳) 大規模言語モデル(LLM)の導入により、自動算術推論は大きな成功を収めた。 しかし、現在の手法は主に問題解決の精度を高めるため、ソリューションの提供やChain-of-Thoughtのようなテクニックの使用に重点を置いている。 本稿では,ソクラティック教育に基づく LLM (\texttt{SocraticLLM}) による数学教育の能力向上に焦点をあてる。 我々は、ソクラテス的な問題と余分な知識の会話を提供する、‘texttt{SocraticMATH} という高品質な数学的教育データセットを収集、リリースする。 また,知識強化LLMを強力なベースラインとして提案し,レビュー,ガイダンス,ヒューリスティック,修正,要約による信頼性の高い応答を生成する。 実験結果から, 強生成モデルとの比較により, texttt{SocraticLLM} の大きな利点が示された。 コードとデータセットは \url{https://github.com/ECNU-ICALK/SocraticMath} で公開されている。

With the introduction of large language models (LLMs), automatic math reasoning has seen tremendous success. However, current methods primarily focus on providing solutions or using techniques like Chain-of-Thought to enhance problem-solving accuracy. In this paper, we focus on improving the capability of mathematics teaching via a Socratic teaching-based LLM (\texttt{SocraticLLM}), which guides learners toward profound thinking with clarity and self-discovery via conversation. We collect and release a high-quality mathematical teaching dataset, named \texttt{SocraticMATH}, which provides Socratic-style conversations of problems with extra knowledge. Also, we propose a knowledge-enhanced LLM as a strong baseline to generate reliable responses with review, guidance/heuristic, rectification, and summarization. Experimental results show the great advantages of \texttt{SocraticLLM} by comparing it with several strong generative models. The codes and datasets are available on \url{https://github.com/ECNU-ICALK/SocraticMath}.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# Scalify: Scale propagation for efficient low-precision LLM training

Scalify: scale propagation for efficient low-precision LLM training ( http://arxiv.org/abs/2407.17353v1 )

ライセンス: Link先を確認
Paul Balança, Sam Hosegood, Carlo Luschi, Andrew Fitzgibbon, (参考訳) float8のような低精度のフォーマットが機械学習アクセラレーションハードウェアに導入され、大規模言語モデルのトレーニングと推論の計算効率が向上した。 それでも、MLコミュニティによる採用は、より高精度なトレーニング精度に適合するために必要な、複雑な、時には脆弱なテクニックによって遅くなっています。 本研究では,従来のテンソルスケーリング手法を一般化し,定式化した計算グラフのエンドツーエンドスケール伝搬パラダイムであるScalifyを提案する。 実験の結果、ScalifyはFat8行列の乗算と勾配表現、およびFat16オプティマイザ状態ストレージをサポートしていることがわかった。 ScalifyのJAX実装はhttps://github.com/graphcore-research/jax-scalifyでオープンソース化されています。

Low-precision formats such as float8 have been introduced in machine learning accelerated hardware to improve computational efficiency for large language models training and inference. Nevertheless, adoption by the ML community has been slowed down by the complex, and sometimes brittle, techniques required to match higher precision training accuracy. In this work, we present Scalify, a end-to-end scale propagation paradigm for computational graphs, generalizing and formalizing existing tensor scaling methods. Experiment results show that Scalify supports out-of-the-box float8 matrix multiplication and gradients representation, as well as float16 optimizer state storage. Our JAX implementation of Scalify is open-sourced at https://github.com/graphcore-research/jax-scalify
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# 深部球状スーパーピクセル

Deep Spherical Superpixels ( http://arxiv.org/abs/2407.17354v1 )

ライセンス: Link先を確認
Rémi Giraud, Michaël Clément, (参考訳) 長年にわたって、スーパーピクセルセグメンテーションは様々なアプリケーションで非常に人気があり、セマンティックコンテンツに関係なく、画像の内容に適応してデータサイズを減らすための前処理のステップとして役立っている。 標準平面画像の超画素分割は90{\deg}視野で撮影されているが、全方向または球面の画像に対して360{\deg}視野で撮影する専用の方法に限定的に焦点が当てられている。 本研究では,DSS(Deep Spherical Superpixels)と呼ばれる全方位画像に適した,ディープラーニングに基づく最初のスーパーピクセルセグメンテーション手法を提案する。 提案手法は球面CNNアーキテクチャとスーパーピクセルのK平均クラスタリングパラダイムを利用して,球面形状に従うスーパーピクセルを生成する。 また,360{\deg}画像に特化して設計されたデータ拡張技術を用いて,アノテーション付き全方位データから効率的に学習する手法を提案する。 2つのデータセットにまたがる広範な検証により、そのような画像の固有の円形形状を考慮に入れれば、従来の深層学習に基づくスーパーピクセル法よりもセグメンテーション性能が向上することが示された。 私たちのコードはオンラインで利用可能です。

Over the years, the use of superpixel segmentation has become very popular in various applications, serving as a preprocessing step to reduce data size by adapting to the content of the image, regardless of its semantic content. While the superpixel segmentation of standard planar images, captured with a 90{\deg} field of view, has been extensively studied, there has been limited focus on dedicated methods to omnidirectional or spherical images, captured with a 360{\deg} field of view. In this study, we introduce the first deep learning-based superpixel segmentation approach tailored for omnidirectional images called DSS (for Deep Spherical Superpixels). Our methodology leverages on spherical CNN architectures and the differentiable K-means clustering paradigm for superpixels, to generate superpixels that follow the spherical geometry. Additionally, we propose to use data augmentation techniques specifically designed for 360{\deg} images, enabling our model to efficiently learn from a limited set of annotated omnidirectional data. Our extensive validation across two datasets demonstrates that taking into account the inherent circular geometry of such images into our framework improves the segmentation performance over traditional and deep learning-based superpixel methods. Our code is available online.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# ニューラルネットワークにおける一般化のための抽象的タスク表現の勾配に基づく推論

Gradient-based inference of abstract task representations for generalization in neural networks ( http://arxiv.org/abs/2407.17356v1 )

ライセンス: Link先を確認
Ali Hummos, Felipe del Río, Brabeeba Mien Wang, Julio Hurtado, Cristian B. Calderon, Guangyu Robert Yang, (参考訳) 人間や多くの動物は、非常に適応的な行動を示し、内部の目標に応じて同じ入力に異なる反応をすることができる。 脳は計算を行うのに必要な中間抽象を表現しているだけでなく、計算自体の表現(タスク抽象化)も積極的に維持している。 このような計算と抽象化の分離は、より高速な学習、柔軟な意思決定、広範な一般化能力と結びついている。 このような利点が、タスク抽象化でトレーニングされたニューラルネットワークに拡張されるかどうかを検討する。 ひとつは、明示的に提供されていないときに抽象的なタスク表現を推論する能力(タスク推論)、もうひとつは、新しい問題に適応するためにタスク表現を操作する能力(タスク再構成)である。 そこで我々は,タスク推論を変分推論の観点から最適化問題とし,予測最大化フレームワークにおけるアプローチを基礎とした。 ニューラルネットワークを介してタスク表現層に逆伝播した勾配は、現在のタスク要求を推測する効率的なヒューリスティックであることを示す。 タスク表現層のさらなる反復的な最適化は、新しい状況に適応するために抽象化を再コンパイルすることを可能にする。 おもちゃの例、新しい画像分類器、言語モデルを用いて、GBIが新しいタスクに高い学習効率と一般化を提供し、忘れることを制限することを実証する。 また,GBIには,不確実性推定のための情報保存や,アウト・オブ・ディストリビューション・サンプルの検出など,独特な利点があることが示唆された。

Humans and many animals show remarkably adaptive behavior and can respond differently to the same input depending on their internal goals. The brain not only represents the intermediate abstractions needed to perform a computation but also actively maintains a representation of the computation itself (task abstraction). Such separation of the computation and its abstraction is associated with faster learning, flexible decision-making, and broad generalization capacity. We investigate if such benefits might extend to neural networks trained with task abstractions. For such benefits to emerge, one needs a task inference mechanism that possesses two crucial abilities: First, the ability to infer abstract task representations when no longer explicitly provided (task inference), and second, manipulate task representations to adapt to novel problems (task recomposition). To tackle this, we cast task inference as an optimization problem from a variational inference perspective and ground our approach in an expectation-maximization framework. We show that gradients backpropagated through a neural network to a task representation layer are an efficient heuristic to infer current task demands, a process we refer to as gradient-based inference (GBI). Further iterative optimization of the task representation layer allows for recomposing abstractions to adapt to novel situations. Using a toy example, a novel image classifier, and a language model, we demonstrate that GBI provides higher learning efficiency and generalization to novel tasks and limits forgetting. Moreover, we show that GBI has unique advantages such as preserving information for uncertainty estimation and detecting out-of-distribution samples.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# 量子学習Then-Test:ハイパーパラメータ最適化のための量子ベースのリスク制御

Quantile Learn-Then-Test: Quantile-Based Risk Control for Hyperparameter Optimization ( http://arxiv.org/abs/2407.17358v1 )

ライセンス: Link先を確認
Amirmohammad Farzaneh, Sangwoo Park, Osvaldo Simeone, (参考訳) エンジニアリング問題における人工知能(AI)の採用の増加は、堅牢な統計的信頼性を保証するキャリブレーション手法の開発を要求する。 ブラックボックスAIモデルの校正は、アーキテクチャ、最適化、および/または推論設定を規定するハイパーパラメータの最適化によって行われる。 従来の研究は、平均的な性能測定の統計的保証を提供するハイパーパラメータ最適化(HPO)の校正手順であるLearning-then-test (LTT)を導入している。 工学的文脈におけるリスク認識の目的を制御することの重要性を認識し、リスク尺度の定量化に関する統計的保証を提供するために設計されたLTTの変種を導入する。 本稿では,提案アルゴリズムを無線アクセススケジューリング問題に適用することにより,本手法の実用的利点について述べる。

The increasing adoption of Artificial Intelligence (AI) in engineering problems calls for the development of calibration methods capable of offering robust statistical reliability guarantees. The calibration of black box AI models is carried out via the optimization of hyperparameters dictating architecture, optimization, and/or inference configuration. Prior work has introduced learn-then-test (LTT), a calibration procedure for hyperparameter optimization (HPO) that provides statistical guarantees on average performance measures. Recognizing the importance of controlling risk-aware objectives in engineering contexts, this work introduces a variant of LTT that is designed to provide statistical guarantees on quantiles of a risk measure. We illustrate the practical advantages of this approach by applying the proposed algorithm to a radio access scheduling problem.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# MuST: 外科用位相認識用マルチスケールトランス

MuST: Multi-Scale Transformers for Surgical Phase Recognition ( http://arxiv.org/abs/2407.17361v1 )

ライセンス: Link先を確認
Alejandra Pérez, Santiago Rodríguez, Nicolás Ayobi, Nicolás Aparicio, Eugénie Dessevres, Pablo Arbeláez, (参考訳) 外科的ビデオの位相認識は、シーケンシャルな手続き段階の自動理解を可能にするため、コンピュータ支援手術システムの強化に不可欠である。 既存の手法は、動的外科的位相を特定するためにビデオ解析のために固定時間窓に頼っていることが多い。 したがって、複雑な外科手術を十分に理解するのに必要な、短期、中期、長期の情報を同時に取得することは困難である。 これらの課題に対処するために,多項フレームエンコーダと時間整合モジュールを組み合わせた新しいトランスフォーマを用いた手術用位相認識用マルチスケールトランスフォーマを提案する。 我々のMulti-Term Frame Encoderは、時間スケールの階層をまたいだ相互依存性を計算する。 さらに,フレーム埋め込みに長期トランスフォーマーエンコーダを適用し,長期的推論をさらに強化する。 MuSTは、従来の3つの公開ベンチマークにおける最先端メソッドよりも高いパフォーマンスを達成する。

Phase recognition in surgical videos is crucial for enhancing computer-aided surgical systems as it enables automated understanding of sequential procedural stages. Existing methods often rely on fixed temporal windows for video analysis to identify dynamic surgical phases. Thus, they struggle to simultaneously capture short-, mid-, and long-term information necessary to fully understand complex surgical procedures. To address these issues, we propose Multi-Scale Transformers for Surgical Phase Recognition (MuST), a novel Transformer-based approach that combines a Multi-Term Frame encoder with a Temporal Consistency Module to capture information across multiple temporal scales of a surgical video. Our Multi-Term Frame Encoder computes interdependencies across a hierarchy of temporal scales by sampling sequences at increasing strides around the frame of interest. Furthermore, we employ a long-term Transformer encoder over the frame embeddings to further enhance long-term reasoning. MuST achieves higher performance than previous state-of-the-art methods on three different public benchmarks.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# QR符号とリードソロモン符号の信頼性

Reliability on QR codes and Reed-Solomon codes ( http://arxiv.org/abs/2407.17364v1 )

ライセンス: Link先を確認
Bhavuk Sikka Bajaj, (参考訳) 本研究は,QR符号におけるリード・ソロモン誤り訂正符号を用いて,故障に対するレジリエンスを高めることを目的とした。 このアプローチを完全に理解するためには、リード・ソロモン符号を理解するのに必要な基本的な暗号コンテキストが提供される。 この研究は、コードの定義から始まり、線形性のようなさらなる特性を持つコードに対する重要な結果を探る。 この理論フレームワークは、BCH符号の特定の変種として提示されるリード・ソロモン符号の特定の定義と例と共にさらに発展している。 さらに、QRコードの構造を分析し、異なるバージョンを包含し、データが画像内の白黒ピクセルの形式でどのように表現されるかを示す。 最後に、Reed-Solomon Codesの固有の脆弱性、特にQRコードについて、モジュールの選択的な操作に関連する脆弱性について検討した。 この脆弱性はリード・ソロモン符号に存在する誤り訂正機構を利用する。

This study addresses the use of Reed-Solomon error correction codes in QR codes to enhance resilience against failures. To fully grasp this approach, a basic cryptographic context is provided, necessary for understanding Reed-Solomon codes. The study begins by defining a code and explores key outcomes for codes with additional properties, such as linearity. The theoretical framework is further developed with specific definitions and examples of Reed-Solomon codes, presented as a particular variant of BCH codes. Additionally, the structure of QR codes is analyzed, encompassing different versions and how data is represented in the form of black and white pixels within an image. Finally, an inherent vulnerability of Reed-Solomon Codes, and particularly of QR codes, related to selective manipulation of modules is examined. This vulnerability leverages the error correction mechanisms present in Reed-Solomon codes.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# ViPer:個人選好学習による生成モデルの視覚的パーソナライズ

ViPer: Visual Personalization of Generative Models via Individual Preference Learning ( http://arxiv.org/abs/2407.17365v1 )

ライセンス: Link先を確認
Sogand Salehi, Mahdi Shafiei, Teresa Yeo, Roman Bachmann, Amir Zamir, (参考訳) 異なるユーザは、同じプロンプトのために生成された異なる画像を見つける。 これにより、個人の視覚的嗜好に沿った画像を作成することを含む、パーソナライズされた画像生成が生まれる。 しかし、現在の生成モデルは、幅広い聴衆にアピールするアウトプットを生成するように調整されているため、個人化されていない。 個々のユーザに合わせて画像を生成するには、非効率で望ましくないユーザによる反復的な手動プロンプトエンジニアリングに頼る。 そこで本稿では,まず利用者の嗜好を1回に1回に分けて個人化し,画像の選択にコメントするよう促すことにより,画像生成過程をパーソナライズすることを提案する。 これらのコメントに基づいて、大きな言語モデルを用いて、ユーザの構造化された好ましくない視覚属性、すなわち視覚的嗜好を推測する。 これらの属性は、個々のユーザの視覚的嗜好に合わせて調整された画像を生成するために、テキスト・ツー・イメージ・モデルを導くために使用される。 一連のユーザスタディと大規模言語モデルによる評価を通じて,提案手法が個々のユーザの視覚的嗜好によく適合する世代を導出することを示す。

Different users find different images generated for the same prompt desirable. This gives rise to personalized image generation which involves creating images aligned with an individual's visual preference. Current generative models are, however, unpersonalized, as they are tuned to produce outputs that appeal to a broad audience. Using them to generate images aligned with individual users relies on iterative manual prompt engineering by the user which is inefficient and undesirable. We propose to personalize the image generation process by first capturing the generic preferences of the user in a one-time process by inviting them to comment on a small selection of images, explaining why they like or dislike each. Based on these comments, we infer a user's structured liked and disliked visual attributes, i.e., their visual preference, using a large language model. These attributes are used to guide a text-to-image model toward producing images that are tuned towards the individual user's visual preference. Through a series of user studies and large language model guided evaluations, we demonstrate that the proposed method results in generations that are well aligned with individual users' visual preferences.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# 最適化構造をもつ二分木多重化器を用いた空間多重化単一光子源

Spatially multiplexed single-photon sources based on binary-tree multiplexers with optimized structure ( http://arxiv.org/abs/2407.17370v1 )

ライセンス: Link先を確認
Matyas Mechler, Peter Adam, (参考訳) 空間多重化単一光子源の性能向上を目的とした非対称光子ルータにより実現された一般二分木多重化器の構造を最適化する手法を開発した。 提案手法は,特定の光子ルータで生成可能な全ての二分木多重化器を体系的に検討する。 この手法を用いることで、システムの特性を特徴づける損失パラメータのセットに対して、最も高い単光子確率をもたらす多重化器構造を選択することができる。 我々は、光子ルータの伝送係数と検出器効率を実験的に実現可能な値として、最適二分木多重化器を決定する。 このような最適多重化器に基づく単一光子源は、文献において考慮された他の空間多重化器に基づく単一光子源よりも高い単一光子確率が得られることを示す。 提案手法は, システムサイズが小さい場合であっても, 多重化された単一光子源の性能を向上する。

We develop a method for optimizing the structure of general binary-tree multiplexers realized with asymmetric photon routers aiming at improving the performance of spatially multiplexed single-photon sources. Our procedure systematically considers all possible binary-tree multiplexers that can be formed by a certain number of photon routers. Using this method one can select the multiplexer structure that leads to the highest single-photon probability for a given set of loss parameters characterizing the system. We determine the optimal general binary-tree multiplexers for experimentally realizable values of the transmission coefficients of the photon routers and that of the detector efficiency. We show that single-photon sources based on such optimal multiplexers yield higher single-photon probabilities than that can be achieved with single-photon sources based on any other spatial multiplexer considered in the literature. Our approach improves the performance of multiplexed single-photon sources even for small system sizes which is the typical situation in current experiments.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# AI実践者とAIコンプライアンスの専門家によるAI影響評価レポートテンプレートの共同設計

Co-designing an AI Impact Assessment Report Template with AI Practitioners and AI Compliance Experts ( http://arxiv.org/abs/2407.17374v1 )

ライセンス: Link先を確認
Edyta Bogucka, Marios Constantinides, Sanja Šćepanović, Daniele Quercia, (参考訳) AI規制の進化する状況において、企業は影響評価を行い、包括的なレポートを通じてコンプライアンスを文書化することが不可欠である。 しかし、現在のレポートでは規制の根拠がなく、多くの場合、これらのシステムの現実的な使用に対処することなく、AIシステムに関するプライバシーのような特定の側面に焦点を当てている。 さらに、これらのレポートをAI実践者とAIコンプライアンスの専門家の両方で設計し、評価するための体系的な努力は存在しない。 このギャップに対処するため、14人のAI実践者と6人のAIコンプライアンス専門家による反復的共同設計プロセスを実施し、EU AI Act、NISTのAIリスク管理フレームワーク、ISO 42001 AI Management Systemに根ざした影響評価レポートのテンプレートを提案した。 大手IT企業におけるAIベースのミーティングコンパニオンのインパクトアセスメントレポートを作成し,テンプレートの評価を行った。 同じ企業の8人のAI実践者と、業界と学界の5人のAIコンプライアンスの専門家によるユーザスタディによると、私たちのテンプレートは、AIシステムの影響を効果的に評価し、ドキュメント化するために必要な情報を提供しています。 参加者は、コンプライアンスのための事前デプロイ段階だけでなく、AI使用の設計段階をガイドするツールとしても、テンプレートを使用することを想定していた。

In the evolving landscape of AI regulation, it is crucial for companies to conduct impact assessments and document their compliance through comprehensive reports. However, current reports lack grounding in regulations and often focus on specific aspects like privacy in relation to AI systems, without addressing the real-world uses of these systems. Moreover, there is no systematic effort to design and evaluate these reports with both AI practitioners and AI compliance experts. To address this gap, we conducted an iterative co-design process with 14 AI practitioners and 6 AI compliance experts and proposed a template for impact assessment reports grounded in the EU AI Act, NIST's AI Risk Management Framework, and ISO 42001 AI Management System. We evaluated the template by producing an impact assessment report for an AI-based meeting companion at a major tech company. A user study with 8 AI practitioners from the same company and 5 AI compliance experts from industry and academia revealed that our template effectively provides necessary information for impact assessments and documents the broad impacts of AI systems. Participants envisioned using the template not only at the pre-deployment stage for compliance but also as a tool to guide the design stage of AI uses.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# Entropy Reweighted Conformal Classification

Entropy Reweighted Conformal Classification ( http://arxiv.org/abs/2407.17377v1 )

ライセンス: Link先を確認
Rui Luo, Nicolo Colombo, (参考訳) Conformal Prediction (CP) は、保証されたカバレッジで予測セットを構築するための強力なフレームワークである。 しかし、最近の研究では、CPと信頼性校正を統合することで効率が低下することが示されている。 本稿では,分類器の不確実性を考慮した適応的手法を提案し,エントロピーに基づく再重み付けを用いて共形分類のための予測セットの効率を向上させる。 実験結果から,本手法は効率を著しく向上することが示された。

Conformal Prediction (CP) is a powerful framework for constructing prediction sets with guaranteed coverage. However, recent studies have shown that integrating confidence calibration with CP can lead to a degradation in efficiency. In this paper, We propose an adaptive approach that considers the classifier's uncertainty and employs entropy-based reweighting to enhance the efficiency of prediction sets for conformal classification. Our experimental results demonstrate that this method significantly improves efficiency.
翻訳日:2024-07-25 13:25:07 公開日:2024-07-24
# PrevPredMap: オンラインベクトル化HDマップ構築のための事前予測を用いた時間モデル探索

PrevPredMap: Exploring Temporal Modeling with Previous Predictions for Online Vectorized HD Map Construction ( http://arxiv.org/abs/2407.17378v1 )

ライセンス: Link先を確認
Nan Peng, Xun Zhou, Mingming Wang, Xiaojun Yang, Songming Chen, Guisong Chen, (参考訳) 閉鎖されたインスタンスを検出するには、時間情報は不可欠である。 既存の時間表現は、BEVやPVの機能から、よりコンパクトなクエリ機能へと進歩した。 これらの特徴と比較すると、予測は最も抽象的なレベルを提供し、明示的な情報を提供する。 オンラインベクトル化HDマップ構築の文脈において、この予測のユニークな特徴は、長期の時間的モデリングとマップ事前の統合にとって潜在的に有利である。 本稿では,オンラインベクトル化HDマップの構築に先駆けて,従来の予測を利用した時間的モデリングフレームワークであるPrevPredMapを紹介する。 PrevPredMapには,事前予測ベースのクエリジェネレータと動的ポジションクエリデコーダという,2つの重要なモジュールを慎重に開発しました。 具体的には、事前予測に基づくクエリジェネレータは、以前の予測と異なる種類の情報を別々にエンコードするように設計され、動的配置クエリデコーダによって有効に利用され、現在の予測を生成する。 さらに、シングルフレームモードとテンポラリモードの両方で、PrevPredMapの堅牢なパフォーマンスを保証するために、デュアルモード戦略を開発しました。 PrevPredMapはnuScenesとArgoverse2データセット上で最先端のパフォーマンスを実現する。 コードはhttps://github.com/pnnnnnn/PrevPredMapで入手できる。

Temporal information is crucial for detecting occluded instances. Existing temporal representations have progressed from BEV or PV features to more compact query features. Compared to these aforementioned features, predictions offer the highest level of abstraction, providing explicit information. In the context of online vectorized HD map construction, this unique characteristic of predictions is potentially advantageous for long-term temporal modeling and the integration of map priors. This paper introduces PrevPredMap, a pioneering temporal modeling framework that leverages previous predictions for constructing online vectorized HD maps. We have meticulously crafted two essential modules for PrevPredMap: the previous-predictions-based query generator and the dynamic-position-query decoder. Specifically, the previous-predictions-based query generator is designed to separately encode different types of information from previous predictions, which are then effectively utilized by the dynamic-position-query decoder to generate current predictions. Furthermore, we have developed a dual-mode strategy to ensure PrevPredMap's robust performance across both single-frame and temporal modes. Extensive experiments demonstrate that PrevPredMap achieves state-of-the-art performance on the nuScenes and Argoverse2 datasets. Code will be available at https://github.com/pnnnnnnn/PrevPredMap.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# MMRA:マルチグラニュラリティ・マルチイメージ・リレーショナル・アソシエーションのためのベンチマーク

MMRA: A Benchmark for Multi-granularity Multi-image Relational Association ( http://arxiv.org/abs/2407.17379v1 )

ライセンス: Link先を確認
Siwei Wu, Kang Zhu, Yu Bai, Yiming Liang, Yizhi Li, Haoning Wu, Jiaheng Liu, Ruibo Liu, Xingwei Qu, Xuxin Cheng, Ge Zhang, Wenhao Huang, Chenghua Lin, (参考訳) 画像認識タスクにおいて大きな視覚言語モデル(LVLM)が達成されたことを考えると、LVMLが人間のように世界を知覚する努力が注目されている。 現在のマルチモーダルベンチマークは、主に画像内の客観的事実や特定のトピックに関連する潜在的な知識に焦点を当てているが、複数の画像間の関連性を見落としている。 そこで,本研究では,多像関係関連課題を定義した上で,厳密にキュレートした \textbf{MMRA} ベンチマーク, \textbf{M}ulti-granularity \textbf{M}ulti-image \textbf{R}elational \textbf{A}ssociation ベンチマーク,および \textbf{1026} サンプルを作成した。 主流のLVLMを体系的かつ包括的に評価するために,コンセプションネットの関連性に基づき,2つの粒度レベルで \textbf{11 subtasks} (UsageSimilarity, SubEventなど)を含む画像間の関連性システムを構築した。 我々の実験は、MMRAベンチマークにおいて、現在のLVLMは、それぞれ異なるサブタスクにまたがって独自の利点と欠点を持っていることを示した。 実体レベルでは、すべてのモデルの性能は画像レベルではそれよりも悪く、細粒度のマルチイメージ認識タスクはLVLMにとって依然として困難な課題であることを示すことに注意する必要がある。 空間知覚に関わるタスクは、LVLMが扱うのが比較的難しい。 さらに、LVMLは画像の詳細を知覚する優れた能力を示し、その多イメージ関連性を高める鍵は、言語モデルコンポーネントの推論能力を強化することである。 すべてのコードとデータはhtt\url{https://github.com/Wusiwei0410/MMRA}でリリースされます。

Given the remarkable success that large visual language models (LVLMs) have achieved in image perception tasks, the endeavor to make LVMLs perceive the world like humans is drawing increasing attention. Current multi-modal benchmarks mainly focus on the objective fact or certain topic related potential knowledge within a image, but overlook the associative relations between multiple images. Therefore, we define a multi-image relation association task, and meticulously curate \textbf{MMRA} benchmark, a \textbf{M}ulti-granularity \textbf{M}ulti-image \textbf{R}elational \textbf{A}ssociation benchmark, consisted of \textbf{1026} samples. In order to systematically and comprehensively evaluate mainstream LVLMs, we establish an associational relation system among images that contain \textbf{11 subtasks} (e.g, UsageSimilarity, SubEvent, etc.) at two granularity levels (i.e., "\textbf{image}" and "\textbf{entity}") according to the relations in ConceptNet. Our experiments demonstrate that, on our MMRA benchmark, current mainstream LVLMs all have their own advantages and disadvantages across different subtasks. It is worth noting that, at the entity level, the performance of all models is worse than that of them at the image level, indicating that the fine-grained multi-image perception task is still challenging for LVLMs. The tasks related to spatial perception are relatively difficult for LVLMs to handle. Furthermore, we find that LVMLs exhibit a good ability to perceive image details, and the key to enhancing their multi-image association capability is to strengthen the reasoning ability of their language model component. All our codes and data are released at htt\url{https://github.com/Wusiwei0410/MMRA}.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# MRIに基づくパーキンソン病分類のための2次元および3次元ディープラーニングモデル:畳み込みコルモゴロフ・アルノルドネットワーク、畳み込みニューラルネットワーク、グラフ畳み込みネットワークの比較解析

2D and 3D Deep Learning Models for MRI-based Parkinson's Disease Classification: A Comparative Analysis of Convolutional Kolmogorov-Arnold Networks, Convolutional Neural Networks, and Graph Convolutional Networks ( http://arxiv.org/abs/2407.17380v1 )

ライセンス: Link先を確認
Salil B Patel, Vicky Goh, James F FitzGerald, Chrystalina A Antoniades, (参考訳) パーキンソン病(PD)の早期かつ正確な診断はいまだに困難である。 本研究では、MRIに基づくPD分類のためのディープラーニングアーキテクチャを比較し、コンボリュータル・コルモゴロフ・アルノルドネットワーク(ConvKANs)の最初の3次元(3次元)実装を導入し、畳み込み層と適応的なスプラインベースのアクティベーションを組み合わせた新しいアプローチを提案する。 我々は3つのオープンソースデータセットを用いて、畳み込みニューラルネットワーク(CNN)、畳み込みニューラルネットワーク(ConvKAN)、グラフ畳み込みニューラルネットワーク(GCN)を評価した。 2次元解析では, 各T1強調スキャンから中脳中心の100軸スライスを抽出した。 3次元解析では,全容スキャンを用いた。 ConvKANは、学習可能なB-スプライン関数と畳み込み層を統合する。 GCNはMRIデータをグラフとして表現し、理論上従来のアプローチで見落とされうる構造的関係を捉えている。 最初のConvKANスプラインアクティベーションマップやグラフノード埋め込みのプロジェクションを含む解釈可能性ビジュアライゼーションを描いている。 ConvKANはデータセットと次元のハイパフォーマンスを示し、1つのデータセットで2D AUROC (0.98) を達成し、CNNのピーク3Dパフォーマンス(1.00)と一致した。 CNNモデルは良好に動作し、GCNモデルは3D解析で改善され、最大0.97AUROCに達した。 3D 実装は AUROC の値が, 全モデルで 2D の値よりも高い値を示した。 ConvKANの実装は、特に早期診断の文脈において、PD分類におけるMRI解析の可能性を示唆している。 3D解析の改善は、微妙なPD関連変化を捉える際のボリュームデータの価値を強調している。 現在MRIはPD診断には使用されていないが、これらの所見は特に早期診断においてマルチモーダル診断アプローチの構成要素としての可能性を示している。

Early and accurate diagnosis of Parkinson's Disease (PD) remains challenging. This study compares deep learning architectures for MRI-based PD classification, introducing the first three-dimensional (3D) implementation of Convolutional Kolmogorov-Arnold Networks (ConvKANs), a new approach that combines convolution layers with adaptive, spline-based activations. We evaluated Convolutional Neural Networks (CNNs), ConvKANs, and Graph Convolutional Networks (GCNs) using three open-source datasets; a total of 142 participants (75 with PD and 67 age-matched healthy controls). For 2D analysis, we extracted 100 axial slices centred on the midbrain from each T1-weighted scan. For 3D analysis, we used the entire volumetric scans. ConvKANs integrate learnable B-spline functions with convolutional layers. GCNs represent MRI data as graphs, theoretically capturing structural relationships that may be overlooked by traditional approaches. Interpretability visualizations, including the first ConvKAN spline activation maps, and projections of graph node embeddings, were depicted. ConvKANs demonstrated high performance across datasets and dimensionalities, achieving the highest 2D AUROC (0.98) in one dataset and matching CNN peak 3D performance (1.00). CNN models performed well, while GCN models improved in 3D analyses, reaching up to 0.97 AUROC. 3D implementations yielded higher AUROC values compared to 2D counterparts across all models. ConvKAN implementation shows promise for MRI analysis in PD classification, particularly in the context of early diagnosis. The improvement in 3D analyses highlights the value of volumetric data in capturing subtle PD-related changes. While MRI is not currently used for PD diagnosis, these findings suggest its potential as a component of a multimodal diagnostic approach, especially for early detection.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# BERTとLevenshtein距離による誤り訂正に対する包括的アプローチ

A Comprehensive Approach to Misspelling Correction with BERT and Levenshtein Distance ( http://arxiv.org/abs/2407.17383v1 )

ライセンス: Link先を確認
Amirreza Naziri, Hossein Zeinali, (参考訳) 人間のコミュニケーションの全体像としての著作は、現代生活のほぼ全ての側面に浸透している。 その結果、文書によるコミュニケーションの不正確さや誤りは、金銭的損失から生命を脅かす可能性のある状況まで、重大な結果をもたらす可能性がある。 最も多い書き込みエラーのうち、スペルミスは、様々な要因によってしばしば発生する。 本研究の目的は、ニューラルネットワークを用いてテキスト中の多様なスペルエラーを特定し、修正することであり、特に、変換器による双方向エンコーダ表現(BERT)マスキング言語モデルを活用することである。 この目的を達成するために、異なる種類の綴りミスを分類した後、非実単語と実単語の誤りを包含する包括的なデータセットをコンパイルした。 その後、複数の事前訓練されたBERTモデルが採用された。 誤り訂正における最適性能を確保するため,BERTマスキング言語モデルとLevenshtein距離を用いた組み合わせアプローチを提案する。 評価データから得られた結果から,ペルシャ語に適合する既存のシステムを上回る,スペルミスの特定と修正に優れた能力を示した。

Writing, as an omnipresent form of human communication, permeates nearly every aspect of contemporary life. Consequently, inaccuracies or errors in written communication can lead to profound consequences, ranging from financial losses to potentially life-threatening situations. Spelling mistakes, among the most prevalent writing errors, are frequently encountered due to various factors. This research aims to identify and rectify diverse spelling errors in text using neural networks, specifically leveraging the Bidirectional Encoder Representations from Transformers (BERT) masked language model. To achieve this goal, we compiled a comprehensive dataset encompassing both non-real-word and real-word errors after categorizing different types of spelling mistakes. Subsequently, multiple pre-trained BERT models were employed. To ensure optimal performance in correcting misspelling errors, we propose a combined approach utilizing the BERT masked language model and Levenshtein distance. The results from our evaluation data demonstrate that the system presented herein exhibits remarkable capabilities in identifying and rectifying spelling mistakes, often surpassing existing systems tailored for the Persian language.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# 反事実のない因果モデリングと個人化効果

Causal modelling without counterfactuals and individualised effects ( http://arxiv.org/abs/2407.17385v1 )

ライセンス: Link先を確認
Benedikt Höltgen, Robert C. Williamson, (参考訳) 因果モデリングにおける最も一般的なアプローチは、NeymanとRubinによる潜在的な結果フレームワークである。 この枠組みでは、カウンターファクト処理の結果が適切に定義されていると仮定される。 このメタ物理的な仮定は、しばしば問題であるが不可欠であると考えられている。 従来のアプローチは、反事実だけでなく、直接的に検証できない分布や独立性の仮定の抽象的な概念にも依存している。 本稿では,すべての仮定が検証可能な有限集団に対する治療的予測として因果推論を解釈する。これは,予測自体を(基本的な問題なく)テストできるだけでなく,失敗してもエラーの原因を調査できることを意味している。 この新しい枠組みは、因果関係のモデル依存性と、統計的および科学的推論の違いを強調している。

The most common approach to causal modelling is the potential outcomes framework due to Neyman and Rubin. In this framework, outcomes of counterfactual treatments are assumed to be well-defined. This metaphysical assumption is often thought to be problematic yet indispensable. The conventional approach relies not only on counterfactuals, but also on abstract notions of distributions and assumptions of independence that are not directly testable. In this paper, we construe causal inference as treatment-wise predictions for finite populations where all assumptions are testable; this means that one can not only test predictions themselves (without any fundamental problem), but also investigate sources of error when they fail. The new framework highlights the model-dependence of causal claims as well as the difference between statistical and scientific inference.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# PERSONA:多面的アライメントのための再現可能なテストベッド

PERSONA: A Reproducible Testbed for Pluralistic Alignment ( http://arxiv.org/abs/2407.17387v1 )

ライセンス: Link先を確認
Louis Castricato, Nathan Lile, Rafael Rafailov, Jan-Philipp Fränken, Chelsea Finn, (参考訳) 言語モデル(LM)の急速な進歩は、多様なユーザ値との堅牢な整合性を必要とする。 しかし、現在の選好最適化アプローチは、複数のユーザの意見を捉えるのに失敗することが多く、代わりに多数派視点を補強し、少数派視点を疎外する。 本稿では,LMの多面的アライメントの評価と改善を目的とした再現性試験ベッドであるPERSONAを紹介する。 我々は,米国国勢調査データから多彩なユーザプロファイルを手続き的に生成し,人口統計学的および慣用的属性の異なる1,586人の合成ペルソナを作成した。 次に,3,868個のプロンプトと317,200個のフィードバックペアを含む大規模評価データセットを生成した。 このデータセットを活用することで、ロールプレイングの多様なユーザにおけるLM能力を体系的に評価し、人間の判断によって検証し、複数のアライメントアプローチのためのベンチマークであるPERSONA Benchの確立と、新しいベンチマークを作成するための広範囲なデータセットを作成する。 完全なデータセットとベンチマークは以下の通りである。

The rapid advancement of language models (LMs) necessitates robust alignment with diverse user values. However, current preference optimization approaches often fail to capture the plurality of user opinions, instead reinforcing majority viewpoints and marginalizing minority perspectives. We introduce PERSONA, a reproducible test bed designed to evaluate and improve pluralistic alignment of LMs. We procedurally generate diverse user profiles from US census data, resulting in 1,586 synthetic personas with varied demographic and idiosyncratic attributes. We then generate a large-scale evaluation dataset containing 3,868 prompts and 317,200 feedback pairs obtained from our synthetic personas. Leveraging this dataset, we systematically evaluate LM capabilities in role-playing diverse users, verified through human judges, and the establishment of both a benchmark, PERSONA Bench, for pluralistic alignment approaches as well as an extensive dataset to create new and future benchmarks. The full dataset and benchmarks are available here: https://www.synthlabs.ai/research/persona.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# ヒューゲン時計の量子アナログ--雑音による同期

A quantum analog of Huygen's clock: noise-induced synchronization ( http://arxiv.org/abs/2407.17388v1 )

ライセンス: Link先を確認
Bhavay Tyagi, Hao Li, Eric R. Bittner, Andrei Piryatinski, Carlos Silva-Acuna, (参考訳) 本稿では、2つのスピンの位相が共有環境との相互作用を通じて同期するHuygensクロックの量子アナログを提案する。 環境は、メカニカルクロックにおける逃避機構と類似して機能し、ギヤトレインを規制し、各間隔でタイミングの進行を許容する。 提案モデルでは,2つのスピンの相対位相は相互に相関した環境との相互作用によって同期する。 量子ビットの系では、許容された測定値の集合の濃度を著しく減少させ、したがって問題の複雑さを減少させるいくつかの議論ができることを示す。 最終密度行列の相関関係に存在する量子度を数値的に効率よく計算する手法を提案する。 この方法はまた、システムがランク3とランク4の密度行列によって記述されるときに、厳密な上限を与える。

We propose a quantum analogue of the Huygens clock, in which the phases of two spins achieve synchronization through their interaction with a shared environment. The environment functions analogously to the escapement mechanism in a mechanical clock, regulating the gear train and permitting the advancement of timing in discrete intervals. In our proposed model, the relative phase of the two spins become synchronized through interaction with a mutual, correlated, environment. We show that for a system of qubits, several arguments can be made that significantly reduce the cardinality of the set of allowed measurements and, hence, the complexity of the problem. We present a numerically efficient method to calculate the degree of quantumness that exists in the correlations of our final density matrix. This method also provides a tight upper bound for when the system is described by rank-3 and rank-4 density matrices.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# 宇宙ストリング時空におけるハーベストング真空エンタングルメントの促進

Enhancement of Harvesting Vacuum Entanglement in Cosmic String Spacetime ( http://arxiv.org/abs/2407.17389v1 )

ライセンス: Link先を確認
Willy Izquierdo, J. Beltran, Enrique Arias, (参考訳) 宇宙弦の時空におけるスカラー場の真空変動を経験する1組の量子ビットにおける絡み合いの発生を解析する。 量子ビットは無質量スカラー場に結合したウンルー・デウィット検出器としてモデル化される。 量子相関の生成を促進する量子ビット間のハイゼンベルク$XY$-相互作用を導入する。 量子ビットは、磁場が真空状態にとどまっている間、絡み合いのない密度演算子によって記述される一般的な混合状態から始まると考えられる。 このようにして、場の真空変動を利用して量子ビット間の絡み合いを生じさせる一般的な性質と条件を求める。 我々は、ペレス・ホロデツキ正部分転位基準に基づく負性度尺度を用いて、量子ビットの絡み合いを定量化する。 宇宙弦は、両キュービットが宇宙弦の近くにあるときの絡み合いを増大させる。 量子ビットの位置が宇宙弦から遠く離れているとき、ミンコフスキー空間の通常の結果を回復する。 ハイゼンベルクの$XY$-相互作用は、結合性(強磁性または反強磁性)に関係なく、絡み合いを増強する。 クォービットが互いに遠く離れているとき、ハイゼンベルク結合定数とクォービットエネルギーギャップの間の共鳴点で最大絡み合いが得られる。

We analyze the entanglement generation in a pair of qubits that experience the vacuum fluctuations of a scalar field in the Cosmic String spacetime. The qubits are modeled as Unruh-DeWitt detectors coupled to a massless scalar field. We introduce a Heisenberg $XY$-interaction between the qubits that enhances the generation of quantum correlations. It is supposed that the qubits begin at a general mixed state described by a density operator with no entanglement while the field stays at its vacuum state. In this way, we find the general properties and conditions to create entanglement between the qubits by exploiting the field vacuum fluctuations. We quantify the qubits entanglement using the Negativity measure based on the Peres-Horodecki positive partial transpose criterion. We find that the Cosmic String would increase the entanglement harvesting when both qubits are near the Cosmic String. When the qubits locations are far from the Cosmic String we recover the usual results for Minkowski space. The Heisenberg $XY$-interaction enhance the entanglement harvesting irrespective of the coupling nature (ferromagnetic or anti-ferromagnetic). When the qubits are far apart from each other we find a maximum entanglement harvesting at the resonance points between the Heisenberg coupling constant and the qubits energy gap.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# CovScore:多文書抽象タイトルセット生成の評価

CovScore: Evaluation of Multi-Document Abstractive Title Set Generation ( http://arxiv.org/abs/2407.17390v1 )

ライセンス: Link先を確認
Itamar Trainin, Omri Abend, (参考訳) 本稿では,文書コーパスから抽出したテーマタイトルセットを自動参照レスで評価する手法であるCovScoreを紹介する。 このような抽出法は広く用いられているが、その有効性を評価することは未解決の問題である。 さらに、既存のプラクティスの中には、遅くて退屈な人間のアノテーション手順に大きく依存しているものもある。 最近導入されたLCMに基づく判断法に着想を得て,評価の異なる側面に沿って,品質を5つの主要な指標に分解する手法を提案する。 このフレーミングは、手動による評価プロセスを簡素化し、簡易化し、自動かつ独立したLCMベースの評価を可能にする。 テストケースとして,ホロコースト生存者の証言のコーパスにアプローチを適用し,タイトルセット抽出との関連と,この追求の道徳的意義を両立させることで動機づけた。 本研究では,本手法を自然主義的および総合的なタイトルセット生成システムを用いて検証し,その性能を方法論と比較する。

This paper introduces CovScore, an automatic reference-less methodology for evaluating thematic title sets, extracted from a corpus of documents. While such extraction methods are widely used, evaluating their effectiveness remains an open question. Moreover, some existing practices heavily rely on slow and laborious human annotation procedures. Inspired by recently introduced LLM-based judge methods, we propose a novel methodology that decomposes quality into five main metrics along different aspects of evaluation. This framing simplifies and expedites the manual evaluation process and enables automatic and independent LLM-based evaluation. As a test case, we apply our approach to a corpus of Holocaust survivor testimonies, motivated both by its relevance to title set extraction and by the moral significance of this pursuit. We validate the methodology by experimenting with naturalistic and synthetic title set generation systems and compare their performance with the methodology.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# 機械学習におけるデータ生成分布の仮定に対する5つの理由

Five reasons against assuming a data-generating distribution in Machine Learning ( http://arxiv.org/abs/2407.17395v1 )

ライセンス: Link先を確認
Benedikt Höltgen, Robert C. Williamson, (参考訳) 機械学習の研究は統計学のほとんどと同様に、データ生成確率分布の概念に大きく依存している。 このような分布からデータポイントをサンプリングすると、この分布に関する観測データから学習でき、そこから引き出された将来のデータポイントを(ある程度の確率で)予測することができる。 専門分野にまたがる奨学金に基づいて、我々はこのフレームワークが必ずしも良いモデルであるとは限らないと論じている。 このような真の確率分布は存在しないだけでなく、フレームワークは選択と機械学習の実践で追求された目標の両方を誤解させ、曖昧にすることができる。 抽象分布よりも有限集団に着目した代替フレームワークを提案するが、古典的学習理論はほとんど変わらないが、特にモデルサンプリングにおいて新たな機会が開かれる。 我々はこれらの考察を、生成的分布よりも有限分布で機械学習をモデル化する5つの理由にまとめる。

Machine Learning research, as most of Statistics, heavily relies on the concept of a data-generating probability distribution. As data points are thought to be sampled from such a distribution, we can learn from observed data about this distribution and, thus, predict future data points drawn from it (with some probability of success). Drawing on scholarship across disciplines, we here argue that this framework is not always a good model. Not only do such true probability distributions not exist; the framework can also be misleading and obscure both the choices made and the goals pursued in machine learning practice. We suggest an alternative framework that focuses on finite populations rather than abstract distributions; while classical learning theory can be left almost unchanged, it opens new opportunities, especially to model sampling. We compile these considerations into five reasons for modelling machine learning -- in some settings -- with finite distributions rather than generative distributions, both to be more faithful to practice and to provide novel theoretical insights.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# グラフニューラルネットワークによる関係領域の体系的推論

Systematic Reasoning About Relational Domains With Graph Neural Networks ( http://arxiv.org/abs/2407.17396v1 )

ライセンス: Link先を確認
Irtaza Khalid, Steven Schockaert, (参考訳) 推論を学べるモデルを開発することは、非常に難しい問題です。 グラフニューラルネットワーク(GNN)の使用が自然な選択のように思えるリレーショナルドメインの推論に焦点を当てる。 しかしながら、GNNによる推論に関する以前の研究は、トレーニング中に見られるものよりも長い推論チェーンを必要とするテスト例が提示されると、そのようなモデルは失敗する傾向にあることを示した。 これは、GNNが訓練例から体系的な方法で一般化する能力に欠けていることを示唆している。 一般的な解決策は、設計によって体系的な推論が可能なニューロシンボリックな方法に頼ることである。 残念ながら、そのようなメソッドのスケーラビリティはしばしば制限されており、単一のリレーショナルパスを検査することでクエリが答えられるという、過度に強い仮定に依存する傾向がある。 本稿では, GNNによる推論の考え方を再考し, 適切な帰納バイアスが提供される限り, 体系的一般化が可能であることを示す。 特に,ノード埋め込みはてんかん状態として扱うべきであり,それに応じてGNNをパラメータ化すべきである。 本稿では,この視点に基づくシンプルなGNNアーキテクチャを提案する。 さらに、複数のリレーショナルパスからエビデンスを集約するモデルを必要とするベンチマークも導入する。 既存のニューロシンボリックアプローチはこのベンチマークでは失敗するが、GNNモデルは正確な推論を学習する。

Developing models that can learn to reason is a notoriously challenging problem. We focus on reasoning in relational domains, where the use of Graph Neural Networks (GNNs) seems like a natural choice. However, previous work on reasoning with GNNs has shown that such models tend to fail when presented with test examples that require longer inference chains than those seen during training. This suggests that GNNs lack the ability to generalize from training examples in a systematic way, which would fundamentally limit their reasoning abilities. A common solution is to instead rely on neuro-symbolic methods, which are capable of reasoning in a systematic way by design. Unfortunately, the scalability of such methods is often limited and they tend to rely on overly strong assumptions, e.g.\ that queries can be answered by inspecting a single relational path. In this paper, we revisit the idea of reasoning with GNNs, showing that systematic generalization is possible as long as the right inductive bias is provided. In particular, we argue that node embeddings should be treated as epistemic states and that GNN should be parameterised accordingly. We propose a simple GNN architecture which is based on this view and show that it is capable of achieving state-of-the-art results. We furthermore introduce a benchmark which requires models to aggregate evidence from multiple relational paths. We show that existing neuro-symbolic approaches fail on this benchmark, whereas our considered GNN model learns to reason accurately.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# 都市景観理解のための3次元質問応答

3D Question Answering for City Scene Understanding ( http://arxiv.org/abs/2407.17398v1 )

ライセンス: Link先を確認
Penglei Sun, Yaoxian Song, Xiang Liu, Xiaofei Yang, Qiang Wang, Tiefeng Li, Yang Yang, Xiaowen Chu, (参考訳) 3Dマルチモーダル質問応答(MQA)は,知的エージェントが周囲を3D環境下で理解できるようにすることによって,シーン理解において重要な役割を担っている。 既存の研究は主に家庭内タスクと屋外の道路側自動運転タスクに重点を置いているが、都市レベルのシーン理解タスクは限られている。 さらに, 都市レベルでの空間的意味情報や人間と環境の相互作用情報が欠如していることから, 都市環境理解の課題に直面しており, これらの課題に対処するために, データセットと手法の両方の観点から3D MQAを調査する。 都市レベルのシーン理解のための3D MQAデータセットであるCity-3DQAを導入する。 手法の観点から,シーングラフを用いて空間意味を導入した都市レベル理解手法(Sg-CityU)を提案する。 新しいベンチマークを報告し,提案したSg-CityUはCity-3DQAの異なる設定で63.94 %と63.76 %の精度を達成する。 高度大言語モデル(LLM)を用いた屋内3D MQA法やゼロショットと比較して、Sg-CityUは堅牢性と一般化において最先端(SOTA)性能を示す。

3D multimodal question answering (MQA) plays a crucial role in scene understanding by enabling intelligent agents to comprehend their surroundings in 3D environments. While existing research has primarily focused on indoor household tasks and outdoor roadside autonomous driving tasks, there has been limited exploration of city-level scene understanding tasks. Furthermore, existing research faces challenges in understanding city scenes, due to the absence of spatial semantic information and human-environment interaction information at the city level.To address these challenges, we investigate 3D MQA from both dataset and method perspectives. From the dataset perspective, we introduce a novel 3D MQA dataset named City-3DQA for city-level scene understanding, which is the first dataset to incorporate scene semantic and human-environment interactive tasks within the city. From the method perspective, we propose a Scene graph enhanced City-level Understanding method (Sg-CityU), which utilizes the scene graph to introduce the spatial semantic. A new benchmark is reported and our proposed Sg-CityU achieves accuracy of 63.94 % and 63.76 % in different settings of City-3DQA. Compared to indoor 3D MQA methods and zero-shot using advanced large language models (LLMs), Sg-CityU demonstrates state-of-the-art (SOTA) performance in robustness and generalization.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# 実世界の画像復調のための自己校正可変安定化変換

Self-Calibrated Variance-Stabilizing Transformations for Real-World Image Denoising ( http://arxiv.org/abs/2407.17399v1 )

ライセンス: Link先を確認
Sébastien Herbreteau, Michael Unser, (参考訳) 教師付き深層学習が画像認知のための選択方法となっている。 これには、ノイズの多い画像とクリーンな画像のペアからなる大きなデータセット上で、ニューラルネットワークのトレーニングが含まれる。 しかし、対象のアプリケーションに特有のトレーニングデータの必要性は、デノナイジングネットワークの利用を広く制限する。 近年,現実的なクリーン/ノイズの多いイメージペアを人工的に生成するか,ノイズの多いイメージのみをトレーニングするか,という課題を克服するために,いくつかのアプローチが開発されている。 本稿では,一般の信条とは対照的に,ガウスノイズ除去に特化しているネットワークを効率よく活用し,付加的な訓練を伴わずに実世界の画像復調に活用できることを述べる。 これを実現するためには、予め適切な分散安定化変換(VST)を適用する必要がある。 本研究では,そのようなモデルのないVSTの学習のためのNoss2VSTというアルゴリズムを提案する。 提案手法では,入力ノイズ像とオフザシェルフガウスデノイザのみを必要とする。 本研究では,ノイズ2VSTの有効性と優位性を,特定のクリーン/ノイズペアが存在しない場合に訓練された既存手法と比較した。

Supervised deep learning has become the method of choice for image denoising. It involves the training of neural networks on large datasets composed of pairs of noisy and clean images. However, the necessity of training data that are specific to the targeted application constrains the widespread use of denoising networks. Recently, several approaches have been developed to overcome this difficulty by whether artificially generating realistic clean/noisy image pairs, or training exclusively on noisy images. In this paper, we show that, contrary to popular belief, denoising networks specialized in the removal of Gaussian noise can be efficiently leveraged in favor of real-world image denoising, even without additional training. For this to happen, an appropriate variance-stabilizing transform (VST) has to be applied beforehand. We propose an algorithm termed Noise2VST for the learning of such a model-free VST. Our approach requires only the input noisy image and an off-the-shelf Gaussian denoiser. We demonstrate through extensive experiments the efficiency and superiority of Noise2VST in comparison to existing methods trained in the absence of specific clean/noisy pairs.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# 大規模言語モデルを用いた文法に基づくゲーム記述生成

Grammar-based Game Description Generation using Large Language Models ( http://arxiv.org/abs/2407.17404v1 )

ライセンス: Link先を確認
Tsunehiko Tanaka, Edgar Simo-Serra, (参考訳) ゲームデザイン開発における障壁を低くするために,ゲームデザインを計算処理で生成する自動ゲームデザインが検討されている。 自動ゲームデザインでは、進化的アルゴリズムのような機械学習ベースの技術が成功している。 ディープラーニングの顕著な進歩から、コンピュータビジョンや自然言語処理の応用は、レベル生成において進歩している。 しかし,ゲーム設計におけるデータ量が限られているため,ゲーム記述生成などのタスクにはディープラーニングの適用が不十分であった。 自動ゲーム設計における限られたデータを扱う新しいアプローチを開拓するために,大規模言語モデル(LLM)のコンテキスト内学習に着目した。 LLMは、いくつかのデモ例からタスクの特徴をキャプチャして、事前トレーニング中に取得した機能を適用することができる。 ゲームデザイン空間を効果的に構成するゲーム記述の文法をLLMの推論プロセスに導入する。 グラマーはLLMがゲーム記述生成の複雑なタスクの特徴を捉えるのに役立つ。 さらに,文法を利用して生成した出力を反復的に改善する復号法を提案する。 ゲーム記述の生成において,本手法が有効であることを示す。

To lower the barriers to game design development, automated game design, which generates game designs through computational processes, has been explored. In automated game design, machine learning-based techniques such as evolutionary algorithms have achieved success. Benefiting from the remarkable advancements in deep learning, applications in computer vision and natural language processing have progressed in level generation. However, due to the limited amount of data in game design, the application of deep learning has been insufficient for tasks such as game description generation. To pioneer a new approach for handling limited data in automated game design, we focus on the in-context learning of large language models (LLMs). LLMs can capture the features of a task from a few demonstration examples and apply the capabilities acquired during pre-training. We introduce the grammar of game descriptions, which effectively structures the game design space, into the LLMs' reasoning process. Grammar helps LLMs capture the characteristics of the complex task of game description generation. Furthermore, we propose a decoding method that iteratively improves the generated output by leveraging the grammar. Our experiments demonstrate that this approach performs well in generating game descriptions.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# テンソルネットワーク強化動的多産物式

Tensor Network enhanced Dynamic Multiproduct Formulas ( http://arxiv.org/abs/2407.17405v1 )

ライセンス: Link先を確認
Niall F. Robertson, Bibek Pokharel, Bryce Fuller, Eric Switzer, Oles Shtanko, Mirko Amico, Adam Byrne, Andrea D'Urbano, Salome Hayes-Shuptar, Albert Akhriev, Nathan Keenan, Sergey Bravyi, Sergiy Zhuk, (参考訳) テンソルネットワークと量子計算は、量子多体系のシミュレーションの最も強力なツールの1つである。 これらを競合するアプローチとして見るのではなく、ここではこれらの2つの手法がどのように機能するかを考察する。 本稿では,テンソルネットワークと量子計算を組み合わせた新しいアルゴリズムを提案する。 提案アルゴリズムは,Trotterの積公式を線形に結合してアルゴリズム誤差を低減する手法である多積式 (MPF) に基づいている。 我々のアルゴリズムは、量子コンピュータを用いて期待値とテンソルネットワークを計算し、線形結合で使用される係数を計算する。 我々は,このアルゴリズムの詳細な誤差解析を行い,IBMの量子コンピュータ2つを用いて1次元量子シミュレーション問題に対して,$ibm\_torino$と$ibm\_kyiv$のフルワークフローを示す。

Tensor networks and quantum computation are two of the most powerful tools for the simulation of quantum many-body systems. Rather than viewing them as competing approaches, here we consider how these two methods can work in tandem. We introduce a novel algorithm that combines tensor networks and quantum computation to produce results that are more accurate than what could be achieved by either method used in isolation. Our algorithm is based on multiproduct formulas (MPF) - a technique that linearly combines Trotter product formulas to reduce algorithmic error. Our algorithm uses a quantum computer to calculate the expectation values and tensor networks to calculate the coefficients used in the linear combination. We present a detailed error analysis of the algorithm and demonstrate the full workflow on a one-dimensional quantum simulation problem on $50$ qubits using two IBM quantum computers: $ibm\_torino$ and $ibm\_kyiv$.
翻訳日:2024-07-25 13:15:22 公開日:2024-07-24
# 依存変換言語文法:依存構造を変換言語モデルに統合する

Dependency Transformer Grammars: Integrating Dependency Structures into Transformer Language Models ( http://arxiv.org/abs/2407.17406v1 )

ライセンス: Link先を確認
Yida Zhao, Chao Lou, Kewei Tu, (参考訳) Syntactic Transformer言語モデルは、構文木と文を同時にモデル化することで、より良い一般化を実現することを目的としている。 以前の作業では、Transformerにconstituency-based structureを追加することに重点を置いていたが、Dependency Transformer Grammars (DTGs)を紹介した。 DTGは、注意マスクの変更、相対的な位置エンコーディングによるスタック情報の統合、トークン埋め込みと操作埋め込みの組み合わせによる依存性アーク表現の強化により、制約された注意パターンによる依存性遷移システムをシミュレートする。 依存木で注釈付けされた文のデータセットでトレーニングすると、DTGはTransformer言語モデルベースラインと同等のパープレクティリティを維持しながら、より良い一般化を実現する。 DTGは最近の選挙区ベースモデルよりも優れており、依存関係がTransformer言語モデルをより良くガイドできることを示している。 私たちのコードはhttps://github.com/zhaoyd1/Dep_Transformer_Grammarsでリリースされています。

Syntactic Transformer language models aim to achieve better generalization through simultaneously modeling syntax trees and sentences. While prior work has been focusing on adding constituency-based structures to Transformers, we introduce Dependency Transformer Grammars (DTGs), a new class of Transformer language model with explicit dependency-based inductive bias. DTGs simulate dependency transition systems with constrained attention patterns by modifying attention masks, incorporate the stack information through relative positional encoding, and augment dependency arc representation with a combination of token embeddings and operation embeddings. When trained on a dataset of sentences annotated with dependency trees, DTGs achieve better generalization while maintaining comparable perplexity with Transformer language model baselines. DTGs also outperform recent constituency-based models, showing that dependency can better guide Transformer language models. Our code is released at https://github.com/zhaoyd1/Dep_Transformer_Grammars.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# High $E_J/E_C$ Transmon qudits の体系的研究

Systematic study of High $E_J/E_C$ transmon qudits up to $d = 12$ ( http://arxiv.org/abs/2407.17407v1 )

ライセンス: Link先を確認
Z. Wang, R. W. Parker, E. Champion, M. S. Blok, (参考訳) Quditsは量子情報処理のための量子ビットに代わるリソース効率の高い代替手段を提供する。 トランスモンの多レベルの性質は、個々の可溶性遷移周波数を持ち、超伝導回路ベースの量子ドットにとって魅力的なプラットフォームとなっている。 本研究では,固定周波数トランスモンにおける高次元量子情報の符号化に伴うトレードオフを系統的に解析する。 最大325ドルの高額なE_J/E_C$を設計し、1つのトランスモン上で最大12レベル(d=12$)まで観測する。 非調和性の低下にもかかわらず、各隣接レベルキュービット部分空間におけるキュービット様演算に対するプロセス不完全性 $e_f < 3 \times 10^{-3}$ を示す。 さらに,マルチトーン分散測定のディープニューラルネットワーク分類の助けを借りて,10状態の読み出し割当率93.8%を達成する。 高いレベルのハーンエコー時間$T_{2E}$は、主にボソニックエンハンスメントによって制限されるT_1$崩壊の限界に近くなる。 我々は、最近導入されたジョセフソン高調波モデルを検証するとともに、遷移周波数と電荷分散のより良い予測が得られることを発見した。 最後に, 2-transmon系における高エネルギー準位間のZZ$様結合性を示す。 我々の高忠実度制御と読み出し手法は、トランスモンモデルの包括的評価と組み合わせて、高E_J/E_C$トランスモンは、回路量子力学における励起状態を探索するための強力なツールであることを示す。

Qudits provide a resource-efficient alternative to qubits for quantum information processing. The multilevel nature of the transmon, with its individually resolvable transition frequencies, makes it an attractive platform for superconducting circuit-based qudits. In this work, we systematically analyze the trade-offs associated with encoding high-dimensional quantum information in fixed-frequency transmons. Designing high $E_J/E_C$ ratios of up to 325, we observe up to 12 levels ($d=12$) on a single transmon. Despite the decreased anharmonicity, we demonstrate process infidelities $e_f < 3 \times 10^{-3}$ for qubit-like operations in each adjacent-level qubit subspace in the lowest 10 levels. Furthermore, we achieve a 10-state readout assignment fidelity of 93.8% with the assistance of deep neural network classification of a multi-tone dispersive measurement. We find that the Hahn echo time $T_{2E}$ for the higher levels is close to the limit of $T_1$ decay, primarily limited by bosonic enhancement. We verify the recently introduced Josephson harmonics model, finding that it yields better predictions for the transition frequencies and charge dispersion. Finally, we show strong $ZZ$-like coupling between the higher energy levels in a two-transmon system. Our high-fidelity control and readout methods, in combination with our comprehensive characterization of the transmon model, suggest that the high-$E_J/E_C$ transmon is a powerful tool for exploring excited states in circuit quantum electrodynamics.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# Lanelet2フレームワークにおけるHDマップからのトレーニングデータの生成

Generation of Training Data from HD Maps in the Lanelet2 Framework ( http://arxiv.org/abs/2407.17409v1 )

ライセンス: Link先を確認
Fabian Immel, Richard Fehler, Frank Bieder, Christoph Stiller, (参考訳) 機械学習タスクのトレーニングデータとして直接HDマップを使用することで、人気が急増し、例えば地図知覚の分野では有望な結果が見られた。 それにもかかわらず、マップベースの自動運転およびマップデータからのトレーニングラベル生成のすべての部分をサポートする標準化されたHDマップフレームワークは存在しない。 さらに、リアルタイム推論における入力の一部として地図データを用いた地図知覚モデルの提供は、研究コミュニティによって対処されることはない。 このギャップを埋めるために、学術・産業の自動化運転システムで広く使われているHDマップフレームワークLanelet2の統合拡張であるlanelet2_ml_converterを提案する。 この追加でLanelet2は、マップベースの自動運転、機械学習推論、トレーニングを、すべて単一のマップデータとフォーマットソースから統合する。 統合フレームワークの要件を分析し、これらの要件の実装について説明する。 最先端の機械学習におけるラベルの使用性は、地図認識の分野からの応用例で示される。 ソースコードはLanelet2フレームワークにhttps://github.com/fzi-forschungszentrum-informatik/Lanelet2/tree/feature_ml_converterで組み込まれている。

Using HD maps directly as training data for machine learning tasks has seen a massive surge in popularity and shown promising results, e.g. in the field of map perception. Despite that, a standardized HD map framework supporting all parts of map-based automated driving and training label generation from map data does not exist. Furthermore, feeding map perception models with map data as part of the input during real-time inference is not addressed by the research community. In order to fill this gap, we presentlanelet2_ml_converter, an integrated extension to the HD map framework Lanelet2, widely used in automated driving systems by academia and industry. With this addition Lanelet2 unifies map based automated driving, machine learning inference and training, all from a single source of map data and format. Requirements for a unified framework are analyzed and the implementation of these requirements is described. The usability of labels in state of the art machine learning is demonstrated with application examples from the field of map perception. The source code is available embedded in the Lanelet2 framework under https://github.com/fzi-forschungszentrum-informatik/Lanelet2/tree/feature_ml_converter
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# (PASS) Visual Promptは、リカレントハイパーネットワークを通して優れた構造空間をローカライズする

(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork ( http://arxiv.org/abs/2407.17412v1 )

ライセンス: Link先を確認
Tianjin Huang, Fang Meng, Li Shen, Fan Liu, Yulong Pei, Mykola Pechenizkiy, Shiwei Liu, Tianlong Chen, (参考訳) 大規模ニューラルネットワークは、膨大な計算リソースを犠牲にしながらも、視覚や言語処理といったさまざまな領域で顕著なパフォーマンスを示している。 圧縮文献で説明されているように、構造的モデルプルーニングは、加速度にやさしいスパーシティパターンのおかげで、モデルの効率を高めるための顕著なアルゴリズムである。 構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。 並行して、データ中心のAIの研究は、プロンプトベースのテクニックによって、さまざまな下流タスクにわたる大きな言語モデルの印象的な一般化が可能になることを示した。 本稿では、チャネルの重要性を捉え、高品質な構造空間を導出するための視覚的プロンプトを「textit{leveraging visual prompts」と呼ぶ魅力的な可能性について検討する。 そこで本研究では,新しいアルゴリズムフレームワークであるtexttt{PASS}を提案する。 視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。 このような設計は、層間の固有のチャネル依存性を考慮に入れている。 複数のネットワークアーキテクチャと6つのデータセットにまたがる総合的な実験は、優れた構造的疎結合性を見つける上での \texttt{PASS} の優位性を実証している。 例えば、同じFLOPのレベルでは、 \texttt{PASS} subnetworksは、Food101データセットで1\%\sim 3\%$の精度を達成する。

Large-scale neural networks have demonstrated remarkable performance in different domains like vision and language processing, although at the cost of massive computation resources. As illustrated by compression literature, structural model pruning is a prominent algorithm to encourage model efficiency, thanks to its acceleration-friendly sparsity patterns. One of the key questions of structural pruning is how to estimate the channel significance. In parallel, work on data-centric AI has shown that prompting-based techniques enable impressive generalization of large language models across diverse downstream tasks. In this paper, we investigate a charming possibility - \textit{leveraging visual prompts to capture the channel importance and derive high-quality structural sparsity}. To this end, we propose a novel algorithmic framework, namely \texttt{PASS}. It is a tailored hyper-network to take both visual prompts and network weight statistics as input, and output layer-wise channel sparsity in a recurrent manner. Such designs consider the intrinsic channel dependency between layers. Comprehensive experiments across multiple network architectures and six datasets demonstrate the superiority of \texttt{PASS} in locating good structural sparsity. For example, at the same FLOPs level, \texttt{PASS} subnetworks achieve $1\%\sim 3\%$ better accuracy on Food101 dataset; or with a similar performance of $80\%$ accuracy, \texttt{PASS} subnetworks obtain $0.35\times$ more speedup than the baselines.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# 凸集合グラフの$A^*$

$A^*$ for Graphs of Convex Sets ( http://arxiv.org/abs/2407.17413v1 )

ライセンス: Link先を確認
Kaarthik Sundar, Sivakumar Rathinam, (参考訳) 本稿では,既存の凸プログラミングに基づくアプローチをヒューリスティック情報と融合して,グラフ・オブ・凸集合(SPP-GCS)における最短経路問題に対する最適性保証と準最適経路を求めるアルゴリズムを提案する。 我々の方法は$A^*$にインスパイアされ、指定された頂点の部分集合から最優先的な手順を開始し、さらなる成長が不可能かつ有益になるまで反復的に拡張する。 伝統的に、最適化問題に対する境界付き解を得るには、緩和を解くこと、緩和された解を実現可能なものに修正すること、そして2つの解を比較して境界を確立することが含まれる。 しかし、SPP-GCSでは、特にユークリッド旅行コストにおいて、このプロセスの逆転の方が有利であることを示す。 言い換えれば、まず最初に$A^*$ を用いて SPP-GCS の実現可能な解を求め、次に、$A^*$ で探索された頂点に制限された凸緩和を解いて緩和解を得る。 本稿では,コンベックスプログラムのサイズや計算時間の観点から,既存手法に対するアルゴリズムの利点を明らかにするために,数値計算結果を提案する。

We present a novel algorithm that fuses the existing convex-programming based approach with heuristic information to find optimality guarantees and near-optimal paths for the Shortest Path Problem in the Graph of Convex Sets (SPP-GCS). Our method, inspired by $A^*$, initiates a best-first-like procedure from a designated subset of vertices and iteratively expands it until further growth is neither possible nor beneficial. Traditionally, obtaining solutions with bounds for an optimization problem involves solving a relaxation, modifying the relaxed solution to a feasible one, and then comparing the two solutions to establish bounds. However, for SPP-GCS, we demonstrate that reversing this process can be more advantageous, especially with Euclidean travel costs. In other words, we initially employ $A^*$ to find a feasible solution for SPP-GCS, then solve a convex relaxation restricted to the vertices explored by $A^*$ to obtain a relaxed solution, and finally, compare the solutions to derive bounds. We present numerical results to highlight the advantages of our algorithm over the existing approach in terms of the sizes of the convex programs solved and computation time.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# HumanVid: カメラ制御可能な人間のイメージアニメーションのためのデミスティファイトトレーニングデータ

HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation ( http://arxiv.org/abs/2407.17438v1 )

ライセンス: Link先を確認
Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin, (参考訳) 人間の画像アニメーションは、キャラクタ写真からビデオを生成し、ユーザーが制御し、ビデオや映画制作の可能性を解き放つ。 最近のアプローチでは、高品質なトレーニングデータを使用して印象的な結果が得られるが、これらのデータセットがアクセスできないことは、公正で透明なベンチマークを妨げている。 さらに、これらの手法は2次元の人間の動きを優先し、映像におけるカメラの動きの重要性を軽視し、限られた制御と不安定な映像生成をもたらす。 実世界のデータについては、インターネットから著作権のない実世界のビデオの膨大なコレクションをコンパイルします。 慎重に設計されたルールベースのフィルタリング戦略により、高品質なビデオが確実に含まれ、結果として1080P解像度で20万本もの人間中心のビデオが集められる。 ヒトとカメラの動作アノテーションは2次元ポーズ推定器とSLAMに基づく手法を用いて達成される。 合成データについては,2300件の著作権のない3Dアバター資産を収集し,既存の3D資産を拡大する。 特に,ルールに基づくカメラ軌跡生成手法を導入し,実世界のデータにはほとんど見つからない,多種多様な高精度なカメラモーションアノテーションを合成パイプラインに組み込むことを可能にした。 HumanVidの有効性を検証するため,カメラ制御可能なヒューマンアニメーションのベースラインモデルCamAnimateを構築し,人間とカメラの両方の動きを条件とする。 広範にわたる実験を通じて、人間のポーズとカメラの動きを制御し、新しいベンチマークを設定できるようなシンプルなHumanVidのベースライントレーニングが、最先端のパフォーマンスを実現することを実証した。 コードとデータは \url{https://github.com/zhenzhiwang/HumanVid/} で公開される。

Human image animation involves generating videos from a character photo, allowing user control and unlocking potential for video and movie production. While recent approaches yield impressive results using high-quality training data, the inaccessibility of these datasets hampers fair and transparent benchmarking. Moreover, these approaches prioritize 2D human motion and overlook the significance of camera motions in videos, leading to limited control and unstable video generation.To demystify the training data, we present HumanVid, the first large-scale high-quality dataset tailored for human image animation, which combines crafted real-world and synthetic data. For the real-world data, we compile a vast collection of copyright-free real-world videos from the internet. Through a carefully designed rule-based filtering strategy, we ensure the inclusion of high-quality videos, resulting in a collection of 20K human-centric videos in 1080P resolution. Human and camera motion annotation is accomplished using a 2D pose estimator and a SLAM-based method. For the synthetic data, we gather 2,300 copyright-free 3D avatar assets to augment existing available 3D assets. Notably, we introduce a rule-based camera trajectory generation method, enabling the synthetic pipeline to incorporate diverse and precise camera motion annotation, which can rarely be found in real-world data. To verify the effectiveness of HumanVid, we establish a baseline model named CamAnimate, short for Camera-controllable Human Animation, that considers both human and camera motions as conditions. Through extensive experimentation, we demonstrate that such simple baseline training on our HumanVid achieves state-of-the-art performance in controlling both human pose and camera motions, setting a new benchmark. Code and data will be publicly available at \url{https://github.com/zhenzhiwang/HumanVid/}.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# エビデンスベースのソフトウェアエンジニアリングにおけるジェネレーティブAI:ホワイトペーパー

Generative AI in Evidence-Based Software Engineering: A White Paper ( http://arxiv.org/abs/2407.17440v1 )

ライセンス: Link先を確認
Mattel Esposito, Andrea Janes, Davide Taibi, Valentina Lenarduzzi, (参考訳) コンテキスト。 1年足らずで、実践者や研究者は、生成人工知能の迅速かつ広範な実装を目撃した。 実践者や研究者が提案する新しいモデルの日次提供により、迅速な採用が可能になった。 テキストGAI機能により、研究者は世界中で新しい生成シナリオを探索し、すべての時間を要するテキスト生成と分析タスクを簡素化し、急ぐことができる。 モチベーション。 デジタル図書館による情報へのアクセシビリティ向上に伴い,我々の分野における出版物の増加により,組織的な文献レビューや地図作成研究は,この課題から,証拠ベースソフトウェア工学におけるGAIの役割を探求し,考察した。 今後の方向。 現在の調査に基づいて、EBSE研究者を効果的に支援する包括的モデルスイートの作成と実証検証を行う。

Context. In less than a year practitioners and researchers witnessed a rapid and wide implementation of Generative Artificial Intelligence. The daily availability of new models proposed by practitioners and researchers has enabled quick adoption. Textual GAIs capabilities enable researchers worldwide to explore new generative scenarios simplifying and hastening all timeconsuming text generation and analysis tasks. Motivation. The exponentially growing number of publications in our field with the increased accessibility to information due to digital libraries makes conducting systematic literature reviews and mapping studies an effort and timeinsensitive task Stemmed from this challenge we investigated and envisioned the role of GAIs in evidencebased software engineering. Future Directions. Based on our current investigation we will follow up the vision with the creation and empirical validation of a comprehensive suite of models to effectively support EBSE researchers
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# 分数的シグネチャ:分数計算にヒントを得たシグネチャの一般化

Fractional signature: a generalisation of the signature inspired by fractional calculus ( http://arxiv.org/abs/2407.17446v1 )

ライセンス: Link先を確認
José Manuel Corcuera, Rubén Jiménez, (参考訳) 本稿では, 線形カプトー制御FDEの解を記述できる分数計算によって動機付けられた経路のシグネチャの新たな一般化を提案する。 また、このシグネチャの別の一般化も提案し、前者から着想を得たが、機械学習での使用にはより便利である。 最後に、この最後のシグネチャを手書き文字認識の問題に適用し、元のシグネチャと比較して精度の大幅な向上を観測する。

In this paper, we propose a novel generalisation of the signature of a path, motivated by fractional calculus, which is able to describe the solutions of linear Caputo controlled FDEs. We also propose another generalisation of the signature, inspired by the previous one, but more convenient to use in machine learning. Finally, we test this last signature in a toy application to the problem of handwritten digit recognition, where significant improvements in accuracy rates are observed compared to those of the original signature.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# 異常検出レンズによるモデル偏差の検討

Looking at Model Debiasing through the Lens of Anomaly Detection ( http://arxiv.org/abs/2407.17449v1 )

ライセンス: Link先を確認
Vito Paolo Pastore, Massimiliano Ciranni, Davide Marinelli, Francesca Odone, Vittorio Murino, (参考訳) ディープニューラルネットワークはデータのバイアスに敏感であることが広く認識されている。 これは、トレーニング中にこれらのモデルがデータとラベルの間に急激な相関関係を学習し、結果として一般化能力が制限され、性能が低下することを意味する。 この文脈では、モデル偏見のアプローチは、バイアス情報の知識を活用するか、そうでないかのどちらかを使って、そのような望ましくない相関関係へのモデルの依存を減らすことを目的として考案することができる。 本研究は, 偏りの緩和に有効な性能を得るために, 偏りと偏りの一致したサンプルを正確に予測することの重要性を示す, 後者の現実的なシナリオに焦点をあてる。 そこで本研究では,異常検出に基づく新しいバイアス識別手法を導入し,分布外の観点からモデルバイアスの問題を考察する。 偏りがほとんどの場合、偏りのあるサンプルは偏りのあるモデルの特徴空間における偏りの分布に対して外れ値と見なすことができ、異常検出法で正確に検出することができる。 偏見識別手法とバイアス強調データアップサンプリングと拡張を2段階の戦略で組み合わせることで、合成および実ベンチマークデータセット上で最先端のパフォーマンスを達成できる。 最終的に、我々の提案した手法は、正確なバイアス識別手順が定義されていることを考えると、データバイアス問題は必ずしも複雑なバイアス法を必要としないことを示している。

It is widely recognized that deep neural networks are sensitive to bias in the data. This means that during training these models are likely to learn spurious correlations between data and labels, resulting in limited generalization abilities and low performance. In this context, model debiasing approaches can be devised aiming at reducing the model's dependency on such unwanted correlations, either leveraging the knowledge of bias information or not. In this work, we focus on the latter and more realistic scenario, showing the importance of accurately predicting the bias-conflicting and bias-aligned samples to obtain compelling performance in bias mitigation. On this ground, we propose to conceive the problem of model bias from an out-of-distribution perspective, introducing a new bias identification method based on anomaly detection. We claim that when data is mostly biased, bias-conflicting samples can be regarded as outliers with respect to the bias-aligned distribution in the feature space of a biased model, thus allowing for precisely detecting them with an anomaly detection method. Coupling the proposed bias identification approach with bias-conflicting data upsampling and augmentation in a two-step strategy, we reach state-of-the-art performance on synthetic and real benchmark datasets. Ultimately, our proposed approach shows that the data bias issue does not necessarily require complex debiasing methods, given that an accurate bias identification procedure is defined.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# 隠されたか、推測されたか:未知のデモグラフィーによる公正な学習

Hidden or Inferred: Fair Learning-To-Rank with Unknown Demographics ( http://arxiv.org/abs/2407.17459v1 )

ライセンス: Link先を確認
Oluseun Olulana, Kathleen Cachel, Fabricio Murai, Elke Rundensteiner, (参考訳) 学習からランクへのモデルは、深い人生に影響を及ぼす領域における意思決定のためにますます多くデプロイされているため、FairMLコミュニティは、公正な学習からランクへのモデル(LTR)を開発してきた。 これらのモデルは、人種や性別などのセンシティブな人口統計学的特徴の可用性に依存している。 しかし、実際には、規制上の障害とプライバシー上の懸念により、このデータは収集や使用から保護されている。 結果として、実践者はこれらの特徴が欠如しているにもかかわらず公平性を促進する必要があるか、あるいはそれらを推論しようとするために人口推定ツールに切り替える必要があるかもしれない。 本論文は,これらのツールが誤りであるとして,人口統計学における誤りが,人気の公正なLTR戦略の公平性にどのように影響するかを更に理解することを目的とする。 モデルからそのような階層的属性を隠蔽するよりも、推論する方がよい場合がありますか? フェアネスを意識しないLTRから、フェアネスを意識しないLTRへ、そしてフェアネスを意識しないLTRへ、そしてフェアレベルのLTRへ、および非人口動態の特徴を隠蔽して、公平なLTR戦略のスペクトルについて検討した。 我々は,推定された感度特性を体系的に摂動させることにより,異なるレベルの推論誤差をモデル化した制御実験を行った。 また、実世界のデータセットと人気のあるオープンソース推論手法を用いて3つのケーススタディを実行する。 その結果,推測ノイズが増大するにつれて,学習プロセスに公平性を考慮したLTRベースの手法がバイアスを増大させる可能性が示唆された。 対照的に、公正な再ランク戦略は、推論エラーに対してより堅牢である。 実験的な研究のソースコード、データ、実験的な成果物はすべてここにある。

As learning-to-rank models are increasingly deployed for decision-making in areas with profound life implications, the FairML community has been developing fair learning-to-rank (LTR) models. These models rely on the availability of sensitive demographic features such as race or sex. However, in practice, regulatory obstacles and privacy concerns protect this data from collection and use. As a result, practitioners may either need to promote fairness despite the absence of these features or turn to demographic inference tools to attempt to infer them. Given that these tools are fallible, this paper aims to further understand how errors in demographic inference impact the fairness performance of popular fair LTR strategies. In which cases would it be better to keep such demographic attributes hidden from models versus infer them? We examine a spectrum of fair LTR strategies ranging from fair LTR with and without demographic features hidden versus inferred to fairness-unaware LTR followed by fair re-ranking. We conduct a controlled empirical investigation modeling different levels of inference errors by systematically perturbing the inferred sensitive attribute. We also perform three case studies with real-world datasets and popular open-source inference methods. Our findings reveal that as inference noise grows, LTR-based methods that incorporate fairness considerations into the learning process may increase bias. In contrast, fair re-ranking strategies are more robust to inference errors. All source code, data, and experimental artifacts of our experimental study are available here: https://github.com/sewen007/hoiltr.git
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# SoNIC:適応型コンフォーマル推論と制約付き強化学習による安全なソーシャルナビゲーション

SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning ( http://arxiv.org/abs/2407.17460v1 )

ライセンス: Link先を確認
Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li, (参考訳) 強化学習(Reinforcement Learning, RL)は、人間によって設計されたルールや介入なしに、社会ロボットが軌道を生成できるようにし、複雑な現実世界のシナリオに一般化するためのハードコードシステムよりも効果的である。 しかし、ソーシャルナビゲーションは、ロボットが歩行者との衝突を避けることを要求する安全クリティカルなタスクであり、従来のRLベースのソリューションは複雑な環境での安全性能が不足している。 本稿では,RLポリシーの安全性を高めるために,適応型共形推論(ACI)と制約付き強化学習(CRL)を統合し,ソーシャルナビゲーションのための安全なポリシーを学習する最初のアルゴリズムであるSoNICを提案する。 より具体的には、ACI生成した非整合性スコアを用いてRL観測を増強し、空間緩和による安全制約を組み込むことで、安全クリティカルな領域を避けるために、エージェントが不確実性指標を活用するための明確なガイダンスを提供する。 本手法は,社会規範の安全性と順守の両面において,最先端のベースラインを大きなマージンで上回り,アウト・オブ・ディストリビューションシナリオに対する強い堅牢性を示す。 私たちのコードとビデオのデモは、プロジェクトのWebサイト(https://sonic-social-nav.github.io/)で公開されています。

Reinforcement Learning (RL) has enabled social robots to generate trajectories without human-designed rules or interventions, which makes it more effective than hard-coded systems for generalizing to complex real-world scenarios. However, social navigation is a safety-critical task that requires robots to avoid collisions with pedestrians while previous RL-based solutions fall short in safety performance in complex environments. To enhance the safety of RL policies, to the best of our knowledge, we propose the first algorithm, SoNIC, that integrates adaptive conformal inference (ACI) with constrained reinforcement learning (CRL) to learn safe policies for social navigation. More specifically, our method augments RL observations with ACI-generated nonconformity scores and provides explicit guidance for agents to leverage the uncertainty metrics to avoid safety-critical areas by incorporating safety constraints with spatial relaxation. Our method outperforms state-of-the-art baselines in terms of both safety and adherence to social norms by a large margin and demonstrates much stronger robustness to out-of-distribution scenarios. Our code and video demos are available on our project website: https://sonic-social-nav.github.io/.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# Pareto Optimal Policies のトラバース:多目的強化学習の効率化の可能性

Traversing Pareto Optimal Policies: Provably Efficient Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2407.17466v1 )

ライセンス: Link先を確認
Shuang Qiu, Dake Zhang, Rui Yang, Boxiang Lyu, Tong Zhang, (参考訳) 本稿では,多目的強化学習(MORL)について検討し,複数の報酬関数の存在下でのパレート最適政策の学習に焦点を当てた。 MORLの顕著な経験的成功にもかかわらず、様々なMORL最適化目標と効率的な学習アルゴリズムについて十分な理解が得られていない。 本研究は,Paretoの最適方針と学習方針に対する制御性について,異なる目的の選好によって評価する能力を評価するために,いくつかの最適化目標を体系的に分析する。 次に、チェビシェフスカラー化をMORLの好ましいスカラー化法として同定する。 チェビシェフスカラー化の非滑らか性を考えると、最小化問題を新しいmin-max-max最適化問題に再構成する。 そして,確率的ポリシークラスに対して,このアルゴリズムを用いてParetoの最適ポリシーを学習するアルゴリズムを提案する。 まず、オンライン UCB ベースのアルゴリズムを提案し、与えられた1つの選好に対して $\tilde{\mathcal{O}}(\varepsilon^{-2})$サンプル複雑さで学習誤差を$\varepsilon$を達成する。 異なる選好条件下での環境探索のコストをさらに削減するため,まず,事前定義された選好を伴わずに環境を探索し,任意の選好に対するソリューションを生成する,選好自由フレームワークを提案する。 我々は、探索フェーズにおける探索の複雑さを$\tilde{\mathcal{O}}(\varepsilon^{-2})$でのみ必要であることを証明する。 最後に, Tchebycheffスカラー化の拡張であるスムースなTchebycheffスカラー化を分析し, 選好ベクトルのエントリ値に基づいて, パレート最適ポリシーと他の弱いパレート最適ポリシーとを区別する上で, より有利であることが証明された。 さらに,この最適化対象に対応するため,アルゴリズムと理論的解析を拡張した。

This paper investigates multi-objective reinforcement learning (MORL), which focuses on learning Pareto optimal policies in the presence of multiple reward functions. Despite MORL's significant empirical success, there is still a lack of satisfactory understanding of various MORL optimization targets and efficient learning algorithms. Our work offers a systematic analysis of several optimization targets to assess their abilities to find all Pareto optimal policies and controllability over learned policies by the preferences for different objectives. We then identify Tchebycheff scalarization as a favorable scalarization method for MORL. Considering the non-smoothness of Tchebycheff scalarization, we reformulate its minimization problem into a new min-max-max optimization problem. Then, for the stochastic policy class, we propose efficient algorithms using this reformulation to learn Pareto optimal policies. We first propose an online UCB-based algorithm to achieve an $\varepsilon$ learning error with an $\tilde{\mathcal{O}}(\varepsilon^{-2})$ sample complexity for a single given preference. To further reduce the cost of environment exploration under different preferences, we propose a preference-free framework that first explores the environment without pre-defined preferences and then generates solutions for any number of preferences. We prove that it only requires an $\tilde{\mathcal{O}}(\varepsilon^{-2})$ exploration complexity in the exploration phase and demands no additional exploration afterward. Lastly, we analyze the smooth Tchebycheff scalarization, an extension of Tchebycheff scalarization, which is proved to be more advantageous in distinguishing the Pareto optimal policies from other weakly Pareto optimal policies based on entry values of preference vectors. Furthermore, we extend our algorithms and theoretical analysis to accommodate this optimization target.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# CMRスケーリング法:言語モデルの継続事前学習における臨界混合率の予測

CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models ( http://arxiv.org/abs/2407.17467v1 )

ライセンス: Link先を確認
Jiawei Gu, Zacc Yang, Chuanghao Ding, Rui Zhao, Fei Tan, (参考訳) 大規模言語モデル(LLM)は様々なタスクで優れるが、ドメイン固有またはプロプライエタリなコーパスに制限があるため、特殊分野では性能が劣ることが多い。 連続事前学習(CPT)は、破滅的な忘れ込みを防ぐために一般コーパスを再生しながら、新しいドメイン固有またはプロプライエタリな知識を付与することでLLM能力を増強する。 しかし、一般コーパスとドメイン固有コーパスのデータ混合比はヒューリスティックに選ばれ、実際は準最適トレーニング効率をもたらす。 そこで本研究では,LCMのスケーリング挙動を再検討し,損失,混合比,トレーニングトークンのスケールの関係を明らかにする。 我々は、一般とドメイン固有の機能間のトレードオフを形式化し、一般とドメインデータの明確に定義された臨界混合比(CMR)をもたらす。 バランスを打つことで、CMRはモデルの一般的な能力を維持し、望ましいドメイン転送を実現し、利用可能なリソースを最大限に活用する。 したがって,効率と有効性のバランスを評価すれば,CMRを最適混合比とみなすことが可能であり,CMRの予測可能性を確認し,CMRスケーリング法則を提案し,その一般化を実証した。 これらの知見は, LLMトレーニングを専門領域で最適化するための実践的ガイドラインを提供し, 訓練資源を効率的に管理しながら, 一般分野とドメイン固有のパフォーマンスを両立させるものである。

Large Language Models (LLMs) excel in diverse tasks but often underperform in specialized fields due to limited domain-specific or proprietary corpus. Continual pre-training (CPT) enhances LLM capabilities by imbuing new domain-specific or proprietary knowledge while replaying general corpus to prevent catastrophic forgetting. The data mixture ratio of general corpus and domain-specific corpus, however, has been chosen heuristically, leading to sub-optimal training efficiency in practice. In this context, we attempt to re-visit the scaling behavior of LLMs under the hood of CPT, and discover a power-law relationship between loss, mixture ratio, and training tokens scale. We formalize the trade-off between general and domain-specific capabilities, leading to a well-defined Critical Mixture Ratio (CMR) of general and domain data. By striking the balance, CMR maintains the model's general ability and achieves the desired domain transfer, ensuring the highest utilization of available resources. Therefore, if we value the balance between efficiency and effectiveness, CMR can be consider as the optimal mixture ratio.Through extensive experiments, we ascertain the predictability of CMR, and propose CMR scaling law and have substantiated its generalization. These findings offer practical guidelines for optimizing LLM training in specialized domains, ensuring both general and domain-specific performance while efficiently managing training resources.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# WildHallucinations: LLMにおけるリアルタイムエンティティクエリによる長めのファクチュアリティの評価

WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries ( http://arxiv.org/abs/2407.17468v1 )

ライセンス: Link先を確認
Wenting Zhao, Tanya Goyal, Yu Ying Chiu, Liwei Jiang, Benjamin Newman, Abhilasha Ravichander, Khyathi Chandu, Ronan Le Bras, Claire Cardie, Yuntian Deng, Yejin Choi, (参考訳) 大規模言語モデル(LLM)の幻覚が大きな課題となっているが、現実性に関する既存の評価ベンチマークでは、LLMの現実世界のユーザが情報を求める知識の多様さをカバーしていない。 このギャップを埋めるために、事実性を評価するベンチマークであるWildHallucinationsを紹介します。 LLMは、ユーザーとチャットボットの会話から抽出されたエンティティに関する情報を野生で生成するように促す。 これらの世代は、Web検索から収集された体系的にキュレートされた知識ソースに対して、自動的に事実チェックされる。 特に、これらの現実世界の実体の半分はウィキペディアのページを持っていない。 我々は15個のLDMから7,919個のエンティティ上で118,785世代を評価した。 LLMはウィキペディアのページのないエンティティに対して一貫して幻覚を呈し、異なるドメイン間で異なる幻覚率を示す。 最後に、同じベースモデルが与えられた場合、検索コンポーネントを追加することで幻覚はわずかに減少するが、幻覚を排除しない。

While hallucinations of large language models (LLMs) prevail as a major challenge, existing evaluation benchmarks on factuality do not cover the diverse domains of knowledge that the real-world users of LLMs seek information about. To bridge this gap, we introduce WildHallucinations, a benchmark that evaluates factuality. It does so by prompting LLMs to generate information about entities mined from user-chatbot conversations in the wild. These generations are then automatically fact-checked against a systematically curated knowledge source collected from web search. Notably, half of these real-world entities do not have associated Wikipedia pages. We evaluate 118,785 generations from 15 LLMs on 7,919 entities. We find that LLMs consistently hallucinate more on entities without Wikipedia pages and exhibit varying hallucination rates across different domains. Finally, given the same base models, adding a retrieval component only slightly reduces hallucinations but does not eliminate hallucinations.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# 答えが得られない質問を改定する

I Could've Asked That: Reformulating Unanswerable Questions ( http://arxiv.org/abs/2407.17469v1 )

ライセンス: Link先を確認
Wenting Zhao, Ge Gao, Claire Cardie, Alexander M. Rush, (参考訳) 不慣れな文書から情報を求める際、ユーザーは文書に答えられない質問を頻繁に提示する。 既存の大規模言語モデル(LLM)は、これらの解決不可能な質問を識別するが、ユーザによる質問の修正を支援しないため、全体的な有用性は低下する。 couldAskは、既存のおよび新しいデータセットで構成された、文書による質問応答のための評価ベンチマークであり、特に、解決不可能な質問の修正を研究するために設計されている。 couldAsk上で、最先端のオープンソースおよびプロプライエタリなLCMを評価した。 結果はこれらのモデルが質問を再構成する際の限られた能力を示している。 特に、GPT-4とLlama2-7Bは、それぞれ26%と12%しか質問を修正できなかった。 誤り分析は、失敗した改革の62%が、単に質問を言い換えたり、同じ質問を発生させたりするモデルに由来することを示している。 ベンチマークとコードを公開して実験を再現します。

When seeking information from unfamiliar documents, users frequently pose questions that cannot be answered by the documents. While existing large language models (LLMs) identify these unanswerable questions, they do not assist users in reformulating their questions, thereby reducing their overall utility. We curate CouldAsk, an evaluation benchmark composed of existing and new datasets for document-grounded question answering, specifically designed to study reformulating unanswerable questions. We evaluate state-of-the-art open-source and proprietary LLMs on CouldAsk. The results demonstrate the limited capabilities of these models in reformulating questions. Specifically, GPT-4 and Llama2-7B successfully reformulate questions only 26% and 12% of the time, respectively. Error analysis shows that 62% of the unsuccessful reformulations stem from the models merely rephrasing the questions or even generating identical questions. We publicly release the benchmark and the code to reproduce the experiments.
翻訳日:2024-07-25 13:05:35 公開日:2024-07-24
# 大規模言語モデルの透かしは著作権付きテキスト生成や秘密訓練データを防ぐことができるか?

Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? ( http://arxiv.org/abs/2407.17417v1 )

ライセンス: Link先を確認
Michael-Andrei Panaitescu-Liess, Zora Che, Bang An, Yuancheng Xu, Pankayaraj Pathmanathan, Souradip Chakraborty, Sicheng Zhu, Tom Goldstein, Furong Huang, (参考訳) 大規模言語モデル(LLM)は、多様で文脈的にリッチなテキストを生成する素晴らしい能力を示している。 しかし、著作権侵害に関する懸念は、LLMが必然的に著作権のある素材を生産する可能性があることから生じている。 本稿では,著作権文書の生成に対する抑止手段として,LLMの透かしの有効性について検討する。 理論的解析と経験的評価により,LLMに透かしを組み込むことで,著作権コンテンツの生成可能性を大幅に低減し,LLMの展開における重要な懸念に対処できることが実証された。 さらに,サンプルが事前学習データセットの一部であったかどうかを識別し,著作権侵害を検出するために用いることを目的とした,メンバーシップ推論攻撃(MIAs)に対する透かしの影響についても検討する。 驚くべきことに、透かしはMIAの成功率に悪影響を及ぼし、事前学習データセットにおける著作権付きテキストを検出するタスクを複雑化する。 最後に,透かしによる最近のMIAの成功率を改善するための適応手法を提案する。 本研究は, LLMの問題点を研究対象とする適応的手法の確立の重要性を示唆するものである。

Large Language Models (LLMs) have demonstrated impressive capabilities in generating diverse and contextually rich text. However, concerns regarding copyright infringement arise as LLMs may inadvertently produce copyrighted material. In this paper, we first investigate the effectiveness of watermarking LLMs as a deterrent against the generation of copyrighted texts. Through theoretical analysis and empirical evaluation, we demonstrate that incorporating watermarks into LLMs significantly reduces the likelihood of generating copyrighted content, thereby addressing a critical concern in the deployment of LLMs. Additionally, we explore the impact of watermarking on Membership Inference Attacks (MIAs), which aim to discern whether a sample was part of the pretraining dataset and may be used to detect copyright violations. Surprisingly, we find that watermarking adversely affects the success rate of MIAs, complicating the task of detecting copyrighted text in the pretraining dataset. Finally, we propose an adaptive technique to improve the success rate of a recent MIA under watermarking. Our findings underscore the importance of developing adaptive methods to study critical problems in LLMs with potential legal implications.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# 3Dガウススプラッティング:サーベイ、技術、挑戦、機会

3D Gaussian Splatting: Survey, Technologies, Challenges, and Opportunities ( http://arxiv.org/abs/2407.17418v1 )

ライセンス: Link先を確認
Yanqi Bao, Tianyu Ding, Jing Huo, Yaoli Liu, Yuxin Li, Wenbin Li, Yang Gao, Jiebo Luo, (参考訳) 3D Gaussian Splatting (3DGS) は、3D表現の主流となる可能性を持つ顕著なテクニックとして登場した。 マルチビュー画像を効果的に3次元ガウス表現に変換し、新しいビューのリアルタイムレンダリングを実現する。 本調査は,関連課題,技術,課題,機会など,既存の3DGS関連の著作を多面的視点から分析することを目的とする。 主な目的は、新入生にこの分野の迅速な理解を与え、研究者が既存の技術や課題を体系的に整理するのを支援することである。 具体的には、3DGSの最適化、応用、拡張を掘り下げて、焦点やモチベーションに基づいて分類します。 さらに、9種類の技術モジュールと、既存の作業で特定されたそれに対応する改善点をまとめて分類する。 これらの分析に基づき,様々な課題にまたがる共通課題と技術について検討し,今後の研究機会を提案する。

3D Gaussian Splatting (3DGS) has emerged as a prominent technique with the potential to become a mainstream method for 3D representations. It can effectively transform multi-view images into explicit 3D Gaussian representations through efficient training, and achieve real-time rendering of novel views. This survey aims to analyze existing 3DGS-related works from multiple intersecting perspectives, including related tasks, technologies, challenges, and opportunities. The primary objective is to provide newcomers with a rapid understanding of the field and to assist researchers in methodically organizing existing technologies and challenges. Specifically, we delve into the optimization, application, and extension of 3DGS, categorizing them based on their focuses or motivations. Additionally, we summarize and classify nine types of technical modules and corresponding improvements identified in existing works. Based on these analyses, we further examine the common challenges and technologies across various tasks, proposing potential research opportunities.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# FPGAによるサイドチャネルセキュリティ研究のためのオープンソースハードウェアソフトフレームワーク

An FPGA-Based Open-Source Hardware-Software Framework for Side-Channel Security Research ( http://arxiv.org/abs/2407.17432v1 )

ライセンス: Link先を確認
Davide Zoni, Andrea Galimberti, Davide Galli, (参考訳) サイドチャネル分析(SCA)に基づく攻撃は、現代のコンピューティングプラットフォームに深刻なセキュリティ上の脅威をもたらし、その普及性とプライベートおよびクリティカルデータの処理によってIoTデバイスにさらに悪化する。 SCAに耐性のあるコンピューティングプラットフォームを設計するには、IoTデバイスのライフサイクルの初期段階において重要な追加作業が必要になる。 この原稿は、FPGAターゲットに関するSCA研究を目的としたハードウェア・ソフトウェア・フレームワークを紹介している。 RISC-V CPUを含むIoTクラスのシステムオンチップ(SoC)を提供し、アドホックなデバッグインフラストラクチャを通じて可観測性と制御性を提供し、SCA攻撃を促進し、プラットフォームのセキュリティを評価し、DFSアクチュエータやFreeRTOSサポートのような専用ハードウェアやソフトウェア機能を通じてSCA対策の展開を効率化する。 フレームワークのオープンソースリリースには、SoC、コンピューティングプラットフォームを構成し、対象のアプリケーションをコンパイルし、SCAセキュリティを評価するスクリプト、そして最先端のSCA攻撃と対策スイートが含まれている。 目標は、この分野におけるその採用と新しい開発を促進することであり、設計者と研究者が、研究の基盤として健全で安定したハードウェア・ソフトウェアプラットフォームに依存しながら、SCA対策と攻撃の研究に集中できるようにすることである。

Attacks based on side-channel analysis (SCA) pose a severe security threat to modern computing platforms, further exacerbated on IoT devices by their pervasiveness and handling of private and critical data. Designing SCA-resistant computing platforms requires a significant additional effort in the early stages of the IoT devices' life cycle, which is severely constrained by strict time-to-market deadlines and tight budgets. This manuscript introduces a hardware-software framework meant for SCA research on FPGA targets. It delivers an IoT-class system-on-chip (SoC) that includes a RISC-V CPU, provides observability and controllability through an ad-hoc debug infrastructure to facilitate SCA attacks and evaluate the platform's security, and streamlines the deployment of SCA countermeasures through dedicated hardware and software features such as a DFS actuator and FreeRTOS support. The open-source release of the framework includes the SoC, the scripts to configure the computing platform, compile a target application, and assess the SCA security, as well as a suite of state-of-the-art SCA attacks and countermeasures. The goal is to foster its adoption and novel developments in the field, empowering designers and researchers to focus on studying SCA countermeasures and attacks while relying on a sound and stable hardware-software platform as the foundation for their research.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# 配向平均の数値計算と分子物理学への応用

Numerical evaluation of orientation averages and its application to molecular physics ( http://arxiv.org/abs/2407.17434v1 )

ライセンス: Link先を確認
Alexander Blech, Raoul M. M. Ebeling, Marec Heger, Christiane P. Koch, Daniel M. Reich, (参考訳) 分子物理学では、可観測物質を計算する場合、特に液体または気体相の実験をモデル化する場合、分子の配向を平均的に計算する必要があることが多い。 オイラー角の観点から評価すると、これは2次元または3次元の単位球体上の積分と密接に関連している。 積分の計算コストは二次法に大きく依存しており、シミュレーションの実現に不可欠な方法の選択が可能である。 数種類の球状二次法を効率と誤差分布の観点から再検討した後, 配向平均の最良の二次法を選択するためのガイドラインを導出し, キラル分子物理の3つの例で概説する。 ガウス二次法は、広範囲のアプリケーションに対して数値的に正確な積分を実現することができるが、他の方法は特定の状況において有利である。 また, このガイドラインは, 高次元球面領域や他の測地にも適用することができる。 また、様々な二次メソッドに柔軟なインターフェースを提供するPythonパッケージも提示する。

In molecular physics, it is often necessary to average over the orientation of molecules when calculating observables, in particular when modelling experiments in the liquid or gas phase. Evaluated in terms of Euler angles, this is closely related to integration over two- or three-dimensional unit spheres, a common problem discussed in numerical analysis. The computational cost of the integration depends significantly on the quadrature method, making the selection of an appropriate method crucial for the feasibility of simulations. After reviewing several classes of spherical quadrature methods in terms of their efficiency and error distribution, we derive guidelines for choosing the best quadrature method for orientation averages and illustrate these with three examples from chiral molecule physics. While Gauss quadratures allow for achieving numerically exact integration for a wide range of applications, other methods offer advantages in specific circumstances. Our guidelines can also by applied to higher-dimensional spherical domains and other geometries. We also present a Python package providing a flexible interface to a variety of quadrature methods.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# Nerva: ニューラルネットワークの完全なスパース実装

Nerva: a Truly Sparse Implementation of Neural Networks ( http://arxiv.org/abs/2407.17437v1 )

ライセンス: Link先を確認
Wieger Wesselink, Bram Grooten, Qiao Xiao, Cassio de Campos, Mykola Pechenizkiy, (参考訳) C++で開発中の高速ニューラルネットワークライブラリであるNervaを紹介します。 これは、IntelのMath Kernel Library(MKL)のスパースマトリックス操作を使用することで、バイナリマスクの必要性を排除することで、スパシティをサポートする。 我々はNervaがPyTorchと同等の精度でトレーニング時間とメモリ使用量を著しく削減することを示した。 我々は CIFAR-10 上で MLP を用いて静的スパース実験を行った。 99\%$のような高頻度のレベルでは、マスクを使用したPyTorchモデルと比較して、ランタイムは4\times$で削減される。 PyTorchやKerasといった他の人気のあるフレームワークと同様に、Nervaはユーザが使えるPythonインターフェースを提供する。

We introduce Nerva, a fast neural network library under development in C++. It supports sparsity by using the sparse matrix operations of Intel's Math Kernel Library (MKL), which eliminates the need for binary masks. We show that Nerva significantly decreases training time and memory usage while reaching equivalent accuracy to PyTorch. We run static sparse experiments with an MLP on CIFAR-10. On high sparsity levels like $99\%$, the runtime is reduced by a factor of $4\times$ compared to a PyTorch model using masks. Similar to other popular frameworks such as PyTorch and Keras, Nerva offers a Python interface for users to work with.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# AHMF:運転注意予測のための適応型ハイブリッドメモリフュージョンモデル

AHMF: Adaptive Hybrid-Memory-Fusion Model for Driver Attention Prediction ( http://arxiv.org/abs/2407.17442v1 )

ライセンス: Link先を確認
Dongyang Xu, Qingfan Wang, Ji Ma, Xiangyun Zeng, Lei Chen, (参考訳) 正確な運転注意予測は、交通シーンを理解し、情報的な運転決定を行う際に、インテリジェントな車両にとって重要な基準となる。 運転注意予測に関する既存の研究は、高度なサリエンシ検出技術を導入して性能を向上させたが、認知科学の観点からの運転タスクの分析により、人間にインスパイアされた予測を実現する機会を見落としていた。 運転中、運転者の作業記憶と長期記憶は、それぞれシーン理解と経験検索において重要な役割を担っている。 それらは共に状況認識を形成し、ドライバーが現在の交通状況を素早く理解し、過去の運転経験に基づいて最適な判断を下すように促す。 本稿では、これらの2種類のメモリを明示的に統合するために、より人間的な予測を実現するために、適応型ハイブリッドメモリフュージョン(AHMF)ドライバ注意予測モデルを提案する。 具体的には、まず、現在のシーンにおける特定の危険刺激に関する情報を符号化し、ワーキングメモリを形成する。 そして、最終予測のために、長期記憶から類似した状況体験を適応的に検索する。 ドメイン適応技術を利用することで、モデルは複数のデータセットにまたがる並列トレーニングを実行し、長期記憶モジュール内の蓄積された駆動エクスペリエンスを向上する。 既存モデルと比較して,本モデルでは,複数の公開データセット上での様々な指標の大幅な改善が示され,運転注意予測にハイブリッドメモリを組み込むことの有効性が証明された。

Accurate driver attention prediction can serve as a critical reference for intelligent vehicles in understanding traffic scenes and making informed driving decisions. Though existing studies on driver attention prediction improved performance by incorporating advanced saliency detection techniques, they overlooked the opportunity to achieve human-inspired prediction by analyzing driving tasks from a cognitive science perspective. During driving, drivers' working memory and long-term memory play crucial roles in scene comprehension and experience retrieval, respectively. Together, they form situational awareness, facilitating drivers to quickly understand the current traffic situation and make optimal decisions based on past driving experiences. To explicitly integrate these two types of memory, this paper proposes an Adaptive Hybrid-Memory-Fusion (AHMF) driver attention prediction model to achieve more human-like predictions. Specifically, the model first encodes information about specific hazardous stimuli in the current scene to form working memories. Then, it adaptively retrieves similar situational experiences from the long-term memory for final prediction. Utilizing domain adaptation techniques, the model performs parallel training across multiple datasets, thereby enriching the accumulated driving experience within the long-term memory module. Compared to existing models, our model demonstrates significant improvements across various metrics on multiple public datasets, proving the effectiveness of integrating hybrid memories in driver attention prediction.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# フルエント・学生・教師のリチーム化

Fluent Student-Teacher Redteaming ( http://arxiv.org/abs/2407.17447v1 )

ライセンス: Link先を確認
T. Ben Thompson, Michael Sklar, (参考訳) 多くの公的な言語モデルは、有害または負債を誘発するテキストの可能性を減らすために安全調整されている。 ユーザやセキュリティアナリストは、これらのモデルをジェイルブレイクまたはリチームして、要求に準拠する敵のプロンプトを発生させようとする。 1つの攻撃方法は、プロンプトに離散最適化技術を適用することである。 しかし、結果として生じる攻撃文字列は、しばしばジブベリのテキストであり、高い測定精度のためにディフェンダーによって簡単にフィルタリングされ、目に見えないタスクやよく調整されたモデルでは失敗する可能性がある。 本研究では,既存のアルゴリズム(主にGCGとBEAST)を改良し,Llama-2やPhi-3のような安全チューニングモデルに対する強力で流動的な攻撃を開発する。 本手法は, 発生確率, 内部活性化の両面において, 有害微粒のエミュレートを促進する新しい蒸留法を中心にしている。 人為的な攻撃を促すため、目的にマルチモデルパープレキシティペナルティと反復ペナルティを付加する。 また、トークン挿入、トークンスワップ、トークン削除を許可し、より長いアタックシーケンスを使用することで、オプティマイザ強度を向上させる。 結果として得られるプロセスは、人間書きのプロンプトと同じようなプロンプトで、最も難しいターゲットモデルを確実にジェイルブレイクすることができる。 Advbenchでは,Llama-2-7B,Llama-3-8B,Vicuna-7Bに対する攻撃成功率=93$%,モデルによるパープレキシティ=<33$,Phi-3に対する攻撃成功率は9,5$%である。 また、Llama-2-7B、Phi-3-mini、Vicuna-7Bにまたがる未確認タスクに対して、88$%のコンプライアンスを誘導し、他のブラックボックスモデルに転送する、普遍的に最適化されたシングルフロートプロンプトも見つける。

Many publicly available language models have been safety tuned to reduce the likelihood of toxic or liability-inducing text. Users or security analysts attempt to jailbreak or redteam these models with adversarial prompts which cause compliance with requests. One attack method is to apply discrete optimization techniques to the prompt. However, the resulting attack strings are often gibberish text, easily filtered by defenders due to high measured perplexity, and may fail for unseen tasks and/or well-tuned models. In this work, we improve existing algorithms (primarily GCG and BEAST) to develop powerful and fluent attacks on safety-tuned models like Llama-2 and Phi-3. Our technique centers around a new distillation-based approach that encourages the victim model to emulate a toxified finetune, either in terms of output probabilities or internal activations. To encourage human-fluent attacks, we add a multi-model perplexity penalty and a repetition penalty to the objective. We also enhance optimizer strength by allowing token insertions, token swaps, and token deletions and by using longer attack sequences. The resulting process is able to reliably jailbreak the most difficult target models with prompts that appear similar to human-written prompts. On Advbench we achieve attack success rates $>93$% for Llama-2-7B, Llama-3-8B, and Vicuna-7B, while maintaining model-measured perplexity $<33$; we achieve $95$% attack success for Phi-3, though with higher perplexity. We also find a universally-optimized single fluent prompt that induces $>88$% compliance on previously unseen tasks across Llama-2-7B, Phi-3-mini and Vicuna-7B and transfers to other black-box models.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# BlueTempNet:Bluesky Socialにおけるソーシャルインタラクションの時間的マルチネットワークデータセット

BlueTempNet: A Temporal Multi-network Dataset of Social Interactions in Bluesky Social ( http://arxiv.org/abs/2407.17451v1 )

ライセンス: Link先を確認
Ujun Jeong, Bohan Jiang, Zhen Tan, H. Russell Bernard, Huan Liu, (参考訳) Bluesky Social(Bluesky)のような分散ソーシャルメディアプラットフォームは、ミリ秒レベルの精度で、いくつかのユーザの振る舞いを公開可能にする。 オープン・ソースとオープン・データというブルースキーの原則を取り入れた,ユーザ主導のソーシャルインタラクションの時間的ダイナミクスの最初のコレクションを提示する。 BlueTempNetは、ユーザ間インタラクション(ユーザ追跡とブロック)やユーザ間インタラクション(コミュニティの作成と結合)など、複数のタイプのネットワークを単一のマルチネットワークに統合する。 コミュニティはカスタムフィードのユーザー形成グループで、ユーザーは興味のある投稿を購読する。 Blueskyの公開データポリシーに従って、これらのフィードを好んで生成したユーザを含む既存のBluesky Feedsを収集し、日付範囲内でユーザのソーシャルインタラクションを収集するツールを提供します。 このデータ収集戦略は過去のユーザの振る舞いを捉え、将来のユーザの振る舞いのデータ収集をサポートする。

Decentralized social media platforms like Bluesky Social (Bluesky) have made it possible to publicly disclose some user behaviors with millisecond-level precision. Embracing Bluesky's principles of open-source and open-data, we present the first collection of the temporal dynamics of user-driven social interactions. BlueTempNet integrates multiple types of networks into a single multi-network, including user-to-user interactions (following and blocking users) and user-to-community interactions (creating and joining communities). Communities are user-formed groups in custom Feeds, where users subscribe to posts aligned with their interests. Following Bluesky's public data policy, we collect existing Bluesky Feeds, including the users who liked and generated these Feeds, and provide tools to gather users' social interactions within a date range. This data-collection strategy captures past user behaviors and supports the future data collection of user behavior.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# $VILA^2$: VILA Augmented VILA

$VILA^2$: VILA Augmented VILA ( http://arxiv.org/abs/2407.17453v1 )

ライセンス: Link先を確認
Yunhao Fang, Ligeng Zhu, Yao Lu, Yan Wang, Pavlo Molchanov, Jang Hyun Cho, Marco Pavone, Song Han, Hongxu Yin, (参考訳) 視覚言語モデル(VLM)は、大きな言語モデル(LLM)の成功によって急速に進歩している。 モデルアーキテクチャとトレーニングインフラストラクチャは急速に進歩するが、データキュレーションは未検討のままである。 データ量と品質がボトルネックになると、既存の作業は、データ品質の保証のないインターネットから直接、あるいはブラックボックスの商用モデル(例えば、GPT-4V / Gemini)から蒸留されたデータを直接クロールする。 本研究では,データ品質とモデル性能を反復的に改善するための,自己拡張ステップとスペシャリスト強化ステップを含む新しいアプローチを提案する。 自己拡張ステップでは、VLMは、データ品質を向上させるために、独自の事前トレーニングデータを取得し、その後、この洗練されたデータセットを使用してスクラッチから再トレーニングし、モデルパフォーマンスを改善する。 このプロセスは、いくつかのラウンドで繰り返します。 一度自己拡張が飽和すると、ドメイン固有の専門知識を持つ自己拡張型VLMから微調整された複数の専門的なVLMを使用し、タスク指向の再カプセル化と再訓練を通じて、専門的な知識を一般のVLMに注入する。 自己強化型および専門的強化型トレーニングを併用したVLMファミリーであるVILA^2$ (VILA-augmented-VILA) を導入する。

Visual language models (VLMs) have rapidly progressed, driven by the success of large language models (LLMs). While model architectures and training infrastructures advance rapidly, data curation remains under-explored. When data quantity and quality become a bottleneck, existing work either directly crawls more raw data from the Internet that does not have a guarantee of data quality or distills from black-box commercial models (e.g., GPT-4V / Gemini) causing the performance upper bounded by that model. In this work, we introduce a novel approach that includes a self-augment step and a specialist-augment step to iteratively improve data quality and model performance. In the self-augment step, a VLM recaptions its own pretraining data to enhance data quality, and then retrains from scratch using this refined dataset to improve model performance. This process can iterate for several rounds. Once self-augmentation saturates, we employ several specialist VLMs finetuned from the self-augmented VLM with domain-specific expertise, to further infuse specialist knowledge into the generalist VLM through task-oriented recaptioning and retraining. With the combined self-augmented and specialist-augmented training, we introduce $VILA^2$ (VILA-augmented-VILA), a VLM family that consistently improves the accuracy on a wide range of tasks over prior art, and achieves new state-of-the-art results on MMMU leaderboard among open-sourced models.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# 科学的発見のための自動説明選択

Automated Explanation Selection for Scientific Discovery ( http://arxiv.org/abs/2407.17454v1 )

ライセンス: Link先を確認
Markus Iser, (参考訳) 自動推論は、若いが急速に成長する説明可能な人工知能(XAI)の分野で重要な技術である。 説明責任は、単なる予測精度と堅牢性を超えて、人工知能システムへの信頼を構築するのに役立つ。 本稿では,機械学習と自動推論を組み合わせた科学的発見のサイクルを提案する。 本稿では,社会学と認知科学の知見に基づく説明選択問題の分類について述べる。 これらの選択基準は、既存の概念を仮定し、それらを新しい性質で拡張する。

Automated reasoning is a key technology in the young but rapidly growing field of Explainable Artificial Intelligence (XAI). Explanability helps build trust in artificial intelligence systems beyond their mere predictive accuracy and robustness. In this paper, we propose a cycle of scientific discovery that combines machine learning with automated reasoning for the generation and the selection of explanations. We present a taxonomy of explanation selection problems that draws on insights from sociology and cognitive science. These selection criteria subsume existing notions and extend them with new properties.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# CSCPR: クロスソースコンテキスト屋内RGB-D位置認識

CSCPR: Cross-Source-Context Indoor RGB-D Place Recognition ( http://arxiv.org/abs/2407.17457v1 )

ライセンス: Link先を確認
Jing Liang, Zhuo Deng, Zheming Zhou, Min Sun, Omid Ghasemalizadeh, Cheng-Hao Kuo, Arnie Sen, Dinesh Manocha, (参考訳) 本稿では,グローバル検索を統合したRGB-D屋内位置認識のための新しいアルゴリズムであるクロスソース・コンテキスト認識(CSCPR)を提案する。 主にRGBドメインに焦点を当てた従来のアプローチとは異なり、CSCPRはRGB-Dデータを扱うように設計されている。 ノイズの多い色付き点雲を扱うためのコンテキスト・オブ・クラスタ(CoC)を拡張し、それぞれローカル機能に基づいて特徴表現とクエリ・データベースのペアをマッチングするセルフ・コンテキスト・クラスタ(SCC)とクロス・ソース・コンテキスト・クラスタ(CSCC)の2つの新しいモジュールを導入します。 また、ScanNetIPRとARKitIPRという2つの新しいデータセットも提示する。 我々の実験は、CSCPRがこれらのデータセットの最先端モデルを、ScanNet-PRデータセットのRecall@1で少なくとも36.5%、新しいデータセットで44%大きく上回っていることを示した。 コードとデータセットがリリースされる。

We present a new algorithm, Cross-Source-Context Place Recognition (CSCPR), for RGB-D indoor place recognition that integrates global retrieval and reranking into a single end-to-end model. Unlike prior approaches that primarily focus on the RGB domain, CSCPR is designed to handle the RGB-D data. We extend the Context-of-Clusters (CoCs) for handling noisy colorized point clouds and introduce two novel modules for reranking: the Self-Context Cluster (SCC) and Cross Source Context Cluster (CSCC), which enhance feature representation and match query-database pairs based on local features, respectively. We also present two new datasets, ScanNetIPR and ARKitIPR. Our experiments demonstrate that CSCPR significantly outperforms state-of-the-art models on these datasets by at least 36.5% in Recall@1 at ScanNet-PR dataset and 44% in new datasets. Code and datasets will be released.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# EuroCropsML:Few-Shot Cropタイプ分類のための時系列ベンチマークデータセット

EuroCropsML: A Time Series Benchmark Dataset For Few-Shot Crop Type Classification ( http://arxiv.org/abs/2407.17458v1 )

ライセンス: Link先を確認
Joana Reuss, Jan Macdonald, Simon Becker, Lorenz Richter, Marco Körner, (参考訳) EuroCropsMLは分析可能なリモートセンシング機械学習データセットで,ヨーロッパにおける農業用雑草の時系列作物型分類を行う。 これは、アルゴリズム開発と研究コンパラビリティの進歩をサポートする、トランスナショナルな数ショットの作物型分類アルゴリズムをベンチマークするために設計された最初のデータセットである。 これは176のクラスにまたがる706のマルチクラスラベル付きデータポイントから構成されており、2021年のSentinel-2 L1Cデータから、収穫型ラベルと空間座標とともに、パーセルごとの中央値の年次時系列を特徴としている。 オープンソースのEuroCropsコレクションに基づいて、EuroCropsMLがZenodoで公開されている。

We introduce EuroCropsML, an analysis-ready remote sensing machine learning dataset for time series crop type classification of agricultural parcels in Europe. It is the first dataset designed to benchmark transnational few-shot crop type classification algorithms that supports advancements in algorithmic development and research comparability. It comprises 706 683 multi-class labeled data points across 176 classes, featuring annual time series of per-parcel median pixel values from Sentinel-2 L1C data for 2021, along with crop type labels and spatial coordinates. Based on the open-source EuroCrops collection, EuroCropsML is publicly available on Zenodo.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# 低磁場・高周波センシングのためのNV$^-$基底状態における完全量子制御

Full Qubit Control in the NV$^-$ Ground State for Low Field or High Frequency Sensing ( http://arxiv.org/abs/2407.17461v1 )

ライセンス: Link先を確認
Alberto López-García, Javier Cerrillo, (参考訳) ダイヤモンドの負電荷窒素空孔(NV$^-$)欠陥の基底状態における高速な任意のクビットゲートの実装法を提案する。 このプロトコルは低磁場状態や高周波センシング用途に特に有用である。 これはNV-ERC法の拡張であり、効果的ラマンカップリングによる第3レベルへのリークのない二重量子遷移の効率的な初期化と読み出しを実証している。 ここでは、このスキームの完全な理論的枠組みを導出し、アプローチに関連する完全なユニタリを同定し、より具体的には、2つの特徴的なパルス持続時間ごとに関連する基底変化を導出する。 この知見に基づいて、二重量子遷移において高速な量子ビット変換を行うためのスキームを提案する。 本稿では,システムパラメータの異常同定や位相制御の制限によるパルスタイミング誤差に対するロバスト性について検討する。 最終的に、未知の電場やひずみ場の存在下でも実装可能であることを示す。

We present a scheme for the implementation of fast arbitrary qubit gates in the ground state of the negatively charged nitrogen-vacancy (NV$^-$) defect in diamond. The protocol is especially useful in the low-field regime and for high-frequency sensing applications. It constitutes an extension to the NV-ERC technique, which has demonstrated efficient initialization and readout of the double quantum transition with no leakage to any third level thanks to an effective Raman coupling. Here we derive a full theoretical framework of the scheme, identifying the complete unitary associated to the approach, and more specifically the relevant basis change for each of two characteristic pulse durations. Based on this insight, we propose a scheme to perform fast qubit transformations in the double quantum transition. We study its robustness with respect to pulse-timing errors resulting from faulty identification of system parameters or phase-control limitations. We finally demonstrate that the technique can also be implemented in the presence of unknown electric or strain fields.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# u-$μ$P: 単位スケールの最大更新パラメトリゼーション

u-$μ$P: The Unit-Scaled Maximal Update Parametrization ( http://arxiv.org/abs/2407.17465v1 )

ライセンス: Link先を確認
Charlie Blake, Constantin Eichenberg, Josef Dean, Lukas Balles, Luke Y. Prince, Björn Deiseroth, Andres Felipe Cruz-Salinas, Carlo Luschi, Samuel Weinbach, Douglas Orr, (参考訳) Maximal Update Parametrization$\mu$P)は、モデルのサイズに依存しない最適なハイパーパラメータ(HP)を作成することを目的としている。 我々は,低精度で容易にトレーニングできるモデルの設計方法であるUnit Scalingと組み合わせることで,$\mu$Pを改善する新しいスキーム u-$\mu$P を提案する。 2つのテクニックには自然な親和性がある:$\mu$Pはアクティベーションのスケールがモデルサイズに依存しないことを保証する。 この合成は、デフォルト値がほぼ最適である単純なスキームへの扉を開く。 これにより、u-$\mu$Pモデルが同等の$\mu$Pモデルよりも低損失に達し、FP8のアウト・オブ・ザ・ボックスが動作することにより、より効率的なスイーピング戦略が実現される。

The Maximal Update Parametrization ($\mu$P) aims to make the optimal hyperparameters (HPs) of a model independent of its size, allowing them to be swept using a cheap proxy model rather than the full-size target model. We present a new scheme, u-$\mu$P, which improves upon $\mu$P by combining it with Unit Scaling, a method for designing models that makes them easy to train in low-precision. The two techniques have a natural affinity: $\mu$P ensures that the scale of activations is independent of model size, and Unit Scaling ensures that activations, weights and gradients begin training with a scale of one. This synthesis opens the door to a simpler scheme, whose default values are near-optimal. This in turn facilitates a more efficient sweeping strategy, with u-$\mu$P models reaching a lower loss than comparable $\mu$P models and working out-of-the-box in FP8.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# SV4D:マルチフレームとマルチビューの一貫性を備えた動的3Dコンテンツ生成

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency ( http://arxiv.org/abs/2407.17470v1 )

ライセンス: Link先を確認
Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani, (参考訳) 本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。 ビデオ生成と新しいビュー合成のために個別に訓練された生成モデルに依存する従来の方法とは異なり、動的3Dオブジェクトの新しいビュービデオを生成するために統合拡散モデルを設計する。 具体的には、モノクロ参照ビデオが与えられた場合、SV4Dは時間的に一貫したビデオフレームごとに新しいビューを生成する。 次に、生成された新しいビュービデオを用いて、暗黙の4D表現(ダイナミックNeRF)を効率よく最適化する。 統合された新しいビュービデオ生成モデルをトレーニングするために,既存のObjaverseデータセットから動的3Dオブジェクトデータセットをキュレートした。 複数のデータセットとユーザスタディに対する大規模な実験結果から,SV4Dの新規映像合成における最先端性能と,以前の4D生成結果と比較した結果が得られた。

We present Stable Video 4D (SV4D), a latent video diffusion model for multi-frame and multi-view consistent dynamic 3D content generation. Unlike previous methods that rely on separately trained generative models for video generation and novel view synthesis, we design a unified diffusion model to generate novel view videos of dynamic 3D objects. Specifically, given a monocular reference video, SV4D generates novel views for each video frame that are temporally consistent. We then use the generated novel view videos to optimize an implicit 4D representation (dynamic NeRF) efficiently, without the need for cumbersome SDS-based optimization used in most prior works. To train our unified novel view video generation model, we curated a dynamic 3D object dataset from the existing Objaverse dataset. Extensive experimental results on multiple datasets and user studies demonstrate SV4D's state-of-the-art performance on novel-view video synthesis as well as 4D generation compared to prior works.
翻訳日:2024-07-25 12:55:41 公開日:2024-07-24
# 機械学習における量子アドバンテージと高速リトレーニングの火花

Sparks of Quantum Advantage and Rapid Retraining in Machine Learning ( http://arxiv.org/abs/2407.16020v2 )

ライセンス: Link先を確認
William Troy, (参考訳) 量子コンピューティングの出現は、古典的コンピュータよりも複雑な問題を効率的に解くことによって、様々な分野に革命をもたらす可能性を秘めている。 この約束にもかかわらず、実用的な量子優位性は、現在のハードウェアの制限、特に少数の量子ビットと高いノイズレベルによって妨げられている。 本研究では,低パラメータで複雑な関数を表現するためのニューラルネットワークアーキテクチャであるKolmogorov-Arnold Networksを最適化するために,断熱量子コンピュータを活用する。 ネットワークをベージエ曲線を基底関数として用いるように修正し、最適化問題を擬似非制約二項最適化問題に定式化することにより、トレーニングサンプル数に依存しない固定サイズの解空間を創出する。 提案手法は,Adam,Stochastic Gradient Descent,Adaptive Gradient,シミュレートされたアニーリングなどの古典的オプティマイザと比較して,より高速なトレーニング時間による量子優位性を示す。 さらに,新しい高速リトレーニング機能を導入し,古いサンプルを再処理することなくネットワークを新しいデータで再トレーニングし,動的環境における学習効率を向上させる。 分類タスクと回帰タスクの初期訓練による実験結果から,本手法の有効性を検証し,従来の手法に匹敵する有意な高速化と性能を示した。 リトレーニングの実験では、勾配降下に基づく最適化よりも断熱的量子コンピューティングによる最適化で60倍のスピードアップが示され、理論モデルによりこのスピードアップが可能になったのです! 量子ハードウェアとアルゴリズム最適化のさらなる進歩により、量子最適化機械学習モデルは様々な領域にまたがって幅広い応用が可能となり、当初は高速リトレーニングに重点を置いていた。

The advent of quantum computing holds the potential to revolutionize various fields by solving complex problems more efficiently than classical computers. Despite this promise, practical quantum advantage is hindered by current hardware limitations, notably the small number of qubits and high noise levels. In this study, we leverage adiabatic quantum computers to optimize Kolmogorov-Arnold Networks, a powerful neural network architecture for representing complex functions with minimal parameters. By modifying the network to use Bezier curves as the basis functions and formulating the optimization problem into a Quadratic Unconstrained Binary Optimization problem, we create a fixed-sized solution space, independent of the number of training samples. Our approach demonstrates sparks of quantum advantage through faster training times compared to classical optimizers such as the Adam, Stochastic Gradient Descent, Adaptive Gradient, and simulated annealing. Additionally, we introduce a novel rapid retraining capability, enabling the network to be retrained with new data without reprocessing old samples, thus enhancing learning efficiency in dynamic environments. Experimental results on initial training of classification and regression tasks validate the efficacy of our approach, showcasing significant speedups and comparable performance to classical methods. While experiments on retraining demonstrate a sixty times speed up using adiabatic quantum computing based optimization compared to that of the gradient descent based optimizers, with theoretical models allowing this speed up to be even larger! Our findings suggest that with further advancements in quantum hardware and algorithm optimization, quantum-optimized machine learning models could have broad applications across various domains, with initial focus on rapid retraining.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# 自動運転車研究所が自然排ガスを操る原理を発見

Self-driving lab discovers principles for steering spontaneous emission ( http://arxiv.org/abs/2407.16083v2 )

ライセンス: Link先を確認
Saaketh Desai, Sadhvikas Addamane, Jeffery Y. Tsao, Igal Brener, Remi Dingreville, Prasad P. Iyer, (参考訳) 超高速ナノフォトニクスにおける解釈可能な科学的発見を加速する自律的な実験プラットフォームを開発した。 自然発光の制御は、照明、熱放射工学、リモートセンシングにおけるクリーンエネルギーの解決に不可欠である。 時空間制御のための埋め込み源を持つ再構成可能な半導体準曲面の可能性にもかかわらず、任意の遠距離制御を達成することは依然として困難である。 ここでは,この課題に対処するために,発光中表面から遠方界放射プロファイルを予測するための支配方程式を発見することで,自動運転ラボ(SDL)プラットフォームを提案する。 局所屈折率の空間勾配(グレーティング様)と曲率(レンズ様)の両方が自然放出を操る重要な要因であることがわかった。 SDLは,(1)複雑な空間屈折率プロファイルを生成する変分オートエンコーダ,(2)実時間閉ループフィードバックで実験を誘導する能動的学習エージェント,(3)ニューラルネットワークに基づく方程式学習者による構造・プロパティ関係の解明を含む機械学習フレームワークを採用している。 SDLは最大放射指向性(最大77%)を72{\deg}視野で約300の実験で4倍に向上させた。 以上の結果から,正の格子とレンズの組み合わせは,すべての発光角に対して負のレンズや格子と同等に有効であることが判明した。

We developed an autonomous experimentation platform to accelerate interpretable scientific discovery in ultrafast nanophotonics, targeting a novel method to steer spontaneous emission from reconfigurable semiconductor metasurfaces. Controlling spontaneous emission is crucial for clean-energy solutions in illumination, thermal radiation engineering, and remote sensing. Despite the potential of reconfigurable semiconductor metasurfaces with embedded sources for spatiotemporal control, achieving arbitrary far-field control remains challenging. Here, we present a self-driving lab (SDL) platform that addresses this challenge by discovering the governing equations for predicting the far-field emission profile from light-emitting metasurfaces. We discover that both the spatial gradient (grating-like) and the curvature (lens-like) of the local refractive index are key factors in steering spontaneous emission. The SDL employs a machine-learning framework comprising: (1) a variational autoencoder for generating complex spatial refractive index profiles, (2) an active learning agent for guiding experiments with real-time closed-loop feedback, and (3) a neural network-based equation learner to uncover structure-property relationships. The SDL demonstrated a four-fold enhancement in peak emission directivity (up to 77%) over a 72{\deg} field of view within ~300 experiments. Our findings reveal that combinations of positive gratings and lenses are as effective as negative lenses and gratings for all emission angles, offering a novel strategy for controlling spontaneous emission beyond conventional Fourier optics.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# 人工知能と大規模言語モデル

Artificial Agency and Large Language Models ( http://arxiv.org/abs/2407.16190v2 )

ライセンス: Link先を確認
Maud van Lier, Gorka Muñoz-Gil, (参考訳) LLM(Large Language Models)の到来は、人工的にエージェンシーを実現する可能性についての哲学的な議論を巻き起こした。 本研究は, 人工エージェントのしきい値概念として使用できる理論モデルを提示することによって, 議論に寄与する。 このモデルはエージェントを、エージェントのアクセス可能な履歴、適応的レパートリーとその外部環境からなる要因の動的フレームワークによって常に影響されるシステムとして定義する。 このフレームワークは、エージェントが取るアクションとそれを形成する目標に影響を受けます。 このモデルの助けを借りて、最先端のLLMはまだエージェントではなく、前進の道を示す要素があることを示します。 論文は、Park et al(2023年)で提示されたエージェントアーキテクチャとBoiko et al(2023年)のCoscientistのようなモジュールの組み合わせが、人工的にエージェンシーを実現する方法になり得ると主張している。 我々は,このような人工エージェントの構築において直面するであろう障害を反映し,今後の研究の方向性を示すことによって,論文を締めくくる。

The arrival of Large Language Models (LLMs) has stirred up philosophical debates about the possibility of realizing agency in an artificial manner. In this work we contribute to the debate by presenting a theoretical model that can be used as a threshold conception for artificial agents. The model defines agents as systems whose actions and goals are always influenced by a dynamic framework of factors that consists of the agent's accessible history, its adaptive repertoire and its external environment. This framework, in turn, is influenced by the actions that the agent takes and the goals that it forms. We show with the help of the model that state-of-the-art LLMs are not agents yet, but that there are elements to them that suggest a way forward. The paper argues that a combination of the agent architecture presented in Park et al. (2023) together with the use of modules like the Coscientist in Boiko et al. (2023) could potentially be a way to realize agency in an artificial manner. We end the paper by reflecting on the obstacles one might face in building such an artificial agent and by presenting possible directions for future research.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# 商品検索をライブストリーミングする時空間グラフガイド型マルチモーダルネットワーク

Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product Retrieval ( http://arxiv.org/abs/2407.16248v2 )

ライセンス: Link先を確認
Xiaowan Hu, Yiyi Chen, Yan Li, Minquan Wang, Haoqian Wang, Quan Chen, Han Li, Peng Jiang, (参考訳) 電子商取引の急速な拡大に伴い、より多くの消費者がライブストリーミングによる購入に慣れるようになった。 営業担当者が販売している商品、すなわちライブストリーミング製品検索(LPR)を正確に識別することは、根本的な挑戦である。 LPRタスクは、現実世界のシナリオにおける3つの主要なジレンマを含む。 1) 背景に存在する邪魔品から意図した商品の認識 2 ライブストリームに展示されている商品の外観が店内の標準化商品画像から大きく逸脱することも多いビデオ画像の不均一性 3)店内には微妙な視覚的ニュアンスのある混乱した製品が多数ある。 これらの課題に対処するために、時空間グラフマルチモーダルネットワーク(SGMN)を提案する。 まず、営業担当者の音声コンテンツを活用したテキスト誘導型アテンションメカニズムを用いて、モデルを意図した製品に向け、散らばったバックグラウンド製品に対する彼らのサリエンスを強調する。 第二に、長距離時空間グラフネットワークは、インスタンスレベルの相互作用とフレームレベルのマッチングの両方を実現し、ビデオ画像の不均一性に起因する不整合を解決するために、さらに設計されている。 第3に,マルチモーダルなハードサンプルマイニングを提案し,ビデオ画像テキスト領域にまたがる微細な特徴を持つ非常に類似した製品を識別するモデルを支援する。 定量的および定性的な実験を通じて,提案したSGMNモデルの優れた性能を実証し,最先端の手法を実質的なマージンで上回った。 コードはhttps://github.com/Huxiaowan/SGMN.comで公開されている。

With the rapid expansion of e-commerce, more consumers have become accustomed to making purchases via livestreaming. Accurately identifying the products being sold by salespeople, i.e., livestreaming product retrieval (LPR), poses a fundamental and daunting challenge. The LPR task encompasses three primary dilemmas in real-world scenarios: 1) the recognition of intended products from distractor products present in the background; 2) the video-image heterogeneity that the appearance of products showcased in live streams often deviates substantially from standardized product images in stores; 3) there are numerous confusing products with subtle visual nuances in the shop. To tackle these challenges, we propose the Spatiotemporal Graphing Multi-modal Network (SGMN). First, we employ a text-guided attention mechanism that leverages the spoken content of salespeople to guide the model to focus toward intended products, emphasizing their salience over cluttered background products. Second, a long-range spatiotemporal graph network is further designed to achieve both instance-level interaction and frame-level matching, solving the misalignment caused by video-image heterogeneity. Third, we propose a multi-modal hard example mining, assisting the model in distinguishing highly similar products with fine-grained features across the video-image-text domain. Through extensive quantitative and qualitative experiments, we demonstrate the superior performance of our proposed SGMN model, surpassing the state-of-the-art methods by a substantial margin. The code is available at https://github.com/Huxiaowan/SGMN.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# DALL-E、Stable Diffusion、SDXL、Midjourneyにおける自閉症スペクトラムの視覚ステレオタイプ

Visual Stereotypes of Autism Spectrum in DALL-E, Stable Diffusion, SDXL, and Midjourney ( http://arxiv.org/abs/2407.16292v2 )

ライセンス: Link先を確認
Maciej Wodziński, Marcin Rządeczka, Anastazja Szuła, Marta Sokół, Marcin Moskalewicz, (参考訳) システム的差別を避けるには、トレーニングデータセット固有のバイアスから生じるステレオタイプを伝播するAIモデルの可能性を調べる必要がある。 本研究では,テキスト・ツー・イメージ・モデルが,自閉症に関する非合理的な信念を意図せず永続させる方法について検討した。 研究プロトコルでは、DALL-E、Stable Diffusion、SDXL、Midjourney(N=249)という4つのモデルにまたがる、具体的な物体や自閉症に関する抽象概念を可視化するための53のプロンプトに基づいて画像を生成する。 実験結果の有意な評価は,コミュニティが提案する共通ステレオタイプを表す10の導出符号の枠組みを用いて行われ,その存在と空間的強度の定量化,および層間信頼性とサイズ効果の統計的解析を行った。 モデルは不均一に配布された議論の的となっているテーマやシンボルをしばしば利用したが、肌の色、性別、年齢の点で顕著な均一性があり、自閉症の個人は孤独な活動に従事し、人ではなく物と交流し、青、怒り、悲しみといったステレオタイプ的な感情表現を見せる。 第2に, 以上の結果の偽造を目的とした指向性プロンプトにもかかわらず, 自閉症画像に対する表現的不感度を観察した。 さらに、DALL-Eは永続ステレオタイプを明示的に否定した。 我々は、人間における自閉症関連ステレオタイプに関するこれまでの研究で正当化されたように、背景と反射的知識の相違に関する人間の認知アーキテクチャを反映するANNと解釈する。

Avoiding systemic discrimination requires investigating AI models' potential to propagate stereotypes resulting from the inherent biases of training datasets. Our study investigated how text-to-image models unintentionally perpetuate non-rational beliefs regarding autism. The research protocol involved generating images based on 53 prompts aimed at visualizing concrete objects and abstract concepts related to autism across four models: DALL-E, Stable Diffusion, SDXL, and Midjourney (N=249). Expert assessment of results was performed via a framework of 10 deductive codes representing common stereotypes contested by the community regarding their presence and spatial intensity, quantified on ordinal scales and subject to statistical analysis of inter-rater reliability and size effects. The models frequently utilised controversial themes and symbols which were unevenly distributed, however, with striking homogeneity in terms of skin colour, gender, and age, with autistic individuals portrayed as engaged in solitary activities, interacting with objects rather than people, and displaying stereotypical emotional expressions such as pale, anger, or sad. Secondly we observed representational insensitivity regarding autism images despite directional prompting aimed at falsifying the above results. Additionally, DALL-E explicitly denied perpetuating stereotypes. We interpret this as ANNs mirroring the human cognitive architecture regarding the discrepancy between background and reflective knowledge, as justified by our previous research on autism-related stereotypes in humans.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# SOAP: アクション認識のための時空間関係と動き情報キャプチャの強化

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition ( http://arxiv.org/abs/2407.16344v2 )

ライセンス: Link先を確認
Wenbo Huang, Jinghui Zhang, Xuwei Qian, Zhen Wu, Meng Wang, Lei Zhang, (参考訳) 高フレームレート(HFR)ビデオは、時空間関係と動き情報密度を低減しつつ、きめ細かな表現を改善する。 したがって、従来のデータ駆動トレーニングには大量のビデオサンプルが継続的に必要である。 しかし、実世界のシナリオではサンプルが必ずしも十分ではないため、FSAR ( few-shot Action Recognition) 研究が促進される。 近年のFSAR研究は、空間的特徴抽出後の時間的アライメントにより、サンプル内の空間的特徴と時間的特徴を分割し、ビデオサンプルの時空間的関係を構築する。 また、密度を考慮せずに隣接するフレーム間の狭い視点で動き情報をキャプチャし、動き情報のキャプチャが不十分になる。 そこで,本稿ではspatio-tempOral frAme tuPle enhancer (SOAP)と呼ばれるFSAR用の新しいプラグイン・アンド・プレイアーキテクチャを提案する。 このようなアーキテクチャで設計したモデルは、SOAP-Netを指しています。 特徴チャネル間の時間的接続と特徴の時空間的関係は,単純な特徴抽出ではなく考慮される。 また、隣接するフレームよりも多くの動き情報を含む複数のフレームを持つフレームタプルを用いて、総合的な動き情報もキャプチャする。 様々なフレーム数のフレームタプルを組み合わせることで、より広い視点が得られる。 SOAP-Netは、SthSthV2、Kinetics、UCF101、HMDB51といった有名なベンチマークで、最先端のパフォーマンスを新たに達成している。 大規模な経験的評価は、SOAPの競争力、プラガビリティ、一般化、堅牢性を強調します。 コードはhttps://github.com/wenbohuang1002/SOAPで公開されている。

High frame-rate (HFR) videos of action recognition improve fine-grained expression while reducing the spatio-temporal relation and motion information density. Thus, large amounts of video samples are continuously required for traditional data-driven training. However, samples are not always sufficient in real-world scenarios, promoting few-shot action recognition (FSAR) research. We observe that most recent FSAR works build spatio-temporal relation of video samples via temporal alignment after spatial feature extraction, cutting apart spatial and temporal features within samples. They also capture motion information via narrow perspectives between adjacent frames without considering density, leading to insufficient motion information capturing. Therefore, we propose a novel plug-and-play architecture for FSAR called Spatio-tempOral frAme tuPle enhancer (SOAP) in this paper. The model we designed with such architecture refers to SOAP-Net. Temporal connections between different feature channels and spatio-temporal relation of features are considered instead of simple feature extraction. Comprehensive motion information is also captured, using frame tuples with multiple frames containing more motion information than adjacent frames. Combining frame tuples of diverse frame counts further provides a broader perspective. SOAP-Net achieves new state-of-the-art performance across well-known benchmarks such as SthSthV2, Kinetics, UCF101, and HMDB51. Extensive empirical evaluations underscore the competitiveness, pluggability, generalization, and robustness of SOAP. The code is released at https://github.com/wenbohuang1002/SOAP.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# FCNR: 可視化画像の高速圧縮型ニューラル表現

FCNR: Fast Compressive Neural Representation of Visualization Images ( http://arxiv.org/abs/2407.16369v2 )

ライセンス: Link先を確認
Yunfei Lu, Pengfei Gu, Chaoli Wang, (参考訳) 我々は,様々な視点と時間経過下で,何万もの可視化画像に対して高速な圧縮ニューラル表現であるFCNRを提案する。 既存のNeRVIソリューションは圧縮率が高いが、符号化と復号の速度が遅い。 FCNRはステレオ画像圧縮の最近の進歩に基づき、ステレオコンテキストモジュールとジョイントコンテキスト転送モジュールを同化して画像ペアを圧縮する。 提案手法は,高再生品質を維持しながら符号化速度と復号速度を大幅に改善し,圧縮比を満足する。 FCNRと最先端のニューラル圧縮手法(E-NeRV, HNeRV, NeRVI, ECSIC)を比較した。 ソースコードはhttps://github.com/YunfeiLu0112/FCNRで確認できる。

We present FCNR, a fast compressive neural representation for tens of thousands of visualization images under varying viewpoints and timesteps. The existing NeRVI solution, albeit enjoying a high compression ratio, incurs slow speeds in encoding and decoding. Built on the recent advances in stereo image compression, FCNR assimilates stereo context modules and joint context transfer modules to compress image pairs. Our solution significantly improves encoding and decoding speed while maintaining high reconstruction quality and satisfying compression ratio. To demonstrate its effectiveness, we compare FCNR with state-of-the-art neural compression methods, including E-NeRV, HNeRV, NeRVI, and ECSIC. The source code can be found at https://github.com/YunfeiLu0112/FCNR.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# Marmosetコール分析のための音声・音声基礎モデルの有用性について

On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis ( http://arxiv.org/abs/2407.16417v2 )

ライセンス: Link先を確認
Eklavya Sarkar, Mathew Magimai. -Doss, (参考訳) マーモセットサルは通話中の重要な情報をエンコードし、人間の声のコミュニケーションの進化的起源を理解するために神経生物学者の代理モデルとして機能する。 従来の信号処理に基づく特徴分析では、人間の音声に事前訓練された自己教師モデルを用いて特徴抽出を行い、その音響領域とは独立して信号の固有構造を学習する能力を活用している。 しかし, マルチクラス分類, 帯域幅, 事前学習領域の観点から, マーモセットコール解析における基礎モデルの有用性は明らかでない。 本研究は,4,8,16kHzの事前学習帯域において,音声領域と一般音声領域から派生した特徴表現をマーモセットコールタイプおよび発信者分類タスクに対して評価する。 その結果、より高い帯域幅を持つモデルでは性能が向上し、音声や一般音声での事前学習では同等の結果が得られ、スペクトルベースラインよりも改善されることがわかった。

Marmoset monkeys encode vital information in their calls and serve as a surrogate model for neuro-biologists to understand the evolutionary origins of human vocal communication. Traditionally analyzed with signal processing-based features, recent approaches have utilized self-supervised models pre-trained on human speech for feature extraction, capitalizing on their ability to learn a signal's intrinsic structure independently of its acoustic domain. However, the utility of such foundation models remains unclear for marmoset call analysis in terms of multi-class classification, bandwidth, and pre-training domain. This study assesses feature representations derived from speech and general audio domains, across pre-training bandwidths of 4, 8, and 16 kHz for marmoset call-type and caller classification tasks. Results show that models with higher bandwidth improve performance, and pre-training on speech or general audio yields comparable results, improving over a spectral baseline.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# AMONGAGENTS:インタラクティブテキストベースのソーシャル推論ゲームにおける大規模言語モデルの評価

AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game ( http://arxiv.org/abs/2407.16521v2 )

ライセンス: Link先を確認
Yizhou Chi, Lingjun Mao, Zineng Tang, (参考訳) 戦略的社会的推論ゲームは、言語モデルの理解と推論のスキルを評価する上で貴重なテストベッドとなり、社会科学、人工知能、戦略ゲームに関する重要な洞察を提供する。 本稿では,シミュレーション環境における人間行動のプロキシの作成に焦点をあてる。 この研究は、PhireAgentsという名前のテキストベースのゲーム環境を紹介し、Phire Usのダイナミクスを反映している。 プレイヤーは宇宙船の乗組員として働き、船を妨害し乗組員を排除している使者を特定する。 この環境下では、シミュレートされた言語エージェントの挙動を解析する。 実験には、CrewmatesとImpostorpersonal archetypeの異なる構成を特徴とする多様なゲームシーケンスが含まれている。 我々の研究は、最先端の大規模言語モデル(LLM)がゲームルールを効果的に把握し、現在の状況に基づいて意思決定できることを示した。 この研究は、不完全な情報と複雑なアクション空間を持つゴール指向ゲームにおけるLLMのさらなる探索を促進することを目的としており、これらの設定は、社会的に駆動されたシナリオにおける言語モデルのパフォーマンスを評価する貴重な機会を提供する。

Strategic social deduction games serve as valuable testbeds for evaluating the understanding and inference skills of language models, offering crucial insights into social science, artificial intelligence, and strategic gaming. This paper focuses on creating proxies of human behavior in simulated environments, with Among Us utilized as a tool for studying simulated human behavior. The study introduces a text-based game environment, named AmongAgents, that mirrors the dynamics of Among Us. Players act as crew members aboard a spaceship, tasked with identifying impostors who are sabotaging the ship and eliminating the crew. Within this environment, the behavior of simulated language agents is analyzed. The experiments involve diverse game sequences featuring different configurations of Crewmates and Impostor personality archetypes. Our work demonstrates that state-of-the-art large language models (LLMs) can effectively grasp the game rules and make decisions based on the current context. This work aims to promote further exploration of LLMs in goal-oriented games with incomplete information and complex action spaces, as these settings offer valuable opportunities to assess language model performance in socially driven scenarios.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# MicroEmo:ビデオ対話におけるマイクロ圧縮ダイナミクスを用いた時間感度マルチモーダル感情認識

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues ( http://arxiv.org/abs/2407.16552v2 )

ライセンス: Link先を確認
Liyun Zhang, (参考訳) マルチモーダル大言語モデル(MLLM)は、視覚的、音響的、言語的文脈から多モーダルなキューを統合し、人間の感情状態を認識することで、目覚ましいマルチモーダルな感情認識能力を示した。 しかし、既存の手法では、マイクロ表現の時間的ダイナミクスの局所的な顔の特徴を捉えることを無視し、ビデオ中の発話認識時間セグメントの文脈依存性を活用せず、期待される効果をある程度制限する。 本研究では,局所的な顔のマイクロ圧縮ダイナミクスと発話認識ビデオクリップの文脈依存性に注意を向けた,時間に敏感なMLLMであるMicroEmoを提案する。 提案モデルでは,(1)グローバルなフレームレベルのタイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴を統合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成して,複数のスケールおよびコンテキスト依存性をキャプチャする発話対応ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。 予備的な質的実験では、複数モーダルおよび多面的手がかりを利用して、オープンボキャブラリ(OV)方式で感情を予測するEMER(Explainable Multimodal Emotion Recognition)タスクにおいて、MicroEmoは最新の手法と比較してその効果を示す。

Multimodal Large Language Models (MLLMs) have demonstrated remarkable multimodal emotion recognition capabilities, integrating multimodal cues from visual, acoustic, and linguistic contexts in the video to recognize human emotional states. However, existing methods ignore capturing local facial features of temporal dynamics of micro-expressions and do not leverage the contextual dependencies of the utterance-aware temporal segments in the video, thereby limiting their expected effectiveness to a certain extent. In this work, we propose MicroEmo, a time-sensitive MLLM aimed at directing attention to the local facial micro-expression dynamics and the contextual dependencies of utterance-aware video clips. Our model incorporates two key architectural contributions: (1) a global-local attention visual encoder that integrates global frame-level timestamp-bound image features with local facial features of temporal dynamics of micro-expressions; (2) an utterance-aware video Q-Former that captures multi-scale and contextual dependencies by generating visual token sequences for each utterance segment and for the entire video then combining them. Preliminary qualitative experiments demonstrate that in a new Explainable Multimodal Emotion Recognition (EMER) task that exploits multi-modal and multi-faceted clues to predict emotions in an open-vocabulary (OV) manner, MicroEmo demonstrates its effectiveness compared with the latest methods.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# オーディオ・プロンプト・アダプタ:ライトウェイト・ファインタニングによるテキスト・トゥ・ミュージックの編集能力の解放

Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning ( http://arxiv.org/abs/2407.16564v2 )

ライセンス: Link先を確認
Fang-Duo Tsai, Shih-Lun Wu, Haven Kim, Bo-Yu Chen, Hao-Chung Cheng, Yi-Hsuan Yang, (参考訳) テキストから音楽へのモデルでは、ユーザーはテキストコマンドでほぼリアルな音楽オーディオを生成できる。 しかし、単純なユーザインタフェースを維持しながら、オーディオのきめ細かい変更を行うという、相反するデシダラタのために、音楽オーディオの編集は依然として困難である。 この課題に対処するために、事前訓練されたテキストから音楽モデルへの軽量な追加であるAudio Prompt Adapter(AP-Adapter)を提案する。 我々はAudioMAEを用いて、入力オーディオから特徴を抽出し、注意に基づくアダプタを構築し、拡散ベースのテキスト-音楽モデルであるAudioLDM2の内部層に特徴を供給した。 2200万のトレーニング可能なパラメータで、AP-Adapterはユーザーが元のオーディオと短いテキストを入力として使用して、グローバル(例えば、ジャンルと音色)とローカル(例えば、メロディ)の両方を活用できるようにする。 主観的,主観的な研究を通じて,音色伝達,ジャンル移動,伴奏生成の3つの課題についてAP-Adapterの評価を行った。 さらに、トレーニング中に目に見えない楽器を含むドメイン外のオーディオに対して、その効果を実証する。

Text-to-music models allow users to generate nearly realistic musical audio with textual commands. However, editing music audios remains challenging due to the conflicting desiderata of performing fine-grained alterations on the audio while maintaining a simple user interface. To address this challenge, we propose Audio Prompt Adapter (or AP-Adapter), a lightweight addition to pretrained text-to-music models. We utilize AudioMAE to extract features from the input audio, and construct attention-based adapters to feedthese features into the internal layers of AudioLDM2, a diffusion-based text-to-music model. With 22M trainable parameters, AP-Adapter empowers users to harness both global (e.g., genre and timbre) and local (e.g., melody) aspects of music, using the original audio and a short text as inputs. Through objective and subjective studies, we evaluate AP-Adapter on three tasks: timbre transfer, genre transfer, and accompaniment generation. Additionally, we demonstrate its effectiveness on out-of-domain audios containing unseen instruments during training.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# 最大$k$-defective Clique問題に対する高速分岐アルゴリズム

A Faster Branching Algorithm for the Maximum $k$-Defective Clique Problem ( http://arxiv.org/abs/2407.16588v2 )

ライセンス: Link先を確認
Chunyu Luo, Yi Zhou, Zhengren Wang, Mingyu Xiao, (参考訳) 無向グラフの$k$-defective cliqueは、頂点のサブセットであり、最大で$k$の欠損エッジを持つほぼ完全なグラフを誘導する。 与えられたグラフから最大の$k$$-defective Cliqueを求める最大$k$-defective Clique問題は、社会的および生物学的ネットワーク分析のような多くのアプリケーションにおいて重要である。 本稿では,$k$-defective cliqueの構造特性を活かし,効率的な最大傾きアルゴリズムをサブルーチンとして利用する分岐アルゴリズムを提案する。 結果として、アルゴリズムは既存のアルゴリズムよりも漸近的な実行時間を持つ。 また, 頂点対間の「textit{conflict relationship}」を利用した上界法についても検討し, 新たな上界法を提案する。 多くのグラフ問題では競合関係が一般的であるため、この手法は潜在的に一般化できると考えている。 最後に、実験により、我々のアルゴリズムは幅広いオープンベンチマークにおいて最先端の解法よりも優れていることが示された。

A $k$-defective clique of an undirected graph $G$ is a subset of its vertices that induces a nearly complete graph with a maximum of $k$ missing edges. The maximum $k$-defective clique problem, which asks for the largest $k$-defective clique from the given graph, is important in many applications, such as social and biological network analysis. In the paper, we propose a new branching algorithm that takes advantage of the structural properties of the $k$-defective clique and uses the efficient maximum clique algorithm as a subroutine. As a result, the algorithm has a better asymptotic running time than the existing ones. We also investigate upper-bounding techniques and propose a new upper bound utilizing the \textit{conflict relationship} between vertex pairs. Because conflict relationship is common in many graph problems, we believe that this technique can be potentially generalized. Finally, experiments show that our algorithm outperforms state-of-the-art solvers on a wide range of open benchmarks.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# 速度駆動型ビジョン:自律走行車のための非同期センサーフュージョンバードアイビューモデル

Velocity Driven Vision: Asynchronous Sensor Fusion Birds Eye View Models for Autonomous Vehicles ( http://arxiv.org/abs/2407.16636v2 )

ライセンス: Link先を確認
Seamie Hayes, Sushil Sharma, Ciarán Eising, (参考訳) 異なるセンサーのモダリティを融合させることは、特に非同期である場合、難しい作業になる可能性がある。 同期化は、キャリブレーション中の長い処理時間や不適切な同期によって起こりうるものであり、安全運転のためにこの以前の情報を引き続き活用する方法と、エゴ車/マルチエージェント軌道予測における物体検出が存在する必要がある。 困難は、センサーのモジュラリティが異なる時間と異なる空間の異なる位置で情報をキャプチャしたという事実から生じる。 そのため、空間的にも時間的にも一致しない。 本稿では,レーダセンサとLiDARセンサがカメラセンサに対して非同期であることの課題について,様々な時間帯で検討する。 空間アライメントは、レーダー/LiDAR点雲を新しいエゴフレーム座標系に変換することで、BEV空間に昇降する前に解決される。 この後のみ、レーダー/LiDAR点雲とリフトカメラの特徴を結合できる。 レーダデータのみの時間的アライメントを補正し、速度情報を用いて将来のレーダポイント位置を推定する新しい手法を実装する。 センサ非同期の問題を解決するアプローチは,有望な結果をもたらす。 速度情報は、360ミリ秒 (ms) の時間レイテンシにおいて、49.54から53.63に改善されるため、非同期データセットのIoUを大幅に改善できることを示す。 さらに550msのレイテンシでは、カメラ+レーダー(C+R)モデルは、カメラ+LiDAR(C+L)モデルよりも0.18IoU性能が向上する。 これは、しばしば無視されるレーダーセンサーのモダリティの活用の進歩であり、自動運転のためにLiDARよりもあまり好まれない。

Fusing different sensor modalities can be a difficult task, particularly if they are asynchronous. Asynchronisation may arise due to long processing times or improper synchronisation during calibration, and there must exist a way to still utilise this previous information for the purpose of safe driving, and object detection in ego vehicle/ multi-agent trajectory prediction. Difficulties arise in the fact that the sensor modalities have captured information at different times and also at different positions in space. Therefore, they are not spatially nor temporally aligned. This paper will investigate the challenge of radar and LiDAR sensors being asynchronous relative to the camera sensors, for various time latencies. The spatial alignment will be resolved before lifting into BEV space via the transformation of the radar/LiDAR point clouds into the new ego frame coordinate system. Only after this can we concatenate the radar/LiDAR point cloud and lifted camera features. Temporal alignment will be remedied for radar data only, we will implement a novel method of inferring the future radar point positions using the velocity information. Our approach to resolving the issue of sensor asynchrony yields promising results. We demonstrate velocity information can drastically improve IoU for asynchronous datasets, as for a time latency of 360 milliseconds (ms), IoU improves from 49.54 to 53.63. Additionally, for a time latency of 550ms, the camera+radar (C+R) model outperforms the camera+LiDAR (C+L) model by 0.18 IoU. This is an advancement in utilising the often-neglected radar sensor modality, which is less favoured than LiDAR for autonomous driving purposes.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# 3次元セグメンテーションモデルの説明的分析のための集約的属性

Aggregated Attributions for Explanatory Analysis of 3D Segmentation Models ( http://arxiv.org/abs/2407.16653v2 )

ライセンス: Link先を確認
Maciej Chrabaszcz, Hubert Baniecki, Piotr Komorowski, Szymon Płotka, Przemyslaw Biecek, (参考訳) 3Dセグメンテーションモデルの解析は、特に医用画像の文脈において、説明可能性とバイアスの重要な側面を無視するセグメンテーションパフォーマンス指標に限られることが多い。 現在、これらのモデルに精度マップを効果的に説明することは、セグメント化されたクラスラベルの数の増加に乗じて、入力画像の高次元化が困難である。 そこで本研究では,セグメンテーションモデルの予測の微細なボクセル属性を集約する手法であるAgg^2Expを紹介する。 Agg^2Expは、局所的特徴属性に主に焦点をあてる古典的な説明法とは異なり、3D画像における予測セグメントの重要性に関するより包括的なグローバルな見解を可能にする。 我々のベンチマーク実験は、摂動に基づく説明よりも勾配に基づくボクセル属性の方がモデルの予測に忠実であることを示している。 具体的なユースケースとして,Agg^2Expを応用して,TotalSegmentator v2データセットでトレーニングしたSwin UNEt TRansformerモデルによって得られた知識を,CT画像中の解剖学的構造を抽出する。 Agg^2Expは、予測性能以上の大きなセグメンテーションモデルの説明分析を容易にする。

Analysis of 3D segmentation models, especially in the context of medical imaging, is often limited to segmentation performance metrics that overlook the crucial aspect of explainability and bias. Currently, effectively explaining these models with saliency maps is challenging due to the high dimensions of input images multiplied by the ever-growing number of segmented class labels. To this end, we introduce Agg^2Exp, a methodology for aggregating fine-grained voxel attributions of the segmentation model's predictions. Unlike classical explanation methods that primarily focus on the local feature attribution, Agg^2Exp enables a more comprehensive global view on the importance of predicted segments in 3D images. Our benchmarking experiments show that gradient-based voxel attributions are more faithful to the model's predictions than perturbation-based explanations. As a concrete use-case, we apply Agg^2Exp to discover knowledge acquired by the Swin UNEt TRansformer model trained on the TotalSegmentator v2 dataset for segmenting anatomical structures in computed tomography medical images. Agg^2Exp facilitates the explanatory analysis of large segmentation models beyond their predictive performance.
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24
# 大規模人的データを用いた自律レースのシミュレーションベンチマーク

A Simulation Benchmark for Autonomous Racing with Large-Scale Human Data ( http://arxiv.org/abs/2407.16680v2 )

ライセンス: Link先を確認
Adrian Remonda, Nicklas Hansen, Ayoub Raji, Nicola Musiu, Marko Bertogna, Eduardo Veas, Xiaolong Wang, (参考訳) 国際通貨コンペティション、スケールされた車両、シミュレーション環境が利用可能であるにもかかわらず、自動運転車の研究やハンドリングの限界に近いスポーツカーの制御は、自動車の獲得と管理のコストが高いこと、オープンソースシミュレータの物理精度の制限によって制限されている。 本稿では,シミュレータAssetto Corsaをベースとしたレースシミュレーションプラットフォームを提案し,現実的かつ困難なシナリオにおいて,強化学習(RL)や古典的モデル予測制御(MPC)を含む自律走行アルゴリズムのテスト,検証,ベンチマークを行う。 私たちのコントリビューションには、このシミュレーションプラットフォームの開発、レース環境に適した最先端のアルゴリズム、人間ドライバーから収集された包括的なデータセットなどが含まれています。 さらに,オフラインRL設定におけるアルゴリズムの評価を行った。 必要なコード(環境やベンチマークを含む)、作業例、データセット、ビデオはすべて公開されており、https://assetto-corsa-gym.github.ioで見ることができる。

Despite the availability of international prize-money competitions, scaled vehicles, and simulation environments, research on autonomous racing and the control of sports cars operating close to the limit of handling has been limited by the high costs of vehicle acquisition and management, as well as the limited physics accuracy of open-source simulators. In this paper, we propose a racing simulation platform based on the simulator Assetto Corsa to test, validate, and benchmark autonomous driving algorithms, including reinforcement learning (RL) and classical Model Predictive Control (MPC), in realistic and challenging scenarios. Our contributions include the development of this simulation platform, several state-of-the-art algorithms tailored to the racing environment, and a comprehensive dataset collected from human drivers. Additionally, we evaluate algorithms in the offline RL setting. All the necessary code (including environment and benchmarks), working examples, datasets, and videos are publicly released and can be found at: https://assetto-corsa-gym.github.io
翻訳日:2024-07-25 12:45:47 公開日:2024-07-24