このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240901となっている論文です。

PDF登録状況(公開日: 20240901)

TitleAuthorsAbstract論文公表日・翻訳日
# 直接フィードバックアライメントを用いた大規模変圧器と深部ニューラルネットワークの光教育

Optical training of large-scale Transformers and deep neural networks with direct feedback alignment ( http://arxiv.org/abs/2409.12965v1 )

ライセンス: Link先を確認
Ziao Wang, Kilian Müller, Matthew Filipovich, Julien Launay, Ruben Ohana, Gustave Pariente, Safa Mokaadi, Charles Brossollet, Fabien Moreau, Alessandro Cappelli, Iacopo Poli, Igor Carron, Laurent Daudet, Florent Krzakala, Sylvain Gigan, (参考訳) 現代の機械学習は、専用ハードウェアアクセラレーターにのみ依存している。 少ない消費と高い運用速度を持つフォトニックアプローチは、推論ではますます検討されているが、これまでは比較的基本的なタスクに限られていた。 同時に、バックプロパゲーションを通じて圧倒的に実行された深い複雑なニューラルネットワークをトレーニングする問題は、現在のアーキテクチャのパフォーマンスと計算とエネルギーのボトルネックに重大な制限を課している。 そこで我々は,ハイブリッド電子フォトニックプラットフォーム上で,ダイレクトフィードバックアライメントと呼ばれる多目的でスケーラブルなトレーニングアルゴリズムを実験的に実装した。 光処理ユニットは、このアルゴリズムの中央動作である大規模ランダム行列乗算を最大1500テラOpsで行う。 我々は、トランスフォーマーを含む最新のディープラーニングアーキテクチャの1つを1Bパラメータ以上で光学訓練し、言語と視覚の両方で優れた性能を得る。 我々は、我々のハイブリッド光学アプローチの計算スケーリングを研究し、超深度・広帯域ニューラルネットワークの潜在的な優位性を実証し、従来型のフォン・ノイマンアプローチを超えて、現代の人工知能の指数的成長を維持するための有望な道を開く。

Modern machine learning relies nearly exclusively on dedicated electronic hardware accelerators. Photonic approaches, with low consumption and high operation speed, are increasingly considered for inference but, to date, remain mostly limited to relatively basic tasks. Simultaneously, the problem of training deep and complex neural networks, overwhelmingly performed through backpropagation, remains a significant limitation to the size and, consequently, the performance of current architectures and a major compute and energy bottleneck. Here, we experimentally implement a versatile and scalable training algorithm, called direct feedback alignment, on a hybrid electronic-photonic platform. An optical processing unit performs large-scale random matrix multiplications, which is the central operation of this algorithm, at speeds up to 1500 TeraOps. We perform optical training of one of the most recent deep learning architectures, including Transformers, with more than 1B parameters, and obtain good performances on both language and vision tasks. We study the compute scaling of our hybrid optical approach, and demonstrate a potential advantage for ultra-deep and wide neural networks, thus opening a promising route to sustain the exponential growth of modern artificial intelligence beyond traditional von Neumann approaches.
翻訳日:2024-11-07 12:36:59 公開日:2024-09-01
# データ中心設計の再定義:計算システムのためのドメインモデルとコアデータオントロジーによる新しいアプローチ

Redefining Data-Centric Design: A New Approach with a Domain Model and Core Data Ontology for Computational Systems ( http://arxiv.org/abs/2409.09058v1 )

ライセンス: Link先を確認
William Johnson, James Davis, Tara Kelly, (参考訳) 本稿では,新しい情報ドメインモデルを導入することにより,計算システムを設計するための革新的なデータ中心パラダイムを提案する。 提案モデルは従来のノード中心のフレームワークから離れ、オブジェクト、イベント、コンセプト、アクションを組み込んだマルチモーダルアプローチを使用して、データ中心の分類に焦点を当てている。 学際的な研究に基づいて、これらのコア要素に基づいた基礎オントロジーを確立することにより、このモデルは、分散エコシステム全体にわたるセマンティック一貫性とセキュアなデータ処理を促進する。 また、このモデルをOWL2オントロジーとして実装し、その可能性について検討し、そのスケーラビリティと今後の研究方向性について概説する。 この作業は、よりセキュアで相互運用可能でスケーラブルなデータシステムの開発において、システムデザイナやデータアーキテクトのための基本的なガイドとして機能することを目的としています。

This paper presents an innovative data-centric paradigm for designing computational systems by introducing a new informatics domain model. The proposed model moves away from the conventional node-centric framework and focuses on data-centric categorization, using a multimodal approach that incorporates objects, events, concepts, and actions. By drawing on interdisciplinary research and establishing a foundational ontology based on these core elements, the model promotes semantic consistency and secure data handling across distributed ecosystems. We also explore the implementation of this model as an OWL 2 ontology, discuss its potential applications, and outline its scalability and future directions for research. This work aims to serve as a foundational guide for system designers and data architects in developing more secure, interoperable, and scalable data systems.
翻訳日:2024-09-22 21:42:00 公開日:2024-09-01
# AIディスラプションに適応する - ITランドスケープと教育パラダイムの変革

Adapting to the AI Disruption: Reshaping the IT Landscape and Educational Paradigms ( http://arxiv.org/abs/2409.10541v1 )

ライセンス: Link先を確認
Murat Ozer, Yasin Kose, Goksel Kucukkaya, Assel Mukasheva, Kazim Ciris, (参考訳) 人工知能(AI)は、技術進歩と社会変革が完全に経済、労働パラダイム、そして世界中の産業と相互作用する革命期の始まりを示している。 このエッセイは、AI主導の経済がもたらした機会と問題について、ITセクターと情報技術教育に対するAI破壊の影響について考察する。 現在のAI革命と過去の産業革命を比較して、労働力のダイナミクス、雇用、組織的手続きに対するAI技術の重大な影響を調査する。 人間中心の設計原則と倫理的考察は、この分野の急速な進歩に直面したAIシステムの責任ある開発と実装のための重要な要件となる。 IT教育プログラムは、AI時代の変化する要求を満たすために変化し、学生に、急速に変化しているデジタル世界で成功するために必要なスキルと能力を与える必要がある。 AI駆動の自動化の観点から、労働週間を短縮する上でのメリットと難しさについても検討し、労働者の生産性、幸福、ワークライフバランスを改善する可能性を強調します。 私たちは、IT業界とそれ以上に、より包括的で持続可能な未来を構築することができ、人間の能力を高め、集団的幸福を促進し、AIがその課題に積極的に取り組みながら、AIによって提示される機会を受け入れることによって、善の力として機能する社会を育むことができます。

Artificial intelligence (AI) signals the beginning of a revolutionary period where technological advancement and social change interact to completely reshape economies, work paradigms, and industries worldwide. This essay addresses the opportunities and problems brought about by the AI-driven economy as it examines the effects of AI disruption on the IT sector and information technology education. By comparing the current AI revolution to previous industrial revolutions, we investigate the significant effects of AI technologies on workforce dynamics, employment, and organizational procedures. Human-centered design principles and ethical considerations become crucial requirements for the responsible development and implementation of AI systems in the face of the field's rapid advancements. IT education programs must change to meet the changing demands of the AI era and give students the skills and competencies they need to succeed in a digital world that is changing quickly. In light of AI-driven automation, we also examine the possible advantages and difficulties of moving to a shorter workweek, emphasizing chances to improve worker productivity, well-being, and work-life balance. We can build a more incslusive and sustainable future for the IT industry and beyond, enhancing human capabilities, advancing collective well-being, and fostering a society where AI serves as a force for good by embracing the opportunities presented by AI while proactively addressing its challenges.
翻訳日:2024-09-22 21:22:31 公開日:2024-09-01
# SAM4MLLM:表現セグメンテーションの参照のためのマルチモーダル大言語モデル

SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation ( http://arxiv.org/abs/2409.10542v1 )

ライセンス: Link先を確認
Yi-Chia Chen, Wei-Hua Li, Cheng Sun, Yu-Chiang Frank Wang, Chu-Song Chen, (参考訳) SAM4MLLMは,Segment Anything Model(SAM)とMulti-Modal Large Language Models(MLLM)を統合した革新的な手法である。 本手法により,MLLMは,既存のモデルアーキテクチャに過剰な修正や特別なトークンを追加することなく,画素レベルの位置情報を学習することができる。 MLLMに基づくセグメンテーションを行うために,SAMのプロンプトポイントを効果的に見つけることができる調査ベースアプローチを提案する。 詳細な視覚情報と、大きな言語モデルの強力な表現能力とを、学習における計算オーバーヘッドを増大させることなく、統一された言語ベースの方法で組み合わせる。 pubic ベンチマークの実験結果から,本手法の有効性が示された。

We introduce SAM4MLLM, an innovative approach which integrates the Segment Anything Model (SAM) with Multi-Modal Large Language Models (MLLMs) for pixel-aware tasks. Our method enables MLLMs to learn pixel-level location information without requiring excessive modifications to the existing model architecture or adding specialized tokens. We introduce an inquiry-based approach that can effectively find prompt points for SAM to perform segmentation based on MLLM. It combines detailed visual information with the powerful expressive capabilities of large language models in a unified language-based manner without additional computational overhead in learning. Experimental results on pubic benchmarks demonstrate the effectiveness of our approach.
翻訳日:2024-09-22 21:22:31 公開日:2024-09-01
# OxML Challenge 2023: データ拡張による癌分類

OxML Challenge 2023: Carcinoma classification using data augmentation ( http://arxiv.org/abs/2409.10544v1 )

ライセンス: Link先を確認
Kislay Raj, Teerath Kumar, Alessandra Mileo, Malika Bendechache, (参考訳) がんはがんの流行型であり、様々な部位に発現することがある。 広範囲に分布し、体内の多くの場所で発達する可能性がある。 医学領域では、プライバシの懸念により、がんのデータは制限されるか、利用できないことが多い。 さらに、利用できる場合、正のクラスサンプルが不足し、負のクラスサンプルが多数存在するため、非常に不均衡である。 OXML 2023チャレンジは、小さな不均衡なデータセットを提供し、がんの分類に重大な課題を提示している。 これらの問題に対処するために、課題の参加者は、事前訓練されたモデル、前処理技術、数発の学習に依存する様々なアプローチを採用している。 本研究は, 癌分類の課題に対処するために, パディング増強とアンサンブルを組み合わせた新しい手法を提案する。 提案手法では,5つのニューラルネットワークのアンサンブルを用いてパディングをデータ拡張手法として実装し,画像サイズの変化を考慮して分類器の性能を向上させる。 このアプローチを使って、私たちはトップ3に入り、勝者であると宣言しました。

Carcinoma is the prevailing type of cancer and can manifest in various body parts. It is widespread and can potentially develop in numerous locations within the body. In the medical domain, data for carcinoma cancer is often limited or unavailable due to privacy concerns. Moreover, when available, it is highly imbalanced, with a scarcity of positive class samples and an abundance of negative ones. The OXML 2023 challenge provides a small and imbalanced dataset, presenting significant challenges for carcinoma classification. To tackle these issues, participants in the challenge have employed various approaches, relying on pre-trained models, preprocessing techniques, and few-shot learning. Our work proposes a novel technique that combines padding augmentation and ensembling to address the carcinoma classification challenge. In our proposed method, we utilize ensembles of five neural networks and implement padding as a data augmentation technique, taking into account varying image sizes to enhance the classifier's performance. Using our approach, we made place into top three and declared as winner.
翻訳日:2024-09-22 21:22:31 公開日:2024-09-01
# ResEmoteNet: 顔の表情認識におけるブリッジ精度と損失低減

ResEmoteNet: Bridging Accuracy and Loss Reduction in Facial Emotion Recognition ( http://arxiv.org/abs/2409.10545v1 )

ライセンス: Link先を確認
Arnab Kumar Roy, Hemant Kumar Kathania, Adhitiya Sharma, Abhishek Dey, Md. Sarfaraj Alam Ansari, (参考訳) 人間の顔はサイレント・コミュニケーターであり、表情を通して感情や思考を表現する。 近年のコンピュータビジョンの進歩により、顔の感情認識技術は大きな進歩を遂げ、マシンは顔の手がかりの複雑さをデコードすることができるようになった。 本研究では,ResEmoteNetを提案する。ResEmoteNetは,コンボリューショナル,スキューズ・エキサイティング(SE),Residual Networksを組み合わせた,顔認識のための新しいディープラーニングアーキテクチャである。 SEブロックの包含は、人間の顔の重要な特徴に選択的に焦点を合わせ、特徴表現を強化し、あまり関係のないものを抑制する。 これにより、損失を減らし、全体のモデルパフォーマンスを向上させることができる。 また、より深いレイヤを通してデータのより複雑な表現を学ぶのに役立つ3つの残留ブロックとSEブロックを統合しています。 我々は、ResEmoteNetをFER2013、RAF-DB、AffectNetの3つのオープンソースデータベース上で評価し、それぞれ79.79%、94.76%、72.39%の精度を達成した。 提案するネットワークは,3つのデータベースにまたがる最先端モデルを上回っている。 ResEmoteNetのソースコードはhttps://github.com/ArnabKumarRoy02/ResEmoteNetで入手できる。

The human face is a silent communicator, expressing emotions and thoughts through its facial expressions. With the advancements in computer vision in recent years, facial emotion recognition technology has made significant strides, enabling machines to decode the intricacies of facial cues. In this work, we propose ResEmoteNet, a novel deep learning architecture for facial emotion recognition designed with the combination of Convolutional, Squeeze-Excitation (SE) and Residual Networks. The inclusion of SE block selectively focuses on the important features of the human face, enhances the feature representation and suppresses the less relevant ones. This helps in reducing the loss and enhancing the overall model performance. We also integrate the SE block with three residual blocks that help in learning more complex representation of the data through deeper layers. We evaluated ResEmoteNet on three open-source databases: FER2013, RAF-DB, and AffectNet, achieving accuracies of 79.79%, 94.76%, and 72.39%, respectively. The proposed network outperforms state-of-the-art models across all three databases. The source code for ResEmoteNet is available at https://github.com/ArnabKumarRoy02/ResEmoteNet.
翻訳日:2024-09-22 21:22:31 公開日:2024-09-01
# 半連続境界の改善法 [数学博士, 113, 121 (2023)]

How to improve the semicontinuity bounds in [Lett. Math. Phys., 113, 121 (2023)] ( http://arxiv.org/abs/2409.10546v1 )

ライセンス: Link先を確認
M. E. Shirokov, (参考訳) 基本的な技術的補題の証明を最適化することにより、[1] における半連続境界を改善する方法を示す。 この最適化では、残留項 [2] で使用されるトリックの修正版を適用する。 最も重要な応用は、エネルギー制約を持つフォン・ノイマンエントロピーに対して有界な半連続性と、ランク/エネルギー制約を伴う形成の絡み合うための半連続性である。

We show how to improve the semicontinuity bounds in [1] by optimizing the proof of the basic technical lemma. In this optimization we apply the modified version of the trick used in the resent article [2]. The most important applications are the semicontinuity bound for the von Neumann entropy with the energy constraint and the semicontinuity bounds for the entanglement of formation with the rank/energy constraint.
翻訳日:2024-09-22 21:22:31 公開日:2024-09-01
# NoPhish: 機械学習技術を用いたフィッシング検出のための効率的なChromeエクステンション

NoPhish: Efficient Chrome Extension for Phishing Detection Using Machine Learning Techniques ( http://arxiv.org/abs/2409.10547v1 )

ライセンス: Link先を確認
Leand Thaqi, Arbnor Halili, Kamer Vishi, Blerim Rexha, (参考訳) ウェブブラウザによるデジタル化サービスの成長は、日々の業務業務を簡素化した。 しかし同時に、Webブラウザはいくつかのサイバー攻撃に対して非常に魅力的なものになった。 Webフィッシング(英: Web phishing)は、クレジットカード番号、銀行情報、個人ID、社会保障番号、ユーザー名とパスワードなどの機密性の高いユーザー情報を取得するために、攻撃者が信頼できるWebサーバーとしてカモフラージュするよく知られたサイバー攻撃である。 近年,Webページがフィッシングされている際に,ユーザが訪問して警告する真正なWebページを識別する技術が数多く開発されている。 本稿では,ユーザとフィッシング Web サイト間のミドルウェアとして機能する,最もお気に入りの Web ブラウザである Chrome 用エクステンションを開発した。 NoPhish"という名前のChromeエクステンションは、いくつかの機械学習技術に基づいてフィッシングのWebページを特定する。 トレーニングデータセットを"PhishTank"から使用し、Alexaデータベースが評価する22の最も人気のある機能を抽出しました。 使用するトレーニングアルゴリズムはランダムフォレスト、サポートベクターマシン、k-Nearest Neighborである。 結果からランダムフォレストが最も精度が高いことが示唆された。

The growth of digitalization services via web browsers has simplified our daily routine of doing business. But at the same time, it has made the web browser very attractive for several cyber-attacks. Web phishing is a well-known cyberattack that is used by attackers camouflaging as trustworthy web servers to obtain sensitive user information such as credit card numbers, bank information, personal ID, social security number, and username and passwords. In recent years many techniques have been developed to identify the authentic web pages that users visit and warn them when the webpage is phishing. In this paper, we have developed an extension for Chrome the most favorite web browser, that will serve as a middleware between the user and phishing websites. The Chrome extension named "NoPhish" shall identify a phishing webpage based on several Machine Learning techniques. We have used the training dataset from "PhishTank" and extracted the 22 most popular features as rated by the Alexa database. The training algorithms used are Random Forest, Support Vector Machine, and k-Nearest Neighbor. The performance results show that Random Forest delivers the best precision.
翻訳日:2024-09-22 21:22:31 公開日:2024-09-01
# デジタル指紋の公開:ウェブサイトの指紋に基づくインターネット攻撃の分析

Unveiling the Digital Fingerprints: Analysis of Internet attacks based on website fingerprints ( http://arxiv.org/abs/2409.03791v1 )

ライセンス: Link先を確認
Blerim Rexha, Arbena Musa, Kamer Vishi, Edlira Martiri, (参考訳) 物理的な活動と並行して、私たちの仮想的な存在は、インターネットをナビゲートしながら、私たちのユニークなデジタル指紋を置き去りにしています。 これらのデジタル指紋は、閲覧履歴、利用されたアプリケーション、そしてこれらのエンゲージメントで使用されるデバイスを含むユーザーの活動を明らかにする可能性がある。 多くのインターネットユーザーは、Torのような最高のプライバシー保護と匿名化を提供するWebブラウザを使う傾向にある。 このようなプライバシー保護の成功は、エンドユーザーIPアドレスとウェブサイトの指紋を構成する他のメタデータを匿名化するTor機能に依存する。 本稿では,最新の機械学習アルゴリズムを用いて,攻撃者がTorトラフィックを非匿名化できることを示す。 本研究では,コロンビアのデル・コーカ大学から公開されているデータセットを用いて,ベースラインと比較基準点を構築した。 11日間にわたってネットワークパケットをキャプチャし、ユーザが特定のWebページをナビゲートし、.NETでデータを記録します。 Wiresharkネットワークキャプチャツールによるpcapngフォーマット。 外部パケットを除くと、分析にはさまざまな機械学習アルゴリズムが使用される。 その結果、グラディエントブースティングマシンアルゴリズムはバイナリ分類において最良の結果をもたらし、精度は0.8363であることがわかった。 多クラス分類の領域では、ランダムフォレストアルゴリズムは精度0.6297に達する。

Parallel to our physical activities our virtual presence also leaves behind our unique digital fingerprints, while navigating on the Internet. These digital fingerprints have the potential to unveil users' activities encompassing browsing history, utilized applications, and even devices employed during these engagements. Many Internet users tend to use web browsers that provide the highest privacy protection and anonymization such as Tor. The success of such privacy protection depends on the Tor feature to anonymize end-user IP addresses and other metadata that constructs the website fingerprint. In this paper, we show that using the newest machine learning algorithms an attacker can deanonymize Tor traffic by applying such techniques. In our experimental framework, we establish a baseline and comparative reference point using a publicly available dataset from Universidad Del Cauca, Colombia. We capture network packets across 11 days, while users navigate specific web pages, recording data in .pcapng format through the Wireshark network capture tool. Excluding extraneous packets, we employ various machine learning algorithms in our analysis. The results show that the Gradient Boosting Machine algorithm delivers the best outcomes in binary classification, achieving an accuracy of 0.8363. In the realm of multi-class classification, the Random Forest algorithm attains an accuracy of 0.6297.
翻訳日:2024-09-15 05:41:23 公開日:2024-09-01
# 確率的双線形リワードを用いたスケジューリングサーバ

Scheduling Servers with Stochastic Bilinear Rewards ( http://arxiv.org/abs/2112.06362v3 )

ライセンス: Link先を確認
Jung-hun Kim, Milan Vojnovic, (参考訳) 本稿では,不確実性のあるマルチクラスマルチサーバキューシステムスケジューリングにおいて発生する制御系最適化問題に対処する。 このシナリオでは、ジョブは完了を待っている間に保持コストを発生させ、ジョブサーバの割り当ては、未知の平均値で観測可能な確率的な報酬をもたらす。 ジョブサーバ割り当ての報酬は、ジョブやサーバを特徴付ける機能に関して、双線形モデルに従うと仮定される。 我々の目的は,ジョブサーバ割り当ての累積報酬を時間的地平線上で最大化しつつ,総ジョブ保持コストを抑え,キューシステムの安定性を確保することを目的とした,後悔の最小化である。 この問題は、コンピューティングサービスやオンラインプラットフォームのアプリケーションによって動機付けられている。 そこで本稿では,報酬の最大化に要する限界コストを加味した重み付き比例公平割当基準に基づくスケジューリングアルゴリズムを提案する。 提案アルゴリズムは,時間的地平線に対する線形平均保持コスト(および待ち行列長境界)を減らし,待ち行列システムの安定性を保証している。 さらに,大規模システムアプリケーションに関係のある分散反復アルゴリズムのアロケーションに対する安定性条件を確立する。 最後に,数値実験によりアルゴリズムの有効性を検証した。

We address a control system optimization problem that arises in multi-class, multi-server queueing system scheduling with uncertainty. In this scenario, jobs incur holding costs while awaiting completion, and job-server assignments yield observable stochastic rewards with unknown mean values. The rewards for job-server assignments are assumed to follow a bilinear model with respect to features characterizing jobs and servers. Our objective is regret minimization, aiming to maximize the cumulative reward of job-server assignments over a time horizon while maintaining a bounded total job holding cost, thus ensuring queueing system stability. This problem is motivated by applications in computing services and online platforms. To address this problem, we propose a scheduling algorithm based on weighted proportional fair allocation criteria augmented with marginal costs for reward maximization, incorporating a bandit strategy. Our algorithm achieves sub-linear regret and sub-linear mean holding cost (and queue length bound) with respect to the time horizon, thus guaranteeing queueing system stability. Additionally, we establish stability conditions for distributed iterative algorithms for computing allocations, which are relevant to large-scale system applications. Finally, we validate the efficiency of our algorithm through numerical experiments.
翻訳日:2024-09-07 07:30:16 公開日:2024-09-01
# テキスト音声合成のためのサンプル効率のよい拡散

Sample-Efficient Diffusion for Text-To-Speech Synthesis ( http://arxiv.org/abs/2409.03717v1 )

ライセンス: Link先を確認
Justin Lovelace, Soham Ray, Kwangyoun Kim, Kilian Q. Weinberger, Felix Wu, (参考訳) 本研究は,潜時拡散によるモデストデータ構造における効率的な音声合成アルゴリズムであるSESD(Sample-Efficient Speech Diffusion)を導入する。 これはU-Audio Transformer (U-AT) と呼ばれる新しい拡散アーキテクチャに基づいており、これは長いシーケンスに効率よくスケールし、事前訓練されたオーディオオートエンコーダの潜時空間で動作する。 文字認識型言語モデル表現を前提としたSESDは、1k時間未満の音声のトレーニングにもかかわらず、現在の最先端システムよりもはるかに少ない印象的な結果が得られる。 実際、2%未満のトレーニングデータを使用しながら、最先端の自己回帰モデルであるVALL-Eよりも知的な音声を合成する。

This work introduces Sample-Efficient Speech Diffusion (SESD), an algorithm for effective speech synthesis in modest data regimes through latent diffusion. It is based on a novel diffusion architecture, that we call U-Audio Transformer (U-AT), that efficiently scales to long sequences and operates in the latent space of a pre-trained audio autoencoder. Conditioned on character-aware language model representations, SESD achieves impressive results despite training on less than 1k hours of speech - far less than current state-of-the-art systems. In fact, it synthesizes more intelligible speech than the state-of-the-art auto-regressive model, VALL-E, while using less than 2% the training data.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-01
# 調和注意:トレーニング不要なテクスチャ認識幾何移動

Harmonizing Attention: Training-free Texture-aware Geometry Transfer ( http://arxiv.org/abs/2408.10846v2 )

ライセンス: Link先を確認
Eito Ikuta, Yohan Lee, Akihiro Iohara, Yu Saito, Toshiyuki Tanaka, (参考訳) 表面テクスチャとは無関係に写真画像から幾何学的特徴を抽出し、異なる材料に転写することは難しい課題である。 本研究では,テクスチャ・アウェア・ジオメトリ・トランスファーに拡散モデルを活用する新しいトレーニングフリーアプローチであるHarmonizing Attentionを紹介する。 提案手法では,複数の参照画像から,モデルが複数の参照画像から情報を検索できるように,自己注意層を簡易かつ効果的に修正する。 この機構はテクスチャ調整注意として変換プロセスにシームレスに統合され、ジオメトリ調整注意として生成プロセスに統合される。 このデュアルアテンションアプローチは、物質固有のテクスチャ連続性を保ちながら、物質非依存の幾何学的特徴を効果的に捕捉し、伝達することを保証する。

Extracting geometry features from photographic images independently of surface texture and transferring them onto different materials remains a complex challenge. In this study, we introduce Harmonizing Attention, a novel training-free approach that leverages diffusion models for texture-aware geometry transfer. Our method employs a simple yet effective modification of self-attention layers, allowing the model to query information from multiple reference images within these layers. This mechanism is seamlessly integrated into the inversion process as Texture-aligning Attention and into the generation process as Geometry-aligning Attention. This dual-attention approach ensures the effective capture and transfer of material-independent geometry features while maintaining material-specific textural continuity, all without the need for model fine-tuning.
翻訳日:2024-09-06 19:09:05 公開日:2024-09-01
# LLMによるソースコードセキュリティの強化 - 課題の最小化と信頼性の高い修復生成

Enhancing Source Code Security with LLMs: Demystifying The Challenges and Generating Reliable Repairs ( http://arxiv.org/abs/2409.00571v1 )

ライセンス: Link先を確認
Nafis Tanveer Islam, Joseph Khoury, Andrew Seong, Elias Bou-Harb, Peyman Najafirad, (参考訳) 最近の人工知能(AI)コンピューティングの先例のない進歩により、大規模言語モデル(LLM)の進歩は急速に加速し、特にセキュリティ分野において明確なガイドラインを確立する上での課題が提示されている。 とは言っても、LLMワークフロー全体、すなわち \textbf{\textit{ にまたがるセキュリティとソフトウェアエンジニアリングの文献における3つの主要な技術的課題を、徹底的に特定し、記述します。 (i)}} データコレクションとラベル; \textbf{\textit{ (ii)}} システム設計と学習; そして \textbf{\textit{ (iii) 性能評価。 本稿では,これらの課題を解決すべく,命令ベースの LLM システムである \textt{SecRepair} を紹介した。 私たちのシステムは、 \textbf{\textit{上の実行可能なガイドのリストを伴います。 (i)}} データ準備と拡張技術; \textbf{\textit{ (ii)}} Selecting and Adapting State-of-the-art LLM Models; \textbf{\textit{ (iii) 評価手順 \texttt{SecRepair}は、強化学習に基づく微調整とセマンティックな報酬を使って、生成されたコードの機能とセキュリティの面に対処する。 我々の経験的分析は,強化学習を用いて訓練した他のLLMと比較して,セキュリティコード修復における \textit{12}\% の改善が達成されていることを示している。 さらに,自動評価指標を用いた実世界のテストケースに対する信頼性,機能,コンパイル可能なセキュリティコード修正を生成する上で,‘texttt{SecRepair}’の能力を実証した。

With the recent unprecedented advancements in Artificial Intelligence (AI) computing, progress in Large Language Models (LLMs) is accelerating rapidly, presenting challenges in establishing clear guidelines, particularly in the field of security. That being said, we thoroughly identify and describe three main technical challenges in the security and software engineering literature that spans the entire LLM workflow, namely; \textbf{\textit{(i)}} Data Collection and Labeling; \textbf{\textit{(ii)}} System Design and Learning; and \textbf{\textit{(iii)}} Performance Evaluation. Building upon these challenges, this paper introduces \texttt{SecRepair}, an instruction-based LLM system designed to reliably \textit{identify}, \textit{describe}, and automatically \textit{repair} vulnerable source code. Our system is accompanied by a list of actionable guides on \textbf{\textit{(i)}} Data Preparation and Augmentation Techniques; \textbf{\textit{(ii)}} Selecting and Adapting state-of-the-art LLM Models; \textbf{\textit{(iii)}} Evaluation Procedures. \texttt{SecRepair} uses a reinforcement learning-based fine-tuning with a semantic reward that caters to the functionality and security aspects of the generated code. Our empirical analysis shows that \texttt{SecRepair} achieves a \textit{12}\% improvement in security code repair compared to other LLMs when trained using reinforcement learning. Furthermore, we demonstrate the capabilities of \texttt{SecRepair} in generating reliable, functional, and compilable security code repairs against real-world test cases using automated evaluation metrics.
翻訳日:2024-09-06 13:55:44 公開日:2024-09-01
# 時間的関連チャンネル上でのコミュニケーション学習のためのオンライン最適化

Online Optimization for Learning to Communicate over Time-Correlated Channels ( http://arxiv.org/abs/2409.00575v1 )

ライセンス: Link先を確認
Zheshun Wu, Junfan Li, Zenglin Xu, Sumei Sun, Jie Liu, (参考訳) 機械学習技術は、チャネルの不確実性に対処する能力のため、コミュニケーションシステムを設計することに大きな関心を寄せている。 学習に基づく通信システムに関する理論的保証を提供するため、近年のいくつかの研究は、独立性および独立性のある分散チャネル(I.I.D.)の仮定に基づいて、考案された手法の一般化境界を解析した。 本稿では,I.I.D.チャネルの仮定を廃止し,時間関連チャネル上での通信学習におけるオンライン最適化問題について検討する。 この問題に対処するために、時間関連フェーディングチャネルにチャネルデコーダを最適化し、時間関連付加雑音チャネルに最適なコードブックを選択するという2つの特定のタスクに焦点を当てる。 検討されたチャネルの時間的依存を利用して通信システムをよりよく学習するために,楽観的なオンラインミラー降下フレームワークに基づく2つのオンライン最適化アルゴリズムを開発した。 さらに,学習システムの予測誤り確率に縛られたサブ線形後悔を導出することで,提案アルゴリズムの理論的保証を提供する。 提案手法がチャネル相関を利用して,ベースライン法よりも低い平均シンボル誤差率を達成できることを示すため,広範囲なシミュレーション実験が実施されている。

Machine learning techniques have garnered great interest in designing communication systems owing to their capacity in tacking with channel uncertainty. To provide theoretical guarantees for learning-based communication systems, some recent works analyze generalization bounds for devised methods based on the assumption of Independently and Identically Distributed (I.I.D.) channels, a condition rarely met in practical scenarios. In this paper, we drop the I.I.D. channel assumption and study an online optimization problem of learning to communicate over time-correlated channels. To address this issue, we further focus on two specific tasks: optimizing channel decoders for time-correlated fading channels and selecting optimal codebooks for time-correlated additive noise channels. For utilizing temporal dependence of considered channels to better learn communication systems, we develop two online optimization algorithms based on the optimistic online mirror descent framework. Furthermore, we provide theoretical guarantees for proposed algorithms via deriving sub-linear regret bound on the expected error probability of learned systems. Extensive simulation experiments have been conducted to validate that our presented approaches can leverage the channel correlation to achieve a lower average symbol error rate compared to baseline methods, consistent with our theoretical findings.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# GALIC: 量子コンピューティング計測のためのハイブリッドマルチビットワイドパウリグルーピング

GALIC: Hybrid Multi-Qubitwise Pauli Grouping for Quantum Computing Measurement ( http://arxiv.org/abs/2409.00576v1 )

ライセンス: Link先を確認
Matthew X. Burns, Chenxu Liu, Samuel Stein, Bo Peng, Karol Kowalski, Ang Li, (参考訳) 観測可能な推定は、量子化学応用をターゲットとしたNISQ-eraアルゴリズムのコアプリミティブである。 高精度な推定に要する状態準備のオーバーヘッドを軽減するため,近年の研究では,推定値の分散を低減させる様々な同時測定手法が提案されている。 完全可換性(FC)とqubit-wise可換性(QWC)の2つの主要なグループ化スキームが提案されている。 本研究では、文脈対応ハイブリッドFC/QWCの可換性関係を設計・解析するための一般化されたフレームワークを提案する。 我々は,騒音と接続性に配慮したグループ化戦略を提案する。 本稿では, GALIC が FC と QWC の間でどのように補間し, ハミルトン推定における推定値の精度を維持しながら, QWC と比較して平均20% のばらつきを低下させるかを示す。 また、GALICフレームワークを用いて、デバイスノイズレベルと接続性を比較することで、短期量子デバイスの設計空間についても検討する。 誤差抑制は、クビット接続よりもデバイス認識推定器のばらつきに大きな影響を与え、推定器のバイアスの相関性はさらに大きい。

Observable estimation is a core primitive in NISQ-era algorithms targeting quantum chemistry applications. To reduce the state preparation overhead required for accurate estimation, recent works have proposed various simultaneous measurement schemes to lower estimator variance. Two primary grouping schemes have been proposed: fully commutativity (FC) and qubit-wise commutativity (QWC), with no compelling means of interpolation. In this work we propose a generalized framework for designing and analyzing context-aware hybrid FC/QWC commutativity relations. We use our framework to propose a noise-and-connectivity aware grouping strategy: Generalized backend-Aware pauLI Commutation (GALIC). We demonstrate how GALIC interpolates between FC and QWC, maintaining estimator accuracy in Hamiltonian estimation while lowering variance by an average of 20% compared to QWC. We also explore the design space of near-term quantum devices using the GALIC framework, specifically comparing device noise levels and connectivity. We find that error suppression has a more than $13\times$ larger impact on device-aware estimator variance than qubit connectivity with even larger correlation differences in estimator biases.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# RとShinyMobileを使ったCRUD対応モバイルアプリ:ラピッドプロトタイピングのケーススタディ

CRUD-Capable Mobile Apps with R and shinyMobile: a Case Study in Rapid Prototyping ( http://arxiv.org/abs/2409.00582v1 )

ライセンス: Link先を確認
Nathan Henry, (参考訳) Harden"は、主にRで開発されたEcological Momentary Assessment(EMA)のためのプログレッシブWebアプリケーション(PWA)である。 このパッケージは、リアクティブなモバイルユーザインターフェース(UI)の作成、データベースバックエンド用のPostgreSQL、クラウド上のスケーラブルなホスティングのためのGoogle Cloud Run、サーバレス実行のためのGoogle Cloud Runを利用する。 このテクノロジスタックを使用することで、セッション間の永続的なユーザデータ、インタラクティブグラフ、リアルタイム統計計算を備えた、CRUD対応(Create, Read, Update, Delete)モバイルアプリの迅速なプロトタイプが可能になる。 shinyMobileパッケージは、高度なグラフ処理機能を必要とする統計モバイルアプリを高速にプロトタイピングおよび作成するための最も効率的な方法の1つを提供する、と論じられている。 本稿では,Harden アプリケーション作成に使用される方法論の概要と,アプリケーション開発における shinyMobile アプローチのメリットと限界について述べる。 この情報により、Rに精通している他のプログラマが、このフレームワークでモバイルアプリを開発することを検討できるようになることが期待されている。

"Harden" is a Progressive Web Application (PWA) for Ecological Momentary Assessment (EMA) developed mostly in R, which runs on all platforms with an internet connection, including iOS and Android. It leverages the shinyMobile package for creating a reactive mobile user interface (UI), PostgreSQL for the database backend, and Google Cloud Run for scalable hosting in the cloud, with serverless execution. Using this technology stack, it was possible to rapidly prototype a fully CRUD-capable (Create, Read, Update, Delete) mobile app, with persistent user data across sessions, interactive graphs, and real-time statistical calculation. This framework is compared with current alternative frameworks for creating data science apps; it is argued that the shinyMobile package provides one of the most efficient methods for rapid prototyping and creation of statistical mobile apps that require advanced graphing capabilities. This paper outlines the methodology used to create the Harden application, and discusses the advantages and limitations of the shinyMobile approach to app development. It is hoped that this information will encourage other programmers versed in R to consider developing mobile apps with this framework.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# FastBO:適応忠実度同定を用いた高速HPOとNAS

FastBO: Fast HPO and NAS with Adaptive Fidelity Identification ( http://arxiv.org/abs/2409.00584v1 )

ライセンス: Link先を確認
Jiantong Jiang, Ajmal Mian, (参考訳) ハイパーパラメータ最適化(HPO)とニューラルアーキテクチャ探索(NAS)は最先端の機械学習モデルを実現する上で強力であり、ベイジアン最適化(BO)は主流の手法である。 BOを多相性設定に拡張することは、新たな研究課題であるが、サロゲートモデルに適合するように、各ハイパーパラメータ設定に対して適切な忠実度を決定するという課題に直面している。 この課題に対処するため,FastBOという多要素BO法を提案し,各構成の忠実度を適応的に決定し,高い性能を実現する。 この利点は,各構成に対する効率的な点と飽和点という新しい概念に基づいて達成され,適応的忠実度識別戦略は,任意の単一忠実度法を多忠実度設定に拡張する手段を提供し,その一般化と適用性を強調している。

Hyperparameter optimization (HPO) and neural architecture search (NAS) are powerful in attaining state-of-the-art machine learning models, with Bayesian optimization (BO) standing out as a mainstream method. Extending BO into the multi-fidelity setting has been an emerging research topic, but faces the challenge of determining an appropriate fidelity for each hyperparameter configuration to fit the surrogate model. To tackle the challenge, we propose a multi-fidelity BO method named FastBO, which adaptively decides the fidelity for each configuration and efficiently offers strong performance. The advantages are achieved based on the novel concepts of efficient point and saturation point for each configuration.We also show that our adaptive fidelity identification strategy provides a way to extend any single-fidelity method to the multi-fidelity setting, highlighting its generality and applicability.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# McCaD:高忠実度MRI合成のためのマルチコントラストMRI条件適応逆拡散モデル

McCaD: Multi-Contrast MRI Conditioned, Adaptive Adversarial Diffusion Model for High-Fidelity MRI Synthesis ( http://arxiv.org/abs/2409.00585v1 )

ライセンス: Link先を確認
Sanuwani Dayarathna, Kh Tohidul Islam, Bohan Zhuang, Guang Yang, Jianfei Cai, Meng Law, Zhaolin Chen, (参考訳) MRIは臨床診断に有効であり、総合的な診断情報を提供する様々なコントラストを提供する。 しかし、複数のMRIコントラストを取得することは、高コスト、長時間のスキャン期間、患者の不快感によって制約されることが多い。 現在の合成法は、通常、単一画像のコントラストに焦点を当て、様々なコントラストの集合ニュアンスを捉えるのに不足している。 さらに、既存のマルチコントラストMRI合成法では、複数のコントラストにまたがる特徴レベルの情報を正確にマッピングできないことが多い。 マルチコントラストMRI(Multi-Contrast MRI Conditioned Adaptive Adversarial Diffusion)は,高忠実度MRI合成のために複数のコントラストに条件付けされた逆拡散モデルを活用する新しいフレームワークである。 McCaDは、マルチスケールの特徴誘導機構を採用して合成精度を大幅に向上させ、デノナイジングとセマンティックエンコーダを取り入れた。 複数のコントラストにまたがるより固有の特徴を捉えるために,適応的特徴最大化戦略と空間的特徴量減少が導入された。 これにより、正確にかつ包括的な機能指導プロセスが実現される。 腫瘍と健康なマルチコントラストMRIデータセットの大規模な実験により、MachaDは最先端のベースラインを定量的に質的に上回ることを示した。 コードには補充材料が備わっている。

Magnetic Resonance Imaging (MRI) is instrumental in clinical diagnosis, offering diverse contrasts that provide comprehensive diagnostic information. However, acquiring multiple MRI contrasts is often constrained by high costs, long scanning durations, and patient discomfort. Current synthesis methods, typically focused on single-image contrasts, fall short in capturing the collective nuances across various contrasts. Moreover, existing methods for multi-contrast MRI synthesis often fail to accurately map feature-level information across multiple imaging contrasts. We introduce McCaD (Multi-Contrast MRI Conditioned Adaptive Adversarial Diffusion), a novel framework leveraging an adversarial diffusion model conditioned on multiple contrasts for high-fidelity MRI synthesis. McCaD significantly enhances synthesis accuracy by employing a multi-scale, feature-guided mechanism, incorporating denoising and semantic encoders. An adaptive feature maximization strategy and a spatial feature-attentive loss have been introduced to capture more intrinsic features across multiple contrasts. This facilitates a precise and comprehensive feature-guided denoising process. Extensive experiments on tumor and healthy multi-contrast MRI datasets demonstrated that the McCaD outperforms state-of-the-art baselines quantitively and qualitatively. The code is provided with supplementary materials.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# 音楽を演奏するFLUX

FLUX that Plays Music ( http://arxiv.org/abs/2409.00587v1 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang, (参考訳) 本稿では,FluxMusicと呼ばれるテキストから音楽への変換のための拡散型整流変換器の簡易拡張について検討する。 一般に、先進的な Flux\footnote{https://github.com/black-forest-labs/flux} モデルの設計とともに、メルスペクトルの潜在VAE空間に転送する。 まず、二重テキスト-音楽ストリームに独立して注意を向け、続いて1つの音楽ストリームを積み重ねて、通知されたパッチ予測を行う。 複数の事前訓練されたテキストエンコーダを用いて、キャプションの意味情報と推論の柔軟性を十分にキャプチャする。 間において、粗いテキスト情報を時間ステップ埋め込みと共に変調機構に利用し、きめ細かいテキストの詳細を音楽パッチシーケンスに入力として結合する。 詳細な研究を通じて、最適化されたアーキテクチャによる整流流訓練は、様々な自動メトリクスや人間の嗜好評価によって実証されるように、テキストから音楽へのタスクに対する確立された拡散法を著しく上回っていることを実証した。 実験データ、コード、モデルの重み付けは、次のように公開されています。

This paper explores a simple extension of diffusion-based rectified flow Transformers for text-to-music generation, termed as FluxMusic. Generally, along with design in advanced Flux\footnote{https://github.com/black-forest-labs/flux} model, we transfers it into a latent VAE space of mel-spectrum. It involves first applying a sequence of independent attention to the double text-music stream, followed by a stacked single music stream for denoised patch prediction. We employ multiple pre-trained text encoders to sufficiently capture caption semantic information as well as inference flexibility. In between, coarse textual information, in conjunction with time step embeddings, is utilized in a modulation mechanism, while fine-grained textual details are concatenated with the music patch sequence as inputs. Through an in-depth study, we demonstrate that rectified flow training with an optimized architecture significantly outperforms established diffusion methods for the text-to-music task, as evidenced by various automatic metrics and human preference evaluations. Our experimental data, code, and model weights are made publicly available at: \url{https://github.com/feizc/FluxMusic}.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# 拡散政策最適化

Diffusion Policy Policy Optimization ( http://arxiv.org/abs/2409.00588v1 )

ライセンス: Link先を確認
Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz, (参考訳) 本稿では,拡散政策最適化(DPPO)を提案する。このフレームワークは,強化学習(RL)によるポリシー勾配(PG)手法を用いて,連続制御およびロボット学習タスクにおける拡散政策(例えば拡散政策)を微調整するためのベストプラクティスを含むアルゴリズムフレームワークである。 PG法は他の政策パラメータ化と共にRLポリシーを訓練する際にはユビキタスである。 意外なことに、DPPOは拡散型ポリシーの他のRL法と比較し、他のポリシーパラメータ化のPG微調整と比較して、共通ベンチマークにおける微調整における最強の総合的な性能と効率を実現している。 実験により, DPPOはRL微調整と拡散パラメータ化の独特な相乗効果を生かし, 構造的およびオンマンフォールド探索, 安定した訓練, 強力な政策ロバスト性をもたらすことがわかった。 さらに,DPPOの強みを,画素観察によるシミュレーションロボットタスクや,長期多段階操作タスクにおけるロボットハードウェア上でのシミュレーション学習ポリシーのゼロショット展開など,現実的な環境下での強みを実証する。 コード付きWebサイト:fusion-ppo.github.io

We introduce Diffusion Policy Policy Optimization, DPPO, an algorithmic framework including best practices for fine-tuning diffusion-based policies (e.g. Diffusion Policy) in continuous control and robot learning tasks using the policy gradient (PG) method from reinforcement learning (RL). PG methods are ubiquitous in training RL policies with other policy parameterizations; nevertheless, they had been conjectured to be less efficient for diffusion-based policies. Surprisingly, we show that DPPO achieves the strongest overall performance and efficiency for fine-tuning in common benchmarks compared to other RL methods for diffusion-based policies and also compared to PG fine-tuning of other policy parameterizations. Through experimental investigation, we find that DPPO takes advantage of unique synergies between RL fine-tuning and the diffusion parameterization, leading to structured and on-manifold exploration, stable training, and strong policy robustness. We further demonstrate the strengths of DPPO in a range of realistic settings, including simulated robotic tasks with pixel observations, and via zero-shot deployment of simulation-trained policies on robot hardware in a long-horizon, multi-stage manipulation task. Website with code: diffusion-ppo.github.io
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# 複雑な背景下における表面欠陥分割のための変化を考慮したシームズネットワーク

Change-Aware Siamese Network for Surface Defects Segmentation under Complex Background ( http://arxiv.org/abs/2409.00589v1 )

ライセンス: Link先を確認
Biyuan Liu, Huaixin Chen, Huiyao Zhan, Sijie Luo, Zhou Huang, (参考訳) 領域レベルの表面欠陥を検出するための深い視覚ネットワークによって達成された目視のブレークスルーにもかかわらず、高品質な画素単位の欠陥検出の課題は、様々な欠陥の出現とデータの不足によるものである。 欠陥の出現に対する過度な依存を回避し,正確な欠陥セグメント化を実現するために,変更検出フレームワークにおける欠陥セグメント化を解決する変更対応のSiameseネットワークを提案する。 トランスフォーマーをベースとしたエンコーダでは,欠陥と欠陥のない画像とのクラス非依存の統一的な相違として,多様な欠陥のカテゴリをエンコードすることが可能である。 距離マップで示される差分は、変更対応デコーダにスキップ接続され、クラス間およびクラス外の両方の欠陥の位置をアシストする。 さらに, 複雑な背景条件下での多層液晶ディスプレイ(LCD)欠陥を用いた合成データセットを提案し, 欠陥セグメンテーションのための外見に基づくモデリングよりも, 変化に基づくモデリングの利点を実証した。 提案したデータセットと2つの公開データセットでは,モデルサイズを比較的小さく保ちながら,主要なセマンティックセグメンテーション手法よりも優れた性能を実現している。 さらに,本モデルでは,各種監督設定における半教師付きアプローチと比較して,新しい最先端性能を実現している。

Despite the eye-catching breakthroughs achieved by deep visual networks in detecting region-level surface defects, the challenge of high-quality pixel-wise defect detection remains due to diverse defect appearances and data scarcity. To avoid over-reliance on defect appearance and achieve accurate defect segmentation, we proposed a change-aware Siamese network that solves the defect segmentation in a change detection framework. A novel multi-class balanced contrastive loss is introduced to guide the Transformer-based encoder, which enables encoding diverse categories of defects as the unified class-agnostic difference between defect and defect-free images. The difference presented by a distance map is then skip-connected to the change-aware decoder to assist in the location of both inter-class and out-of-class pixel-wise defects. In addition, we proposed a synthetic dataset with multi-class liquid crystal display (LCD) defects under a complex and disjointed background context, to demonstrate the advantages of change-based modeling over appearance-based modeling for defect segmentation. In our proposed dataset and two public datasets, our model achieves superior performances than the leading semantic segmentation methods, while maintaining a relatively small model size. Moreover, our model achieves a new state-of-the-art performance compared to the semi-supervised approaches in various supervision settings.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# COMOGen: 制御可能なテキストから3次元のマルチオブジェクト生成フレームワーク

COMOGen: A Controllable Text-to-3D Multi-object Generation Framework ( http://arxiv.org/abs/2409.00590v1 )

ライセンス: Link先を確認
Shaorong Sun, Shuchao Pang, Yazhou Yao, Xiaoshui Huang, (参考訳) 3次元オブジェクト生成法の可制御性は入力テキストによって達成される。 既存のテキストから3Dオブジェクトを生成する方法は、主に単一のオブジェクト記述に基づいて単一のオブジェクトを生成することに焦点を当てている。 しかし、これらの手法は、入力テキストが複数のオブジェクトを含む場合、所望の位置と正確に一致する結果を生成する上で、しばしば困難に直面する。 本稿では,複数のオブジェクトを生成する際の制御性の問題に対処するため,Controllable Text-to-3D Multi-Object GenerationフレームワークであるCOMOGenを紹介する。 COMOGenは、レイアウトとマルチビュー事前知識の蒸留により、複数の3Dオブジェクトを同時に生成することを可能にする。 フレームワークは、レイアウト制御モジュール、マルチビュー一貫性制御モジュール、および3Dコンテンツ拡張モジュールの3つのモジュールで構成されている。 さらに,これら3つのモジュールを統合的なフレームワークとして統合するために,2つの事前知識を統一し,生成した3Dコンテンツの多様性と品質をさらに向上させるレイアウト多視点スコア蒸留を提案する。 総合的な実験は、より制御され、多目的なテキストベースの3Dコンテンツ生成を可能にするための重要な一歩である最先端の手法と比較して、我々のアプローチの有効性を実証する。

The controllability of 3D object generation methods is achieved through input text. Existing text-to-3D object generation methods primarily focus on generating a single object based on a single object description. However, these methods often face challenges in producing results that accurately correspond to our desired positions when the input text involves multiple objects. To address the issue of controllability in generating multiple objects, this paper introduces COMOGen, a COntrollable text-to-3D Multi-Object Generation framework. COMOGen enables the simultaneous generation of multiple 3D objects by the distillation of layout and multi-view prior knowledge. The framework consists of three modules: the layout control module, the multi-view consistency control module, and the 3D content enhancement module. Moreover, to integrate these three modules as an integral framework, we propose Layout Multi-view Score Distillation, which unifies two prior knowledge and further enhances the diversity and quality of generated 3D content. Comprehensive experiments demonstrate the effectiveness of our approach compared to the state-of-the-art methods, which represents a significant step forward in enabling more controlled and versatile text-based 3D content generation.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# 顔超解像のための注意誘導型マルチスケールインタラクションネットワーク

Attention-Guided Multi-scale Interaction Network for Face Super-Resolution ( http://arxiv.org/abs/2409.00591v1 )

ライセンス: Link先を確認
Xujie Wan, Wenjie Li, Guangwei Gao, Huimin Lu, Jian Yang, Chia-Wen Lin, (参考訳) 近年,CNNとTransformerのハイブリッドネットワークは,FSRタスクにおいて優れた性能を示した。 ハイブリッドネットワークでは,様々な機能があるため,FSRの強化には,これらのマルチスケール機能を融合し,その相補性を促進することが不可欠である。 しかし、既存のハイブリッドネットワークベースのFSR手法はこれを無視し、TransformerとCNNを組み合わせただけである。 この問題に対処するために,ローカルおよびグローバルな機能インタラクションとエンコーダとデコーダのフェーズを含むマルチスケールインタラクションネットワーク(AMINet)を提案する。 具体的には,Residual Depth Feature extract Module (RDFE) によって抽出されたグローバルな特徴と異なる受容領域の局所的特徴の融合を促進するために,LGFI (Local and Global Feature Interaction Module) を提案する。 さらに,LGFIとエンコーダ・デコーダの相における異なる特徴の融合を適応的に選択するSKAF(Selective Kernel Attention Fusion Module)を提案する。 上述の設計により、モジュール内およびエンコーダとデコーダ間のマルチスケール機能の自由なフローが可能となり、異なるスケール機能の相補性が促進され、FSRが向上する。 包括的実験により,提案手法は計算量が少なく,推論速度も速いことが確認された。

Recently, CNN and Transformer hybrid networks demonstrated excellent performance in face super-resolution (FSR) tasks. Since numerous features at different scales in hybrid networks, how to fuse these multi-scale features and promote their complementarity is crucial for enhancing FSR. However, existing hybrid network-based FSR methods ignore this, only simply combining the Transformer and CNN. To address this issue, we propose an attention-guided Multi-scale interaction network (AMINet), which contains local and global feature interactions as well as encoder-decoder phases feature interactions. Specifically, we propose a Local and Global Feature Interaction Module (LGFI) to promote fusions of global features and different receptive fields' local features extracted by our Residual Depth Feature Extraction Module (RDFE). Additionally, we propose a Selective Kernel Attention Fusion Module (SKAF) to adaptively select fusions of different features within LGFI and encoder-decoder phases. Our above design allows the free flow of multi-scale features from within modules and between encoder and decoder, which can promote the complementarity of different scale features to enhance FSR. Comprehensive experiments confirm that our method consistently performs well with less computational consumption and faster inference.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# ハイパー圧縮:ハイパーファンクションによるモデル圧縮

Hyper-Compression: Model Compression via Hyperfunction ( http://arxiv.org/abs/2409.00592v1 )

ライセンス: Link先を確認
Fenglei Fan, Juntong Fan, Dayang Wang, Jingbo Zhang, Zelin Dong, Shijun Zhang, Ge Wang, Tieyong Zeng, (参考訳) 大型モデルの急速な成長はGPUメモリをはるかに上回っている。 このギャップを埋めるために、ジェノタイプと表現型の間の簡潔な関係から着想を得たモデル圧縮問題をパラメータ表現の問題に転換し、いわゆるハイパー圧縮を提案する。 ハイパー圧縮は、ターゲットネットワークのパラメータを表現するためにハイパーファンクションを使用し、特に、高次元の力学系が最終的に高次元空間を埋めることができれば、問題に関連するエルゴード理論に従ってハイパーファンクションが設計される。 実証的に、提案された超圧縮は以下の利点を享受する。 1) \textbf{P}参照圧縮率 2) \textbf{N}o post-hoc retraining 3) \textbf{A}ffordable inference time, and 4) <textbf{S}hort 圧縮時間。 1時間でLLaMA2-7Bを圧縮し、再トレーニングや性能低下を1\%以下にすることなく、int4量子化性能を達成する。 我々の研究は、スケーリング法則とハードウェアアップグレードの停滞との調和に向けて、モデル圧縮の分野を活性化する可能性がある。

The rapid growth of large models' size has far outpaced that of GPU memory. To bridge this gap, inspired by the succinct relationship between genotype and phenotype, we turn the model compression problem into the issue of parameter representation to propose the so-called hyper-compression. The hyper-compression uses a hyperfunction to represent the parameters of the target network, and notably, here the hyperfunction is designed per ergodic theory that relates to a problem: if a low-dimensional dynamic system can fill the high-dimensional space eventually. Empirically, the proposed hyper-compression enjoys the following merits: 1) \textbf{P}referable compression ratio; 2) \textbf{N}o post-hoc retraining; 3) \textbf{A}ffordable inference time; and 4) \textbf{S}hort compression time. It compresses LLaMA2-7B in an hour and achieves close-to-int4-quantization performance, without retraining and with a performance drop of less than 1\%. Our work has the potential to invigorate the field of model compression, towards a harmony between the scaling law and the stagnation of hardware upgradation.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# マルチモーダル・マルチターン会話スタンス検出:課題データセットと有効モデル

Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective Model ( http://arxiv.org/abs/2409.00597v1 )

ライセンス: Link先を確認
Fuqiang Niu, Zebang Cheng, Xianghua Fu, Xiaojiang Peng, Genan Dai, Yin Chen, Hu Huang, Bowen Zhang, (参考訳) ソーシャルメディアデータを使って特定のターゲットに対する世論を識別することを目的としたスタンス検出は、重要な課題でありながら難しい課題である。 テキストを含む多様なマルチモーダルソーシャルメディアコンテンツの普及に伴い、画像多モーダルスタンス検出(MSD)が重要な研究領域となっている。 しかし、既存のMSD研究は、ソーシャルメディア上で自然に起こる多人数会話の文脈を見越して、個々のテキストイメージペア内のスタンスをモデル化することに重点を置いている。 この制限は、そのような会話シナリオを真に捉え、会話MSDの進歩を妨げるデータセットの欠如に起因している。 そこで本研究では,MmMtCSDと呼ばれるマルチモーダル対話姿勢検出データセットを提案する。 この挑戦的なデータセットからスタンスを導出するために,テキストと視覚のモダリティから共同姿勢表現を学習する多モーダルな大規模言語モデルスタンス検出フレームワーク(MLLM-SD)を提案する。 MmMtCSD実験は,マルチモーダル姿勢検出のためのMLLM-SD手法の最先端性能を示す。 我々は,MmMtCSDがスタンス検出研究の現実的応用の進展に寄与すると信じている。

Stance detection, which aims to identify public opinion towards specific targets using social media data, is an important yet challenging task. With the proliferation of diverse multimodal social media content including text, and images multimodal stance detection (MSD) has become a crucial research area. However, existing MSD studies have focused on modeling stance within individual text-image pairs, overlooking the multi-party conversational contexts that naturally occur on social media. This limitation stems from a lack of datasets that authentically capture such conversational scenarios, hindering progress in conversational MSD. To address this, we introduce a new multimodal multi-turn conversational stance detection dataset (called MmMtCSD). To derive stances from this challenging dataset, we propose a novel multimodal large language model stance detection framework (MLLM-SD), that learns joint stance representations from textual and visual modalities. Experiments on MmMtCSD show state-of-the-art performance of our proposed MLLM-SD approach for multimodal stance detection. We believe that MmMtCSD will contribute to advancing real-world applications of stance detection research.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# 大規模言語モデルにおける偽拒絶評価のための擬似調和プロンプトの自動生成

Automatic Pseudo-Harmful Prompt Generation for Evaluating False Refusals in Large Language Models ( http://arxiv.org/abs/2409.00598v1 )

ライセンス: Link先を確認
Bang An, Sicheng Zhu, Ruiyi Zhang, Michael-Andrei Panaitescu-Liess, Yuancheng Xu, Furong Huang, (参考訳) 安全性に配慮した大型言語モデル(LLM)は、実際には無害な「蚊を殺す方法」のような偽の有害なプロンプトを誤って拒否することがある。 ユーザーをイライラさせるだけでなく、アライメントが守ろうとしている価値に対する大衆の反発を引き起こしている。 本稿では,多種多様なコンテンツ制御,モデル依存型擬似調和プロンプトを自動生成する手法を提案する。 提案手法を用いて,既存のデータセットの10倍の大きさのPHTestと呼ばれる評価データセットを構築し,より偽の拒絶パターンをカバーし,議論の的となっているプロンプトを別々にラベル付けする。 PHTest 上で 20 LLM の評価を行い,そのスケールとラベリングによる新たな知見を明らかにした。 以上の結果から,誤認の最小化と脱獄攻撃に対する安全性向上のトレードオフが明らかとなった。 さらに,多くのジェイルブレイク防御が偽の拒絶率を大幅に増加させ,ユーザビリティを損なうことを示した。 我々の手法とデータセットは、開発者がより安全で使いやすいLLMを評価し、微調整するのに役立つ。 私たちのコードとデータセットはhttps://github.com/umd-huang-lab/FalseRefusalで公開されています。

Safety-aligned large language models (LLMs) sometimes falsely refuse pseudo-harmful prompts, like "how to kill a mosquito," which are actually harmless. Frequent false refusals not only frustrate users but also provoke a public backlash against the very values alignment seeks to protect. In this paper, we propose the first method to auto-generate diverse, content-controlled, and model-dependent pseudo-harmful prompts. Using this method, we construct an evaluation dataset called PHTest, which is ten times larger than existing datasets, covers more false refusal patterns, and separately labels controversial prompts. We evaluate 20 LLMs on PHTest, uncovering new insights due to its scale and labeling. Our findings reveal a trade-off between minimizing false refusals and improving safety against jailbreak attacks. Moreover, we show that many jailbreak defenses significantly increase the false refusal rates, thereby undermining usability. Our method and dataset can help developers evaluate and fine-tune safer and more usable LLMs. Our code and dataset are available at https://github.com/umd-huang-lab/FalseRefusal
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# シリコン系二重量子ドットにおける幾何学的2量子ゲート

Geometric two-qubit gates in silicon-based double quantum dots ( http://arxiv.org/abs/2409.00601v1 )

ライセンス: Link先を確認
Yong-Yang Lu, Kejin Wei, Chengxian Zhang, (参考訳) 高忠実な2量子ビットゲートを達成することは、シリコン二重量子ドットにおけるスピン量子ビットにとって不可欠である。 しかし、実験中の2量子ゲートは電荷ノイズに苦しめられやすいため、これは依然として重要な課題である。 純幾何学的位相を用いたゲート操作を実装する幾何学的ゲートは、堅牢な制御を実現するための強力な方法であると考えられている。 本研究では, 実験制御環境を考慮したシリコン系スピン量子ビットのための幾何学的2量子ゲートの実現のための, 理論的に実現可能な戦略を提案する。 局所磁場勾配が交換相互作用よりもはるかに大きい適切な領域で作業することにより、解析的および数値的手法によりエンタングリングおよび非エンタングリング幾何学ゲートを実装することができる。 その結果, 実装された幾何ゲートは, 実験に伴う騒音レベルに対して, 99\%を超える忠実度を得ることができることがわかった。 また、動的操作よりも優れています。 我々の研究は、シリコン中のスピン量子ビットのための高忠実な幾何ゲートを実装する方法である。

Achieving high-fidelity two-qubit gates is crucial for spin qubits in silicon double quantum dots. However, the two-qubit gates in experiments are easily suffered from charge noise, which is still a key challenge. Geometric gates which implement gate operations employing pure geometric phase are believed to be a powerful way to realize robust control. In this work, we theoretically propose feasible strategy to implement geometric two-qubit gates for silicon-based spin qubits considering experimental control environments. By working in the suitable region where the local magnetic field gradient is much larger than the exchange interaction, we are able to implement entangling and non-entangling geometric gates via analytical and numerical methods. It is found that the implemented geometric gates can obtain fidelities surpassing 99\% for the noise level related to the experiments. Also, they can outperform the dynamical opertations. Our work paves a way to implement high-fidelity geometric gate for spin qubits in silicon.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# 顔の美容予測のための不確かさ指向の順序学習

Uncertainty-oriented Order Learning for Facial Beauty Prediction ( http://arxiv.org/abs/2409.00603v1 )

ライセンス: Link先を確認
Xuefeng Liang, Zhenyou Liu, Jian Lin, Xiaohui Yang, Takatsune Kumada, (参考訳) FBP法は一般的に、画像のFB特徴を潜在空間上の点としてモデル化し、その点から正確なスコアへのマッピングを学習する。 既存の回帰法は単一のデータセットでよく機能するが、テストデータに敏感であり、一般化能力が弱い傾向にある。 FBP問題に存在する2つの矛盾を過小評価していると思います。 1.複数のデータセット間のFB標準の不整合、及び 2.画像のFBにおける人間の認識の不整合 これらの問題に対処するため、我々は新しい不確実性指向の秩序学習(UOL)を提案し、この学習は、写像ではなく顔画像間のFB順序関係を学習することにより、FB標準の不整合に対処し、不確実性モデリングは人間の認識の不整合を表す。 UOLの主な貢献は、従来の順序学習で不確実なデータの順序を学習できる分散比較モジュールである。 5つのデータセットに対する大規模な実験により、UOLは精度と一般化能力の両方において最先端の手法よりも優れていることが示された。

Previous Facial Beauty Prediction (FBP) methods generally model FB feature of an image as a point on the latent space, and learn a mapping from the point to a precise score. Although existing regression methods perform well on a single dataset, they are inclined to be sensitive to test data and have weak generalization ability. We think they underestimate two inconsistencies existing in the FBP problem: 1. inconsistency of FB standards among multiple datasets, and 2. inconsistency of human cognition on FB of an image. To address these issues, we propose a new Uncertainty-oriented Order Learning (UOL), where the order learning addresses the inconsistency of FB standards by learning the FB order relations among face images rather than a mapping, and the uncertainty modeling represents the inconsistency in human cognition. The key contribution of UOL is a designed distribution comparison module, which enables conventional order learning to learn the order of uncertain data. Extensive experiments on five datasets show that UOL outperforms the state-of-the-art methods on both accuracy and generalization ability.
翻訳日:2024-09-06 13:43:27 公開日:2024-09-01
# 不規則領域と非構造格子上の計算力学問題の解法のための時空間グラフニューラル演算子

Spatio-spectral graph neural operator for solving computational mechanics problems on irregular domain and unstructured grid ( http://arxiv.org/abs/2409.00604v1 )

ライセンス: Link先を確認
Subhankar Sarkar, Souvik Chakraborty, (参考訳) 科学的な機械学習は、オペレーターラーニングの出現によって大きな進歩を遂げた。 しかし、非構造格子や不規則領域上の問題に適用した場合、既存の手法では困難に遭遇する。 空間グラフニューラルネットワークは、近隣の局所的な畳み込みを利用してこれらの課題に対処するが、しばしば過度なスムーシングや深いアーキテクチャの過度な監視といった問題に悩まされる。 逆に、スペクトルグラフニューラルネットワークは、大域的畳み込みを利用して、固有値分解による計算コストが高いにもかかわらず、ドメイングラフの広範な特徴と長距離依存性をキャプチャする。 本稿では,空間GNNとスペクトルGNNを効果的に統合する新しい手法であるSpatio-Spectral Graph Neural Operator(Sp$^2$GNO)を提案する。 このフレームワークは個々のメソッドの制限を緩和し、任意のジオメトリをまたいだ解演算子の学習を可能にする。 Sp$2$GNOは、正則および不規則領域上の時間依存偏微分方程式と時間依存偏微分方程式の両方を解く際、例外的な性能を示す。 本手法は,計算力学と科学計算の文献から得られた総合的なベンチマークと実践的応用を通じて検証される。

Scientific machine learning has seen significant progress with the emergence of operator learning. However, existing methods encounter difficulties when applied to problems on unstructured grids and irregular domains. Spatial graph neural networks utilize local convolution in a neighborhood to potentially address these challenges, yet they often suffer from issues such as over-smoothing and over-squashing in deep architectures. Conversely, spectral graph neural networks leverage global convolution to capture extensive features and long-range dependencies in domain graphs, albeit at a high computational cost due to Eigenvalue decomposition. In this paper, we introduce a novel approach, referred to as Spatio-Spectral Graph Neural Operator (Sp$^2$GNO) that integrates spatial and spectral GNNs effectively. This framework mitigates the limitations of individual methods and enables the learning of solution operators across arbitrary geometries, thus catering to a wide range of real-world problems. Sp$^2$GNO demonstrates exceptional performance in solving both time-dependent and time-independent partial differential equations on regular and irregular domains. Our approach is validated through comprehensive benchmarks and practical applications drawn from computational mechanics and scientific computing literature.
翻訳日:2024-09-06 13:27:04 公開日:2024-09-01
# スタイル移行: スティッチからニューラルネットワークへ

Style Transfer: From Stitching to Neural Networks ( http://arxiv.org/abs/2409.00606v1 )

ライセンス: Link先を確認
Xinhe Xu, Zhuoer Wang, Yihan Zhang, Yizhou Liu, Zhaoyue Wang, Zhihao Xu, Muhan Zhao, (参考訳) 本稿では,既存の画像から小さなパッチを縫い合わせることによって新たなイメージを合成する従来の手法と,前景オブジェクトを分離し,背景のみにスタイル転送を適用するセグメンテーションネットワークを用いた最新の機械学習アプローチとを比較した。 従来の手法は芸術的抽象化の創出に長けているが、シームレスさに苦しむことができる一方、機械学習手法は背景を改良しながら前景要素の整合性を保ち、美的品質と計算効率を向上させる。 本研究は,前景要素の詳細な保存が不可欠である実世界の応用において,機械学習に基づく手法がより適していることを示す。

This article compares two style transfer methods in image processing: the traditional method, which synthesizes new images by stitching together small patches from existing images, and a modern machine learning-based approach that uses a segmentation network to isolate foreground objects and apply style transfer solely to the background. The traditional method excels in creating artistic abstractions but can struggle with seamlessness, whereas the machine learning method preserves the integrity of foreground elements while enhancing the background, offering improved aesthetic quality and computational efficiency. Our study indicates that machine learning-based methods are more suited for real-world applications where detail preservation in foreground elements is essential.
翻訳日:2024-09-06 13:27:04 公開日:2024-09-01
# ハイブリッド機械学習による飛行遅延予測:米国の主要航空会社を事例として

Flight Delay Prediction using Hybrid Machine Learning Approach: A Case Study of Major Airlines in the United States ( http://arxiv.org/abs/2409.00607v1 )

ライセンス: Link先を確認
Rajesh Kumar Jha, Shashi Bhushan Jha, Vijay Pandey, Radu F. Babiceanu, (参考訳) 航空産業は1978年のアメリカの航空産業の規制緩和以降、航空交通が絶え間なく成長してきた。 結果として、フライト遅延は航空会社や乗客にとって大きな関心事となり、出発、到着、総遅延などの飛行遅延に影響する要因について重要な研究がなされた。 飛行遅延により、燃料、労働、資本といった限られた資源の消費が増加し、今後数十年で増加すると予想されている。 本研究は,飛行遅延問題に対処するために,ディープラーニングと古典的機械学習技術を組み合わせたハイブリッドアプローチを提案する。 さらに,複数の機械学習アルゴリズムを飛行データに適用し,提案モデルの有効性を検証した。 モデルの性能を測定するため、精度、精度、リコール、F1スコアを算出し、ROC曲線とAUC曲線を生成する。 調査ではまた、アメリカの航空会社に対する洞察力のある結果を得るために、フライトデータと各モデルの広範な分析も行われた。

The aviation industry has experienced constant growth in air traffic since the deregulation of the U.S. airline industry in 1978. As a result, flight delays have become a major concern for airlines and passengers, leading to significant research on factors affecting flight delays such as departure, arrival, and total delays. Flight delays result in increased consumption of limited resources such as fuel, labor, and capital, and are expected to increase in the coming decades. To address the flight delay problem, this research proposes a hybrid approach that combines the feature of deep learning and classic machine learning techniques. In addition, several machine learning algorithms are applied on flight data to validate the results of proposed model. To measure the performance of the model, accuracy, precision, recall, and F1-score are calculated, and ROC and AUC curves are generated. The study also includes an extensive analysis of the flight data and each model to obtain insightful results for U.S. airlines.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# TinyAgent: エッジでの関数呼び出し

TinyAgent: Function Calling at the Edge ( http://arxiv.org/abs/2409.00608v1 )

ライセンス: Link先を確認
Lutfi Eren Erdogan, Nicholas Lee, Siddharth Jha, Sehoon Kim, Ryan Tabrizi, Suhong Moon, Coleman Hooper, Gopala Anumanchipalli, Kurt Keutzer, Amir Gholami, (参考訳) 近年の大規模言語モデル (LLM) により,様々なツールやAPIを統合して,関数呼び出しによるユーザクエリを満足する高度なエージェントシステムの開発が可能になった。 しかしながら、これらのLSMのエッジへの展開は、モデルのサイズや計算上の要求がかなり大きいため、一般的にクラウドベースのインフラを必要とするため、検討されていない。 この目的のために,タスク固有の小言語モデルエージェントを訓練し,デプロイするためのエンドツーエンドフレームワークであるTinyAgentを紹介した。 まず、LLMCompilerフレームワークを介して、オープンソースモデルの正確な関数呼び出しを可能にする方法を示す。 次に,関数呼び出しのための高品質なデータセットを体系的にキュレートし,TinyAgent-1.1Bと7Bの2つの小言語モデルを微調整する。 効率的な推論のために,入力プロンプト長を削減し,量子化を利用して推論速度をさらに高速化する新しいツール検索手法を提案する。 駆動アプリケーションとして、テキストや音声入力によるユーザコマンドの実行が可能な、AppleのMacBook用のローカルSiriライクなシステムをデモする。 以上の結果から,GPT-4-Turboのような大規模モデルの機能呼び出し能力は,エッジに完全に展開しつつ実現可能であることが示された。 私たちはデータセット、モデル、インストール可能なパッケージをオープンソース化し、MacBookアシスタントエージェントのデモビデオを提供しています。

Recent large language models (LLMs) have enabled the development of advanced agentic systems that can integrate various tools and APIs to fulfill user queries through function calling. However, the deployment of these LLMs on the edge has not been explored since they typically require cloud-based infrastructure due to their substantial model size and computational demands. To this end, we present TinyAgent, an end-to-end framework for training and deploying task-specific small language model agents capable of function calling for driving agentic systems at the edge. We first show how to enable accurate function calling for open-source models via the LLMCompiler framework. We then systematically curate a high-quality dataset for function calling, which we use to fine-tune two small language models, TinyAgent-1.1B and 7B. For efficient inference, we introduce a novel tool retrieval method to reduce the input prompt length and utilize quantization to further accelerate the inference speed. As a driving application, we demonstrate a local Siri-like system for Apple's MacBook that can execute user commands through text or voice input. Our results show that our models can achieve, and even surpass, the function-calling capabilities of larger models like GPT-4-Turbo, while being fully deployed at the edge. We open-source our dataset, models, and installable package and provide a demo video for our MacBook assistant agent.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# proteinRPN: グラフベースの領域提案によるタンパク質機能予測に向けて

ProteinRPN: Towards Accurate Protein Function Prediction with Graph-Based Region Proposals ( http://arxiv.org/abs/2409.00610v1 )

ライセンス: Link先を確認
Shania Mitra, Lei Huang, Manolis Kellis, (参考訳) タンパク質機能予測はバイオインフォマティクスにおいて重要な課題であり、生物学的プロセスや疾患のメカニズムを理解する上で重要な意味を持つ。 配列と機能の関係は広く研究されているが、タンパク質構造を機能に翻訳することは大きな課題を呈し続けている。 構造的および機能的データを統合するCNNやグラフベースのディープラーニングアプローチなど、さまざまなモデルがこれらの課題に対処するために提案されている。 しかしながら、これらの手法は、しばしば、タンパク質の機能に不可欠なキー残基の機能的意義を解明するのに不足する。 コンピュータビジョンにおける領域提案ネットワークに触発されて,正確なタンパク質機能予測のためのタンパク質領域提案ネットワーク(ProteinRPN)を導入する。 具体的には、ProteinRPNの領域提案モジュールコンポーネントは、定義された二次構造と空間的近接性を持つノードを優先する階層認識ノードドロッププーリング層を通して洗練される潜在的機能領域(アンカー)を特定する。 予測された機能ノードの表現は、注意機構を用いて強化され、その後グラフ・マルチセット・トランスフォーマーに入力され、教師付きコントラスト(SupCon)とInfoNCEの損失によってトレーニングされる。 本モデルは,遺伝子オントロジー(GO)用語の予測において,タンパク質構造内の機能的残基を効果的に局在させることにおいて,大幅な改善を示す。 提案フレームワークは、タンパク質機能アノテーションに対する堅牢でスケーラブルなソリューションを提供し、計算生物学におけるタンパク質構造-機能関係の理解を深める。

Protein function prediction is a crucial task in bioinformatics, with significant implications for understanding biological processes and disease mechanisms. While the relationship between sequence and function has been extensively explored, translating protein structure to function continues to present substantial challenges. Various models, particularly, CNN and graph-based deep learning approaches that integrate structural and functional data, have been proposed to address these challenges. However, these methods often fall short in elucidating the functional significance of key residues essential for protein functionality, as they predominantly adopt a retrospective perspective, leading to suboptimal performance. Inspired by region proposal networks in computer vision, we introduce the Protein Region Proposal Network (ProteinRPN) for accurate protein function prediction. Specifically, the region proposal module component of ProteinRPN identifies potential functional regions (anchors) which are refined through the hierarchy-aware node drop pooling layer favoring nodes with defined secondary structures and spatial proximity. The representations of the predicted functional nodes are enriched using attention mechanisms and subsequently fed into a Graph Multiset Transformer, which is trained with supervised contrastive (SupCon) and InfoNCE losses on perturbed protein structures. Our model demonstrates significant improvements in predicting Gene Ontology (GO) terms, effectively localizing functional residues within protein structures. The proposed framework provides a robust, scalable solution for protein function annotation, advancing the understanding of protein structure-function relationships in computational biology.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# DAMe:デュアルアグリゲーション機構を用いた個人化ソーシャルイベント検出

DAMe: Personalized Federated Social Event Detection with Dual Aggregation Mechanism ( http://arxiv.org/abs/2409.00614v1 )

ライセンス: Link先を確認
Xiaoyan Yu, Yifan Wei, Pu Li, Shuaishuai Zhou, Hao Peng, Li Sun, Liehuang Zhu, Philip S. Yu, (参考訳) フェデレートラーニング(FedSED)によるソーシャルイベント検出モデルの訓練は,課題における参加者のパフォーマンス向上を目的としている。 しかし、既存のフェデレート学習パラダイムは、FedSEDの目的達成に不適であり、社会データに固有の不均一性を扱う際の限界を示す。 本稿では,ソーシャルイベント検出のための二重集約機構,すなわちDAMeを用いた個人化学習フレームワークを提案する。 本研究では,局所的な特徴を維持しつつ,グローバルな知識を取り入れたベイズ最適化を利用した新たな局所集約戦略を提案する。 さらに,クライアントの好みに関する最大限の外部知識を提供するグローバルアグリゲーション戦略を導入する。 さらに、局所的な過度なオーバーフィッティングや‘client-drift’を防ぐために、グローバルなイベント中心の制約を組み込んだ。 6つの言語と2つのソーシャルメディアプラットフォームにまたがる6つのソーシャルイベントデータセットを用いて、自然連合環境の現実的なシミュレーション実験を行い、このフレームワークの有効性を実証した。 さらにロバストな分析により、DAMeは注射攻撃に耐性があることが示されている。

Training social event detection models through federated learning (FedSED) aims to improve participants' performance on the task. However, existing federated learning paradigms are inadequate for achieving FedSED's objective and exhibit limitations in handling the inherent heterogeneity in social data. This paper proposes a personalized federated learning framework with a dual aggregation mechanism for social event detection, namely DAMe. We present a novel local aggregation strategy utilizing Bayesian optimization to incorporate global knowledge while retaining local characteristics. Moreover, we introduce a global aggregation strategy to provide clients with maximum external knowledge of their preferences. In addition, we incorporate a global-local event-centric constraint to prevent local overfitting and ``client-drift''. Experiments within a realistic simulation of a natural federated setting, utilizing six social event datasets spanning six languages and two social media platforms, along with an ablation study, have demonstrated the effectiveness of the proposed framework. Further robustness analyses have shown that DAMe is resistant to injection attacks.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# 知識のローカライゼーションは真か? 言語モデルにおけるエンティティとリレーショナルパースペクティブの相違

Does Knowledge Localization Hold True? Surprising Differences Between Entity and Relation Perspectives in Language Models ( http://arxiv.org/abs/2409.00617v1 )

ライセンス: Link先を確認
Yifan Wei, Xiaoyan Yu, Yixuan Weng, Huanhuan Ma, Yuanzhe Zhang, Jun Zhao, Kang Liu, (参考訳) 大規模言語モデルは知識をカプセル化し、様々な自然言語処理タスクにおいて優れた性能を示した。 近年の研究では、中間層におけるMLP重みなどの特定のモデルパラメータにこの知識を局所化している。 本研究では,知識編集による実体的知識と関係的知識の相違について検討する。 この結果から,エンティティとリレーショナルの知識を直接伝達したり,マッピングしたりすることは不可能であることが判明した。 この結果は予想外であり、論理的には、同じ知識内の実体や関係を変更することは、等価な結果をもたらす。 実体的知識と関係的知識の差異をさらに解明するため,我々は因果解析を用いて,関係的知識が事前学習されたモデルにどのように格納されているかを調べる。 MLP重みに知識が格納されていることを示す以前の研究とは対照的に、我々の実験は、関係知識が注目モジュールにコード化されていることも示している。 この洞察は、言語モデルにおける知識記憶の多面的な性質を強調し、これらのモデル内で特定の種類の知識を操作する複雑さを浮き彫りにしている。

Large language models encapsulate knowledge and have demonstrated superior performance on various natural language processing tasks. Recent studies have localized this knowledge to specific model parameters, such as the MLP weights in intermediate layers. This study investigates the differences between entity and relational knowledge through knowledge editing. Our findings reveal that entity and relational knowledge cannot be directly transferred or mapped to each other. This result is unexpected, as logically, modifying the entity or the relation within the same knowledge triplet should yield equivalent outcomes. To further elucidate the differences between entity and relational knowledge, we employ causal analysis to investigate how relational knowledge is stored in pre-trained models. Contrary to prior research suggesting that knowledge is stored in MLP weights, our experiments demonstrate that relational knowledge is also significantly encoded in attention modules. This insight highlights the multifaceted nature of knowledge storage in language models, underscoring the complexity of manipulating specific types of knowledge within these models.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# YOLOO: 他者からしか学ばない

YOLOO: You Only Learn from Others Once ( http://arxiv.org/abs/2409.00618v1 )

ライセンス: Link先を確認
Lipeng Gu, Mingqiang Wei, Xuefeng Yan, Dingkun Zhu, Wei Zhao, Haoran Xie, Yong-Jin Liu, (参考訳) マルチモーダル3Dマルチオブジェクト追跡(MOT)は通常、マルチモーダル表現を抽出するためにディープニューラルネットワーク(DNN)の広範な計算コストを必要とする。 本稿では、推論フェーズにおけるマルチモーダル入力を避けるために、トレーニング中にのみ複数のモーダルから学習できるかどうかという興味深い疑問を提案する。 そこで我々は,新しいマルチモーダル3DMOTパラダイムである‘textbf{YOLOO}: You Only Learn from Others Once’を提案する。 YOLOOはポイントクラウドエンコーダに、ポイントクラウドや他のモダリティ(画像やテキストキューなど)から統一されたトリモーダル表現(UTR)を一度に学習する権限を与える。 この UTR を活用することで、YOLOO はその性能を損なうことなく、ポイントクラウドエンコーダのみを使用して効率的なトラッキングを実現し、計算集約型 DNN の必要性を根本的に回避する。 特に、YOLOOは、2つのコアコンポーネント: 統一三モードエンコーダ(UTEnc)とフレキシブルな幾何学的制約(F-GC)モジュール。 UTEncは、ポイントクラウドエンコーダと、事前訓練されたCLIPから適応した画像およびテキストエンコーダを統合する。 ポイントクラウド情報をCLIPからの豊富な視覚的テクスチャ知識とシームレスに融合してポイントクラウドエンコーダとなり、トラジェクトリと検出の関連を助長する高度に識別可能なUTRが得られる。 さらに、F-GCは類似の表現と一致しないが、重要な位置の相違を除去する。 シーン固有のチューニングを必要とせず、カスタマイズされた幾何学的制約(例: 3D IoU)の鍵となる制限に対処する。 最後に、従来のデータアソシエーションコンポーネントによって高品質な3Dトラジェクトリが生成される。 これらの進歩をマルチモーダルな3D MOTスキームに統合することにより、我々のYOLOOはロバスト性および効率性の両方において大幅に向上する。

Multi-modal 3D multi-object tracking (MOT) typically necessitates extensive computational costs of deep neural networks (DNNs) to extract multi-modal representations. In this paper, we propose an intriguing question: May we learn from multiple modalities only during training to avoid multi-modal input in the inference phase? To answer it, we propose \textbf{YOLOO}, a novel multi-modal 3D MOT paradigm: You Only Learn from Others Once. YOLOO empowers the point cloud encoder to learn a unified tri-modal representation (UTR) from point clouds and other modalities, such as images and textual cues, all at once. Leveraging this UTR, YOLOO achieves efficient tracking solely using the point cloud encoder without compromising its performance, fundamentally obviating the need for computationally intensive DNNs. Specifically, YOLOO includes two core components: a unified tri-modal encoder (UTEnc) and a flexible geometric constraint (F-GC) module. UTEnc integrates a point cloud encoder with image and text encoders adapted from pre-trained CLIP. It seamlessly fuses point cloud information with rich visual-textual knowledge from CLIP into the point cloud encoder, yielding highly discriminative UTRs that facilitate the association between trajectories and detections. Additionally, F-GC filters out mismatched associations with similar representations but significant positional discrepancies. It further enhances the robustness of UTRs without requiring any scene-specific tuning, addressing a key limitation of customized geometric constraints (e.g., 3D IoU). Lastly, high-quality 3D trajectories are generated by a traditional data association component. By integrating these advancements into a multi-modal 3D MOT scheme, our YOLOO achieves substantial gains in both robustness and efficiency.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# 歴史的ラスタライズドマップによるベクトルマップ知覚の強化

Enhancing Vectorized Map Perception with Historical Rasterized Maps ( http://arxiv.org/abs/2409.00620v1 )

ライセンス: Link先を確認
Xiaoyu Zhang, Guangwei Liu, Zihao Liu, Ningyi Xu, Yunhui Liu, Ji Zhao, (参考訳) 自律運転では、鳥眼視(BEV)空間におけるエンドツーエンドのオンラインベクトル化マップ認識への関心が高まっており、従来の高コストオフライン高精細地図(HD)に取って代わる可能性があると期待されている。 しかし、これらの手法の精度と堅牢性は、搭載センサーのみに依存する場合、閉塞や悪天候などの困難な状況において容易に妥協することができる。 本稿では,オンラインベクトル化地図認識を強化するために,低コストな履歴ラスタライズドマップを活用したHRMapNetを提案する。 歴史的ラスタ化マップは、過去の予測されたベクトル化結果から容易に構築でき、貴重な補完情報を提供する。 歴史地図をフル活用するために,BEV機能を強化し,要素クエリをマップする2つの新しいモジュールを提案する。 BEV機能には,画像と過去の地図の両方から特徴をエンコードするために,機能集約モジュールを使用します。 マップ要素クエリでは,クエリの初期化モジュールを設計し,過去のマップから先行したクエリを許容する。 この2つのモジュールは、オンライン知覚における地図情報の活用に寄与する。 我々のHRMapNetは、ほとんどのオンラインベクトル化マップ認識手法と統合することができる。 2つの最先端のメソッドに統合し、nuScenesとArgoverse 2のデータセットのパフォーマンスを大幅に改善します。 ソースコードはhttps://github.com/HXMap/HRMapNet.comで公開されている。

In autonomous driving, there is growing interest in end-to-end online vectorized map perception in bird's-eye-view (BEV) space, with an expectation that it could replace traditional high-cost offline high-definition (HD) maps. However, the accuracy and robustness of these methods can be easily compromised in challenging conditions, such as occlusion or adverse weather, when relying only on onboard sensors. In this paper, we propose HRMapNet, leveraging a low-cost Historical Rasterized Map to enhance online vectorized map perception. The historical rasterized map can be easily constructed from past predicted vectorized results and provides valuable complementary information. To fully exploit a historical map, we propose two novel modules to enhance BEV features and map element queries. For BEV features, we employ a feature aggregation module to encode features from both onboard images and the historical map. For map element queries, we design a query initialization module to endow queries with priors from the historical map. The two modules contribute to leveraging map information in online perception. Our HRMapNet can be integrated with most online vectorized map perception methods. We integrate it in two state-of-the-art methods, significantly improving their performance on both the nuScenes and Argoverse 2 datasets. The source code is released at https://github.com/HXMap/HRMapNet.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# 軌道予測とグラフニューラルネットワークを用いたジレンマゾーンデータマイニングと予測

Roundabout Dilemma Zone Data Mining and Forecasting with Trajectory Prediction and Graph Neural Networks ( http://arxiv.org/abs/2409.00622v1 )

ライセンス: Link先を確認
Manthan Chelenahalli Satish, Duo Lu, Bharatesh Chakravarthi, Mohammad Farhadi, Yezhou Yang, (参考訳) 交通の行き来は、複雑で重要な道路シナリオとして、自動運転車に重大な安全上の課題をもたらす。 特に、円周交差点でジレンマゾーン(DZ)を持つ車両が遭遇することは、重要な懸念事項である。 本稿では、軌道予測を利用してDZイベントを予測する自動システムについて述べる。 本システムは,自律走行と手動走行の両方における安全基準の向上を目的としている。 このアプローチのコアとなるのは、多様なエージェントの軌道を予測し、エージェントのダイナミクスを考慮し、セマンティックマップのような異種データを統合する、モジュラーでグラフ構造化されたリカレントモデルである。 このモデルは、グラフニューラルネットワークに基づいて、DZイベントの予測を支援し、トラフィック管理の意思決定を強化する。 我々は,実環境における交通の交点のデータセットを用いてシステム評価を行った。 実験の結果,我々のジレンマ予測システムは偽陽性率0.1の精度で高い精度を達成できた。 本研究は、自動運転車時代における交差点安全性の保証に寄与する、全周DZデータマイニングと予測の進歩を示す。

Traffic roundabouts, as complex and critical road scenarios, pose significant safety challenges for autonomous vehicles. In particular, the encounter of a vehicle with a dilemma zone (DZ) at a roundabout intersection is a pivotal concern. This paper presents an automated system that leverages trajectory forecasting to predict DZ events, specifically at traffic roundabouts. Our system aims to enhance safety standards in both autonomous and manual transportation. The core of our approach is a modular, graph-structured recurrent model that forecasts the trajectories of diverse agents, taking into account agent dynamics and integrating heterogeneous data, such as semantic maps. This model, based on graph neural networks, aids in predicting DZ events and enhances traffic management decision-making. We evaluated our system using a real-world dataset of traffic roundabout intersections. Our experimental results demonstrate that our dilemma forecasting system achieves a high precision with a low false positive rate of 0.1. This research represents an advancement in roundabout DZ data mining and forecasting, contributing to the assurance of intersection safety in the era of autonomous vehicles.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# エンティティ・バイオレーションを低減した選択型構文解析のためのエンティティ・アウェア・バイファイン注意モデル

Entity-Aware Biaffine Attention Model for Improved Constituent Parsing with Reduced Entity Violations ( http://arxiv.org/abs/2409.00625v1 )

ライセンス: Link先を確認
Xinyi Bai, (参考訳) 選挙区解析は、文をサブフレーズまたは構成要素に分割して分析することを含む。 多くのディープニューラルネットワークモデルは、このタスクで最先端のパフォーマンスを達成したが、エンティティが完全なサブツリーを作るのに失敗するエンティティ違反の問題をしばしば見落としている。 そこで本稿では,構成構文解析のためのエンティティ対応バイファインアテンションモデルを提案する。 このモデルは、潜在的なフレーズに付加的なエンティティロールベクトルを使用することで、エンティティ情報をバイファインアテンション機構に組み込むことにより、解析精度を高める。 我々は、解析結果におけるエンティティ違反の程度を定量化するために、新しいメトリクスであるEntity Violating Rate(EVR)を導入する。 ONTONOTES, PTB, CTB-demonstrateの3つの一般的なデータセットに対する実験により, 我々のモデルは, 既存のモデルに匹敵する高精度, リコール, F1スコアを維持しながら, 最低のEVRを実現している。 文感情分析などの下流タスクのさらなる評価は、我々のモデルの有効性と提案したEVRメトリックの有効性を強調している。

Constituency parsing involves analyzing a sentence by breaking it into sub-phrases, or constituents. While many deep neural models have achieved state-of-the-art performance in this task, they often overlook the entity-violating issue, where an entity fails to form a complete sub-tree in the resultant parsing tree. To address this, we propose an entity-aware biaffine attention model for constituent parsing. This model incorporates entity information into the biaffine attention mechanism by using additional entity role vectors for potential phrases, which enhances the parsing accuracy. We introduce a new metric, the Entity Violating Rate (EVR), to quantify the extent of entity violations in parsing results. Experiments on three popular datasets-ONTONOTES, PTB, and CTB-demonstrate that our model achieves the lowest EVR while maintaining high precision, recall, and F1-scores comparable to existing models. Further evaluation in downstream tasks, such as sentence sentiment analysis, highlights the effectiveness of our model and the validity of the proposed EVR metric.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# アフリカ4言語に対するFLORES評価データセットの修正

Correcting FLORES Evaluation Dataset for Four African Languages ( http://arxiv.org/abs/2409.00626v1 )

ライセンス: Link先を確認
Idris Abdulmumin, Sthembiso Mkhwanazi, Mahlatse S. Mbooi, Shamsuddeen Hassan Muhammad, Ibrahim Said Ahmad, Neo Putini, Miehleketo Mathebula, Matimba Shingange, Tajuddeen Gwadabe, Vukosi Marivate, (参考訳) 本稿では,アフリカ4言語(Hausa,Northern Sotho (Sepedi),Xitsonga,isiZulu)に対するFLORES評価データセットの修正について述べる。 オリジナルのデータセットは低リソース言語をカバーしているが、レビューされた言語では様々な不整合や不正確性を示しており、自然言語処理(NLP)における下流タスクの評価の完全性、特に機械翻訳を妨げている可能性がある。 ネイティブスピーカーによる綿密なレビュープロセスを通じて、いくつかの修正が特定され、実装され、データセットの全体的な品質と信頼性が改善された。 各言語に対して、遭遇したエラーの簡潔な要約と、既存のデータセットと修正されたデータセットの差を測定する統計分析を提供する。 我々は,この修正によってデータの言語的正確性と信頼性が向上し,アフリカ4言語を含むNLPタスクのより効果的な評価に寄与すると考えている。

This paper describes the corrections made to the FLORES evaluation (dev and devtest) dataset for four African languages, namely Hausa, Northern Sotho (Sepedi), Xitsonga and isiZulu. The original dataset, though groundbreaking in its coverage of low-resource languages, exhibited various inconsistencies and inaccuracies in the reviewed languages that could potentially hinder the integrity of the evaluation of downstream tasks in natural language processing (NLP), especially machine translation. Through a meticulous review process by native speakers, several corrections were identified and implemented, improving the dataset's overall quality and reliability. For each language, we provide a concise summary of the errors encountered and corrected, and also present some statistical analysis that measure the difference between the existing and corrected datasets. We believe that our corrections enhance the linguistic accuracy and reliability of the data and, thereby, contributing to more effective evaluation of NLP tasks involving the four African languages.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# オンラインファンタジースポーツにおけるアップセールの影響評価

Assessing the Impact of Upselling in Online Fantasy Sports ( http://arxiv.org/abs/2409.00629v1 )

ライセンス: Link先を確認
Aayush Chaudhary, (参考訳) 本研究では,ユーザエンゲージメントに対するアップセールの影響について検討する。 我々は,ファンタジースポーツプラットフォームDream11上でのユーザの預金行動のモデル化を行う。 次に, 強度パラメーターを用いて, 販売効果を評価する実験フレームワークを開発した。 ユーザ寄託行動のライブ実験により, 利用者のリコールが減少し, 売り上げ増加がみられた。 以上の結果から,販売力の増加はユーザの預金量を増加させ,同時にユーザの満足度やコンバージョン率を低下させることが示唆された。 我々は、堅牢なカウンターファクト分析を行い、因果メタラーナーを訓練し、最適なトレードオフ点に達するために、利用者の誇張強度レベルをパーソナライズする。

This study explores the impact of upselling on user engagement. We model users' deposit behaviour on the fantasy sports platform Dream11. Subsequently, we develop an experimental framework to evaluate the effect of upselling using an intensity parameter. Our live experiments on user deposit behaviour reveal decreased user recall with heightened upselling intensity. Our findings indicate that increased upselling intensity improves user deposit metrics and concurrently diminishes user satisfaction and conversion rates. We conduct robust counterfactual analysis and train causal meta-learners to personalise users' upselling intensity levels to reach an optimal trade-off point.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# 評価器としてのLCM:バグレポート要約のための新しいアプローチ

LLMs as Evaluators: A Novel Approach to Evaluate Bug Report Summarization ( http://arxiv.org/abs/2409.00630v1 )

ライセンス: Link先を確認
Abhishek Kumar, Sonia Haiduc, Partha Pratim Das, Partha Pratim Chakrabarti, (参考訳) ソフトウェアアーティファクトの要約は、徹底的に研究されている重要なタスクです。 ソフトウェア要約アプローチを評価する上で、人間の判断は依然として最も信頼できる評価である。 しかし、評価には時間がかかるため、スケールと再現が困難である。 大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な能力を示しており、ソフトウェアアーティファクトの要約を目的としたアプローチに対する自動評価者としての可能性を探る動機となっている。 本研究では,LSMがバグレポートの要約を効果的に評価できるかどうかを検討する。 我々は,ヒトと3つのLDM(GPT-4o, LLaMA-3, Gemini)に同じバグ要約問題を提示し,適切なバグレポートタイトルと一連のオプションからバグレポートの要約を選択する実験を行った。 GPT-4o は他の LLM よりも優れた成績を示した。 加えて、人間もLLMも一貫した意思決定を示したが、人間は疲労を経験し、時間の経過とともに精度に影響を及ぼした。 以上の結果から,LSMはバグレポート要約のための自動評価器としての可能性を示し,人的評価器の労力と疲労を低減しつつ,評価のスケールアップを可能にする可能性が示唆された。

Summarizing software artifacts is an important task that has been thoroughly researched. For evaluating software summarization approaches, human judgment is still the most trusted evaluation. However, it is time-consuming and fatiguing for evaluators, making it challenging to scale and reproduce. Large Language Models (LLMs) have demonstrated remarkable capabilities in various software engineering tasks, motivating us to explore their potential as automatic evaluators for approaches that aim to summarize software artifacts. In this study, we investigate whether LLMs can evaluate bug report summarization effectively. We conducted an experiment in which we presented the same set of bug summarization problems to humans and three LLMs (GPT-4o, LLaMA-3, and Gemini) for evaluation on two tasks: selecting the correct bug report title and bug report summary from a set of options. Our results show that LLMs performed generally well in evaluating bug report summaries, with GPT-4o outperforming the other LLMs. Additionally, both humans and LLMs showed consistent decision-making, but humans experienced fatigue, impacting their accuracy over time. Our results indicate that LLMs demonstrate potential for being considered as automated evaluators for bug report summarization, which could allow scaling up evaluations while reducing human evaluators effort and fatigue.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# ViTベースのマルチビュー3DディテクターをToken Compressionで高速化

Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression ( http://arxiv.org/abs/2409.00633v1 )

ライセンス: Link先を確認
Dingyuan Zhang, Dingkang Liang, Zichang Tan, Xiaoqing Ye, Cheng Zhang, Jingdong Wang, Xiang Bai, (参考訳) スロー推論速度は、自律運転のようなリアルタイムの要求の高いタスクにマルチビュー3D検出器を配置する上で最も重要な問題の一つである。 多くのスパースクエリーベースの手法が既に3D検出器の効率改善を試みているが、特に視覚変換器(ViT)を高性能に使用する場合、バックボーンを考慮しない。 そこで本稿では,トークン圧縮による多視点3D検出のための効率的なViTバックボーンについて検討し,TokenCompression3D (ToC3D) と呼ばれるシンプルな手法を提案する。 歴史オブジェクトクエリを高品質のフォアグラウンド先行として活用し、3Dモーション情報をモデル化し、アテンション機構を介して画像トークンと対話することにより、ToC3Dは画像トークンの情報密度の規模を効果的に決定し、聖なるフォアグラウンドトークンを分割することができる。 導入された動的ルータの設計により、ToC3Dは情報損失を圧縮しながら重要なフォアグラウンドトークンにより多くのコンピューティングリソースを重み付けすることができ、より効率的なViTベースのマルチビュー3D検出器となる。 大規模なnuScenesデータセットの大規模な結果から,提案手法は最大30%の推論スピードアップで最近のSOTAの性能をほぼ維持でき,ViTのスケールアップと入力解像度の向上により改善が一貫したことを示す。 コードはhttps://github.com/DYZhang09/ToC3Dで作成されます。

Slow inference speed is one of the most crucial concerns for deploying multi-view 3D detectors to tasks with high real-time requirements like autonomous driving. Although many sparse query-based methods have already attempted to improve the efficiency of 3D detectors, they neglect to consider the backbone, especially when using Vision Transformers (ViT) for better performance. To tackle this problem, we explore the efficient ViT backbones for multi-view 3D detection via token compression and propose a simple yet effective method called TokenCompression3D (ToC3D). By leveraging history object queries as foreground priors of high quality, modeling 3D motion information in them, and interacting them with image tokens through the attention mechanism, ToC3D can effectively determine the magnitude of information densities of image tokens and segment the salient foreground tokens. With the introduced dynamic router design, ToC3D can weigh more computing resources to important foreground tokens while compressing the information loss, leading to a more efficient ViT-based multi-view 3D detector. Extensive results on the large-scale nuScenes dataset show that our method can nearly maintain the performance of recent SOTA with up to 30% inference speedup, and the improvements are consistent after scaling up the ViT and input resolution. The code will be made at https://github.com/DYZhang09/ToC3D.
翻訳日:2024-09-06 13:27:03 公開日:2024-09-01
# IGEV++: ステレオマッチングのための反復的マルチレンジ幾何符号化ボリューム

IGEV++: Iterative Multi-range Geometry Encoding Volumes for Stereo Matching ( http://arxiv.org/abs/2409.00638v1 )

ライセンス: Link先を確認
Gangwei Xu, Xianqi Wang, Zhaoxing Zhang, Junda Cheng, Chunyuan Liao, Xin Yang, (参考訳) ステレオマッチングは多くのコンピュータビジョンとロボティクスシステムの中核的なコンポーネントである。 過去10年間で大きな進歩があったにもかかわらず、不適切な地域や大きな格差におけるあいまいさの対応は依然としてオープンな課題である。 本稿では,ステレオマッチングのための新しいディープネットワークアーキテクチャIGEV++を提案する。 提案したIGEV++は,不適切な領域の粗粒度と細粒度と細粒度と細粒度とをエンコードするMGEV(Multi-range Geometry Encoding Volumes)を構築する。 MGEVを構築するために,大規模な不均等領域や不整合領域のマッチングコストを効率よく効果的に計算する適応型パッチマッチングモジュールを提案する。 さらに,MGEVにおける多範囲および多粒度特徴を適応的に融合する選択的幾何特徴融合モジュールを提案する。 次に、融合した幾何学的特徴をインデックス化し、それをConvGRUsに入力し、不均一写像を反復的に更新する。 MGEVは、オクルージョンやテクスチャレスのような大きな不均一な領域を効率的に扱うことができ、イテレーション中に急速に収束する。 私たちのIGEV++は、Scene Flowテストセットで最大768pxまで、すべての異なる範囲で最高のパフォーマンスを実現しています。 私たちのIGEV++は、Middlebury、ETH3D、KITTI 2012、2015ベンチマークの最先端の精度も達成しています。 具体的には、IGEV++は大きな格差ベンチマークであるMiddleburyで3.23%の2ピクセルアウトリーレート(Bad 2.0)を達成し、RAFT-StereoやGMStereoと比較してエラーが31.9%、54.8%減少した。 また、IGEV++のリアルタイムバージョンを提示し、KITTIベンチマークで公開されたすべてのリアルタイムメソッドの中で最高のパフォーマンスを達成する。 コードはhttps://github.com/gangweiX/IGEV-plusplusで公開されている。

Stereo matching is a core component in many computer vision and robotics systems. Despite significant advances over the last decade, handling matching ambiguities in ill-posed regions and large disparities remains an open challenge. In this paper, we propose a new deep network architecture, called IGEV++, for stereo matching. The proposed IGEV++ builds Multi-range Geometry Encoding Volumes (MGEV) that encode coarse-grained geometry information for ill-posed regions and large disparities and fine-grained geometry information for details and small disparities. To construct MGEV, we introduce an adaptive patch matching module that efficiently and effectively computes matching costs for large disparity ranges and/or ill-posed regions. We further propose a selective geometry feature fusion module to adaptively fuse multi-range and multi-granularity geometry features in MGEV. We then index the fused geometry features and input them to ConvGRUs to iteratively update the disparity map. MGEV allows to efficiently handle large disparities and ill-posed regions, such as occlusions and textureless regions, and enjoys rapid convergence during iterations. Our IGEV++ achieves the best performance on the Scene Flow test set across all disparity ranges, up to 768px. Our IGEV++ also achieves state-of-the-art accuracy on the Middlebury, ETH3D, KITTI 2012, and 2015 benchmarks. Specifically, IGEV++ achieves a 3.23% 2-pixel outlier rate (Bad 2.0) on the large disparity benchmark, Middlebury, representing error reductions of 31.9% and 54.8% compared to RAFT-Stereo and GMStereo, respectively. We also present a real-time version of IGEV++ that achieves the best performance among all published real-time methods on the KITTI benchmarks. The code is publicly available at https://github.com/gangweiX/IGEV-plusplus
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 内視鏡検査のための消化器出血解析における人工知能:2008-2023年の展望, イノベーション, 展望

Artificial Intelligence in Gastrointestinal Bleeding Analysis for Video Capsule Endoscopy: Insights, Innovations, and Prospects (2008-2023) ( http://arxiv.org/abs/2409.00639v1 )

ライセンス: Link先を確認
Tanisha Singh, Shreshtha Jha, Nidhi Bhatt, Palak Handa, Nidhi Goel, Sreedevi Indu, (参考訳) 消化器出血に伴う世界的な死亡率と死亡率の増大は、従来の内視鏡的手法の複雑さと限界によって複雑化され、この状況に対処するために使用される現在の方法に対する緊急のレビューの必要性が浮き彫りにされている。 世界中で30万人が死亡し、革新的な診断・治療戦略の需要が最多となっている。 ビデオカプセル内視鏡(VCE)の導入は、従来の方法では達成できない出血源を検出するために重要な、消化路の包括的かつ非侵襲的な可視化を提供する、顕著な進歩を遂げた。 その利点にもかかわらず、VCEの有効性は、時間を要する分析や人間のエラーに対する感受性など、診断上の課題によって妨げられている。 この背景は、カプセル内視鏡内でGI出血検出を自動化する機械学習(ML)アプリケーションを探索し、診断精度を高め、手作業を減らすこと、患者の成果を改善することを目的としている。 2008年から2023年にかけて発行された113の論文の徹底的な分析を通じて、出血検出におけるML方法論の現状を評価し、その効果、課題、今後の方向性を明らかにする。 これは、VCEフレーム分析におけるAIテクニックの詳細な調査に貢献し、オープンソースのデータセット、数学的パフォーマンスメトリクス、テクニック分類に関する洞察を提供する。 本論文は,既存の課題を克服し,学際的なコラボレーションを通じて消化器診断を推進し,MLアプリケーションに革新をもたらすための,今後の研究基盤を定めている。

The escalating global mortality and morbidity rates associated with gastrointestinal (GI) bleeding, compounded by the complexities and limitations of traditional endoscopic methods, underscore the urgent need for a critical review of current methodologies used for addressing this condition. With an estimated 300,000 annual deaths worldwide, the demand for innovative diagnostic and therapeutic strategies is paramount. The introduction of Video Capsule Endoscopy (VCE) has marked a significant advancement, offering a comprehensive, non-invasive visualization of the digestive tract that is pivotal for detecting bleeding sources unattainable by traditional methods. Despite its benefits, the efficacy of VCE is hindered by diagnostic challenges, including time-consuming analysis and susceptibility to human error. This backdrop sets the stage for exploring Machine Learning (ML) applications in automating GI bleeding detection within capsule endoscopy, aiming to enhance diagnostic accuracy, reduce manual labor, and improve patient outcomes. Through an exhaustive analysis of 113 papers published between 2008 and 2023, this review assesses the current state of ML methodologies in bleeding detection, highlighting their effectiveness, challenges, and prospective directions. It contributes an in-depth examination of AI techniques in VCE frame analysis, offering insights into open-source datasets, mathematical performance metrics, and technique categorization. The paper sets a foundation for future research to overcome existing challenges, advancing gastrointestinal diagnostics through interdisciplinary collaboration and innovation in ML applications.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 社会経済・政治要因に基づく米国全土の時系列犯罪予測

Time-series Crime Prediction Across the United States Based on Socioeconomic and Political Factors ( http://arxiv.org/abs/2409.00640v1 )

ライセンス: Link先を確認
Patricia Dao, Jashmitha Sappa, Saanvi Terala, Tyson Wong, Michael Lam, Kevin Zhu, (参考訳) 従来の犯罪予測手法は、犯罪が急速に増加するにつれて予測を生成する際に遅く、非効率である。 従来の犯罪予測手法を強化するために、性別比、高校卒業率、政治的地位、失業率、州ごとの中央値所得を含むデータセットを用いて、長期記憶・累積単位モデルを構築した。 他にも犯罪予測ツールはあるかもしれないが、手選択された要因でモデルをパーソナライズすることは、プロジェクトにユニークなギャップを与える。 効果的なモデルを作成することで、政策立案者は犯罪に影響を及ぼす地域において、特定の資源や法律を戦略的に割り当てることができる。 このモデルの平均損失値は70.792.30であり、平均エラー率は9.74パーセントであるが、どちらの値も極端な外れ値の影響を受け、正しい最適化が可能である。

Traditional crime prediction techniques are slow and inefficient when generating predictions as crime increases rapidly \cite{r15}. To enhance traditional crime prediction methods, a Long Short-Term Memory and Gated Recurrent Unit model was constructed using datasets involving gender ratios, high school graduation rates, political status, unemployment rates, and median income by state over multiple years. While there may be other crime prediction tools, personalizing the model with hand picked factors allows a unique gap for the project. Producing an effective model would allow policymakers to strategically allocate specific resources and legislation in geographic areas that are impacted by crime, contributing to the criminal justice field of research \cite{r2A}. The model has an average total loss value of 70.792.30, and a average percent error of 9.74 percent, however both of these values are impacted by extreme outliers and with the correct optimization may be corrected.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 位相感度におけるクレーマー・ラオ境界を超える超高分解能分光計

A superresolution-enhanced spectrometer beyond the Cramer-Rao bound in phase sensitivity ( http://arxiv.org/abs/2409.00642v1 )

ライセンス: Link先を確認
Byoung S. Ham, (参考訳) 精密測定は、センシングと気象学において重要な研究領域である。 古典物理学において、フィッシャー情報は、独立かつ同一に分布する確率変数の結合確率密度関数に基づいて、統計的に未知の信号から最大抽出可能な情報を決定する。 Cramer-Rao lower bound (CRLB) はフィッシャー情報の最小誤差を示し、一般にショットノイズ限界と呼ばれる。 一方、コヒーレンスは1次強度相関に限定された多波長干渉を用いた回折限界をさらに克服した。 しかし、実際の実装は、例えば光学格子におけるリソグラフィの制約によって制限される。 近年,位相制御出力場の高次強度相関を用いて位相感度の回折限界を克服するために,超解像のコヒーレンス手法が導入された。 ここでは、高分解能の周波数分解能がCRLBを克服する強度-生成次数に線形に比例する光学分光計において、高精度のメトロジーにスーパーレゾリューションを用いる。 絡み合った光子を用いた量子センシングとは異なり、この技術は純粋に古典的で環境騒音に対して堅牢な性能を提供し、干渉計走査モードの恩恵を受けている。

Precision measurement has been an important research area in sensing and metrology. In classical physics, the Fisher information determines the maximum extractable information from statistically unknown signals, based on a joint probability density function of independently and identically distributed random variables. The Cramer-Rao lower bound (CRLB) indicates the minimum error of the Fisher information, generally known as the shot-noise limit. On the other hand, coherence has pushed the resolution limit further overcoming the diffraction limit using many-wave interference strictly confined to the first-order intensity correlation. However, practical implementation is limited by the lithographic constraints in, e.g., optical gratings. Recently, a coherence technique of superresolution has been introduced to overcome the diffraction limit in phase sensitivity using higher-order intensity correlations of a phase-controlled output field from an interferometer. Here, the superresolution is adopted for precision metrology in an optical spectrometer, whose enhanced frequency resolution is linearly proportional to the intensity-product order, overcoming CRLB. Unlike quantum sensing using entangled photons, this technique is purely classical and offers robust performance against environmental noises, benefiting from the interferometer scanning mode for fringe counting.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 知識データ融合指向トラフィック状態推定:確率物理学インフォームドディープラーニングアプローチ

Knowledge-data fusion oriented traffic state estimation: A stochastic physics-informed deep learning approach ( http://arxiv.org/abs/2409.00644v1 )

ライセンス: Link先を確認
Ting Wang, Ye Li, Rongjun Cheng, Guojian Zou, Takao Dantsujic, Dong Ngoduy, (参考訳) 近年,物理インフォームド・ディープ・ラーニング(PIDL)に基づくモデルが交通状態推定(TSE)において顕著な成功を収めている。 しかし、現在の主流アーキテクチャにおける正規化トレーニングを導くための事前知識は、決定論的物理モデルに基づいている。 欠点は、単項決定論的モデルが普遍的に観察される交通流のダイナミック散乱効果を捉えることに失敗し、それによって交通制御に対する信頼性の低い結果が得られることである。 本研究は,交通状態推定のための確率物理学情報深層学習(SPIDL)を初めて提案する。 そのようなSPIDLの背景にある考え方は単純であり、確率的基本図が関連する確率を持つ任意の密度に対して可能な速度の全範囲を提供するという事実に基づいている。 具体的には、パーセンタイルに基づく基本図と分布に基づく基本図を確率物理学の知識として選択し、それに対応する物理非形式ニューラルネットワークを効果的融合のために設計し、それによって2つの特定のSPIDLモデル、すなわち \text{$\alpha$}-SPIDLと \text{$\cal B$}-SPIDLを実現する。 SPIDLの主な貢献は、ニューラルネットワークトレーニング中の決定論的モデルにおける1対1の速度密度関係に起因する"過度に集中的なガイダンス"に対処することであり、ネットワークがより信頼性の高い知識ベースの制約を消化できるようにする。 より重要なのは、SPIDLモデルがフィールド観測の散乱効果をうまく再現し、深層学習フレームワークを用いた確率的物理モデル知識の融合の有効性を実証することである。

Physics-informed deep learning (PIDL)-based models have recently garnered remarkable success in traffic state estimation (TSE). However, the prior knowledge used to guide regularization training in current mainstream architectures is based on deterministic physical models. The drawback is that a solely deterministic model fails to capture the universally observed traffic flow dynamic scattering effect, thereby yielding unreliable outcomes for traffic control. This study, for the first time, proposes stochastic physics-informed deep learning (SPIDL) for traffic state estimation. The idea behind such SPIDL is simple and is based on the fact that a stochastic fundamental diagram provides the entire range of possible speeds for any given density with associated probabilities. Specifically, we select percentile-based fundamental diagram and distribution-based fundamental diagram as stochastic physics knowledge, and design corresponding physics-uninformed neural networks for effective fusion, thereby realizing two specific SPIDL models, namely \text{$\alpha$}-SPIDL and \text{$\cal B$}-SPIDL. The main contribution of SPIDL lies in addressing the "overly centralized guidance" caused by the one-to-one speed-density relationship in deterministic models during neural network training, enabling the network to digest more reliable knowledge-based constraints.Experiments on the real-world dataset indicate that proposed SPIDL models achieve accurate traffic state estimation in sparse data scenarios. More importantly, as expected, SPIDL models reproduce well the scattering effect of field observations, demonstrating the effectiveness of fusing stochastic physics model knowledge with deep learning frameworks.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 乳房超音波画像における腫瘍分離のためのU-Netエンコーダデコーダアーキテクチャの修正

Modifying the U-Net's Encoder-Decoder Architecture for Segmentation of Tumors in Breast Ultrasound Images ( http://arxiv.org/abs/2409.00647v1 )

ライセンス: Link先を確認
Sina Derakhshandeh, Ali Mahloojifar, (参考訳) セグメンテーションは画像処理における最も重要なステップの1つである。 画像のセグメント化は、画像内の画素の異なる特性に基づいて、デジタル画像を様々な領域に分割することを可能にする技術である。 特に乳房超音波像のセグメンテーションは、がんの同定に広く用いられている。 画像分割の結果,医療画像による早期診断を極めて効果的に行うことが可能となった。 スペックルノイズ、低信号-雑音比、強度の不均一性などの様々な超音波アーチファクトやノイズのため、超音波画像などの医療画像の正確な分割処理は依然として難しい課題である。 本稿では,乳房超音波画像分割の精度と有効性を改善するための新しい手法を提案する。 より正確には、U-Netとエンコーダデコーダアーキテクチャに基づくニューラルネットワーク(NN)を提案する。 U-Netをベースとすることで、U-Netと他のディープニューラルネットワーク(Res-NetとMultiResUNet)を組み合わせて、可能な限り低レベルと高レベルの機能を保持する新しいアプローチとブロック(Co-Block)を導入することで、エンコーダとデコーダの両方を開発できる。 設計したネットワークは,Breast Ultrasound Images (BUSI) データセットを用いて評価される。 780枚の画像で構成され、画像は正常、良性、悪性の3つのクラスに分類される。 パブリックな乳房超音波データセットの広範な評価によると、デザインされたネットワークは、他の最先端のディープラーニング手法よりも正確に乳房の病変を分割する。 我々のネットワーク(CResU-Net)はわずか8.88Mパラメータで、BUSIデータセット上でそれぞれ76.88%、71.5%、90.3%、97.4%のDice類似度係数(DSC)、Intersection over Union(IoU)、AUC(Area Under curve)、グローバル精度(ACC)を得た。

Segmentation is one of the most significant steps in image processing. Segmenting an image is a technique that makes it possible to separate a digital image into various areas based on the different characteristics of pixels in the image. In particular, segmentation of breast ultrasound images is widely used for cancer identification. As a result of image segmentation, it is possible to make early diagnoses of diseases via medical images in a very effective way. Due to various ultrasound artifacts and noises, including speckle noise, low signal-to-noise ratio, and intensity heterogeneity, the process of accurately segmenting medical images, such as ultrasound images, is still a challenging task. In this paper, we present a new method to improve the accuracy and effectiveness of breast ultrasound image segmentation. More precisely, we propose a Neural Network (NN) based on U-Net and an encoder-decoder architecture. By taking U-Net as the basis, both encoder and decoder parts are developed by combining U-Net with other Deep Neural Networks (Res-Net and MultiResUNet) and introducing a new approach and block (Co-Block), which preserves as much as possible the low-level and the high-level features. The designed network is evaluated using the Breast Ultrasound Images (BUSI) Dataset. It consists of 780 images and the images are categorized into three classes, which are normal, benign, and malignant. According to our extensive evaluations of a public breast ultrasound dataset, the designed network segments the breast lesions more accurately than other state-of-the-art deep learning methods. With only 8.88M parameters, our network (CResU-Net) obtained 76.88%, 71.5%, 90.3%, and 97.4% in terms of Dice similarity coefficients (DSC), Intersection over Union (IoU), Area under curve (AUC), and global accuracy (ACC), respectively, on BUSI dataset.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# DeReStainer: Decoupled Staining ChannelsによるH&EからIHCへの画像翻訳

DeReStainer: H&E to IHC Pathological Image Translation via Decoupled Staining Channels ( http://arxiv.org/abs/2409.00649v1 )

ライセンス: Link先を確認
Linda Wei, Shengyi Hua, Shaoting Zhang, Xiaofan Zhang, (参考訳) 乳癌は女性のがんの中で非常に致命的な病気であり、早期発見は治療に不可欠である。 HER2は免疫組織化学(IHC)染色に基づく診断マーカーであり,乳癌の診断に有用である。 IHC染色の高コスト化とヘマトキシリンおよびエオシン(H&E)染色の有用性により、H&EからIHC染色への変換が必須となる。 本稿では,H&E染色をIHC染色に変換し,H&E染色と同一組織部位のIHC染色がヘマトキシリンチャネルを共用する特徴を生かして,H&E染色をIHC染色に変換するための持続的フレームワークを提案する。 我々はさらにヘマトキシリンおよびジアミノベンジジン(DAB)チャネルに特異的な損失関数を設計し、分離した染色チャネルからの洞察を利用したIHC画像を生成する。 BCIコンテストのベンチマーク指標以外にも,HER2レベルの意味情報メトリクスを開発した。 実験の結果,提案手法は画像固有の特性や意味情報の観点から,従来のオープンソース手法よりも優れていた。

Breast cancer is a highly fatal disease among cancers in women, and early detection is crucial for treatment. HER2 status, a valuable diagnostic marker based on Immunohistochemistry (IHC) staining, is instrumental in determining breast cancer status. The high cost of IHC staining and the ubiquity of Hematoxylin and Eosin (H&E) staining make the conversion from H&E to IHC staining essential. In this article, we propose a destain-restain framework for converting H&E staining to IHC staining, leveraging the characteristic that H&E staining and IHC staining of the same tissue sections share the Hematoxylin channel. We further design loss functions specifically for Hematoxylin and Diaminobenzidin (DAB) channels to generate IHC images exploiting insights from separated staining channels. Beyond the benchmark metrics on BCI contest, we have developed semantic information metrics for the HER2 level. The experimental results demonstrated that our method outperforms previous open-sourced methods in terms of image intrinsic property and semantic information.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 生態移動モデルにおける分岐検出のための物理情報ニューラルネットワークの適用

Adapting Physics-Informed Neural Networks for Bifurcation Detection in Ecological Migration Models ( http://arxiv.org/abs/2409.00651v1 )

ライセンス: Link先を確認
Lujie Yin, Xing Lv, (参考訳) 本研究では,生物移動モデルにおける分岐現象の解析への物理情報ニューラルネットワーク(PINN)の適用について検討する。 拡散-対流-反応方程式の基本原理を深層学習技術と組み合わせることで、種移動力学の複雑さ、特にホップ分岐の検出と解析に焦点を当てる。 偏微分方程式(PDE)を解く従来の数値解法は、複雑な計算と計算資源が伴うことが多く、高次元問題では限定的である。 対照的にPINNは、グリッドの離散化の必要性を回避し、メッシュフリーなソリューションを可能にする、より柔軟で効率的な代替手段を提供する。 提案手法は,高次元PDEの解法におけるPINNの計算効率と適用性を向上するDeepXDEフレームワークを活用する。 本研究は従来の手法に対して検証を行い,PINNが正確な分岐予測を提供するだけでなく,拡散過程の基盤となるダイナミクスに関する深い知見を提供することを示す。 これらの利点にもかかわらず、この研究は高い計算コストやネットワークアーキテクチャやハイパーパラメータ設定に対するPINN性能の感度といった課題も挙げている。 将来的には、これらのアルゴリズムの最適化と、分岐を含む他の複雑なシステムへのアプリケーション拡張に注力する予定である。 本研究から得られた知見は, 生態系のモデリングと解析に重要な意味を持ち, 複雑な動的挙動を予測・理解するための強力なツールを提供する。

In this study, we explore the application of Physics-Informed Neural Networks (PINNs) to the analysis of bifurcation phenomena in ecological migration models. By integrating the fundamental principles of diffusion-advection-reaction equations with deep learning techniques, we address the complexities of species migration dynamics, particularly focusing on the detection and analysis of Hopf bifurcations. Traditional numerical methods for solving partial differential equations (PDEs) often involve intricate calculations and extensive computational resources, which can be restrictive in high-dimensional problems. In contrast, PINNs offer a more flexible and efficient alternative, bypassing the need for grid discretization and allowing for mesh-free solutions. Our approach leverages the DeepXDE framework, which enhances the computational efficiency and applicability of PINNs in solving high-dimensional PDEs. We validate our results against conventional methods and demonstrate that PINNs not only provide accurate bifurcation predictions but also offer deeper insights into the underlying dynamics of diffusion processes. Despite these advantages, the study also identifies challenges such as the high computational costs and the sensitivity of PINN performance to network architecture and hyperparameter settings. Future work will focus on optimizing these algorithms and expanding their application to other complex systems involving bifurcations. The findings from this research have significant implications for the modeling and analysis of ecological systems, providing a powerful tool for predicting and understanding complex dynamical behaviors.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 種子対種子:拡散種子空間における画像翻訳

Seed-to-Seed: Image Translation in Diffusion Seed Space ( http://arxiv.org/abs/2409.00654v1 )

ライセンス: Link先を確認
Or Greenberg, Eran Kishon, Dani Lischinski, (参考訳) 本稿では,拡散モデル(DM)を用いた画像間翻訳の新しい手法であるシード・ツー・シード翻訳(StS)について紹介する。 拡散サンプリングの過程で画像を変更する既存の手法とは対照的に,事前に訓練されたDMの逆種子空間内に符号化された意味情報を利用して,シード空間と呼ぶ。 本研究では,倒立種子を識別的タスクに使用することができ,また,画像から画像への変換設定において,所望の変換を実現するために操作することもできることを示す。 本手法は,CycleGANに基づいて,ソースとターゲット種子間の不対訳モデルであるsts-GANを訓練することを含む。 最終翻訳画像は、翻訳された種子からDMのサンプリングプロセスを開始することによって得られる。 ControlNetは、入力画像の構造保存を保証するために使用される。 本稿では,既存のGAN法や拡散法よりも優れた性能を示す自動車シーンの翻訳作業や,その他の未完成画像翻訳作業に対するアプローチの有効性を実証する。 提案手法は,事前訓練されたDMのシード空間内に符号化された意味情報を有効画像編集・操作に利用するための新たな視点を提供する。

We introduce Seed-to-Seed Translation (StS), a novel approach for Image-to-Image Translation using diffusion models (DMs), aimed at translations that require close adherence to the structure of the source image. In contrast to existing methods that modify images during the diffusion sampling process, we leverage the semantic information encoded within the space of inverted seeds of a pretrained DM, dubbed as the seed-space. We demonstrate that inverted seeds can be used for discriminative tasks, and can also be manipulated to achieve desired transformations in an unpaired image-to-image translation setting. Our method involves training an sts-GAN, an unpaired translation model between source and target seeds, based on CycleGAN. The final translated images are obtained by initiating the DM's sampling process from the translated seeds. A ControlNet is used to ensure the structural preservation of the input image. We demonstrate the effectiveness of our approach for the task of translating automotive scenes, showcasing superior performance compared to existing GAN-based and diffusion-based methods, as well as for several other unpaired image translation tasks. Our approach offers a fresh perspective on leveraging the semantic information encoded within the seed-space of pretrained DMs for effective image editing and manipulation.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# Nasdaq-100 企業の雇用動向: トピックに基づく労働市場への分類アプローチ

Nasdaq-100 Companies' Hiring Insights: A Topic-based Classification Approach to the Labor Market ( http://arxiv.org/abs/2409.00658v1 )

ライセンス: Link先を確認
Seyed Mohammad Ali Jafari, Ehsan Chitsaz, (参考訳) 新しい破壊的な技術の出現は、経済と労働市場をより不安定にする。 このような不確実性を克服し、労働市場をより理解できるようにするためには、主にデータ分析に基づく労働市場インテリジェンス技術を採用する必要がある。 企業は求職サイトを利用して求職機会を宣伝し、オンライン求職機会(OJVs)と呼ばれる。 LinkedInは労働市場の供給と需要の両面を合わせるために最も利用されているウェブサイトの1つであり、企業は求人ページに仕事の空白を投稿し、LinkedInは興味のある求職者にこれらのジョブを推奨している。 しかし、膨大な数のオンライン求職機会を抱える中、労働市場の過大な傾向を見極めることは困難になっている。 本稿では,現代のオンライン労働市場における職種分類のためのデータマイニング手法を提案する。 提案手法として構造トピックモデリングを採用し,インデクシングされた企業のLinkedInにおけるオンラインジョブの空白を入力データとして使用した。 マーケティング、ブランディング、セールス、ソフトウェアエンジニアリング、ハードウェアエンジニアリング、産業エンジニアリング、プロジェクトマネジメントの13の職種が、最も頻繁に投稿される職種であることがわかった。 本研究の目的は、急速に発展する雇用環境において、利害関係者が情報的な意思決定を行えるように、雇用市場の動向をより明確に理解することである。

The emergence of new and disruptive technologies makes the economy and labor market more unstable. To overcome this kind of uncertainty and to make the labor market more comprehensible, we must employ labor market intelligence techniques, which are predominantly based on data analysis. Companies use job posting sites to advertise their job vacancies, known as online job vacancies (OJVs). LinkedIn is one of the most utilized websites for matching the supply and demand sides of the labor market; companies post their job vacancies on their job pages, and LinkedIn recommends these jobs to job seekers who are likely to be interested. However, with the vast number of online job vacancies, it becomes challenging to discern overarching trends in the labor market. In this paper, we propose a data mining-based approach for job classification in the modern online labor market. We employed structural topic modeling as our methodology and used the NASDAQ-100 indexed companies' online job vacancies on LinkedIn as the input data. We discover that among all 13 job categories, Marketing, Branding, and Sales; Software Engineering; Hardware Engineering; Industrial Engineering; and Project Management are the most frequently posted job classifications. This study aims to provide a clearer understanding of job market trends, enabling stakeholders to make informed decisions in a rapidly evolving employment landscape.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 自閉症スペクトラム障害者における非定型的社会意識の分析

Video-based Analysis Reveals Atypical Social Gaze in People with Autism Spectrum Disorder ( http://arxiv.org/abs/2409.00664v1 )

ライセンス: Link先を確認
Xiangxu Yu, Mindi Ruan, Chuanbo Hu, Wenqi Li, Lynn K. Paul, Xin Li, Shuo Wang, (参考訳) 本研究では,自閉症スペクトラム障害(ASD)患者の社会的視線を定量的かつ包括的に分析する。 本研究は、視線追跡技術に基づく従来のファーストパーソンカメラの視点から、ADOS-2 (Autism Diagnostic Observation Schedule, 2nd Edition) インタビュービデオからの3人称視点データベースを用いて、ASD参加者と神経型個人を参照グループとして包含する。 計算モデルを用いて,被験者と受験者のビデオから視線関連特徴を抽出し,処理した。 実験では, 社会性視線異常の有無と ASD 診断に基づいて, 3つの群に分けた。 本研究では、視線エンゲージメント、視線変動、視線密度マップ、視線反転周波数の4つの特徴を定量的に分析した。 さらに,ASD参加者の視線異常を識別するために,これらの特徴を訓練した分類器を開発した。 本研究では,自然主義的環境下での社会的な視線分析の有効性を実証し,視線分析によるASD診断の強化における3人称映像視点の可能性を示した。

In this study, we present a quantitative and comprehensive analysis of social gaze in people with autism spectrum disorder (ASD). Diverging from traditional first-person camera perspectives based on eye-tracking technologies, this study utilizes a third-person perspective database from the Autism Diagnostic Observation Schedule, 2nd Edition (ADOS-2) interview videos, encompassing ASD participants and neurotypical individuals as a reference group. Employing computational models, we extracted and processed gaze-related features from the videos of both participants and examiners. The experimental samples were divided into three groups based on the presence of social gaze abnormalities and ASD diagnosis. This study quantitatively analyzed four gaze features: gaze engagement, gaze variance, gaze density map, and gaze diversion frequency. Furthermore, we developed a classifier trained on these features to identify gaze abnormalities in ASD participants. Together, we demonstrated the effectiveness of analyzing social gaze in people with ASD in naturalistic settings, showcasing the potential of third-person video perspectives in enhancing ASD diagnosis through gaze analysis.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 擬似画像センサを用いた異方性推定

Disparity Estimation Using a Quad-Pixel Sensor ( http://arxiv.org/abs/2409.00665v1 )

ライセンス: Link先を確認
Zhuofeng Wu, Doehyung Lee, Zihua Liu, Kazunori Yoshizaki, Yusuke Monno, Masatoshi Okutomi, (参考訳) クアッドピクセル(QP)センサーは、ますます商用のモバイルカメラに統合されている。 QPセンサーは、単一のマイクロレンズの下で2$\times$24フォトダイオードの単位を持ち、アウトフォーカスのぼかしが発生すると多方向位相シフトを発生させる。 デュアルピクセル(DP)センサと同様に、位相シフトは立体差と見なすことができ、深さ推定に利用することができる。 そこで本研究では,垂直および水平のステレオマッチング相関を融合させてQP情報を利用するQPDNet(QP Disparity Estimation Network)を提案する。 また、既存のRGB-Depthデータセットからトレーニングデータセットを生成するための合成パイプラインも提示する。 実験の結果,QPDNetは最先端のステレオ法とDP法より優れていた。 コードと合成データセットはhttps://github.com/Zhuofeng-Wu/QPDNet.comで公開されています。

A quad-pixel (QP) sensor is increasingly integrated into commercial mobile cameras. The QP sensor has a unit of 2$\times$2 four photodiodes under a single microlens, generating multi-directional phase shifting when out-focus blurs occur. Similar to a dual-pixel (DP) sensor, the phase shifting can be regarded as stereo disparity and utilized for depth estimation. Based on this, we propose a QP disparity estimation network (QPDNet), which exploits abundant QP information by fusing vertical and horizontal stereo-matching correlations for effective disparity estimation. We also present a synthetic pipeline to generate a training dataset from an existing RGB-Depth dataset. Experimental results demonstrate that our QPDNet outperforms state-of-the-art stereo and DP methods. Our code and synthetic dataset are available at https://github.com/Zhuofeng-Wu/QPDNet.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 対向攻撃を緩和し、摂動距離をナビゲートし、コンフォーマルな層で予測する包括的ボットネット検出

Comprehensive Botnet Detection by Mitigating Adversarial Attacks, Navigating the Subtleties of Perturbation Distances and Fortifying Predictions with Conformal Layers ( http://arxiv.org/abs/2409.00667v1 )

ライセンス: Link先を確認
Rahul Yumlembam, Biju Issac, Seibu Mary Jacob, Longzhi Yang, (参考訳) ボットネット(Botnet)は、悪意あるアクターによって制御されるコンピュータネットワークで、重要なサイバーセキュリティ上の課題を提示する。 それらは自律的に感染し、伝播し、コーディネートし、サイバー犯罪を遂行し、堅牢な検出方法を必要とする。 本研究は、機械学習ベースのボットネット検出システムを弱体化させることを目的として、攻撃者が引き起こす高度な敵操作に対処する。 ISCXデータセットとISOTデータセットに基づいてトレーニングされた機械学習とディープラーニングアルゴリズムを活用するフローベース検出アプローチを導入する。 検出アルゴリズムは遺伝的アルゴリズムと粒子群最適化を用いて最適化され,ベースライン検出法が得られた。 カルリーニ・アンド・ワグナー攻撃(C&W)とジェネレーティブ・逆境ネットワーク(GAN)は微妙な摂動を伴い、意味的・統語的関係を保ちながら分類に使用される各特徴をターゲットとし、敵のサンプルが意味のある意味と現実性を維持することを保証する。 元のサンプルから必要なL2距離を詳細に解析し、マルウェアサンプルからペルトルブサンプルの異なるL2距離で異なるレベルの誤分類を示すように、様々な反復チェックポイントにわたって誤分類を行う。 我々の研究は、ニューラルネットワークのサロゲートモデルからツリーベースのアルゴリズムへの敵のサンプルの転送可能性を調べることで、様々なモデルの脆弱性を掘り下げている。 その後、摂動サンプルを誤って分類したモデルが再訓練され、弾力性と検出能力が向上した。 最終段階では、共形予測層が統合され、ICCXデータセットでは58.20 %、ISOTデータセットでは98.94 %の誤予測が大幅に拒否される。

Botnets are computer networks controlled by malicious actors that present significant cybersecurity challenges. They autonomously infect, propagate, and coordinate to conduct cybercrimes, necessitating robust detection methods. This research addresses the sophisticated adversarial manipulations posed by attackers, aiming to undermine machine learning-based botnet detection systems. We introduce a flow-based detection approach, leveraging machine learning and deep learning algorithms trained on the ISCX and ISOT datasets. The detection algorithms are optimized using the Genetic Algorithm and Particle Swarm Optimization to obtain a baseline detection method. The Carlini & Wagner (C&W) attack and Generative Adversarial Network (GAN) generate deceptive data with subtle perturbations, targeting each feature used for classification while preserving their semantic and syntactic relationships, which ensures that the adversarial samples retain meaningfulness and realism. An in-depth analysis of the required L2 distance from the original sample for the malware sample to misclassify is performed across various iteration checkpoints, showing different levels of misclassification at different L2 distances of the Pertrub sample from the original sample. Our work delves into the vulnerability of various models, examining the transferability of adversarial examples from a Neural Network surrogate model to Tree-based algorithms. Subsequently, models that initially misclassified the perturbed samples are retrained, enhancing their resilience and detection capabilities. In the final phase, a conformal prediction layer is integrated, significantly rejecting incorrect predictions, of 58.20 % in the ISCX dataset and 98.94 % in the ISOT dataset.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 流体流れの高周波複素力学のデータ駆動ODEモデリング

Data-driven ODE modeling of the high-frequency complex dynamics of a fluid flow ( http://arxiv.org/abs/2409.00668v1 )

ライセンス: Link先を確認
Natsuki Tsutsumi, Kengo Nakai, Yoshitaka Saiki, (参考訳) これまでの論文 (N. Tsutsumi, K. Nakai, Y. Saiki, Chaos 32, 091101 (2022)] では, 観測可能な決定時間系列のみからカオス挙動の微分方程式系を構築する方法を提案し, 放射関数に基づく回帰法 (RfR) と呼ぶ。 しかし、ターゲット変数の振舞いがかなり複雑である場合、RfR法の直接適用はうまく機能しない。 本研究では, 流体流の高周波断続挙動を含む流体力学を, 比較的単純で断続挙動の少ない別の変数(基底変数)を考慮し, モデリングする手法を提案する。 1つは基本変数の自律システムであり、もう1つは、対象変数が複雑なダイナミクスを示すために基本変数を含む項によって影響を受けることに関するものである。 構成されたジョイントモデルは、短い軌道だけでなく、カオス集合と実際の力学の密度分布のような長い軌道から得られる統計的性質を再構成することに成功した。

In our previous paper [N. Tsutsumi, K. Nakai and Y. Saiki, Chaos 32, 091101 (2022)], we proposed a method for constructing a system of differential equations of chaotic behavior from only observable deterministic time series, which we call the radial function-based regression (RfR) method. However, when the targeted variable's behavior is rather complex, the direct application of the RfR method does not function well. In this study, we propose a novel method of modeling such dynamics, including the high-frequency intermittent behavior of a fluid flow, by considering another variable (base variable) showing relatively simple, less intermittent behavior. We construct an autonomous joint model composed of two parts: the first is an autonomous system of a base variable, and the other concerns the targeted variable being affected by a term involving the base variable to demonstrate complex dynamics. The constructed joint model succeeded in not only inferring a short trajectory but also reconstructing chaotic sets and statistical properties obtained from a long trajectory such as the density distributions of the actual dynamics.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 事前学習と帰納推論によるグラフ分割の高速化に向けて

Towards Faster Graph Partitioning via Pre-training and Inductive Inference ( http://arxiv.org/abs/2409.00670v1 )

ライセンス: Link先を確認
Meng Qin, Chaorui Zhang, Yu Gao, Yibin Ding, Weipeng Jiang, Weixi Zhang, Wei Han, Bo Bai, (参考訳) グラフ分割(GP)はグラフのノードセットを密結合ブロックに分割する古典的な問題である。 IEEE HPEC Graph Challengeと最近の事前学習技術(例えば、大規模言語モデル)の進歩に続いて、新しい事前学習・改良パラダイムに基づくPR-GPT(Pre-trained & Refined Graph ParTitioning)を提案する。 まず、様々なトポロジ特性を持つ小さな合成グラフ上で、ディープグラフ学習(DGL)モデルのオフライン事前学習を行う。 DGLの帰納的推論を用いることで、(凍結モデルパラメータで)事前学習されたモデルを大きなグラフに直接一般化し、実現可能なGP結果を導出することができる。 また、導出したパーティショニングを効率的なGP法(例えばInfoMap)の優れた初期化として使用し、パーティショニングの質をさらに高める。 この設定では、PR-GPTのオンライン一般化と改良は、品質に関する伝達能力の恩恵を受けるだけでなく、再学習なしに高い推論効率を確保することができる。 改良法により処理するグラフのスケールを縮小する機構に基づいて,PR-GPTはストリーミングGPをサポートする可能性も持っている。 Graph Challengeベンチマークの実験では、PR-GPTは、スクラッチからリファインメント法を実行する場合と比較して、大幅な品質劣化を伴わずに、大規模グラフでのGPを高速化できることを示した。 コードをhttps://github.com/KuroginQin/PRGPTで公開します。

Graph partitioning (GP) is a classic problem that divides the node set of a graph into densely-connected blocks. Following the IEEE HPEC Graph Challenge and recent advances in pre-training techniques (e.g., large-language models), we propose PR-GPT (Pre-trained & Refined Graph ParTitioning) based on a novel pre-training & refinement paradigm. We first conduct the offline pre-training of a deep graph learning (DGL) model on small synthetic graphs with various topology properties. By using the inductive inference of DGL, one can directly generalize the pre-trained model (with frozen model parameters) to large graphs and derive feasible GP results. We also use the derived partition as a good initialization of an efficient GP method (e.g., InfoMap) to further refine the quality of partitioning. In this setting, the online generalization and refinement of PR-GPT can not only benefit from the transfer ability regarding quality but also ensure high inference efficiency without re-training. Based on a mechanism of reducing the scale of a graph to be processed by the refinement method, PR-GPT also has the potential to support streaming GP. Experiments on the Graph Challenge benchmark demonstrate that PR-GPT can ensure faster GP on large-scale graphs without significant quality degradation, compared with running a refinement method from scratch. We will make our code public at https://github.com/KuroginQin/PRGPT.
翻訳日:2024-09-06 13:09:07 公開日:2024-09-01
# 3次元物体検出によるポイントピラーの落下に関する研究

Study of Dropout in PointPillars with 3D Object Detection ( http://arxiv.org/abs/2409.00673v1 )

ライセンス: Link先を確認
Xiaoxiang Sun, Geoffrey Fox, (参考訳) ディープラーニング技術を活用してLiDARデータを解釈する。 PointPillarsアーキテクチャはこの分野で卓越したモデルであり、LiDARデータの効率的な利用によって区別される。 本研究は, オーバーフィッティングに対処し, モデル一般化を改善するために, 様々なドロップアウトレート下でのポイントピラーモデルの性能向上に関する分析を行う。 正規化技術であるDropoutは、トレーニング中に無作為にニューロンを排除し、ネットワークに堅牢で多様な特徴を学習させる。 平均精度 (AP) と平均指向類似度 (AOS) で測定し, 異なる強化手法がトレーニング中のモデルの回帰性能および精度に与える影響を系統的に比較した。 我々の研究は、自動運転アプリケーションにおける3Dオブジェクト検出の改善に寄与し、最適な拡張に関する洞察を提供する。

3D object detection is critical for autonomous driving, leveraging deep learning techniques to interpret LiDAR data. The PointPillars architecture is a prominent model in this field, distinguished by its efficient use of LiDAR data. This study provides an analysis of enhancing the performance of PointPillars model under various dropout rates to address overfitting and improve model generalization. Dropout, a regularization technique, involves randomly omitting neurons during training, compelling the network to learn robust and diverse features. We systematically compare the effects of different enhancement techniques on the model's regression performance during training and its accuracy, measured by Average Precision (AP) and Average Orientation Similarity (AOS). Our findings offer insights into the optimal enhancements, contributing to improved 3D object detection in autonomous driving applications.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# MERLiN:測光ステレオのための単ショット材料推定とリライティング

MERLiN: Single-Shot Material Estimation and Relighting for Photometric Stereo ( http://arxiv.org/abs/2409.00674v1 )

ライセンス: Link先を確認
Ashish Tiwari, Satoshi Ikehata, Shanmuganathan Raman, (参考訳) 光度ステレオは通常、表面の正常を正確に回復するために複数の光源を含む複雑なデータ取得装置を必要とする。 本稿では、単一の画像ベースの逆レンダリングとリライティングを単一の統合フレームワークに統合したアテンションベースの時間ガラスネットワークであるMERLiNを提案する。 本稿では,これらの信頼度画像を用いて光度ステレオ法の性能評価を行い,それらが複雑なデータ取得の根底にある課題を回避できることを実証する。 我々の物理モデルでは、空間的に変化するBRDFを持つ複雑な形状を含む大規模な合成データセットをトレーニングし、間接照明効果を処理し、材料再構成とリライティングを改善するように設計されている。 定性的かつ定量的な評価を通じて,提案手法が実世界の画像によく応用され,高品質な形状,材料推定,リライティングを実現していることを示す。 本研究は,光度ステレオの物理的正しさと正常な推定精度のために,光度ステレオベンチマーク法を併用した合成画像の評価を行い,光度ステレオの物理的照らし方について検討した。 本研究では、合成データと実データの両方に適用し、フォトメトリックステレオにおけるデータ取得の課題を軽減するための一歩を踏み出す。

Photometric stereo typically demands intricate data acquisition setups involving multiple light sources to recover surface normals accurately. In this paper, we propose MERLiN, an attention-based hourglass network that integrates single image-based inverse rendering and relighting within a single unified framework. We evaluate the performance of photometric stereo methods using these relit images and demonstrate how they can circumvent the underlying challenge of complex data acquisition. Our physically-based model is trained on a large synthetic dataset containing complex shapes with spatially varying BRDF and is designed to handle indirect illumination effects to improve material reconstruction and relighting. Through extensive qualitative and quantitative evaluation, we demonstrate that the proposed framework generalizes well to real-world images, achieving high-quality shape, material estimation, and relighting. We assess these synthetically relit images over photometric stereo benchmark methods for their physical correctness and resulting normal estimation accuracy, paving the way towards single-shot photometric stereo through physically-based relighting. This work allows us to address the single image-based inverse rendering problem holistically, applying well to both synthetic and real data and taking a step towards mitigating the challenge of data acquisition in photometric stereo.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# 大規模言語モデルのためのコード生成エラーの修正

Fixing Code Generation Errors for Large Language Models ( http://arxiv.org/abs/2409.00676v1 )

ライセンス: Link先を確認
Hao Wen, Yueheng Zhu, Chao Liu, Xiaoxue Ren, Weiwei Du, Meng Yan, (参考訳) コード生成は人工知能技術、特にLarge Language Models (LLM)を活用し、ソースコードの自動生成、ソフトウェア開発効率の向上、反復タスクの削減を行う。 しかし、LLMの生成したコードは、しばしばテストケースをパスせず、エラーを修正するのにかなりの人的努力を必要とする。 これまでの研究はLLMの能力の向上や改善に重点を置いていたが、LLMが失敗した理由を無視した。 本稿では,まずGPT-3.5-turboと13個のオープンソースLLMを含む14個のLLMをHumanEvalデータセット上に再現した。 12,837個のコード生成誤りを抽出し,その原因を詳細に解析し,19個のエラー原因を同定した。 私たちの経験的分析では、これらの3つの原因が直接修正可能であることが示されています。 その結果,LlmFixと呼ばれる3種類のエラーを3段階のプロセスで処理する修正手法を提案した。 実験の結果、LlmFixはこれらの3種類のエラーを修正でき、平均9.5%、平均5.4%の増加したHumanEvalおよびMBPPデータセット上での14のLLMのパフォーマンスを著しく改善できることが示された。

Code generation leverages artificial intelligence technologies, particularly Large Language Models (LLMs), to automatically produce source code, enhancing software development efficiency and reducing repetitive tasks. However, the LLMs' generated code often fails to pass test cases and requires substantial human effort to fix errors. Previous studies focused on better prompts or improving LLMs' capability but ignored why LLMs failed. In this paper, we first reproduced 14 LLMs, including GPT-3.5-turbo and 13 open-source LLMs, on the HumanEval dataset. We extracted 12,837 code generation errors and conducted an in-depth analysis of their causes, which led to the identification of 19 distinct error causes. Our empirical analysis indicated that three of these causes can be directly fixed. Consequently, we proposed a fixing method called LlmFix, which addresses these three types of errors through a three-step process: filtering code for indentation correction, truncating redundant generated code, and importing missing modules. Experimental results demonstrate that LlmFix can fix these three types of errors, significantly improving the performance of 14 LLMs on HumanEval and MBPP datasets with average increases of 9.5% and 5.4%, respectively.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# 時空の特異性は、紫外線の多様性の問題を取り除くのにどう役立つか

How a Space-Time Singularity Helps Remove the Ultraviolet Divergence Problem ( http://arxiv.org/abs/2409.00677v1 )

ライセンス: Link先を確認
Joscha Henheik, Bipul Poudyal, Roderich Tumulka, (参考訳) 量子ハミルトニアンにおける粒子生成用語は、通常紫外線の発散であり、数学的に不適切な定義である。 この問題を解くための比較的新しい方法は、波動関数にいわゆる内界条件を課すことに基づいている。 従来の論文では、このアプローチは非相対論的な状態にあることが示されていたが、粒子の生成は結局のところ相対論的な場合とほとんど関係がある。 平らな相対論的時空(つまり重力を無視する)において、このアプローチは以前、ある種の人工的なケースでのみ有効であることが判明した。 ここでは重力を考慮に入れながら、曲がった時空、特に裸の時空のような特異点を持つ超臨界Reissner-Nordstr\om時空を考える。 特に、内部有界条件に基づいて、特異点における粒子生成を十分に定義した自己随伴ハミルトン多様体の存在を厳密に証明する。 また, ボーム軌道の漸近挙動を厳密に解析し, 粒子生成, 運動, 消滅のボーム・ベル過程を構築する。 量子物理学では、裸の時空特異点が物理法則の分解につながる必要はないが、それとは逆に、特異点から出てくるものを管理する境界条件を許容し、紫外線の発散を除去する。

Particle creation terms in quantum Hamiltonians are usually ultraviolet divergent and thus mathematically ill defined. A rather novel way of solving this problem is based on imposing so-called interior-boundary conditions on the wave function. Previous papers showed that this approach works in the non-relativistic regime, but particle creation is mostly relevant in the relativistic case after all. In flat relativistic space-time (that is, neglecting gravity), the approach was previously found to work only for certain somewhat artificial cases. Here, as a way of taking gravity into account, we consider curved space-time, specifically the super-critical Reissner-Nordstr\"om space-time, which features a naked timelike singularity. We find that the interior-boundary approach works fully in this setting; in particular, we prove rigorously the existence of well-defined, self-adjoint Hamiltonians with particle creation at the singularity, based on interior-boundary conditions. We also non-rigorously analyze the asymptotic behavior of the Bohmian trajectories and construct the corresponding Bohm-Bell process of particle creation, motion, and annihilation. The upshot is that in quantum physics, a naked space-time singularity need not lead to a breakdown of physical laws, but on the contrary allows for boundary conditions governing what comes out of the singularity and thereby removing the ultraviolet divergence.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# 量子活性化のためのリアルタイムインスタントアプローチ

A Real-time Instanton Approach to Quantum Activation ( http://arxiv.org/abs/2409.00681v1 )

ライセンス: Link先を確認
Chang-Woo Lee, Paul Brookes, Kee-Su Park, Marzena H. Szymańska, Eran Ginossar, (参考訳) 駆動散逸性非線形系は分岐、不安定性、スイッチングに関連する豊富な臨界挙動を示しており、物理学、化学、生物学、社会科学、経済学といった分野において重要な現象の根底にある。 人口動態における生存と絶滅、経済における成功と破産、地震の発生やてんかん発作など、非常に異なる2つの状態の間に劇的な変化をもたらす稀な変動の重要性は既に確立されている。 量子領域において、スイッチングは化学反応と量子状態の検出と増幅に使用される装置の両方において重要である。 特に、最も単純な駆動シングル発振器モデルは洞察に富む出発点として機能する。 ここでは、量子ゆらぎによって引き起こされるスイッチングを記述し、ケルディシュ場の理論におけるインスタントンアプローチがそのような現象について深い洞察を与えることができることを示す。 スイッチングレートを半解析的に計算する実践的なレシピを提供する。これは、多数の桁にまたがる広い駆動振幅領域の正確な解に非常によく一致する。 ケルディシュコヒーレント状態積分の枠組みに設定することにより、他のアプローチが適用不可能な多体系における量子活性化の研究が可能となる。

Driven-dissipative nonlinear systems exhibit rich critical behavior, related to bifurcation, bistability and switching, which underlie key phenomena in areas ranging from physics, chemistry and biology to social sciences and economics. The importance of rare fluctuations leading to a dramatic jump between two very distinct states, such as survival and extinction in population dynamics, success and bankruptcy in economics and the occurrence of earthquakes or of epileptic seizures, have been already established. In the quantum domain, switching is of importance in both chemical reactions and the devices used in quantum state detection and amplification. In particular, the simplest driven single oscillator model serves as an insightful starting point. Here we describe switching induced by quantum fluctuations and illustrate that an instanton approach within Keldysh field theory can provide a deep insight into such phenomena. We provide a practical recipe to compute the switching rates semi-analytically, which agrees remarkably well with exact solutions across a wide domain of drive amplitudes spanning many orders of magnitude. Being set up in the framework of Keldysh coherent states path integrals, our approach opens the possibility of studying quantum activation in many-body systems where other approaches are inapplicable.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# オールインワン画像復元モデルの精度向上

Accurate Forgetting for All-in-One Image Restoration Model ( http://arxiv.org/abs/2409.00685v1 )

ライセンス: Link先を確認
Xin Su, Zhuoran Zheng, (参考訳) プライバシ保護は、特にAIにおいて、常に進行中のトピックである。 現在、Machine Unlearningと呼ばれる低価格のスキームは、モデルに記憶されているプライベートデータを忘れている。 具体的には、プライベートデータセットとトレーニングされたニューラルネットワークを前提として、ニューラルネットワークに対するプライベートデータセットの影響を取り除くために、egプルーニング、微調整、勾配上昇を使用する必要があります。 このアイデアに触発されて、画像修復とセキュリティのギャップを埋め、新たな研究アイデアを創りだそうとしています。 そこで本研究では,ハズや雨などの与えられたデータセットがプライベートであり,訓練されたモデルへの影響から排除する必要があるオールインワンモデル(広範囲の劣化情報を復元するニューラルネットワーク)のシーンを提案する。 特に,特定の楽器を伴わずに交響楽団を指揮するのと同じようなモデル性能を保ちつつ,センシティブなデータの影響を除去する上で大きな課題がある。 ここでは、単純なが効果的なアプローチを探る: インスタンスワイド アンラーニングは、逆例と勾配上昇テクニックを用いて行われる。 提案手法は,スクラッチからモデルを再学習する戦略に比べて低コストな手法であり,勾配上昇トリックは特定のデータを忘れ,対向サンプル保守モデルの性能は堅牢である。 2つの一般的な統合画像復元モデルに対する広範囲な実験により, 得られた劣化型を学習しながら, 残像の知識を効果的に保存できることが示唆された。

Privacy protection has always been an ongoing topic, especially for AI. Currently, a low-cost scheme called Machine Unlearning forgets the private data remembered in the model. Specifically, given a private dataset and a trained neural network, we need to use e.g. pruning, fine-tuning, and gradient ascent to remove the influence of the private dataset on the neural network. Inspired by this, we try to use this concept to bridge the gap between the fields of image restoration and security, creating a new research idea. We propose the scene for the All-In-One model (a neural network that restores a wide range of degraded information), where a given dataset such as haze, or rain, is private and needs to be eliminated from the influence of it on the trained model. Notably, we find great challenges in this task to remove the influence of sensitive data while ensuring that the overall model performance remains robust, which is akin to directing a symphony orchestra without specific instruments while keeping the playing soothing. Here we explore a simple but effective approach: Instance-wise Unlearning through the use of adversarial examples and gradient ascent techniques. Our approach is a low-cost solution compared to the strategy of retraining the model from scratch, where the gradient ascent trick forgets the specified data and the performance of the adversarial sample maintenance model is robust. Through extensive experimentation on two popular unified image restoration models, we show that our approach effectively preserves knowledge of remaining data while unlearning a given degradation type.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# 不均質なグラフをヘテロフォリーで見る:教師なし表現学習をガイドした潜在グラフ

When Heterophily Meets Heterogeneous Graphs: Latent Graphs Guided Unsupervised Representation Learning ( http://arxiv.org/abs/2409.00687v1 )

ライセンス: Link先を確認
Zhixiang Shen, Zhao Kang, (参考訳) 非教師付きヘテロジニアスグラフ表現学習(UHGRL)は,ラベルのない実用的なグラフを扱うことの重要性から注目されている。 しかし、実世界の異種グラフにユビキタスな存在にもかかわらず、ヘテロフィリーはほとんど無視されている。 本稿では,セマンティックなヘテロフィリーを定義し,この問題を解決するためにLlatnt Graphs Guided Unsupervised Representation Learning (LatGRL) と呼ばれる革新的なフレームワークを提案する。 まず,グローバルな構造と属性を結合した類似性マイニング手法を開発し,表現学習を導くための微細なホモ親和性およびヘテロ親和性潜伏グラフの構築を可能にする。 さらに,ノードレベルのセマンティック・ヘテロフィリーの問題に対処する適応的二重周波数セマンティック・フュージョン機構を提案する。 現実世界の大量のデータに対処するため、我々はさらにスケーラブルな実装を設計する。 ベンチマークデータセットの大規模な実験により、提案フレームワークの有効性と効率が検証された。 ソースコードとデータセットはhttps://github.com/zxlearningdeep/LatGRLで公開されている。

Unsupervised heterogeneous graph representation learning (UHGRL) has gained increasing attention due to its significance in handling practical graphs without labels. However, heterophily has been largely ignored, despite its ubiquitous presence in real-world heterogeneous graphs. In this paper, we define semantic heterophily and propose an innovative framework called Latent Graphs Guided Unsupervised Representation Learning (LatGRL) to handle this problem. First, we develop a similarity mining method that couples global structures and attributes, enabling the construction of fine-grained homophilic and heterophilic latent graphs to guide the representation learning. Moreover, we propose an adaptive dual-frequency semantic fusion mechanism to address the problem of node-level semantic heterophily. To cope with the massive scale of real-world data, we further design a scalable implementation. Extensive experiments on benchmark datasets validate the effectiveness and efficiency of our proposed framework. The source code and datasets have been made available at https://github.com/zxlearningdeep/LatGRL.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# 高性能ワンステージ3次元物体検出のための疎結合・対話型回帰モデル

Decoupled and Interactive Regression Modeling for High-performance One-stage 3D Object Detection ( http://arxiv.org/abs/2409.00690v1 )

ライセンス: Link先を確認
Weiping Xiao, Yiqiang Wu, Chang Liu, Yu Qin, Xiaomao Li, Liming Xin, (参考訳) 回帰タスクにおけるバウンディングボックスモデリングの不十分さは、1段階の3Dオブジェクト検出の性能を制約する。 本研究は,(1)中心オフセット予測の限界は,多くの高い応答位置が対象中心から著しく逸脱していることから,境界ボックスの局所化を著しく損なうことが示唆された。 2) 回帰タスクで無視される低品質のサンプルは, 信頼性の低い品質(IoU)を補正するため, バウンディングボックスの予測に著しく影響を及ぼす。 これらの問題に対処するために,一段階検出のための疎結合・インタラクティブ回帰モデリング(DIRM)を提案する。 具体的には、DAR(Decoupled Attribute Regression)は、ボックス属性を深く分離する適応型マルチサンプル割り当て戦略を通じて、中心属性の長い回帰範囲のモデリングを容易にするために実装されている。 一方、低品質な結果に対するIoU予測の信頼性を高めるために、IQP(Interactive Quality Prediction)は、負サンプルのモデリングに熟練した分類タスクと、共同最適化のための品質予測を統合した。 WaymoとONCEデータセットの大規模な実験により、DIRMはいくつかの最先端メソッドのパフォーマンスを大幅に改善し、最小限の推論遅延を発生させることを示した。 特に、DIRMはWaymoとONCEの両方のデータセットで最先端の検出性能を達成する。

Inadequate bounding box modeling in regression tasks constrains the performance of one-stage 3D object detection. Our study reveals that the primary reason lies in two aspects: (1) The limited center-offset prediction seriously impairs the bounding box localization since many highest response positions significantly deviate from object centers. (2) The low-quality sample ignored in regression tasks significantly impacts the bounding box prediction since it produces unreliable quality (IoU) rectification. To tackle these problems, we propose Decoupled and Interactive Regression Modeling (DIRM) for one-stage detection. Specifically, Decoupled Attribute Regression (DAR) is implemented to facilitate long regression range modeling for the center attribute through an adaptive multi-sample assignment strategy that deeply decouples bounding box attributes. On the other hand, to enhance the reliability of IoU predictions for low-quality results, Interactive Quality Prediction (IQP) integrates the classification task, proficient in modeling negative samples, with quality prediction for joint optimization. Extensive experiments on Waymo and ONCE datasets demonstrate that DIRM significantly improves the performance of several state-of-the-art methods with minimal additional inference latency. Notably, DIRM achieves state-of-the-art detection performance on both the Waymo and ONCE datasets.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# IAFI-FCOS:CT画像の病変検出のための層内および層間特徴相互作用FCOSモデル

IAFI-FCOS: Intra- and across-layer feature interaction FCOS model for lesion detection of CT images ( http://arxiv.org/abs/2409.00694v1 )

ライセンス: Link先を確認
Qiu Guan, Mengjie Pan, Feng Chen, Zhiqiang Yang, Zhongwen Yu, Qianwei Zhou, Haigen Hu, (参考訳) 医用画像における効果的な病変検出は、病変領域の特徴だけでなく、周囲の情報にも大きく依存する。しかし、現在のほとんどの方法では、完全に活用されていない。しかしながら、ほとんどの従来の検出器のマルチスケールな特徴融合機構は、損失なく詳細情報を伝達できないため、早期疾患において、小さく境界の曖昧な病変を検出することは困難である。上記の問題に対処するために、多層的特徴融合機構であるICAF-FPNと、階層的コンテキスト増強(ICA)ブロックと多層的特徴重み付け(AFW)ブロックを備えたネットワーク構造であるFCOSモデル(IAFI-FCOS)を提案する。従来、従来のFCOS検出器は、2つの視点から表現することで最適化されており、二層的特徴量付け(ICA-FW)ブロックにより、2層的特徴量付け(英語版)(ICA-F-FPN)と2層的特徴量付け(英語版)モデル、および2層的特徴量付け(英語版)モデル、および2層的特徴量付け(英語版)モデル、および2層的特徴量付け(英語版)モデル(英語版)の詳細な特徴量付け、および2層的特徴付け(英語版)の多層的特徴付け(英語版)を効果的に活用する。

Effective lesion detection in medical image is not only rely on the features of lesion region,but also deeply relative to the surrounding information.However,most current methods have not fully utilize it.What is more,multi-scale feature fusion mechanism of most traditional detectors are unable to transmit detail information without loss,which makes it hard to detect small and boundary ambiguous lesion in early stage disease.To address the above issues,we propose a novel intra- and across-layer feature interaction FCOS model (IAFI-FCOS) with a multi-scale feature fusion mechanism ICAF-FPN,which is a network structure with intra-layer context augmentation (ICA) block and across-layer feature weighting (AFW) block.Therefore,the traditional FCOS detector is optimized by enriching the feature representation from two perspectives.Specifically,the ICA block utilizes dilated attention to augment the context information in order to capture long-range dependencies between the lesion region and the surrounding.The AFW block utilizes dual-axis attention mechanism and weighting operation to obtain the efficient across-layer interaction features,enhancing the representation of detailed features.Our approach has been extensively experimented on both the private pancreatic lesion dataset and the public DeepLesion dataset,our model achieves SOTA results on the pancreatic lesion dataset.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# 医用画像セグメンテーションのためのカリキュラムプロンプティング基礎モデル

Curriculum Prompting Foundation Models for Medical Image Segmentation ( http://arxiv.org/abs/2409.00695v1 )

ライセンス: Link先を確認
Xiuqi Zheng, Yuhang Zhang, Haoran Zhang, Hongrui Liang, Xueqi Bao, Zhuqing Jiang, Qicheng Lao, (参考訳) 医療画像のセグメンテーションに大規模な事前訓練された基礎モデル(SAMなど)を適用することは、依然として大きな課題である。 重要なステップは、特定の臨床指示を組み込んだ一連の特別なプロンプトの定式化である。 過去の作業は各インスタンスの特定のタイプのプロンプトに大きく依存しており、理想的に正しいプロンプトを手動で入力する必要がある。 この問題に対処するために,原画像から得られた異なる粒度のプロンプトを利用して,より広範な臨床所見を提供することを提案する。 しかし、様々な種類のプロンプトを組み合わせることは、潜在的な衝突のために課題となる可能性がある。 そこで我々は,異なるタイプのプロンプトを段階的に統合する,カリキュラムプロンプトと呼ばれる粗大な機構を設計した。 様々な形態の3つの公開医療データセットに関する広範な実験を通じて、提案手法の有効性を実証し、即時生成プロセスを自動化するだけでなく、他のSAMベースの医用画像分割法と比較して優れた性能が得られることを示した。 コードは、https://github.com/AnnaZzz-zxq/Curriculum-Prompting.comで入手できる。

Adapting large pre-trained foundation models, e.g., SAM, for medical image segmentation remains a significant challenge. A crucial step involves the formulation of a series of specialized prompts that incorporate specific clinical instructions. Past works have been heavily reliant on a singular type of prompt for each instance, necessitating manual input of an ideally correct prompt, which is less efficient. To tackle this issue, we propose to utilize prompts of different granularity, which are sourced from original images to provide a broader scope of clinical insights. However, combining prompts of varying types can pose a challenge due to potential conflicts. In response, we have designed a coarse-to-fine mechanism, referred to as curriculum prompting, that progressively integrates prompts of different types. Through extensive experiments on three public medical datasets across various modalities, we demonstrate the effectiveness of our proposed approach, which not only automates the prompt generation process but also yields superior performance compared to other SAM-based medical image segmentation methods. Code is available at: https://github.com/AnnaZzz-zxq/Curriculum-Prompting.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# ポリレーション:LCM評価のための費用効果・バイアス認識評価システム

Polyrating: A Cost-Effective and Bias-Aware Rating System for LLM Evaluation ( http://arxiv.org/abs/2409.00696v1 )

ライセンス: Link先を確認
Jasper Dekoninck, Maximilian Baader, Martin Vechev, (参考訳) レーティングに基づく人間評価は,Large Language Model (LLM) の印象的な性能を正確に評価するための重要なツールとなっている。 しかし、現在の格付けシステムにはいくつかの限界がある。 具体的には、評価結果に大きな影響を及ぼす人間のバイアスを考慮せず、精度の高い評価を得るために大規模で高価な選好データセットを必要とし、異なるタスク間でのモデルレーティングの有意義な比較を助長しない。 これらの問題に対処するために, モデル性能のよりきめ細やかな解析を低コストで行えるような, 最大余剰推定に基づく表現的かつ柔軟な評価システムであるPolyratingを導入する。 ポリケーションは人間の嗜好に影響を与えるバイアスを検出し定量化し、より公平なモデル比較を保証する。 さらに、Polyratingは、既存のベンチマークスコアを活用することで、新しいモデルで最大411\%、新しいタスクで最大77\%の人的評価コストを削減できる。 最後に、Polyratingは異なるタスク間でのレーティングの直接比較を可能にし、異なるアプリケーション間でのLLMの強み、弱点、相対的なパフォーマンスの包括的な理解を提供する。

Rating-based human evaluation has become an essential tool to accurately evaluate the impressive performance of Large language models (LLMs). However, current rating systems suffer from several critical limitations. Specifically, they fail to account for human biases that significantly influence evaluation results, require large and expensive preference datasets to obtain accurate ratings, and do not facilitate meaningful comparisons of model ratings across different tasks. To address these issues, we introduce Polyrating, an expressive and flexible rating system based on maximum a posteriori estimation that enables a more nuanced and thorough analysis of model performance at lower costs. Polyrating can detect and quantify biases affecting human preferences, ensuring fairer model comparisons. Furthermore, Polyrating can reduce the cost of human evaluations by up to $41\%$ for new models and up to $77\%$ for new tasks by leveraging existing benchmark scores. Lastly, Polyrating enables direct comparisons of ratings across different tasks, providing a comprehensive understanding of an LLMs' strengths, weaknesses, and relative performance across different applications.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# ゼロショットシーン分類のためのリモートセンシングビジョンランゲージモデルの強化

Enhancing Remote Sensing Vision-Language Models for Zero-Shot Scene Classification ( http://arxiv.org/abs/2409.00698v1 )

ライセンス: Link先を確認
Karim El Khoury, Maxime Zanella, Benoît Gérin, Tiffanie Godelaine, Benoît Macq, Saïd Mahmoudi, Christophe De Vleeschouwer, Ismail Ben Ayed, (参考訳) リモートセンシングのためのビジョンランゲージモデルは、広範囲の事前トレーニングのおかげで有望な用途を示している。 しかし、従来のゼロショットシーン分類法では、大きな画像をパッチに分割し、インダクティブ推論(inductive inference)という独立した予測を行うため、貴重な文脈情報を無視して有効性を制限している。 提案手法は,画像エンコーダからのテキストのプロンプトと親和性関係のパッチによる初期予測を利用して,トランスダクティブ推論によるゼロショット機能の向上を実現する。 最新技術であるVision-Language Modelを用いた10のリモートセンシングデータセットの実験では、インダクティブゼロショット分類よりも大幅に精度が向上した。 ソースコードはGithubで公開されている。 https://github.com/elkhouryk/RS-TransCLIP

Vision-Language Models for remote sensing have shown promising uses thanks to their extensive pretraining. However, their conventional usage in zero-shot scene classification methods still involves dividing large images into patches and making independent predictions, i.e., inductive inference, thereby limiting their effectiveness by ignoring valuable contextual information. Our approach tackles this issue by utilizing initial predictions based on text prompting and patch affinity relationships from the image encoder to enhance zero-shot capabilities through transductive inference, all without the need for supervision and at a minor computational cost. Experiments on 10 remote sensing datasets with state-of-the-art Vision-Language Models demonstrate significant accuracy improvements over inductive zero-shot classification. Our source code is publicly available on Github: https://github.com/elkhouryk/RS-TransCLIP
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# 音声スタイルを見る: 新しいゼロショット・アイデンティティ・ディアンタングメント・フェイスベース音声変換

Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion ( http://arxiv.org/abs/2409.00700v1 )

ライセンス: Link先を確認
Yan Rong, Li Liu, (参考訳) 顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。 先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。 これらの問題に対処するために、上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。 より正確には、話者固有の顔特徴を抽出するIdentity-Aware Query-based Contrastive Learning (IAQ-CL)モジュールと、音声からコンテンツ特徴を浄化し、明瞭で高品質な音声変換を保証するMultual Information-based Dual Decoupling (MIDD)モジュールを提案する。 また,従来の手法とは異なり,音声やテキストの入力を受け付け,音色や速度を調整可能な音声生成を行うことができる。 大規模な実験により、ID-FaceVCは様々な指標で最先端のパフォーマンスを達成し、質的およびユーザスタディの結果は、自然性、類似性、多様性におけるその有効性を確認している。 オーディオサンプルとコードはhttps://id-facevc.github.io.comで公開されている。

Face-based Voice Conversion (FVC) is a novel task that leverages facial images to generate the target speaker's voice style. Previous work has two shortcomings: (1) suffering from obtaining facial embeddings that are well-aligned with the speaker's voice identity information, and (2) inadequacy in decoupling content and speaker identity information from the audio input. To address these issues, we present a novel FVC method, Identity-Disentanglement Face-based Voice Conversion (ID-FaceVC), which overcomes the above two limitations. More precisely, we propose an Identity-Aware Query-based Contrastive Learning (IAQ-CL) module to extract speaker-specific facial features, and a Mutual Information-based Dual Decoupling (MIDD) module to purify content features from audio, ensuring clear and high-quality voice conversion. Besides, unlike prior works, our method can accept either audio or text inputs, offering controllable speech generation with adjustable emotional tone and speed. Extensive experiments demonstrate that ID-FaceVC achieves state-of-the-art performance across various metrics, with qualitative and user study results confirming its effectiveness in naturalness, similarity, and diversity. Project website with audio samples and code can be found at https://id-facevc.github.io.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# 医療分野における合成データのナビゲートと分類のための新しい分類法

A Novel Taxonomy for Navigating and Classifying Synthetic Data in Healthcare Applications ( http://arxiv.org/abs/2409.00701v1 )

ライセンス: Link先を確認
Bram van Dijk, Saif ul Islam, Jim Achterberg, Hafiz Muhammad Waseem, Parisis Gallos, Gregory Epiphaniou, Carsten Maple, Marcel Haas, Marco Spruit, (参考訳) データ駆動技術は、医療サービスの効率性、信頼性、有効性を改善してきたが、データに対する需要が増加している。 合成データは近年、潜在的な解決策として人気を集めていますが、現在の研究の急激な進展の中で、その可能性を監視するのは難しいかもしれません。 本稿では,3つの主要品種の観点でランドスケープをナビゲートするために,医療における合成データの新たな分類法を提案する。 Data Proportionは、データセットと関連するprosとconsにおける合成データの比率が異なる。 データモダリティ(Data Modality)は、合成やフォーマット固有の課題に対処可能な、さまざまなデータフォーマットを指す。 データ変換は、そのユーティリティやプライバシといったデータセットの特定の側面を合成データで改善する。 我々の分類学は、合成データに興味を持つ医療分野の研究者が、合成データでどのような種類のデータセット、データモダリティ、変換が可能であるか、そして種間の課題と重複がどこにあるかを理解するのを助けることを目的としています。

Data-driven technologies have improved the efficiency, reliability and effectiveness of healthcare services, but come with an increasing demand for data, which is challenging due to privacy-related constraints on sharing data in healthcare contexts. Synthetic data has recently gained popularity as potential solution, but in the flurry of current research it can be hard to oversee its potential. This paper proposes a novel taxonomy of synthetic data in healthcare to navigate the landscape in terms of three main varieties. Data Proportion comprises different ratios of synthetic data in a dataset and associated pros and cons. Data Modality refers to the different data formats amenable to synthesis and format-specific challenges. Data Transformation concerns improving specific aspects of a dataset like its utility or privacy with synthetic data. Our taxonomy aims to help researchers in the healthcare domain interested in synthetic data to grasp what types of datasets, data modalities, and transformations are possible with synthetic data, and where the challenges and overlaps between the varieties lie.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# 機械学習の達成 -哲学的考察-

Abstaining Machine Learning -- Philosophical Considerations ( http://arxiv.org/abs/2409.00706v1 )

ライセンス: Link先を確認
Daniela Schuster, (参考訳) 本稿では、機械学習(ML)の分野と、中立に振る舞う現象に関する哲学の関連性を確立する。 哲学的な観点からはまだ研究されていない、特定のタスクに対して中立的な応答を提供することのできる、特定の種類のMLシステムについて検討する。 本稿では,様々な機械学習システムを紹介し説明し,それらを異なるタイプに分類する。 各種機械学習システムにおける禁忌が,停止判断の認識的側面とどのように一致しているかを考察し,停止の性質と規範的プロファイルの両方に対処する。 さらに、停止応答の自律性と説明可能性について、哲学的な分析が提案されている。 特に, 停留判断基準とより緊密に整合していることから, 留置システムの特徴ある1つが好ましいと論じられている。 さらに、他のタイプと比較して、アウトプットを自律的に生成し、アウトプットを停止するための説明を提供する。

This paper establishes a connection between the fields of machine learning (ML) and philosophy concerning the phenomenon of behaving neutrally. It investigates a specific class of ML systems capable of delivering a neutral response to a given task, referred to as abstaining machine learning systems, that has not yet been studied from a philosophical perspective. The paper introduces and explains various abstaining machine learning systems, and categorizes them into distinct types. An examination is conducted on how abstention in the different machine learning system types aligns with the epistemological counterpart of suspended judgment, addressing both the nature of suspension and its normative profile. Additionally, a philosophical analysis is suggested on the autonomy and explainability of the abstaining response. It is argued, specifically, that one of the distinguished types of abstaining systems is preferable as it aligns more closely with our criteria for suspended judgment. Moreover, it is better equipped to autonomously generate abstaining outputs and offer explanations for abstaining outputs when compared to the other type.
翻訳日:2024-09-06 12:52:28 公開日:2024-09-01
# ReMOVE: オブジェクト消去のための参照不要メトリック

ReMOVE: A Reference-free Metric for Object Erasure ( http://arxiv.org/abs/2409.00707v1 )

ライセンス: Link先を確認
Aditya Chandrasekar, Goirik Chakrabarty, Jai Bardhan, Ramya Hebbalaguppe, Prathosh AP, (参考訳) 拡散型画像編集モデルにおけるオブジェクト消去効果を評価するための参照不要な新しい指標である$\texttt{ReMOVE}$を紹介した。 LPIPSやCLIPScoreのような既存の測定方法とは異なり、$\texttt{ReMOVE}$は、実際のシナリオで一般的な参照イメージなしでインペイントを評価するという課題に対処する。 オブジェクトの削除と置換を効果的に区別する。 これは、画像生成の確率的性質による拡散モデルにおける重要な問題である。 従来のメトリクスは,(1)背景の連続性を保ちながら,(1)マスキング領域内でシームレスにオブジェクトを除去することを目的とした,インペイントの直感的な定義と一致しない。 $\texttt{ReMOVE}$は、最先端のメトリクスと相関し、人間の知覚と整合するだけでなく、塗装プロセスのニュアンスな側面を捉え、生成された出力のよりきめ細かい評価を提供する。

We introduce $\texttt{ReMOVE}$, a novel reference-free metric for assessing object erasure efficacy in diffusion-based image editing models post-generation. Unlike existing measures such as LPIPS and CLIPScore, $\texttt{ReMOVE}$ addresses the challenge of evaluating inpainting without a reference image, common in practical scenarios. It effectively distinguishes between object removal and replacement. This is a key issue in diffusion models due to stochastic nature of image generation. Traditional metrics fail to align with the intuitive definition of inpainting, which aims for (1) seamless object removal within masked regions (2) while preserving the background continuity. $\texttt{ReMOVE}$ not only correlates with state-of-the-art metrics and aligns with human perception but also captures the nuanced aspects of the inpainting process, providing a finer-grained evaluation of the generated outputs.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-01
# CDN Compression Format Conversion Attacks

Unveiling the Bandwidth Nightmare: CDN Compression Format Conversion Attacks ( http://arxiv.org/abs/2409.00712v1 )

ライセンス: Link先を確認
Ziyu Lin, Zhiwei Lin, Ximeng Liu, Zuobing Ying, Cheng Chen, (参考訳) コンテンツ配信ネットワーク(CDN)は、ネットワーク性能を高め、ホスティングウェブサイトのWeb攻撃トラフィックを保護するように設計されている。 HTTP圧縮要求機構は主に不要なネットワーク転送を減らすことを目的としています。 しかし,CDNが圧縮要求に応じたときのセキュリティリスクを考慮できなかった。 本稿では,新しいHTTP増幅攻撃CDN圧縮フォーマット変換(CDN-Convet)攻撃を提案する。 これにより、攻撃者はCDNの後方に配置されたオリジンサーバの帯域幅だけでなく、CDNサロゲートノードの帯域幅も大幅に消耗できる。 本研究は,11種のCDNに対するCDN-Convet攻撃について検討し,実現可能性と実世界への影響について検討した。 実験の結果,CDNはCDN-Convet攻撃の影響を受けていることがわかった。 また,CDNプロバイダに対する我々の調査結果を開示し,建設的なフィードバックを得た。

Content Delivery Networks (CDNs) are designed to enhance network performance and protect against web attack traffic for their hosting websites. And the HTTP compression request mechanism primarily aims to reduce unnecessary network transfers. However, we find that the specification failed to consider the security risks introduced when CDNs meet compression requests. In this paper, we present a novel HTTP amplification attack, CDN Compression Format Convert (CDN-Convet) Attacks. It allows attackers to massively exhaust not only the outgoing bandwidth of the origin servers deployed behind CDNs but also the bandwidth of CDN surrogate nodes. We examined the CDN-Convet attacks on 11 popular CDNs to evaluate the feasibility and real-world impacts. Our experimental results show that all these CDNs are affected by the CDN-Convet attacks. We have also disclosed our findings to affected CDN providers and have received constructive feedback.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-01
# コンカレント・ファンドスと光コヒーレンス・トモグラフィー画像を用いた加齢黄斑変性症に対するマルチスケールカラーガイド型アテンション・アンサンブル分類器

Multiscale Color Guided Attention Ensemble Classifier for Age-Related Macular Degeneration using Concurrent Fundus and Optical Coherence Tomography Images ( http://arxiv.org/abs/2409.00718v1 )

ライセンス: Link先を確認
Pragya Gupta, Subhamoy Mandal, Debashree Guha, Debjani Chakraborty, (参考訳) 自動診断技術は、単一のモダリティ・ファンドス画像または光コヒーレンス・トモグラフィー(OCT)を用いて、加齢に伴う黄斑変性(AMD)を同定するために進化してきた。 眼疾患を分類するためには、眼底画像と眼底画像が臨床で使用される最も重要な画像モダリティである。 深層学習に基づくほとんどの技術は単一の画像モダリティに基づいて構築されており、眼疾患を特定の程度に考慮し、異なる画像モダリティ間で網羅的な情報を含む他のモダリティを無視している。 本稿では, 異なる色空間を用いて, 異なる色空間を効率よく抽出できる移動学習(MCGAEc)に基づいて, 注意機構と一体化した多スケール色空間を提案する。 本稿では,まず,マルチスケールに特徴的な色空間を統一したフレームワークに統合することにより,多彩な特徴表現を含む,モダリティ固有の色空間エンコーダモデルを紹介する。 先行エンコーダモジュールから抽出した特徴をアテンション機構に組み込んでグローバル特徴表現を抽出し、その特徴と統合し、ランダム森林分類器に転送してAMDの分類を行う。 MCGAEc法の性能を解析するために,Project Macula for AMDから公開されているマルチモーダルデータセットを活用し,既存のモデルと比較した。

Automatic diagnosis techniques have evolved to identify age-related macular degeneration (AMD) by employing single modality Fundus images or optical coherence tomography (OCT). To classify ocular diseases, fundus and OCT images are the most crucial imaging modalities used in the clinical setting. Most deep learning-based techniques are established on a single imaging modality, which contemplates the ocular disorders to a specific extent and disregards other modality that comprises exhaustive information among distinct imaging modalities. This paper proposes a modality-specific multiscale color space embedding integrated with the attention mechanism based on transfer learning for classification (MCGAEc), which can efficiently extract the distinct modality information at various scales using the distinct color spaces. In this work, we first introduce the modality-specific multiscale color space encoder model, which includes diverse feature representations by integrating distinct characteristic color spaces on a multiscale into a unified framework. The extracted features from the prior encoder module are incorporated with the attention mechanism to extract the global features representation, which is integrated with the prior extracted features and transferred to the random forest classifier for the classification of AMD. To analyze the performance of the proposed MCGAEc method, a publicly available multi-modality dataset from Project Macula for AMD is utilized and compared with the existing models.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# 2024年の欧州連合(EU)選挙におけるチャットボットとジェミニの政治的選好

Who Would Chatbots Vote For? Political Preferences of ChatGPT and Gemini in the 2024 European Union Elections ( http://arxiv.org/abs/2409.00721v1 )

ライセンス: Link先を確認
Michael Haman, Milan Školník, (参考訳) 本研究では,2024年欧州議会議員選挙におけるチャットボットの政治バイアス,すなわちChatGPTとGeminiについて検討した。 この研究は、これらの生成人工知能(AI)システムにより、27のEU加盟国にまたがる欧州議会で代表される政党の評価に焦点を当てた。 この方法論は、両方のプラットフォームで標準化されたプロンプトを通じて、日々のデータ収集に関係していた。 Geminiはほとんど政治的な質問に答えることを拒んだが、ChatGPTは一貫して評価した。 この分析は、左派と中道派に有利なChatGPTに有意な偏見を示し、グリーンズ/欧州自由同盟の最高評価となった。 対照的に右翼政党、特にアイデンティティ・アンド・デモクラシー・グループが最も低い評価を受けた。 調査では、欧州統合に対する態度や民主的価値観に対する認識など、評価に影響を及ぼす重要な要因を特定した。 この発見は、生成的AIシステムが提供する情報に対する政治的文脈における批判的なアプローチの必要性を強調し、この分野における透明性と規制の強化を求めている。

This study examines the political bias of chatbots powered by large language models, namely ChatGPT and Gemini, in the context of the 2024 European Parliament elections. The research focused on the evaluation of political parties represented in the European Parliament across 27 EU Member States by these generative artificial intelligence (AI) systems. The methodology involved daily data collection through standardized prompts on both platforms. The results revealed a stark contrast: while Gemini mostly refused to answer political questions, ChatGPT provided consistent ratings. The analysis showed a significant bias in ChatGPT in favor of left-wing and centrist parties, with the highest ratings for the Greens/European Free Alliance. In contrast, right-wing parties, particularly the Identity and Democracy group, received the lowest ratings. The study identified key factors influencing the ratings, including attitudes toward European integration and perceptions of democratic values. The findings highlight the need for a critical approach to information provided by generative AI systems in a political context and call for more transparency and regulation in this area.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# BUET多相心音データセット:コンピュータ支援診断システムの開発のための総合的聴力データセット

BUET Multi-disease Heart Sound Dataset: A Comprehensive Auscultation Dataset for Developing Computer-Aided Diagnostic Systems ( http://arxiv.org/abs/2409.00724v1 )

ライセンス: Link先を確認
Shams Nafisa Ali, Afia Zahin, Samiul Based Shuvo, Nusrat Binta Nizam, Shoyad Ibn Sabur Khan Nuhash, Sayeed Sajjad Razin, S. M. Sakeef Sani, Farihin Rahman, Nawshad Binta Nizam, Farhat Binte Azam, Rakib Hossen, Sumaiya Ohab, Nawsabah Noor, Taufiq Hasan, (参考訳) 心血管疾患(CVD)を診断するための統合的なツールである心肺蘇生は、しばしば臨床医の主観的解釈に依存し、一貫性と精度の限界を提示する。 そこで本研究では,BMD-HS(Multi-disease Heart Sound)データセットについて紹介する。 このデータセットは、5つの異なる心臓音のクラスにまたがる864の録音を包含している。 BMD-HSデータセットの特長は、その革新的なマルチラベルアノテーションシステムである。 このシステムは、自動心臓音分類と診断において、高度な機械学習モデルを開発するためのデータセットの有用性を著しく向上させる。 従来の聴診と現代のデータ駆動診断のギャップを埋めることにより、BMD-HSデータセットはCVDの診断と管理を革命させ、心臓健康研究の進歩のための貴重な資源を提供する。 データセットはこのリンクで公開されている。 https://github.com/mHealthBuet/BMD-HS-Dataset。

Cardiac auscultation, an integral tool in diagnosing cardiovascular diseases (CVDs), often relies on the subjective interpretation of clinicians, presenting a limitation in consistency and accuracy. Addressing this, we introduce the BUET Multi-disease Heart Sound (BMD-HS) dataset - a comprehensive and meticulously curated collection of heart sound recordings. This dataset, encompassing 864 recordings across five distinct classes of common heart sounds, represents a broad spectrum of valvular heart diseases, with a focus on diagnostically challenging cases. The standout feature of the BMD-HS dataset is its innovative multi-label annotation system, which captures a diverse range of diseases and unique disease states. This system significantly enhances the dataset's utility for developing advanced machine learning models in automated heart sound classification and diagnosis. By bridging the gap between traditional auscultation practices and contemporary data-driven diagnostic methods, the BMD-HS dataset is poised to revolutionize CVD diagnosis and management, providing an invaluable resource for the advancement of cardiac health research. The dataset is publicly available at this link: https://github.com/mHealthBuet/BMD-HS-Dataset.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# LPUWF-LDM:限定データセット上での高精度後期UWF-FA生成のための拡張潜在拡散モデル

LPUWF-LDM: Enhanced Latent Diffusion Model for Precise Late-phase UWF-FA Generation on Limited Dataset ( http://arxiv.org/abs/2409.00726v1 )

ライセンス: Link先を確認
Zhaojie Fang, Xiao Yu, Guanyu Zhou, Ke Zhuang, Yifei Chen, Ruiquan Ge, Changmiao Wang, Gangyong Jia, Qing Wu, Juan Ye, Maimaiti Nuliqiman, Peifang Xu, Ahmed Elazab, (参考訳) UWF-FA(Ultra-Wide-Field Fluorescein Angiography)は、フルオレセインナトリウムを用いた眼疾患の正確な同定を可能にする。 既存の研究では、UWF-SLO(Ultra-Wide-Field Scanning Laser Ophthalmoscopy)からUWF-FAを生成する方法が開発されている。 しかし、これらの方法は、特に病変領域や細部において、高品質な後期UWF-FAの生成にはあまり効果がない。 UWF-SLOと早期・後期のUWF-FAデータセットの欠如と、病変部位や潜在的な血液漏れ領域でのリアルな生成の必要性の2つの主な課題が、高品質な後期UWF-FAの生成を妨げる。 本研究では,制限付きUWF画像から高品質のUWF-FAを生成するための遅延拡散モデルフレームワークを提案する。 上記の課題に対処するため,本手法では,早期と後期の相違に焦点をあてるクロステンポラリー・ディファレンシャル・ディファレンス・ロスを利用したモジュールを用いている。 さらに,医療画像のリアリズムを改善するために,拡散前処理に低周波拡張ノイズ戦略を導入する。 可変オートエンコーダモジュールのマッピング機能,特に限られたデータセットでは,条件付き画像から付加情報を抽出するGated Convolutional Encoderを実装した。 LPUWF-LDMは, 後期UWF-FAの微細な細部を効果的に再構成し, 限られたデータセットを扱う場合の他の方法と比較して, 最先端の結果が得られる。 ソースコードは、https://github.com/Tinysqua/***.comで公開されています。

Ultra-Wide-Field Fluorescein Angiography (UWF-FA) enables precise identification of ocular diseases using sodium fluorescein, which can be potentially harmful. Existing research has developed methods to generate UWF-FA from Ultra-Wide-Field Scanning Laser Ophthalmoscopy (UWF-SLO) to reduce the adverse reactions associated with injections. However, these methods have been less effective in producing high-quality late-phase UWF-FA, particularly in lesion areas and fine details. Two primary challenges hinder the generation of high-quality late-phase UWF-FA: the scarcity of paired UWF-SLO and early/late-phase UWF-FA datasets, and the need for realistic generation at lesion sites and potential blood leakage regions. This study introduces an improved latent diffusion model framework to generate high-quality late-phase UWF-FA from limited paired UWF images. To address the challenges as mentioned earlier, our approach employs a module utilizing Cross-temporal Regional Difference Loss, which encourages the model to focus on the differences between early and late phases. Additionally, we introduce a low-frequency enhanced noise strategy in the diffusion forward process to improve the realism of medical images. To further enhance the mapping capability of the variational autoencoder module, especially with limited datasets, we implement a Gated Convolutional Encoder to extract additional information from conditional images. Our Latent Diffusion Model for Ultra-Wide-Field Late-Phase Fluorescein Angiography (LPUWF-LDM) effectively reconstructs fine details in late-phase UWF-FA and achieves state-of-the-art results compared to other existing methods when working with limited datasets. Our source code is available at: https://github.com/Tinysqua/****.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# ハウンド:テキスト属性グラフによる少数・ゼロショットノード分類のためのスーパービジョン信号の探索

Hound: Hunting Supervision Signals for Few and Zero Shot Node Classification on Text-attributed Graph ( http://arxiv.org/abs/2409.00727v1 )

ライセンス: Link先を確認
Yuxiang Wang, Xiao Yan, Shiyu Jin, Quanqing Xu, Chuanhui Yang, Yuanyuan Zhu, Chuang Hu, Bo Du, Jiawei Jiang, (参考訳) テキスト分散グラフ(英: Text-attributed graph、TAG)は、各ノードのテキスト記述を伴うグラフ構造化データの重要なタイプである。 TAG 上のゼロショットノード分類は、アカデミックやソーシャルネットワークなどの分野に多くの応用がある。 既存の手法では、グラフベースのノード埋め込みと言語ベースのテキスト埋め込みの整合に、対照的な損失しか使用していない。 本稿では,より多くの監視信号を導入して精度を向上させるためにHoundを提案し,その中核となる考え方は,データに付随するノードとテキストのペアを超越することである。 具体的には、各テキストに対してより多くの参照ノードを提供するために、ノード摂動、テキストマッチング、セマンティクス否定という3つの拡張テクニックを設計する。 ノードの摂動はエッジを追加/ドロップすることで、テキストにマッチ可能な多様化ノードの埋め込みを生成する。 テキストマッチングは、ノードにマッチするように、同様の埋め込みを持つテキストを検索する。 意味論否定(Semantics negation)は、負のプロンプトを使用して、反対の意味論を持つ負のテキストを構築する。 5つのデータセット上でHoundを評価し、13の最先端のベースラインと比較した。 その結果、Houndはすべてのベースラインを一貫して上回り、最高のパフォーマンスのベースラインよりも精度が5%以上向上していることがわかった。

Text-attributed graph (TAG) is an important type of graph structured data with text descriptions for each node. Few- and zero-shot node classification on TAGs have many applications in fields such as academia and social networks. However, the two tasks are challenging due to the lack of supervision signals, and existing methods only use the contrastive loss to align graph-based node embedding and language-based text embedding. In this paper, we propose Hound to improve accuracy by introducing more supervision signals, and the core idea is to go beyond the node-text pairs that come with data. Specifically, we design three augmentation techniques, i.e., node perturbation, text matching, and semantics negation to provide more reference nodes for each text and vice versa. Node perturbation adds/drops edges to produce diversified node embeddings that can be matched with a text. Text matching retrieves texts with similar embeddings to match with a node. Semantics negation uses a negative prompt to construct a negative text with the opposite semantics, which is contrasted with the original node and text. We evaluate Hound on 5 datasets and compare with 13 state-of-the-art baselines. The results show that Hound consistently outperforms all baselines, and its accuracy improvements over the best-performing baseline are usually over 5%.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# ContextCite: コンテキストにモデル生成をもたらす

ContextCite: Attributing Model Generation to Context ( http://arxiv.org/abs/2409.00729v1 )

ライセンス: Link先を確認
Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry, (参考訳) 言語モデルは、応答を生成する際に、コンテキストとして提供される情報をどのように利用するか? 特定の生成されたステートメントが実際にコンテキスト、誤解、あるいは製造されているかどうかを推測できますか? これらの疑問に答えるために、私たちはコンテキスト属性の問題を紹介します: あるモデルが特定の文を生成するきっかけとなったコンテキストの一部(もしあれば)をピンポイントする。 次に、既存の言語モデルの上に適用可能な、コンテキスト属性のシンプルでスケーラブルなメソッドであるContextCiteを紹介します。 最後に,(1)生成したステートメントの検証を支援すること (2) コンテキストを切断することで応答品質を向上させること,(3) 中毒攻撃を検出すること,の3つの応用を通してContextCiteの有用性を示す。 ContextCiteのコードはhttps://github.com/MadryLab/context-cite.comで提供します。

How do language models use information provided as context when generating a response? Can we infer whether a particular generated statement is actually grounded in the context, a misinterpretation, or fabricated? To help answer these questions, we introduce the problem of context attribution: pinpointing the parts of the context (if any) that led a model to generate a particular statement. We then present ContextCite, a simple and scalable method for context attribution that can be applied on top of any existing language model. Finally, we showcase the utility of ContextCite through three applications: (1) helping verify generated statements (2) improving response quality by pruning the context and (3) detecting poisoning attacks. We provide code for ContextCite at https://github.com/MadryLab/context-cite.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# 前提条件下での物理動力学の生成

Generating Physical Dynamics under Priors ( http://arxiv.org/abs/2409.00730v1 )

ライセンス: Link先を確認
Zihan Zhou, Xiaoxue Wang, Tianshu Yu, (参考訳) データ駆動の文脈で物理的に実現可能なダイナミクスを生成することは、特に特定の方程式や公式で表される物理的事前に固執する場合、困難である。 既存の方法論は、しばしば物理的事前の統合を見落とし、基礎的な物理法則や準最適性能に反する結果となる。 本稿では,この制限に対処する拡散型生成モデルに物理先入観をシームレスに組み込む新しい枠組みを提案する。 当社のアプローチでは,2つの先行カテゴリを活用しています。 1) roto-translational invarianceなどの分布先 2)エネルギー・運動量保存法やPDE制約を含む物理的実現可能性の先行。 これらの前駆体を生成過程に埋め込むことで、軌道や流れを包含して、物理的に現実的な力学を効率的に生成することができる。 実験により,AI4Physicsにおけるデータ駆動研究を進展させる可能性が示唆された。 我々の貢献は、生成モデリングの分野ではかなり進歩しており、正確で物理的に一貫したダイナミクスを生成する堅牢なソリューションを提供しています。

Generating physically feasible dynamics in a data-driven context is challenging, especially when adhering to physical priors expressed in specific equations or formulas. Existing methodologies often overlook the integration of physical priors, resulting in violation of basic physical laws and suboptimal performance. In this paper, we introduce a novel framework that seamlessly incorporates physical priors into diffusion-based generative models to address this limitation. Our approach leverages two categories of priors: 1) distributional priors, such as roto-translational invariance, and 2) physical feasibility priors, including energy and momentum conservation laws and PDE constraints. By embedding these priors into the generative process, our method can efficiently generate physically realistic dynamics, encompassing trajectories and flows. Empirical evaluations demonstrate that our method produces high-quality dynamics across a diverse array of physical phenomena with remarkable robustness, underscoring its potential to advance data-driven studies in AI4Physics. Our contributions signify a substantial advancement in the field of generative modeling, offering a robust solution to generate accurate and physically consistent dynamics.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# 監視システムの映像に基づく人間活動認識のための機械学習手法の批判的分析

A Critical Analysis on Machine Learning Techniques for Video-based Human Activity Recognition of Surveillance Systems: A Review ( http://arxiv.org/abs/2409.00731v1 )

ライセンス: Link先を確認
Shahriar Jahan, Roknuzzaman, Md Robiul Islam, (参考訳) 空港、駅、バス停、ショッピングモールなどの混雑した場所での異常活動の増加は、インテリジェントな監視システムの必要性を喚起している。 インテリジェントな監視システムは、正常な活動と疑わしい行動とをリアルタイムのビデオ分析とを区別し、異常レベルの適切な対応を即時かつ効率的に行うことができる。 ビデオに基づく人間の行動認識は多くの研究者の関心を惹きつけており、単純な手の動き認識から監視システムにおける重要な行動認識まで様々な応用がある。 本稿では、不審な行動を検知・認識するための基本的なアプローチの検証から始まるビデオベースヒューマンアクティビティ認識(HAR)技術に対する批判的な調査を行い、その後、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、隠れマルコフモデル(HMM)、K平均クラスタリング(K-means Clustering)といった機械学習およびディープラーニング技術に対する批判的な分析を行った。 特徴抽出手法,パラメータの初期化,最適化アルゴリズム,精度などに基づいて,これらの学習手法に関する詳細な調査と比較を行った。 本研究の目的は、この分野の将来的な取り組みにおいて、ポジティブなスキームを優先し、研究者の進歩を支援することである。 本稿では,HAR分野における既存の課題についても実践的に検討し,今後の展望について考察する。

Upsurging abnormal activities in crowded locations such as airports, train stations, bus stops, shopping malls, etc., urges the necessity for an intelligent surveillance system. An intelligent surveillance system can differentiate between normal and suspicious activities from real-time video analysis that will enable to take appropriate measures regarding the level of an anomaly instantaneously and efficiently. Video-based human activity recognition has intrigued many researchers with its pressing issues and a variety of applications ranging from simple hand gesture recognition to crucial behavior recognition in a surveillance system. This paper provides a critical survey of video-based Human Activity Recognition (HAR) techniques beginning with an examination of basic approaches for detecting and recognizing suspicious behavior followed by a critical analysis of machine learning and deep learning techniques such as Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Hidden Markov Model (HMM), K-means Clustering etc. A detailed investigation and comparison are done on these learning techniques on the basis of feature extraction techniques, parameter initialization, and optimization algorithms, accuracy, etc. The purpose of this review is to prioritize positive schemes and to assist researchers with emerging advancements in this field's future endeavors. This paper also pragmatically discusses existing challenges in the field of HAR and examines the prospects in the field.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# サブ指数入力に対する$αのベニグオーバーフィッティング

Benign Overfitting for $α$ Sub-exponential Input ( http://arxiv.org/abs/2409.00733v1 )

ライセンス: Link先を確認
Kota Okudo, Kei Kobayashi, (参考訳) 本稿では,重み付き入力分布を持つ二項分類問題における良性過剰適合現象について検討する。 我々は、最大マージン分類器の分析を$\alpha$部分指数分布に拡張し、$\alpha \in (0,2]$で、準ガウス入力に焦点を当てた以前の研究を一般化する。 この重み付き設定における非正規化ロジスティック損失に対する勾配勾配勾配を用いて訓練された線形分類器に対する一般化誤差境界を提供する。 次元$p$と特徴ベクトル等級$\|\mu\|$の条件下では、最大マージン分類器の誤分類誤差が漸近的にノイズレベルに近づくことを証明している。 この研究は、より堅牢な分布環境における良性過剰適合の理解に寄与し、この現象が以前研究されたよりも重い尾の入力でも持続することを示した。

This paper investigates the phenomenon of benign overfitting in binary classification problems with heavy-tailed input distributions. We extend the analysis of maximum margin classifiers to $\alpha$ sub-exponential distributions, where $\alpha \in (0,2]$, generalizing previous work that focused on sub-gaussian inputs. Our main result provides generalization error bounds for linear classifiers trained using gradient descent on unregularized logistic loss in this heavy-tailed setting. We prove that under certain conditions on the dimensionality $p$ and feature vector magnitude $\|\mu\|$, the misclassification error of the maximum margin classifier asymptotically approaches the noise level. This work contributes to the understanding of benign overfitting in more robust distribution settings and demonstrates that the phenomenon persists even with heavier-tailed inputs than previously studied.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# AgGym:超精密経営計画のための農業生物ストレスシミュレーション環境

AgGym: An agricultural biotic stress simulation environment for ultra-precision management planning ( http://arxiv.org/abs/2409.00735v1 )

ライセンス: Link先を確認
Mahsa Khosravi, Matthew Carroll, Kai Liang Tan, Liza Van der Laan, Joscif Raigne, Daren S. Mueller, Arti Singh, Aditya Balu, Baskar Ganapathysubramanian, Asheesh Kumar Singh, Soumik Sarkar, (参考訳) 農業生産は、高い収量、利益、種子品質の優れた作物を成功させるために、殺虫剤、殺虫剤、除草剤などの入力を慎重に管理する必要がある。 現在の最先端の作物管理は粗大な作物管理戦略に依存しており、全畑に害虫や病気を防除する化学物質を散布し、コストが上昇し、亜最適土壌と作物管理に繋がる。 これらの課題を克服し、作物生産を最適化するために、我々は、仮想フィールド環境内の機械学習ツールを使用して、農家が利益を最大化しつつ、バイオティクスの脅威を管理するための局所的な管理計画を生成する。 特にAgGymは, 土壌中の生物ストレスの拡散をモデル化し, 化学処理なしでの収量損失を推定するための, モジュラー, 作物, ストレス非依存のシミュレーションフレームワークである。 実データを用いた検証の結果,AgGymは各種の生物ストレス条件下での収量分布をシミュレートするために,限られたデータでカスタマイズ可能であることがわかった。 さらに,AgGymを用いた深部強化学習(RL)政策を,より少ない化学薬品と低コストで収量回復を図り,超精密な生物性ストレス緩和戦略を設計するための訓練が可能であることを実証した。 提案フレームワークは, 生物ストレス管理をスケジュールベースから, 即時的, 規範的, 反応性に転換する, 個人化された意思決定支援を実現する。 また、AgGymソフトウェア実装をコミュニティリソースとしてリリースし、専門家にこのオープンソースで公開されているモジュラー環境フレームワークへの貢献を依頼します。 ソースコードは、https://github.com/SCSLabISU/AgGym.comでアクセスできる。

Agricultural production requires careful management of inputs such as fungicides, insecticides, and herbicides to ensure a successful crop that is high-yielding, profitable, and of superior seed quality. Current state-of-the-art field crop management relies on coarse-scale crop management strategies, where entire fields are sprayed with pest and disease-controlling chemicals, leading to increased cost and sub-optimal soil and crop management. To overcome these challenges and optimize crop production, we utilize machine learning tools within a virtual field environment to generate localized management plans for farmers to manage biotic threats while maximizing profits. Specifically, we present AgGym, a modular, crop and stress agnostic simulation framework to model the spread of biotic stresses in a field and estimate yield losses with and without chemical treatments. Our validation with real data shows that AgGym can be customized with limited data to simulate yield outcomes under various biotic stress conditions. We further demonstrate that deep reinforcement learning (RL) policies can be trained using AgGym for designing ultra-precise biotic stress mitigation strategies with potential to increase yield recovery with less chemicals and lower cost. Our proposed framework enables personalized decision support that can transform biotic stress management from being schedule based and reactive to opportunistic and prescriptive. We also release the AgGym software implementation as a community resource and invite experts to contribute to this open-sourced publicly available modular environment framework. The source code can be accessed at: https://github.com/SCSLabISU/AgGym.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# MoManifold: 切り離された関節加速度マニフォールドによる3次元人間の動作測定の学習

MoManifold: Learning to Measure 3D Human Motion via Decoupled Joint Acceleration Manifolds ( http://arxiv.org/abs/2409.00736v1 )

ライセンス: Link先を確認
Ziqiang Dang, Tianxing Fan, Boming Zhao, Xujie Shen, Lei Wang, Guofeng Zhang, Zhaopeng Cui, (参考訳) 人-コンピュータインタラクションからAR/VRまで幅広い応用が可能な正確な3次元動作推定・生成には,時間的情報を効果的に組み込むことが重要である。 本稿では、連続した高次元運動空間における可塑性人間の動きをモデル化した、新しい人間の動きであるMoManifoldについて述べる。 従来の数学的手法やVAEに基づく手法と異なり、我々の表現は神経距離場に基づいて設計されており、人間の力学をスコアに明示的に定量化し、人間の動きの可視性を測定することができる。 具体的には,既存の有限運動データから人体力学をモデル化する新しい結合加速度多様体を提案する。 さらに,多様体距離をガイダンスとして用いた新しい最適化手法を導入し,様々な動作関連タスクを容易にする。 大規模な実験により、MoManifoldは、実世界の人間のモカプデータのノイズ化、部分的な3D観察からの人間の動きの回復、SMPLベースのポーズ推定器のジッタの軽減、および間移動の結果の精査など、いくつかの下流タスクにおいて、既存のSOTAよりも優れていたことが示されている。

Incorporating temporal information effectively is important for accurate 3D human motion estimation and generation which have wide applications from human-computer interaction to AR/VR. In this paper, we present MoManifold, a novel human motion prior, which models plausible human motion in continuous high-dimensional motion space. Different from existing mathematical or VAE-based methods, our representation is designed based on the neural distance field, which makes human dynamics explicitly quantified to a score and thus can measure human motion plausibility. Specifically, we propose novel decoupled joint acceleration manifolds to model human dynamics from existing limited motion data. Moreover, we introduce a novel optimization method using the manifold distance as guidance, which facilitates a variety of motion-related tasks. Extensive experiments demonstrate that MoManifold outperforms existing SOTAs as a prior in several downstream tasks such as denoising real-world human mocap data, recovering human motion from partial 3D observations, mitigating jitters for SMPL-based pose estimators, and refining the results of motion in-betweening.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# VPVet:バーチャルリアリティアプリのプライバシーポリシーを検証

VPVet: Vetting Privacy Policies of Virtual Reality Apps ( http://arxiv.org/abs/2409.00740v1 )

ライセンス: Link先を確認
Yuxia Zhan, Yan Meng, Lu Zhou, Yichang Xiong, Xiaokuan Zhang, Lichuan Ma, Guoxing Chen, Qingqi Pei, Haojin Zhu, (参考訳) バーチャルリアリティ(VR)アプリは、パーソナルコンピュータやスマートフォン上で動作するWeb/モバイルアプリよりも幅広いユーザーデータを収集することができる。 既存の法とプライバシーの規制は、VR開発者がプライバシーポリシーを通じて収集/使用/共有されたデータ(CUS)をユーザーに知らせるべきであることを強調している。 しかし、VRエコシステムのプライバシポリシはまだ初期段階であり、多くの開発者は、規制に準拠してユーザの期待に応える適切なプライバシポリシを書かなかった。 本稿では,VRアプリのプライバシーポリシーコンプライアンス問題を自動的に検証するVPVetを提案する。 VPVetはまず、VRプライバシポリシの可用性と完全性を分析し、その分析を3つの重要な基準(粒度、最小化、CUS文の一貫性)に基づいて洗練する。 私たちの研究は、主要な10プラットフォームから11,923の異なるVRアプリのプライバシーポリシーで構成されるVRPPという、最初の、そして現在最大のVRプライバシポリシーデータセットを確立しました。 私たちの審査結果は、プライバシーポリシーの可用性と品質の低下、粗い粒度、VR特性への適応の欠如、プライバシーポリシーにおけるCUS声明と実際の行動の矛盾など、VRエコシステム内の深刻なプライバシー問題を明らかにします。 私たちはVPVetシステムをオープンソースとして公開し、リポジトリhttps://github.com/kalamoo/PPAuditで発見しました。

Virtual reality (VR) apps can harvest a wider range of user data than web/mobile apps running on personal computers or smartphones. Existing law and privacy regulations emphasize that VR developers should inform users of what data are collected/used/shared (CUS) through privacy policies. However, privacy policies in the VR ecosystem are still in their early stages, and many developers fail to write appropriate privacy policies that comply with regulations and meet user expectations. In this paper, we propose VPVet to automatically vet privacy policy compliance issues for VR apps. VPVet first analyzes the availability and completeness of a VR privacy policy and then refines its analysis based on three key criteria: granularity, minimization, and consistency of CUS statements. Our study establishes the first and currently largest VR privacy policy dataset named VRPP, consisting of privacy policies of 11,923 different VR apps from 10 mainstream platforms. Our vetting results reveal severe privacy issues within the VR ecosystem, including the limited availability and poor quality of privacy policies, along with their coarse granularity, lack of adaptation to VR traits and the inconsistency between CUS statements in privacy policies and their actual behaviors. We open-source VPVet system along with our findings at repository https://github.com/kalamoo/PPAudit, aiming to raise awareness within the VR community and pave the way for further research in this field.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# 信頼とバランス: 効果的なソースレス非教師なしドメイン適応のための擬似ラベルと温度スケールの損失

Trust And Balance: Few Trusted Samples Pseudo-Labeling and Temperature Scaled Loss for Effective Source-Free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2409.00741v1 )

ライセンス: Link先を確認
Andrea Maracani, Lorenzo Rosasco, Lorenzo Natale, (参考訳) ディープニューラルネットワークは多くのコンピュータビジョンタスクに大きな影響を与えている。 しかし、テストデータ分散(ターゲットドメイン)がトレーニングデータ(ソースドメイン)から逸脱すると、その効果は低下する。 データプライバシやメモリの制約により、ターゲットラベルが利用できなくなり、ラベル付きソースドメインへのアクセスが制限される状況では、Source-Free Unsupervised Domain Adaptation (SF-UDA) が貴重なツールとして登場した。 これらの制約下でのSF-UDAの役割を認識し,FTSP (Few Trusted Samples Pseudo-labeling) とTSAL (The temperature Scaled Adaptive Loss) の2つの重要な貢献を特徴とする新しいアプローチを導入する。 FTSPは、ターゲットデータからの信頼されたサンプルの限られたサブセットを使用して、ドメイン全体の擬似ラベルを推論する分類器を構築し、単純さと精度の向上を示す。 同時にTSALは、ユニークな二重温度スケジューリング、漸近的に多様性のバランス、識別性、および教師なし適応目的に擬似ラベルを組み込むように設計された。 我々は、Trust And Balance (TAB) 適応という名前で、Office31やOffice-Homeのような標準データセット、ImageCLEF-DAやAdaptiopeのようなあまり一般的なベンチマークで厳格に評価されており、ResNet50とViT-Largeアーキテクチャを使っている。 本研究の結果は, SF-UDAランドスケープにおける方法論の有効性を実証し, 現代の最先端技術に勝るものがほとんどである。

Deep Neural Networks have significantly impacted many computer vision tasks. However, their effectiveness diminishes when test data distribution (target domain) deviates from the one of training data (source domain). In situations where target labels are unavailable and the access to the labeled source domain is restricted due to data privacy or memory constraints, Source-Free Unsupervised Domain Adaptation (SF-UDA) has emerged as a valuable tool. Recognizing the key role of SF-UDA under these constraints, we introduce a novel approach marked by two key contributions: Few Trusted Samples Pseudo-labeling (FTSP) and Temperature Scaled Adaptive Loss (TSAL). FTSP employs a limited subset of trusted samples from the target data to construct a classifier to infer pseudo-labels for the entire domain, showing simplicity and improved accuracy. Simultaneously, TSAL, designed with a unique dual temperature scheduling, adeptly balance diversity, discriminability, and the incorporation of pseudo-labels in the unsupervised adaptation objective. Our methodology, that we name Trust And Balance (TAB) adaptation, is rigorously evaluated on standard datasets like Office31 and Office-Home, and on less common benchmarks such as ImageCLEF-DA and Adaptiope, employing both ResNet50 and ViT-Large architectures. Our results compare favorably with, and in most cases surpass, contemporary state-of-the-art techniques, underscoring the effectiveness of our methodology in the SF-UDA landscape.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# 階層的影響ネットワークを用いたエージェントモデルによる金融市場におけるソーシャルメディア駆動バブル形成のシミュレーション

Simulation of Social Media-Driven Bubble Formation in Financial Markets using an Agent-Based Model with Hierarchical Influence Network ( http://arxiv.org/abs/2409.00742v1 )

ライセンス: Link先を確認
Gonzalo Bohorquez, John Cartlidge, (参考訳) 木のような階層構造は、金融市場の創発的行動、特にソーシャルメディアの影響と投資家の行動との間に明らかな共通点が存在する市場をモデル化するための単純かつ効果的な方法である。 この仮説を探求するために,取引業者が階層的なコミュニティネットワークに埋め込まれ,コミュニティがトレーダーの戦略や意見に影響を与える,金融市場のエージェントベースモデルを導入する。 このモデルの実証分析は、その行動が実際の金融市場で観察されるいくつかのスタイル化された事実に適合していることを示し、このモデルは、エコーチャンバーやポンプ・アンド・ダンプ・スキームのようなソーシャルメディア駆動の現象が金融市場にもたらす影響を現実的にシミュレートすることができることを示している。

We propose that a tree-like hierarchical structure represents a simple and effective way to model the emergent behaviour of financial markets, especially markets where there exists a pronounced intersection between social media influences and investor behaviour. To explore this hypothesis, we introduce an agent-based model of financial markets, where trading agents are embedded in a hierarchical network of communities, and communities influence the strategies and opinions of traders. Empirical analysis of the model shows that its behaviour conforms to several stylized facts observed in real financial markets; and the model is able to realistically simulate the effects that social media-driven phenomena, such as echo chambers and pump-and-dump schemes, have on financial markets.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# 解釈可能なクラスタリング: 調査

Interpretable Clustering: A Survey ( http://arxiv.org/abs/2409.00743v1 )

ライセンス: Link先を確認
Lianyu Hu, Mudi Jiang, Junjie Dong, Xinying Liu, Zengyou He, (参考訳) 近年,クラスタリングアルゴリズムの研究の多くは,その精度と効率の向上に主眼を置いている。 しかし、これらの手法が医療、金融、自律システムといったハイテイクな分野にますます適用されているため、透明性と解釈可能なクラスタリング結果の必要性が重要になっている。 これは、ユーザの信頼を得るだけでなく、これらの分野における倫理的および規制的な要求を満たすために必要である。 クラスタリングアルゴリズムから導かれる決定を明確に理解し、正当化することが、現在では基本的な要件となっている。 このニーズに対処するため,本論文では,クラスタリングアルゴリズムの現状を包括的かつ構造化したレビューを行い,様々な手法を区別するための重要な基準を特定した。 これらの洞察は、研究者が特定のアプリケーションコンテキストに最も適したクラスタリング方法に関する情報決定を行うのに有効であり、同時に、効率的かつ透明なクラスタリングアルゴリズムの開発と導入を促進するのに役立つ。

In recent years, much of the research on clustering algorithms has primarily focused on enhancing their accuracy and efficiency, frequently at the expense of interpretability. However, as these methods are increasingly being applied in high-stakes domains such as healthcare, finance, and autonomous systems, the need for transparent and interpretable clustering outcomes has become a critical concern. This is not only necessary for gaining user trust but also for satisfying the growing ethical and regulatory demands in these fields. Ensuring that decisions derived from clustering algorithms can be clearly understood and justified is now a fundamental requirement. To address this need, this paper provides a comprehensive and structured review of the current state of explainable clustering algorithms, identifying key criteria to distinguish between various methods. These insights can effectively assist researchers in making informed decisions about the most suitable explainable clustering methods for specific application contexts, while also promoting the development and adoption of clustering algorithms that are both efficient and transparent.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# DSLO:不整合時空間伝播に基づく深部配列LiDARオドメトリー

DSLO: Deep Sequence LiDAR Odometry Based on Inconsistent Spatio-temporal Propagation ( http://arxiv.org/abs/2409.00744v1 )

ライセンス: Link先を確認
Huixin Zhang, Guangming Wang, Xinrui Wu, Chenfeng Xu, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan, Hesheng Wang, (参考訳) 本稿では,LDARオドメトリーにおける不整合時空間伝搬に基づく3次元点列学習モデルについて紹介する。 それは、空間情報再利用戦略を備えたピラミッド構造、シーケンシャルポーズ初期化モジュール、ゲート階層ポーズ精製モジュール、時間的特徴伝搬モジュールからなる。 まず、空間的特徴を点特徴ピラミッドを用いて符号化し、連続的なポーズ推定で再利用して計算オーバーヘッドを低減する。 次に、LiDARの高周波サンプリング特性を利用して、LiDARのポーズを初期化するシーケンシャルポーズ初期化手法を提案する。 そして、ゲート推定に基づいて異なる層からの動作情報を選択的に保持又は破棄することにより、ゲート階層のポーズ精細化機構により粗いポーズから細かなポーズを調整する。 最後に、時間的特徴伝搬法を提案し、点雲列からの歴史的動き情報を組み込んで、フレーム間に点雲に埋め込まれた動き情報を伝達する際の空間的不整合問題に対処する。 KITTIオドメトリデータセットとArgoverseデータセットの実験結果によると、DSLOは最先端の手法よりも優れており、少なくともRTEは15.67倍、RREは12.64倍改善されている。 私たちの実装はhttps://github.com/IRMVLab/DSLOで公開されます。

This paper introduces a 3D point cloud sequence learning model based on inconsistent spatio-temporal propagation for LiDAR odometry, termed DSLO. It consists of a pyramid structure with a spatial information reuse strategy, a sequential pose initialization module, a gated hierarchical pose refinement module, and a temporal feature propagation module. First, spatial features are encoded using a point feature pyramid, with features reused in successive pose estimations to reduce computational overhead. Second, a sequential pose initialization method is introduced, leveraging the high-frequency sampling characteristic of LiDAR to initialize the LiDAR pose. Then, a gated hierarchical pose refinement mechanism refines poses from coarse to fine by selectively retaining or discarding motion information from different layers based on gate estimations. Finally, temporal feature propagation is proposed to incorporate the historical motion information from point cloud sequences, and address the spatial inconsistency issue when transmitting motion information embedded in point clouds between frames. Experimental results on the KITTI odometry dataset and Argoverse dataset demonstrate that DSLO outperforms state-of-the-art methods, achieving at least a 15.67\% improvement on RTE and a 12.64\% improvement on RRE, while also achieving a 34.69\% reduction in runtime compared to baseline methods. Our implementation will be available at https://github.com/IRMVLab/DSLO.
翻訳日:2024-09-06 11:36:58 公開日:2024-09-01
# 依存性を意識したコード自然性

Dependency-Aware Code Naturalness ( http://arxiv.org/abs/2409.00747v1 )

ライセンス: Link先を確認
Chen Yang, Junjie Chen, Jiajun Jiang, Yuliang Huang, (参考訳) プログラム言語における反復性と予測可能性をキャプチャするコード自然性は、ソフトウェア工学における様々なコード関連タスクに有用であることが証明されている。 しかし、コードの自然さを正確に測定することは、依然として根本的な課題である。 既存の方法は、個々の行のコードに対して自然性を測定すると同時に、プログラム依存など、異なる行間の深い意味関係を無視している。 本研究では,個々の行を解析する代わりに,コード依存を組み込むことによって,コード自然度を測定する精度が向上するかどうかを,最初の実証的研究により検討することを目的とする。 そこで本研究では,コードにリッチな依存性情報を組み込むことにより,コード自然度を測定するDANという手法を提案する。 具体的には、DANは、プログラム依存グラフをトラバースすることで、複数のコード列を抽出し、各シーケンスの依存関係によって異なるコード行が接続され、各シーケンスを全体として取り出すことで、コード自然度を測定する。 このようにして、依存関係情報は適切にキャプチャできる。 最後に、DANによるコード自然度測定におけるコード依存の影響を評価するために、広範囲にわたる研究を行い、コード自然度を3つの新たなアプリケーションシナリオの下で、最先端の手法と比較した。 その結果、DANは自然なコードと非自然なコードを区別するだけでなく、バグやバグのないコード行の区別と、より良いコードモデルのトレーニングのためのデータクリーニングという、2つの重要なダウンストリームのコード自然さのアプリケーションを大幅に向上させ、コード自然さの測定におけるコードの依存性の重要性を反映していることが示された。

Code naturalness, which captures repetitiveness and predictability in programming languages, has proven valuable for various code-related tasks in software engineering. However, precisely measuring code naturalness remains a fundamental challenge. Existing methods measure code naturalness over individual lines of code while ignoring the deep semantic relations among different lines, e.g., program dependency, which may negatively affect the precision of the measure. In this study, we aim to perform the first empirical study to investigate whether incorporating code dependency, instead of analyzing individual lines, can enhance the precision of measuring code naturalness. To achieve that, we first propose a new method named DAN for measuring code naturalness by incorporating the rich dependency information in the code. Specifically, DAN extracts multiple sequences of code lines by traversing the program dependency graph, where different code lines are connected by dependencies in each sequence, and then the code naturalness will be measured by taking each sequence as a whole. In this way, the dependency information can be well captured. Finally, we have conducted an extensive study to evaluate the influence of code dependency for measuring code naturalness with DAN, and compared it with the state-of-the-art methods under three emerging application scenarios of code naturalness. The results demonstrate that DAN can not only better distinguish natural and unnatural code, but also substantially boost two important downstream applications of code naturalness, i.e., distinguishing buggy and non-buggy code lines and data cleansing for training better code models, reflecting the significance of code dependency in measuring code naturalness.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# 審美, ゆがみ, 衛生性からUHD画像品質を評価する

Assessing UHD Image Quality from Aesthetics, Distortions, and Saliency ( http://arxiv.org/abs/2409.00749v1 )

ライセンス: Link先を確認
Wei Sun, Weixia Zhang, Yuqin Cao, Linhan Cao, Jun Jia, Zijian Chen, Zicheng Zhang, Xiongkuo Min, Guangtao Zhai, (参考訳) UHD画像は、通常、解像度が4K以上で、入力としてフル解像度のイメージを採用すると計算が複雑になるため、効率的な画像品質評価(IQA)アルゴリズムにおいて重要な課題となる。 この問題に対処するため,我々は,グローバルな審美的特徴,局所的な技術的歪み,有能なコンテンツ知覚という3つの視点からUHD画像の品質を評価するために,マルチブランチディープニューラルネットワーク(DNN)を設計した。 具体的には、UHD画像から低分解能画像から美的特徴を抽出し、高周波数テクスチャ情報を失うが、グローバルな美的特徴を保っている。 格子状ミニパッチサンプリング戦略に基づいて,UHD画像から抽出したミニパッチからなる断片画像を用いて,技術的歪みを測定する。 UHD画像の塩分含有量を検知し、収穫し、塩分領域から品質認識特徴を抽出する。 これら3つの視点から特徴を抽出するために,バックボーンネットワークとしてSwin Transformer Tinyを採用している。 抽出した特徴を2層多層パーセプトロン(MLP)ネットワークで結合して品質スコアに回帰する。 予測精度を最適化するために平均二乗誤差(MSE)と、予測単調性を最適化するために忠実度損失(fidelity loss)を用いる。 実験結果から,UHD-IQAデータセット上での最適性能は最も低い計算複雑性を維持しつつ達成し,その有効性と効率を実証した。 さらに、提案されたモデルはECCV AIM 2024 UHD-IQA Challengeで優勝した。 コードはhttps://github.com/sunwei925/UIQAで入手できる。

UHD images, typically with resolutions equal to or higher than 4K, pose a significant challenge for efficient image quality assessment (IQA) algorithms, as adopting full-resolution images as inputs leads to overwhelming computational complexity and commonly used pre-processing methods like resizing or cropping may cause substantial loss of detail. To address this problem, we design a multi-branch deep neural network (DNN) to assess the quality of UHD images from three perspectives: global aesthetic characteristics, local technical distortions, and salient content perception. Specifically, aesthetic features are extracted from low-resolution images downsampled from the UHD ones, which lose high-frequency texture information but still preserve the global aesthetics characteristics. Technical distortions are measured using a fragment image composed of mini-patches cropped from UHD images based on the grid mini-patch sampling strategy. The salient content of UHD images is detected and cropped to extract quality-aware features from the salient regions. We adopt the Swin Transformer Tiny as the backbone networks to extract features from these three perspectives. The extracted features are concatenated and regressed into quality scores by a two-layer multi-layer perceptron (MLP) network. We employ the mean square error (MSE) loss to optimize prediction accuracy and the fidelity loss to optimize prediction monotonicity. Experimental results show that the proposed model achieves the best performance on the UHD-IQA dataset while maintaining the lowest computational complexity, demonstrating its effectiveness and efficiency. Moreover, the proposed model won first prize in ECCV AIM 2024 UHD-IQA Challenge. The code is available at https://github.com/sunwei925/UIQA.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# MaskGCT: Masked Generative Codec Transformer によるゼロショットテキスト音声合成

MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer ( http://arxiv.org/abs/2409.00750v1 )

ライセンス: Link先を確認
Yuancheng Wang, Haoyue Zhan, Liwei Liu, Ruihong Zeng, Haotian Guo, Jiachen Zheng, Qiang Zhang, Shunsi Zhang, Zhizheng Wu, (参考訳) 今日では、大規模音声合成システム(TTS)は、主に自己回帰と非自己回帰の2つのタイプに分けられている。 自己回帰システムは、頑健性に一定の欠陥があり、音声の持続時間を制御できない。 対照的に、非自己回帰システムは、その自然性を損なう可能性のある電話レベルの持続時間を明示的に予測する必要がある。 テキストと音声の正確なアライメント情報を必要としないTSの完全非自己回帰モデルであるMasked Generative Codec Transformer (MaskGCT)を紹介する。 MaskGCTは2段階モデルであり、第1段階ではテキストを使用して、音声自己教師型学習(SSL)モデルから抽出された意味トークンを予測し、第2段階では、これらの意味トークンに条件付けられた音響トークンを予測する。 MaskGCT は \textit{mask-and-predict} 学習パラダイムに従う。 トレーニング中、MaskGCTは与えられた条件とプロンプトに基づいて、マスク付きセマンティックトークンやアコースティックトークンを予測することを学ぶ。 推論中、モデルは指定された長さのトークンを並列に生成する。 我々はMaskGCTを100K時間以内の単語を含む大規模多言語データセットに拡張する。 実験により,MaskGCTは,拡散ベースや自己回帰型TSモデルよりも高い生成効率を提供しつつ,品質,類似性,知性の観点から,最先端のゼロショットTSシステムと比較して,優れた,あるいは競争的な性能を達成できることを示した。 オーディオサンプルはhttps://maskgct.github.io.comで入手できる。

Nowadays, large-scale text-to-speech (TTS) systems are primarily divided into two types: autoregressive and non-autoregressive. The autoregressive systems have certain deficiencies in robustness and cannot control speech duration. In contrast, non-autoregressive systems require explicit prediction of phone-level duration, which may compromise their naturalness. We introduce the Masked Generative Codec Transformer (MaskGCT), a fully non-autoregressive model for TTS that does not require precise alignment information between text and speech. MaskGCT is a two-stage model: in the first stage, the model uses text to predict semantic tokens extracted from a speech self-supervised learning (SSL) model, and in the second stage, the model predicts acoustic tokens conditioned on these semantic tokens. MaskGCT follows the \textit{mask-and-predict} learning paradigm. During training, MaskGCT learns to predict masked semantic or acoustic tokens based on given conditions and prompts. During inference, the model generates tokens of a specified length in a parallel manner. We scale MaskGCT to a large-scale multilingual dataset with 100K hours of in-the-wild speech. Our experiments demonstrate that MaskGCT achieves superior or competitive performance compared to state-of-the-art zero-shot TTS systems in terms of quality, similarity, and intelligibility while offering higher generation efficiency than diffusion-based or autoregressive TTS models. Audio samples are available at https://maskgct.github.io.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# 著者検索のための自己監督型視覚変換器

Self-Supervised Vision Transformers for Writer Retrieval ( http://arxiv.org/abs/2409.00751v1 )

ライセンス: Link先を確認
Tim Raven, Arthur Matei, Gernot A. Fink, (参考訳) Vision Transformer (ViT) に基づく手法は、多くのドメインで最先端のパフォーマンスを実現しているが、ライター検索の分野ではまだうまく適用されていない。 この分野は、畳み込みニューラルネットワークから抽出された手作りの特徴や特徴を用いた手法によって支配されている。 本稿では,このギャップを埋め,VLADエンコーディングを用いてVTから特徴を抽出し,それらを集約する新しい手法を提案する。 モデルはラベルを必要とせずに自己管理的な方法で訓練される。 著者検索の文脈において,VTのクラストークンを使用するよりも,局所的な前景特徴の抽出の方が優れていることを示す。 本手法を2つの歴史的文書コレクションで評価する。 履歴WIデータセット(83.1\% mAP)とHisIR19データセット(95.0\% mAP)に新しい最先端のパフォーマンスを設定した。 さらに, CVLデータベース (98.6\% mAP) などの最新のデータセットに対して, 微調整なしで直接ViT特徴抽出器を適用できることを実証した。

While methods based on Vision Transformers (ViT) have achieved state-of-the-art performance in many domains, they have not yet been applied successfully in the domain of writer retrieval. The field is dominated by methods using handcrafted features or features extracted from Convolutional Neural Networks. In this work, we bridge this gap and present a novel method that extracts features from a ViT and aggregates them using VLAD encoding. The model is trained in a self-supervised fashion without any need for labels. We show that extracting local foreground features is superior to using the ViT's class token in the context of writer retrieval. We evaluate our method on two historical document collections. We set a new state-at-of-art performance on the Historical-WI dataset (83.1\% mAP), and the HisIR19 dataset (95.0\% mAP). Additionally, we demonstrate that our ViT feature extractor can be directly applied to modern datasets such as the CVL database (98.6\% mAP) without any fine-tuning.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# 不均一交通周波制御のための一般化マルチホップ交通圧力

Generalized Multi-hop Traffic Pressure for Heterogeneous Traffic Perimeter Control ( http://arxiv.org/abs/2409.00753v1 )

ライセンス: Link先を確認
Xiaocan Li, Xiaoyu Wang, Ilia Smirnov, Scott Sanner, Baher Abdulhai, (参考訳) 周辺制御は、都市部における渋滞による交通ネットワーク容量の喪失を防止する。 均一な周辺制御により、保護領域への全てのアクセスポイントは、同じ最大許容インフローを持つことができる。 しかし、同種周方向制御は、同種周方向制御が周囲の位置情報固有の交通条件を考慮しないため、保護領域の混雑が不均一(例えば、不均衡な需要)である場合、不均一周方向制御は不十分である。 保護領域が空間的にヘテロジニアスな混雑状態にある場合、低密度領域の近傍で周囲の流入速度を高密度領域に調整することは理にかなっている。 この変調を補助するために、交差点レベルの交通渋滞を測定するために、1ホップの交通圧力の概念を利用することができる。 しかし、ここで示すように、1ホップ圧力は近距離制御には空間的に不明瞭すぎることが判明し、したがって、入射交差点の向こう側にある「deeper」のような圧力の多ホップ一般化を定式化する。 さらに、この新奇なマルチホップ圧力を生かした簡易なヘテロジニアスペリメータ制御手法を定式化し、同次ペリメータ制御器によって提供される総フローを再分配する。 実験結果から, マルチホップ圧力を利用した不均質周流制御は, 原点決定フローと空間的不均質度の高い場合において, 均質周流制御を著しく上回ることがわかった。

Perimeter control prevents loss of traffic network capacity due to congestion in urban areas. Homogeneous perimeter control allows all access points to a protected region to have the same maximal permitted inflow. However, homogeneous perimeter control performs poorly when the congestion in the protected region is heterogeneous (e.g., imbalanced demand) since the homogeneous perimeter control does not consider location-specific traffic conditions around the perimeter. When the protected region has spatially heterogeneous congestion, it can often make sense to modulate the perimeter inflow rate to be higher near low-density regions and vice versa for high-density regions. To assist with this modulation, we can leverage the concept of 1-hop traffic pressure to measure intersection-level traffic congestion. However, as we show, 1-hop pressure turns out to be too spatially myopic for perimeter control and hence we formulate multi-hop generalizations of pressure that look ``deeper'' inside the perimeter beyond the entry intersection. In addition, we formulate a simple heterogeneous perimeter control methodology that can leverage this novel multi-hop pressure to redistribute the total permitted inflow provided by the homogeneous perimeter controller. Experimental results show that our heterogeneous perimeter control policies leveraging multi-hop pressure significantly outperform homogeneous perimeter control in scenarios where the origin-destination flows are highly imbalanced with high spatial heterogeneity.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# 非同期マルチエージェント強化学習を用いた協調経路計画

Cooperative Path Planning with Asynchronous Multiagent Reinforcement Learning ( http://arxiv.org/abs/2409.00754v1 )

ライセンス: Link先を確認
Jiaming Yin, Weixiong Rao, Yu Xiao, Keshuang Tang, (参考訳) 本稿では,最短経路問題(SPP)について,複数の経路対,すなわちMSD-SPPを用いて検討し,最短経路の平均走行時間を最小化する。 道路網内の交通容量制限は、車両間の競争に寄与する。 マルチエージェント強化学習(MARL)モデルは、MSD-SPPにおける非同期決定設定により、車両(エージェント)が前回のステップで同時にルーティングアクションを完了できないため、効果的で効率的な経路計画協調を提供することができない。 効率性の問題に対処するため,道路網全体を複数のサブグラフに分割し,地域間および地域内経路計画の2段階プロセスを実行することを提案する。 非同期問題に対処するため,提案したasyn-MARLフレームワークでは,まず,低次元ベクトルを利用してマルチエージェントの協調観測と動作を暗黙的に表現するグローバルステートを設計する。 そこで我々は,訓練軌跡の冗長性を減少させる新しい軌道収集機構を開発した。 さらに,同一あるいは近接目的地への車両の協調を容易にする新しいアクターネットワークと,経路の無限ループを防止することを目的とした到達可能性グラフを設計する。 提案手法は, 合成道路ネットワークと実道路ネットワークの両方において, 提案手法が最先端の計画手法より優れていることを示す。

In this paper, we study the shortest path problem (SPP) with multiple source-destination pairs (MSD), namely MSD-SPP, to minimize average travel time of all shortest paths. The inherent traffic capacity limits within a road network contributes to the competition among vehicles. Multi-agent reinforcement learning (MARL) model cannot offer effective and efficient path planning cooperation due to the asynchronous decision making setting in MSD-SPP, where vehicles (a.k.a agents) cannot simultaneously complete routing actions in the previous time step. To tackle the efficiency issue, we propose to divide an entire road network into multiple sub-graphs and subsequently execute a two-stage process of inter-region and intra-region route planning. To address the asynchronous issue, in the proposed asyn-MARL framework, we first design a global state, which exploits a low-dimensional vector to implicitly represent the joint observations and actions of multi-agents. Then we develop a novel trajectory collection mechanism to decrease the redundancy in training trajectories. Additionally, we design a novel actor network to facilitate the cooperation among vehicles towards the same or close destinations and a reachability graph aimed at preventing infinite loops in routing paths. On both synthetic and real road networks, our evaluation result demonstrates that our approach outperforms state-of-the-art planning approaches.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# マルチビュー分類のための信頼された一元的特徴境界ダイナミクス

Trusted Unified Feature-Neighborhood Dynamics for Multi-View Classification ( http://arxiv.org/abs/2409.00755v1 )

ライセンス: Link先を確認
Haojian Huang, Chuanyu Qin, Zhe Liu, Kaijing Ma, Jin Chen, Han Fang, Chao Ban, Hao Sun, Zhongjiang He, (参考訳) マルチビュー分類(MVC)は、異なる視点にまたがるドメインギャップや不整合に起因する固有の課題に直面し、しばしば融合過程における不確実性をもたらす。 Evidential Deep Learning (EDL) はビューの不確実性に対処するために有効であるが、既存の手法は主にDempster-Shaferの組み合わせルールに依存しており、これは矛盾する証拠に敏感であり、多視点データにおける近隣構造の重要な役割を無視することが多い。 このような制約に対処するため,我々はTUNED(Trusted Unified Feature-Neighborhood Dynamics)モデルを提案する。 この手法は, 局所的およびグローバルな特徴近傍構造(F-N)を, 堅牢な意思決定のために効果的に統合する。 具体的には、各ビュー内で局所的なF-N構造を抽出することから始める。 マルチビュー融合における潜在的な不確実性や矛盾を緩和するために、我々は、クロスビュー近傍の依存関係を適応的に管理する選択的なマルコフ確率場を用いる。 さらに,局所的なF-N構造に基づく大域的なコンセンサスを学習し,多視点特徴のグローバルな統合を向上する共通パラメータ化エビデンス抽出器を用いる。 ベンチマークデータセットを用いた実験により,提案手法は既存のアプローチ,特に不確実性と矛盾する視点のシナリオにおいて,精度と堅牢性を向上することが示された。 コードはhttps://github.com/JethroJames/TUNED.comで公開される。

Multi-view classification (MVC) faces inherent challenges due to domain gaps and inconsistencies across different views, often resulting in uncertainties during the fusion process. While Evidential Deep Learning (EDL) has been effective in addressing view uncertainty, existing methods predominantly rely on the Dempster-Shafer combination rule, which is sensitive to conflicting evidence and often neglects the critical role of neighborhood structures within multi-view data. To address these limitations, we propose a Trusted Unified Feature-NEighborhood Dynamics (TUNED) model for robust MVC. This method effectively integrates local and global feature-neighborhood (F-N) structures for robust decision-making. Specifically, we begin by extracting local F-N structures within each view. To further mitigate potential uncertainties and conflicts in multi-view fusion, we employ a selective Markov random field that adaptively manages cross-view neighborhood dependencies. Additionally, we employ a shared parameterized evidence extractor that learns global consensus conditioned on local F-N structures, thereby enhancing the global integration of multi-view features. Experiments on benchmark datasets show that our method improves accuracy and robustness over existing approaches, particularly in scenarios with high uncertainty and conflicting views. The code will be made available at https://github.com/JethroJames/TUNED.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# 単一モードマイクロ波共振器における合成格子ブロッホ波動特性

Synthetic-lattice Bloch wave dynamics in a single-mode microwave resonator ( http://arxiv.org/abs/2409.00760v1 )

ライセンス: Link先を確認
F. Ahrens, N. Crescini, A. Irace, G. Rastelli, P. Falferi, A. Giachero, B. Margesin, R. Mezzena, A. Vinante, I. Carusotto, F. Mantegazzini, (参考訳) 周波数に基づく合成次元は、フォトニック系の次元性を拡張するための有望な道である。 本研究では, 単モード共振器をコヒーレント単色駆動下で周期的に変調することにより, 傾斜合成格子が自然に実現されることを示す。 傾斜合成格子におけるブロッホ波のダイナミクスを理論的に研究し、空洞場のスペクトル分布に特有の特徴を生じさせる。 我々の予測は平面可変超伝導マイクロ波共振器を用いて実験的に検証される。

Frequency-based synthetic dimensions are a promising avenue to extend the dimensionality of photonic systems. In this work, we show how a tilted synthetic lattice is naturally realised by periodically modulating a single-mode resonator under a coherent monochromatic drive. We theoretically study the Bloch wave dynamics in the tilted synthetic lattice, which gives rise to peculiar features in the spectral distribution of the cavity field. Our predictions are experimentally confirmed using a planar tunable superconducting microwave resonator.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# tl;dr: 冷たくて、みんな: AIはSEを死なない

tl;dr: Chill, y'all: AI Will Not Devour SE ( http://arxiv.org/abs/2409.00764v1 )

ライセンス: Link先を確認
Eunsuk Kang, Mary Shaw, (参考訳) ソーシャルメディアは、人工知能(AI)がソフトウェアエンジニアリング(SE)を無関係または時代遅れにする、という厳しい警告の着実にダイエットを提供する。 それとは対照的に、ソフトウェアのエンジニアリングの規律は豊かで堅牢であり、ソフトウェア設計、開発、デプロイメント、実用の全範囲を包含しており、AIからの急進的な新製品を定期的に同化している。 機械学習、大規模言語モデル(LLM)、生成AIといった現在のAI革新は、SEのモデルとメソッドを拡張する新たな機会を提供する。 定期的な開発プロセスを自動化することもでき、新しい種類のコンポーネントやアーキテクチャをもたらすでしょう。 幸運なことに、SEを正しさと信頼性で再考せざるを得ないかもしれません。 しかし、彼らはSEを無関係としない。

Social media provide a steady diet of dire warnings that artificial intelligence (AI) will make software engineering (SE) irrelevant or obsolete. To the contrary, the engineering discipline of software is rich and robust; it encompasses the full scope of software design, development, deployment, and practical use; and it has regularly assimilated radical new offerings from AI. Current AI innovations such as machine learning, large language models (LLMs) and generative AI will offer new opportunities to extend the models and methods of SE. They may automate some routine development processes, and they will bring new kinds of components and architectures. If we're fortunate they may force SE to rethink what we mean by correctness and reliability. They will not, however, render SE irrelevant.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# トレーニングデータから見た画像超解像の再考

Rethinking Image Super-Resolution from Training Data Perspectives ( http://arxiv.org/abs/2409.00768v1 )

ライセンス: Link先を確認
Go Ohtani, Ryu Tadokoro, Ryosuke Yamada, Yuki M. Asano, Iro Laina, Christian Rupprecht, Nakamasa Inoue, Rio Yokota, Hirokatsu Kataoka, Yoshimitsu Aoki, (参考訳) 本研究では,画像超解像(SR)におけるトレーニングデータの効果について検討する。 最も一般的なSR手法は、DIV2KやDF2Kといった一般的なトレーニングデータセット上で開発され、ベンチマークされる。 しかし, 多様性と品質の観点から, 「SRモデルのSRトレーニングはどの程度重要か?」という疑問に対処し, トレーニングデータを再考する。 そこで本研究では,自動画像評価パイプラインを提案する。 これにより、既存の高解像度画像データセットと、ImageNetやPASSなどの大規模画像データセットを階層化し、その性能を比較する。 私たちはそのデータセットを見つける (i)低圧縮加工品 (二)異なる対象の個数で判断される内像の多様性が高いこと、 (iii)ImageNet や PASS からの大量の画像はいずれも SR の性能に肯定的な影響を与えている。 提案する単純かつ効率の良いデータセットキュレーションパイプラインは、将来、SRデータセットの構築を通知し、全体的なより良いモデルが得られることを期待しています。

In this work, we investigate the understudied effect of the training data used for image super-resolution (SR). Most commonly, novel SR methods are developed and benchmarked on common training datasets such as DIV2K and DF2K. However, we investigate and rethink the training data from the perspectives of diversity and quality, {thereby addressing the question of ``How important is SR training for SR models?''}. To this end, we propose an automated image evaluation pipeline. With this, we stratify existing high-resolution image datasets and larger-scale image datasets such as ImageNet and PASS to compare their performances. We find that datasets with (i) low compression artifacts, (ii) high within-image diversity as judged by the number of different objects, and (iii) a large number of images from ImageNet or PASS all positively affect SR performance. We hope that the proposed simple-yet-effective dataset curation pipeline will inform the construction of SR datasets in the future and yield overall better models.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# SITUATE:幾何学的特徴と自己監督型視覚表現による屋内人間の軌道予測

SITUATE: Indoor Human Trajectory Prediction through Geometric Features and Self-Supervised Vision Representation ( http://arxiv.org/abs/2409.00774v1 )

ライセンス: Link先を確認
Luigi Capogrosso, Andrea Toaiari, Andrea Avogaro, Uzair Khan, Aditya Jivoji, Franco Fummi, Marco Cristani, (参考訳) 屋外および屋内環境における人間の動きのパターンは、環境の範囲やその典型的な意図によって大きく異なる。 アウトドア・トラジェクトリーの予測は注目されているが、屋内の予測はいまだ未調査の研究分野である。 本稿では,同変および不変な幾何学的特徴と自己監督型視覚表現を活用することで,室内における人間の軌道予測に対処する新しい手法であるSITUATEを提案する。 幾何学学習モジュールは、室内空間に固有の内在的対称性と人間の動きをモデル化する。 この概念は、様々なスケールの自己ループと高速な方向の変化がしばしば屋内軌道を特徴付けるため、特に重要である。 一方、視覚表現モジュールは、環境に関する空間意味情報を取得し、ユーザの将来の位置をより正確に予測するために使用される。 提案手法は,2つの最も有名な屋内軌道予測データセット,すなわちTH\ORとSupermarketの総合的な実験により評価され,最先端の性能が得られた。 さらに,屋外シナリオにおける競争結果も達成し,屋内指向の予測モデルは屋外指向の予測モデルよりも一般化されていることを示す。 ソースコードはhttps://github.com/intelligolabs/SITUATEで入手できる。

Patterns of human motion in outdoor and indoor environments are substantially different due to the scope of the environment and the typical intentions of people therein. While outdoor trajectory forecasting has received significant attention, indoor forecasting is still an underexplored research area. This paper proposes SITUATE, a novel approach to cope with indoor human trajectory prediction by leveraging equivariant and invariant geometric features and a self-supervised vision representation. The geometric learning modules model the intrinsic symmetries and human movements inherent in indoor spaces. This concept becomes particularly important because self-loops at various scales and rapid direction changes often characterize indoor trajectories. On the other hand, the vision representation module is used to acquire spatial-semantic information about the environment to predict users' future locations more accurately. We evaluate our method through comprehensive experiments on the two most famous indoor trajectory forecasting datasets, i.e., TH\"OR and Supermarket, obtaining state-of-the-art performance. Furthermore, we also achieve competitive results in outdoor scenarios, showing that indoor-oriented forecasting models generalize better than outdoor-oriented ones. The source code is available at https://github.com/intelligolabs/SITUATE.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# VDPI:擬似逆モデリングによる映像劣化

VDPI: Video Deblurring with Pseudo-inverse Modeling ( http://arxiv.org/abs/2409.00777v1 )

ライセンス: Link先を確認
Zhihao Huang, Santiago Lopez-Tapia, Aggelos K. Katsaggelos, (参考訳) ビデオデブロワーリングは、ぼやけやうるさい観察からシャープなシーケンスを復元することを目的とした課題である。 画像形成モデルは、従来のモデルベースの手法において重要な役割を担い、可能な解決策を制約する。 しかし、これは深層学習に基づく手法のごく一部に過ぎません。 より優れた結果を得るためのディープラーニングモデルにもかかわらず、従来のモデルベースの手法は、柔軟性のために広く普及している。 この2つを組み合わさって、より良質な性能を達成する学者が増えている。 本稿では,ぼかしの擬似逆数を用いて,画像形成モデルの知識を深層学習ネットワークに導入することを提案する。 ブラーリングと擬似逆数の推定にディープネットワークを使用します。 そして、この推定と変分深層学習ネットワークを組み合わせることで、映像シーケンスを損なう。 特に,実験結果から,映像の難読化のための深層学習モデルの性能が著しく向上することが示唆された。 さらに,提案手法が様々なシナリオやカメラに一般化可能であることを証明し,異なるデータセットに対する実験により顕著な性能向上が達成された。

Video deblurring is a challenging task that aims to recover sharp sequences from blur and noisy observations. The image-formation model plays a crucial role in traditional model-based methods, constraining the possible solutions. However, this is only the case for some deep learning-based methods. Despite deep-learning models achieving better results, traditional model-based methods remain widely popular due to their flexibility. An increasing number of scholars combine the two to achieve better deblurring performance. This paper proposes introducing knowledge of the image-formation model into a deep learning network by using the pseudo-inverse of the blur. We use a deep network to fit the blurring and estimate pseudo-inverse. Then, we use this estimation, combined with a variational deep-learning network, to deblur the video sequence. Notably, our experimental results demonstrate that such modifications can significantly improve the performance of deep learning models for video deblurring. Furthermore, our experiments on different datasets achieved notable performance improvements, proving that our proposed method can generalize to different scenarios and cameras.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# ハイブリッドフィンガープリント配向マップのためのアンバランスフィンガープリント分類

Unbalanced Fingerprint Classification for Hybrid Fingerprint Orientation Maps ( http://arxiv.org/abs/2409.00779v1 )

ライセンス: Link先を確認
Ravi Prakash, Sinnu Susan Thomas, (参考訳) 本稿では,多層ファジィ論理分類器に基づく新しい指紋分類手法を提案する。 本研究は,乾燥,標準,湿潤の早期に指紋を識別し,誤検出の原因を標的とした。 スキャン画像は,提案した特徴点と相関した明瞭度に基づいて分類される。 また,多クラス不均衡を克服するために,固有ベクトル空間に基づく新しい適応アルゴリズムを提案する。 提案手法は,アンサンブル学習者のパフォーマンスを向上させる。 また,ニューラルネットワークに基づく分類手法よりも,新しい手法の方が優れていることがわかった。 早期改善は指紋検出モデルに適したデータセットを提供する。 新規な分類器を活用し、'標準'ラベル付き指紋の最良のセットを使用して、ユニークなハイブリッド指紋配向マップ(HFOM)を生成する。 min-rotate max-flowアルゴリズムにインスパイアされた新しいmin-rotate max-flow最適化手法を提案する。 HFOM生成のユニークな特徴は、指紋の仮想プロキシとしてHFOMを使用することにより、生体データ保護の新しいユースケースを導入することである。

This paper introduces a novel fingerprint classification technique based on a multi-layered fuzzy logic classifier. We target the cause of missed detection by identifying the fingerprints at an early stage among dry, standard, and wet. Scanned images are classified based on clarity correlated with the proposed feature points. We also propose a novel adaptive algorithm based on eigenvector space for generating new samples to overcome the multiclass imbalance. Proposed methods improve the performance of ensemble learners. It was also found that the new approach performs better than the neural-network based classification methods. Early-stage improvements give a suitable dataset for fingerprint detection models. Leveraging the novel classifier, the best set of `standard' labelled fingerprints is used to generate a unique hybrid fingerprint orientation map (HFOM). We introduce a novel min-rotate max-flow optimization method inspired by the min-cut max-flow algorithm. The unique properties of HFOM generation introduce a new use case for biometric data protection by using HFOM as a virtual proxy of fingerprints.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# 自動ソースクリティカル推論のためのメディアバックグラウンドチェックの生成

Generating Media Background Checks for Automated Source Critical Reasoning ( http://arxiv.org/abs/2409.00781v1 )

ライセンス: Link先を確認
Michael Schlichtkrull, (参考訳) インターネット上のすべてが真実ではない。 この不運な事実は、検索された情報を扱う際に、人間とモデルの両方が信頼性に関する複雑な推論を行う必要がある。 NLPでは、この問題はほとんど注目されていない。 実際、検索強化されたモデルは、通常、検索された文書を不信にすることが期待されない。 人間の専門家は、ソースドキュメントのコンテキスト、信頼性、傾向に関するシグナルを集めることで、この課題を克服する。 そこで我々は,そのような信号の探索と要約に焦点をあてた新しいNLPタスクを提案する。 メディアバイアスを文書化するボランティア運営のWebサイトであるMedia Bias/Fact Checkから得られた6,709件の"メディアバックグラウンドチェック"のデータセットを紹介した。 我々は,オープンソースかつクローズドソースのLCMベースラインをこのデータセット上で検索せずにテストし,検索により性能が大幅に向上することを確認した。 我々はさらに人間の評価を行い、それを実証する。 1)メディアの背景検査は人間に役立ち、 2)メディアの背景チェックは,検索強化モデルに有用である。

Not everything on the internet is true. This unfortunate fact requires both humans and models to perform complex reasoning about credibility when working with retrieved information. In NLP, this problem has seen little attention. Indeed, retrieval-augmented models are not typically expected to distrust retrieved documents. Human experts overcome the challenge by gathering signals about the context, reliability, and tendency of source documents - that is, they perform source criticism. We propose a novel NLP task focused on finding and summarising such signals. We introduce a new dataset of 6,709 "media background checks" derived from Media Bias / Fact Check, a volunteer-run website documenting media bias. We test open-source and closed-source LLM baselines with and without retrieval on this dataset, finding that retrieval greatly improves performance. We furthermore carry out human evaluation, demonstrating that 1) media background checks are helpful for humans, and 2) media background checks are helpful for retrieval-augmented models.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# 光照射による任意形状誘電体物体の最適変位検出

Optimal displacement detection of arbitrarily-shaped levitated dielectric objects using optical radiation ( http://arxiv.org/abs/2409.00782v1 )

ライセンス: Link先を確認
Shaun Laing, Shelby Klomp, George Winstone, Alexey Grinin, Andrew Dana, Zhiyuan Wang, Kevin Seca Widyatmodjo, James Bateman, Andrew A. Geraci, (参考訳) 光浮上型誘電体は、その極端な環境疎結合による精度、加速度、トルク、回転感知を約束している。 多くのレビテーションオプティカルメカニクス実験は球面物体を用いるが、いくつかの応用では非球面幾何学が有利である。 例えば、棒状またはダンベル形状の粒子はトルクや回転検知のために実証されており、高アスペクト比のプレート状粒子は光子反コイル加熱を低減でき、高周波重力波検出や高帯域加速度計として有用である。 これらのシステムにおいて最適感度,冷却,量子制御を実現するためには,散乱光を用いた最適変位検出が重要である。 我々は任意の幾何学の懸濁粒子に適用可能なフィッシャー情報に基づく手法を記述し,数値的に実装する。 我々は,レイリー系およびローレンツ・ミー系において,球状粒子の従来の方法との一致を実証する。 実例として,光共振器を用いた高アスペクト比ディスク状誘電体および棒状物体の光学的検出限界を実験的に解析した。

Optically-levitated dielectric objects are promising for precision force, acceleration, torque, and rotation sensing due to their extreme environmental decoupling. While many levitated opto-mechanics experiments employ spherical objects, for some applications non-spherical geometries offer advantages. For example, rod-shaped or dumbbell shaped particles have been demonstrated for torque and rotation sensing and high aspect ratio plate-like particles can exhibit reduced photon recoil heating and may be useful for high-frequency gravitational wave detection or as high bandwidth accelerometers. To achieve optimal sensitivity, cooling, and quantum control in these systems, it is beneficial to achieve optimal displacement detection using scattered light. We describe and numerically implement a method based on Fisher information that is applicable to suspended particles of arbitrary geometry. We demonstrate the agreement between our method and prior methods employed for spherical particles, both in the Rayleigh and Lorentz-Mie regimes. As practical examples we analyze the optical detection limits of an optically-levitated high-aspect-ratio disc-like dielectric object and a rod-shaped object for configurations recently realized in experimental work.
翻訳日:2024-09-06 09:11:31 公開日:2024-09-01
# 潜時拡散モデルを用いたゼロショットパラグラフレベルの手書き表現

Zero-Shot Paragraph-level Handwriting Imitation with Latent Diffusion Models ( http://arxiv.org/abs/2409.00786v1 )

ライセンス: Link先を確認
Martin Mayr, Marcel Dreier, Florian Kordon, Mathias Seuret, Jochen Zöllner, Fei Wu, Andreas Maier, Vincent Christlein, (参考訳) 筆跡の模倣は、主に手書きの単語や行の生成に限られる。 複数の合成出力を縫合して段落やページ全体を作成し、一貫性とレイアウト情報が失われる。 このギャップを埋めるために,未確認の書体にも役立つ段落レベルで手書きを模倣する手法を提案する。 そこで本研究では,エンコーダ・デコーダ機構を拡張した潜在拡散モデルを提案する。 適応的な2次元位置符号化による拡散モデルの注意機構と、スタイル画像とターゲットテキストの2つのモードを同時に扱う条件付け機構を強化する。 これにより、生成された手書き文字のリアリズムが大幅に改善される。 私たちのアプローチは、包括的な評価に新しいベンチマークを設定します。 スタイルとコンテンツ保存の組み合わせを考慮して、行と段落の両方で既存の模倣手法を上回ります。

The imitation of cursive handwriting is mainly limited to generating handwritten words or lines. Multiple synthetic outputs must be stitched together to create paragraphs or whole pages, whereby consistency and layout information are lost. To close this gap, we propose a method for imitating handwriting at the paragraph level that also works for unseen writing styles. Therefore, we introduce a modified latent diffusion model that enriches the encoder-decoder mechanism with specialized loss functions that explicitly preserve the style and content. We enhance the attention mechanism of the diffusion model with adaptive 2D positional encoding and the conditioning mechanism to work with two modalities simultaneously: a style image and the target text. This significantly improves the realism of the generated handwriting. Our approach sets a new benchmark in our comprehensive evaluation. It outperforms all existing imitation methods at both line and paragraph levels, considering combined style and content preservation.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# 人間のフィードバックのダークサイド:ユーザー入力による大規模言語モデルの作成

The Dark Side of Human Feedback: Poisoning Large Language Models via User Inputs ( http://arxiv.org/abs/2409.00787v1 )

ライセンス: Link先を確認
Bocheng Chen, Hanqing Guo, Guangjing Wang, Yuanda Wang, Qiben Yan, (参考訳) 大規模言語モデル(LLM)は、人間のフィードバックによる複雑なアライメントプロセスに起因する、自然言語の理解と生成において優れた能力を示している。 アライメントは、ユーザクエリから収集されたデータを活用するための必須のトレーニングコンポーネントになっていますが、新しいタイプのユーザガイドによる中毒攻撃の道は、必然的に開きます。 本稿では,近年のLSMにおけるトレーニングパイプラインの潜伏する脆弱性を新たに調査し,ユーザが提供するプロンプトによる微妙ながら効果的な毒殺攻撃によるアライメントトレーニング保護の浸透を明らかにした。 我々の攻撃は、ブラックボックス設定における目標LLMの明示的な知識がなくても、報酬フィードバック機構を微妙に変更し、特定のキーワードに関連付けられたモデル性能を劣化させる。 本研究では,(1)選択に基づくメカニズムは,高い報酬をパラドックス的に獲得する有害な応答を抽出することを目的としており,(2)生成に基づくメカニズムは,最適化可能なプレフィックスを用いてモデル出力を制御する。 特定のトリガーワードを使用する場合、これらの特殊なプロンプトの1\%をデータに注入することにより、悪意のあるユーザを通して、毒性スコアが最大2倍高いことを示す。 我々は、報酬モデル、報酬モデル、あるいはベース言語モデルによらず、トレーニングがユーザ生成プロンプトを活用すれば、LCMの秘密の妥協は実現可能であるだけでなく、避けられない可能性があることを強調して、重大な脆弱性を明らかにする。

Large Language Models (LLMs) have demonstrated great capabilities in natural language understanding and generation, largely attributed to the intricate alignment process using human feedback. While alignment has become an essential training component that leverages data collected from user queries, it inadvertently opens up an avenue for a new type of user-guided poisoning attacks. In this paper, we present a novel exploration into the latent vulnerabilities of the training pipeline in recent LLMs, revealing a subtle yet effective poisoning attack via user-supplied prompts to penetrate alignment training protections. Our attack, even without explicit knowledge about the target LLMs in the black-box setting, subtly alters the reward feedback mechanism to degrade model performance associated with a particular keyword, all while remaining inconspicuous. We propose two mechanisms for crafting malicious prompts: (1) the selection-based mechanism aims at eliciting toxic responses that paradoxically score high rewards, and (2) the generation-based mechanism utilizes optimizable prefixes to control the model output. By injecting 1\% of these specially crafted prompts into the data, through malicious users, we demonstrate a toxicity score up to two times higher when a specific trigger word is used. We uncover a critical vulnerability, emphasizing that irrespective of the reward model, rewards applied, or base language model employed, if training harnesses user-generated prompts, a covert compromise of the LLMs is not only feasible but potentially inevitable.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# 階層型テキスト分類のためのテキストラベルアライメントのモデル化

Modeling Text-Label Alignment for Hierarchical Text Classification ( http://arxiv.org/abs/2409.00788v1 )

ライセンス: Link先を確認
Ashish Kumar, Durga Toshniwal, (参考訳) 階層的テキスト分類(HTC)は、構造化されたラベル階層に基づいてテキストデータを分類することを目的としており、その結果、予測されたラベルがサブ階層木を形成する。 テキストの意味論は、このサブ階層におけるラベルの意味論と一致すべきである。 サンプルごとにサブ階層が変化すると、テキストラベルアライメントの動的な性質は既存のメソッドに課題をもたらし、通常はテキストとラベルを独立して処理する。 この制限を克服するため,テキストとラベルのアライメントをモデル化するためのテキストラベルアライメント(TLA)ロスを提案する。 与えられたテキストとその正のラベルセットに対する負のラベルセットを得る。 対照的な学習を活用することで、TLAの損失はテキストを正のラベルに近づけ、埋め込み空間の負のラベルから引き離す。 このプロセスは、テキスト表現と関連するラベルを一致させ、無関係なラベルと区別する。 本稿では,階層型テキストラベルアライメント(HTLA)モデルを導入し,BERTをテキストエンコーダとし,GPTransをグラフエンコーダとし,テキストラベルの埋め込みを統合して階層型認識表現を生成する。 ベンチマークデータセットの実験結果と既存のベースラインとの比較により,HTCのHTLAの有効性が示された。

Hierarchical Text Classification (HTC) aims to categorize text data based on a structured label hierarchy, resulting in predicted labels forming a sub-hierarchy tree. The semantics of the text should align with the semantics of the labels in this sub-hierarchy. With the sub-hierarchy changing for each sample, the dynamic nature of text-label alignment poses challenges for existing methods, which typically process text and labels independently. To overcome this limitation, we propose a Text-Label Alignment (TLA) loss specifically designed to model the alignment between text and labels. We obtain a set of negative labels for a given text and its positive label set. By leveraging contrastive learning, the TLA loss pulls the text closer to its positive label and pushes it away from its negative label in the embedding space. This process aligns text representations with related labels while distancing them from unrelated ones. Building upon this framework, we introduce the Hierarchical Text-Label Alignment (HTLA) model, which leverages BERT as the text encoder and GPTrans as the graph encoder and integrates text-label embeddings to generate hierarchy-aware representations. Experimental results on benchmark datasets and comparison with existing baselines demonstrate the effectiveness of HTLA for HTC.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# 高精度な多段階床位置推定のための効率的な量子二元ネロンアルゴリズム

An Efficient Quantum Binary-Neuron Algorithm for Accurate Multi-Story Floor Localization ( http://arxiv.org/abs/2409.00792v1 )

ライセンス: Link先を確認
Yousef Zook, Ahmed Shokry, Moustafa Youssef, (参考訳) 多層環境における正確なフロアローカライゼーションは重要な課題だが難しい課題である。 現在のフロアローカライズ技術の中では、ノイズの多い環境での精度のため、指紋認証が主流の技術である。 多くのフロアを有する建物において正確なフロアローカライゼーションを実現するためには,各フロアに十分なデータを収集する必要がある。 本稿では, 正確な多層局所化のための量子アルゴリズムを提案する。 提案アルゴリズムは量子コンピューティングの概念を活用し,古典的手法と比較して,空間と走行時間の両方を指数関数的に拡張する。 さらに、通常の非バイナリニューロンと比較して、より少ない量子ビットで実装できる効率的なバイナリ-ニューロンの実装の上に構築されており、短期的な量子デバイスでのデプロイが容易である。 提案アルゴリズムは,実際のIBM量子マシン上で実装し,実際の屋内テストベッド上で評価する。 その結果、提案した量子アルゴリズムの時間と空間の指数的節約は、従来の古典的手法と同等な局所化精度を維持し、他の量子局在化アルゴリズムに必要な量子ビットの数を半分に抑えることができた。

Accurate floor localization in a multi-story environment is an important but challenging task. Among the current floor localization techniques, fingerprinting is the mainstream technology due to its accuracy in noisy environments. To achieve accurate floor localization in a building with many floors, we have to collect sufficient data on each floor, which needs significant storage and running time; preventing fingerprinting techniques from scaling to support large multi-story buildings, especially on a worldwide scale. In this paper, we propose a quantum algorithm for accurate multi-story localization. The proposed algorithm leverages quantum computing concepts to provide an exponential enhancement in both space and running time compared to the classical counterparts. In addition, it builds on an efficient binary-neuron implementation that can be implemented using fewer qubits compared to the typical non-binary neurons, allowing for easier deployment with near-term quantum devices. We implement the proposed algorithm on a real IBM quantum machine and evaluate it on three real indoor testbeds. Results confirm the exponential saving in both time and space for the proposed quantum algorithm, while keeping the same localization accuracy compared to the traditional classical techniques, and using half the number of qubits required for other quantum localization algorithms.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# データ駆動アプローチによるマラリアの数学的モデルの解析

Analysis of a mathematical model for malaria using data-driven approach ( http://arxiv.org/abs/2409.00795v1 )

ライセンス: Link先を確認
Adithya Rajnarayanan, Manoj Kumar, (参考訳) マラリアは世界で最も致命的な病気の1つで、毎年何百万人もの人がこの病気の犠牲者となり、多くの人が命を失う。 医療専門家や政府は、病気のダイナミクスが明確に理解されている場合に限って、国民を守るための正確な措置を講じる可能性がある。 本研究では,マラリアの動態を研究するためのコンパートメンタルモデルを提案する。 伝送速度は温度と高度に依存すると考えられる。 提案モデルを用いて定常状態解析を行い,病原性および内因性定常状態の安定性を確認した。 人工ニューラルネットワーク(ANN)を定式化モデルに適用し、数学的解析後の5つの部分の軌跡を予測する。 ANN(Artificial Neural Network)、CNN(Convolution Neural Network)、RNN(Recurrent Neural Network)という3つの異なるニューラルネットワークアーキテクチャを用いて、これらのパラメータをデータの軌道から推定する。 病気の重症度を理解するためには、疾患に関連するリスクを計算することが不可欠である。 本研究では,感染者の軌道から動的モード分解(DMD)を用いてリスクを算出した。

Malaria is one of the deadliest diseases in the world, every year millions of people become victims of this disease and many even lose their lives. Medical professionals and the government could take accurate measures to protect the people only when the disease dynamics are understood clearly. In this work, we propose a compartmental model to study the dynamics of malaria. We consider the transmission rate dependent on temperature and altitude. We performed the steady state analysis on the proposed model and checked the stability of the disease-free and endemic steady state. An artificial neural network (ANN) is applied to the formulated model to predict the trajectory of all five compartments following the mathematical analysis. Three different neural network architectures namely Artificial neural network (ANN), convolution neural network (CNN), and Recurrent neural network (RNN) are used to estimate these parameters from the trajectory of the data. To understand the severity of a disease, it is essential to calculate the risk associated with the disease. In this work, the risk is calculated using dynamic mode decomposition(DMD) from the trajectory of the infected people.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# 音声認識のための離散と連続空間LLMの比較

Comparing Discrete and Continuous Space LLMs for Speech Recognition ( http://arxiv.org/abs/2409.00800v1 )

ライセンス: Link先を確認
Yaoxun Xu, Shi-Xiong Zhang, Jianwei Yu, Zhiyong Wu, Dong Yu, (参考訳) 本稿では,Large Language Model (LLM) を用いた自動音声認識(ASR)における離散的・連続的な音声表現について検討し,特徴連続性と訓練手法を用いて,離散型と連続型の両方の教師なしと教師なしの4つのカテゴリに分類する。 入力フィードバックと自己回帰フィードバックに基づいてLLMを連続空間モデルと離散空間モデルに分類する。 特殊なエンコーダとJTFS LMと事前学習したLLaMA2-7bを用いた比較解析を用いて,その効果を詳細に検討する。 本研究は,LLMに基づくASRにおける音声表現の広範な比較を行い,様々なモデリング手法について検討した。 本稿では,HuBERTエンコーダを用いたLibriSpeech上の単語誤り率(WER)の1.69\%をオープンソースで達成し,ASRと自然言語処理(NLP)の研究に有用な知見を提供する。

This paper investigates discrete and continuous speech representations in Large Language Model (LLM)-based Automatic Speech Recognition (ASR), organizing them by feature continuity and training approach into four categories: supervised and unsupervised for both discrete and continuous types. We further classify LLMs based on their input and autoregressive feedback into continuous and discrete-space models. Using specialized encoders and comparative analysis with a Joint-Training-From-Scratch Language Model (JTFS LM) and pre-trained LLaMA2-7b, we provide a detailed examination of their effectiveness. Our work marks the first extensive comparison of speech representations in LLM-based ASR and explores various modeling techniques. We present an open-sourced achievement of a state-of-the-art Word Error Rate (WER) of 1.69\% on LibriSpeech using a HuBERT encoder, offering valuable insights for advancing ASR and natural language processing (NLP) research.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# 結晶シリコンアンテナを用いた近地NV中心からの広帯域光抽出

Broadband light extraction from near-surface NV centers using crystalline-silicon antennas ( http://arxiv.org/abs/2409.00803v1 )

ライセンス: Link先を確認
Minjeong Kim, Maryam Zahedian, Wenxin Wu, Chengyu Fang, Zhaoning Yu, Raymond A. Wambold, Shenwei Yin, David A. Czaplewski, Jennifer T. Choy, Mikhail A. Kats, (参考訳) 我々は結晶シリコン(Si)アンテナを用いて、ダイヤモンド中の浅い窒素空孔(NV)中心からブロードバンド単光子蛍光を効率よく自由空間に抽出する。 本設計では,ダイヤモンド表面上の高インデックスSi共振器を比較的容易に構成し,ダイヤモンド-空気界面における全内部反射とフレネル反射を克服し,ダイヤモンド表面のエッチングや損傷を伴わずに適度なパーセル向上を提供することにより,光子抽出を促進する。 シミュレーションでは、アンテナのない場合と比較して1つのNV中心から約20倍の光子が収集され、実験ではNVとアンテナの間の空間的アライメントによって制限された約4倍の光が観測される。 我々のアプローチはダイヤモンドの他の色中心にも容易に適用でき、より一般的には広帯域材料中の量子エミッタからの光の抽出にも適用できる。

We use crystalline silicon (Si) antennas to efficiently extract broadband single-photon fluorescence from shallow nitrogen-vacancy (NV) centers in diamond into free space. Our design features relatively easy-to-pattern high-index Si resonators on the diamond surface to boost photon extraction by overcoming total internal reflection and Fresnel reflection at the diamond-air interface, and providing modest Purcell enhancement, without etching or otherwise damaging the diamond surface. In simulations, ~20 times more single photons are collected from a single NV center compared to the case without the antenna; in experiments, we observe an enhancement of ~4 times, limited by spatial alignment between the NV and the antenna. Our approach can be readily applied to other color centers in diamond, and more generally to the extraction of light from quantum emitters in wide-bandgap materials.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# グリオーマ検出のためのエンコーダデコーダアーキテクチャにおけるSeNetとResNetのシナジーの活用

Leveraging SeNet and ResNet Synergy within an Encoder-Decoder Architecture for Glioma Detection ( http://arxiv.org/abs/2409.00804v1 )

ライセンス: Link先を確認
Pandiyaraju V, Shravan Venkatraman, Abeshek A, Pavan Kumar S, Aravintakshan S A, (参考訳) 脳腫瘍は、患者の健康に深刻な影響を与える異常であり、がんなどの生命の危険をもたらす。 これらは、神経学的な問題、認知障害、運動と感覚の障害、感情や行動の変化など、様々な不安定な効果をもたらす可能性がある。 これらの症状は患者の生活の質に大きな影響を与え、早期診断とタイムリーな治療はさらなる悪化を防ぐために不可欠である。 しかし、医用画像、特にMRIスキャンから腫瘍領域を正確に分類することは、放射線技師の専門知識を必要とする困難かつ時間を要する課題である。 手動のセグメンテーションは、人間のエラーも起こりやすい。 これらの課題に対処するために、この研究は、グリオーマの検出とセグメンテーションのために特別に設計されたエンコーダデコーダフレームワーク内のSeNetとResNetアーキテクチャの相乗効果を利用する。 提案モデルは,SeResNet-152のパワーをバックボーンとして組み込んで,ロバストエンコーダデコーダ構造に統合し,特徴抽出を強化し,セグメンテーション精度を向上させる。 この手法は手作業への依存を著しく減らし,腫瘍の同定精度を向上させる。 モデルの評価は、Dice Coefficientの87%、精度89.12%、IoUスコアの88%、IoUスコアの平均82%を達成し、脳腫瘍セグメンテーションの複雑な問題に対処する効果を示す。

Brain tumors are abnormalities that can severely impact a patient's health, leading to life-threatening conditions such as cancer. These can result in various debilitating effects, including neurological issues, cognitive impairment, motor and sensory deficits, as well as emotional and behavioral changes. These symptoms significantly affect a patient's quality of life, making early diagnosis and timely treatment essential to prevent further deterioration. However, accurately segmenting the tumor region from medical images, particularly MRI scans, is a challenging and time-consuming task that requires the expertise of radiologists. Manual segmentation can also be prone to human errors. To address these challenges, this research leverages the synergy of SeNet and ResNet architectures within an encoder-decoder framework, designed specifically for glioma detection and segmentation. The proposed model incorporates the power of SeResNet-152 as the backbone, integrated into a robust encoder-decoder structure to enhance feature extraction and improve segmentation accuracy. This novel approach significantly reduces the dependency on manual tasks and improves the precision of tumor identification. Evaluation of the model demonstrates strong performance, achieving 87% in Dice Coefficient, 89.12% in accuracy, 88% in IoU score, and 82% in mean IoU score, showcasing its effectiveness in tackling the complex problem of brain tumor segmentation.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# 拡散型マルチドメイン・ニューロイメージング・ハーモニゼーション法と解剖学的詳細の保存

Diffusion based multi-domain neuroimaging harmonization method with preservation of anatomical details ( http://arxiv.org/abs/2409.00807v1 )

ライセンス: Link先を確認
Haoyu Lan, Bino A. Varghese, Nasim Sheikh-Bahaei, Farshid Sepehrband, Arthur W Toga, Jeiran Choupan, (参考訳) マルチセンター・ニューロイメージング研究は、データ集約を阻害し、研究信頼性に影響を与える可能性のあるサイト間のバッチの違いによる技術的変動に直面しており、近年のニューロイメージング・ハーモニゼーションの取り組みは、これらの技術的ギャップを最小化し、バッチ間の技術的変動を低減することを目的としている。 GAN(Generative Adversarial Networks)は、画像調和タスクに対処するための顕著な手法であるが、GAN調和画像は、アーティファクトや解剖学的歪みに悩まされている。 高忠実度画像を生成するデノナイズ拡散確率モデルの進歩を踏まえ,ニューロイメージング・ハーモナイゼーションにおける拡散モデルの有効性を評価した。 拡散モデルが複数の領域からの画像を調和させるのに優れていることを示す一方、GANベースの手法はモデル毎に2つの領域間の画像の調和に限られている。 実験の結果,学習領域不変な解剖条件は,各拡散過程におけるバッチ差を微分しながら,解剖的詳細を正確に保存するためにモデルを補強することがわかった。 提案手法は2つのパブリック・ニューロイメージング・データセットであるADNI1とABIDE IIで試験され,一貫した解剖学的保存と優れたFIDスコアの調和が得られた。 本研究は, ベースラインモデルに対する定量的, 質的評価, 学習条件の利点を示すアブレーション研究, ハーモニゼーションによる血管周囲空間(PVS)セグメンテーションの整合性の改善など, 複数の解析を行った。

Multi-center neuroimaging studies face technical variability due to batch differences across sites, which potentially hinders data aggregation and impacts study reliability.Recent efforts in neuroimaging harmonization have aimed to minimize these technical gaps and reduce technical variability across batches. While Generative Adversarial Networks (GAN) has been a prominent method for addressing image harmonization tasks, GAN-harmonized images suffer from artifacts or anatomical distortions. Given the advancements of denoising diffusion probabilistic model which produces high-fidelity images, we have assessed the efficacy of the diffusion model for neuroimaging harmonization. we have demonstrated the diffusion model's superior capability in harmonizing images from multiple domains, while GAN-based methods are limited to harmonizing images between two domains per model. Our experiments highlight that the learned domain invariant anatomical condition reinforces the model to accurately preserve the anatomical details while differentiating batch differences at each diffusion step. Our proposed method has been tested on two public neuroimaging dataset ADNI1 and ABIDE II, yielding harmonization results with consistent anatomy preservation and superior FID score compared to the GAN-based methods. We have conducted multiple analysis including extensive quantitative and qualitative evaluations against the baseline models, ablation study showcasing the benefits of the learned conditions, and improvements in the consistency of perivascular spaces (PVS) segmentation through harmonization.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# 分散型サービス攻撃分類のための自己保持型重み付きアンサンブルに基づく畳み込みニューラルネットワークフレームワーク

A Novel Self-Attention-Enabled Weighted Ensemble-Based Convolutional Neural Network Framework for Distributed Denial of Service Attack Classification ( http://arxiv.org/abs/2409.00810v1 )

ライセンス: Link先を確認
Kanthimathi S, Shravan Venkatraman, Jayasankar K S, Pranay Jiljith T, Jashwanth R, (参考訳) 分散サービス拒否(DDoS)攻撃は、過度のトラフィックでシステムを圧倒し、機密データを侵害し、ネットワークサービスを破壊しているため、ネットワークセキュリティにおいて大きな関心事である。 これらの攻撃を正確に検出することは、ネットワークインフラストラクチャを保護するのに不可欠である。 単一畳み込みニューラルネットワーク(CNN)や、Decision Trees(DT)やSupport Vector Machines(SVM)のような従来の機械学習(ML)アルゴリズムのような伝統的なアプローチは、正確な分類に必要な多様な特徴を抽出するのに苦労し、結果として準最適パフォーマンスをもたらす。 本研究は、DDoS攻撃検出の新しいアプローチを導入することで、このギャップに対処する。 提案手法は,SA-Enabled CNNとXGBoost,SA-Enabled CNNとLSTM,SA-Enabled CNNとランダムフォレストという3つの異なるCNNアーキテクチャを組み合わせる。 各モデルは複数のスケールで機能を抽出し、自己注意機構は機能統合と関連性を高めます。 重み付けされたアンサンブルアプローチは、目立った特徴と微妙な特徴の両方が最終分類に寄与し、進化する攻撃パターンや新しい脅威への適応性を向上させる。 提案手法は、98.71%の精度、98.66%のF1スコア、98.63%のリコール、98.69%の精度を達成し、従来の手法より優れ、DDoS攻撃検出における新たなベンチマークを設定する。 この革新的なアプローチは、現在のモデルにおける重要な制限に対処し、ネットワークセキュリティの最先端を前進させる。

Distributed Denial of Service (DDoS) attacks are a major concern in network security, as they overwhelm systems with excessive traffic, compromise sensitive data, and disrupt network services. Accurately detecting these attacks is crucial to protecting network infrastructure. Traditional approaches, such as single Convolutional Neural Networks (CNNs) or conventional Machine Learning (ML) algorithms like Decision Trees (DTs) and Support Vector Machines (SVMs), struggle to extract the diverse features needed for precise classification, resulting in suboptimal performance. This research addresses this gap by introducing a novel approach for DDoS attack detection. The proposed method combines three distinct CNN architectures: SA-Enabled CNN with XGBoost, SA-Enabled CNN with LSTM, and SA-Enabled CNN with Random Forest. Each model extracts features at multiple scales, while self-attention mechanisms enhance feature integration and relevance. The weighted ensemble approach ensures that both prominent and subtle features contribute to the final classification, improving adaptability to evolving attack patterns and novel threats. The proposed method achieves a precision of 98.71%, an F1-score of 98.66%, a recall of 98.63%, and an accuracy of 98.69%, outperforming traditional methods and setting a new benchmark in DDoS attack detection. This innovative approach addresses critical limitations in current models and advances the state of the art in network security.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# 複数話者音声認識のための重複符号化分離によるシリアライズされた音声情報誘導

Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition ( http://arxiv.org/abs/2409.00815v1 )

ライセンス: Link先を確認
Hao Shi, Yuan Gao, Zhaoheng Ni, Tatsuya Kawahara, (参考訳) SOT(Serialized output training)は、マルチ話者自動音声認識(ASR)の利便性と柔軟性から注目されている。 しかし、注意をそらすだけの訓練は容易ではない。 本稿では、コネクショニスト時間分類(CTC)と注意ハイブリッド損失の利点をフル活用するために、重複符号化分離(EncSep)を提案する。 この追加セパレータはエンコーダの後に挿入され、CTC損失を伴うマルチスピーカ情報を抽出する。 さらに、分離された符号化をさらに活用するために、シリアライズされた音声情報誘導SOT(GEncSep)を提案する。 分離されたストリームは、デコード時に注意を誘導する単一話者情報を提供するために連結される。 LibriMixの実験結果から, 重複符号化から単一話者符号化を分離できることが示唆された。 CTC損失は複雑なシナリオ下でのエンコーダ表現の改善に役立つ。 GEncSepはさらにパフォーマンスを改善した。

Serialized output training (SOT) attracts increasing attention due to its convenience and flexibility for multi-speaker automatic speech recognition (ASR). However, it is not easy to train with attention loss only. In this paper, we propose the overlapped encoding separation (EncSep) to fully utilize the benefits of the connectionist temporal classification (CTC) and attention hybrid loss. This additional separator is inserted after the encoder to extract the multi-speaker information with CTC losses. Furthermore, we propose the serialized speech information guidance SOT (GEncSep) to further utilize the separated encodings. The separated streams are concatenated to provide single-speaker information to guide attention during decoding. The experimental results on LibriMix show that the single-speaker encoding can be separated from the overlapped encoding. The CTC loss helps to improve the encoder representation under complex scenarios. GEncSep further improved performance.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# IoTシステムにおけるウェアラブルデバイスの暗号化アルゴリズムの比較

Comparison of Encryption Algorithms for Wearable Devices in IoT Systems ( http://arxiv.org/abs/2409.00816v1 )

ライセンス: Link先を確認
Haobo Yang, (参考訳) IoT(Internet of Things)の拡張により、スマートウォッチや医療用モニターなどのウェアラブルデバイスを含む、インターネットに接続されたデバイスが、私たちの日常生活の不可欠な部分になりつつある。 これらのデバイスは革新的な機能を提供するだけでなく、大量の機密データを生成、送信する。 限られた計算資源やリアルタイムデータ処理の必要性など、ウェアラブルデバイスがもたらす固有の課題を考えると、暗号化は、処理するデータの完全性と機密性を保護するための基盤となる。 さまざまな暗号化アルゴリズムは、それぞれ独自のアドバンテージと制限を持ち、ウェアラブルIoTデバイスのさまざまなセキュリティと計算ニーズを満たすために利用することができる。 量子コンピューティングが従来の暗号化手法を妨害する可能性がある時代に入るにつれ、適切な暗号化アルゴリズムを選択することがさらに重要になる。 本稿では,ウェアラブルIoTデバイスにおけるさまざまな暗号化手法の適合性について,現状と今後のセキュリティ上の課題を考慮して検討・評価する。

The Internet of Things (IoT) expansion has brought a new era of connected devices, including wearable devices like smartwatches and medical monitors, that are becoming integral parts of our daily lives. These devices not only offer innovative functionalities but also generate and transmit plenty of sensitive data, making their security and privacy the primary concerns. Given the unique challenges posed by wearable devices, such as limited computational resources and the need for real-time data processing, encryption stands as a cornerstone for safeguarding the integrity and confidentiality of the data they handle. Various encryption algorithms, each with its own set of advantages and limitations, are available to meet the diverse security and computational needs of wearable IoT devices. As we move into an age where quantum computing could potentially disrupt traditional encryption methods, choosing a suitable encryption algorithm becomes even more critical. This paper explores and evaluates the suitability of different encryption methods in the context of wearable IoT devices, considering current and future security challenges.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# 向きの正則性による構造適応:多変量関数データにおける速度加速推定

Structural adaptation via directional regularity: rate accelerated estimation in multivariate functional data ( http://arxiv.org/abs/2409.00817v1 )

ライセンス: Link先を確認
Omar Kassi, Sunny G. W. Wang, (参考訳) 多変量関数データに対する新しい異方性の定義である方向正則性を導入する。 次元に沿った滑らかさの概念として異方性を決定する従来の見解を取る代わりに、方向の正則性は、方向のレンズを通して異方性を見る。 多変量プロセスの方向正則性に適応することにより,収束速度の高速化がベイズの変化を通じて得られることを示す。 関数データのユニークな複製構造により、基底行列の変化を推定および同定するアルゴリズムを構築した。 本アルゴリズムの非漸近境界は, 広範囲なシミュレーション研究から得られた数値的証拠によって補足される。 方向性正則性アプローチの2つの応用について論じ、多変量関数型データ解析における標準前処理ステップとしての考察を提唱する。

We introduce directional regularity, a new definition of anisotropy for multivariate functional data. Instead of taking the conventional view which determines anisotropy as a notion of smoothness along a dimension, directional regularity additionally views anisotropy through the lens of directions. We show that faster rates of convergence can be obtained through a change-of-basis by adapting to the directional regularity of a multivariate process. An algorithm for the estimation and identification of the change-of-basis matrix is constructed, made possible due to the unique replication structure of functional data. Non-asymptotic bounds are provided for our algorithm, supplemented by numerical evidence from an extensive simulation study. We discuss two possible applications of the directional regularity approach, and advocate its consideration as a standard pre-processing step in multivariate functional data analysis.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# LibriheavyMix: 単一チャンネル残響音声分離, ASR, 話者ダイアリゼーションのための20,000時間データセット

LibriheavyMix: A 20,000-Hour Dataset for Single-Channel Reverberant Multi-Talker Speech Separation, ASR and Speaker Diarization ( http://arxiv.org/abs/2409.00819v1 )

ライセンス: Link先を確認
Zengrui Jin, Yifan Yang, Mohan Shi, Wei Kang, Xiaoyu Yang, Zengwei Yao, Fangjun Kuang, Liyong Guo, Lingwei Meng, Long Lin, Yong Xu, Shi-Xiong Zhang, Daniel Povey, (参考訳) 音声処理の進化は、会議やカクテルパーティーのような複雑なシナリオにますます焦点を絞っている。 これらの課題に対処するための既存の方法論は、マルチチャネルとシングルチャネルソリューションの2つのカテゴリに分類される。 汎用性と利便性で注目されるシングルチャネルアプローチは、マイクロホンアレイに関する具体的な情報を必要としない。 本稿では,音声分離,認識,話者ダイアリゼーションの研究を進めるために,大規模遠距離重畳音声データセットを提案する。 このデータセットは、マルチストーカー、残響環境における ``Who said What and When''' をデコードするための重要なリソースである。 さらに,基本ベンチマークとして,音声認識,ダイアリゼーションを含むパイプラインシステムを導入する。 WHAMR!データセットの評価は、提案したデータの広範な適用性を検証する。

The evolving speech processing landscape is increasingly focused on complex scenarios like meetings or cocktail parties with multiple simultaneous speakers and far-field conditions. Existing methodologies for addressing these challenges fall into two categories: multi-channel and single-channel solutions. Single-channel approaches, notable for their generality and convenience, do not require specific information about microphone arrays. This paper presents a large-scale far-field overlapping speech dataset, crafted to advance research in speech separation, recognition, and speaker diarization. This dataset is a critical resource for decoding ``Who said What and When'' in multi-talker, reverberant environments, a daunting challenge in the field. Additionally, we introduce a pipeline system encompassing speech separation, recognition, and diarization as a foundational benchmark. Evaluations on the WHAMR! dataset validate the broad applicability of the proposed data.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# SVMを用いたリアルタイム気象画像分類

Real-Time Weather Image Classification with SVM ( http://arxiv.org/abs/2409.00821v1 )

ライセンス: Link先を確認
Eden Ship, Eitan Spivak, Shubham Agarwal, Raz Birman, Ofer Hadar, (参考訳) 画像中の気象条件の正確な分類は、様々な気象条件下での物体検出および分類モデルの性能を高めるために不可欠である。 本稿では,画像中の気象条件を,雨,低照,迷路,クリアの4つのカテゴリに分類する。 この作業の動機は、多様な気象条件下で動作しなければならない自動運転車や監視システムなどの自動化システムの信頼性と効率を改善する必要性から来ている。 気象条件の誤分類は、これらのシステムの性能低下を招き、堅牢な気象分類が不可欠である。 サポートベクトルマシン (SVM) アルゴリズムを用いることで, 明るさ, 飽和度, ノイズレベル, ボケ量, エッジ強度, モーションボケ, ローカルバイナリパターン (LBP) 平均とラジイ1, 2, 3, エッジの平均と分散, 青, 緑, 赤のチャネルにおける色ヒストグラム平均と分散といった, 頑健な特徴を活用できる。 我々のSVMベースの手法は92.8%の精度を達成し、古典的な機械学習手法では80%から90%の範囲で典型的なベンチマークを上回りました。 ディープラーニング手法は最大94%の精度を達成できるが,本手法は計算効率とリアルタイム分類能力において競争上の優位性をもたらす。 各特徴のコントリビューションの詳細な分析は、異なる気象条件のユニークな特徴を捉える上で、テクスチャ、色、エッジに関連する特徴の有効性を強調している。 本研究は、気象画像分類の最先端化を推進し、精度の高い気象条件の判別に必要となる重要な特徴を考察し、精度が最重要となる実用的な応用におけるSVMの可能性を明らかにする。

Accurate classification of weather conditions in images is essential for enhancing the performance of object detection and classification models under varying weather conditions. This paper presents a comprehensive study on classifying weather conditions in images into four categories: rainy, low light, haze, and clear. The motivation for this work stems from the need to improve the reliability and efficiency of automated systems, such as autonomous vehicles and surveillance, which must operate under diverse weather conditions. Misclassification of weather conditions can lead to significant performance degradation in these systems, making robust weather classification crucial. Utilizing the Support Vector Machine (SVM) algorithm, our approach leverages a robust set of features, including brightness, saturation, noise level, blur metric, edge strength, motion blur, Local Binary Patterns (LBP) mean and variance for radii 1, 2, and 3, edges mean and variance, and color histogram mean and variance for blue, green, and red channels. Our SVM-based method achieved a notable accuracy of 92.8%, surpassing typical benchmarks in the literature, which range from 80% to 90% for classical machine learning methods. While deep learning methods can achieve up to 94% accuracy, our approach offers a competitive advantage in terms of computational efficiency and real-time classification capabilities. Detailed analysis of each feature's contribution highlights the effectiveness of texture, color, and edge-related features in capturing the unique characteristics of different weather conditions. This research advances the state-of-the-art in weather image classification and provides insights into the critical features necessary for accurate weather condition differentiation, underscoring the potential of SVMs in practical applications where accuracy is paramount.
翻訳日:2024-09-06 09:01:41 公開日:2024-09-01
# ハイブリッドエージェントベースモデルとファジィ認知マップの高速化 : 類似したエージェントをどう組み合わせるか?

Accelerating Hybrid Agent-Based Models and Fuzzy Cognitive Maps: How to Combine Agents who Think Alike? ( http://arxiv.org/abs/2409.00824v1 )

ライセンス: Link先を確認
Philippe J. Giabbanelli, Jack T. Beerman, (参考訳) エージェントベースモデルは、個々の差異と局所的な文脈に基づいて詳細な人工社会を作ることができるが、それらは計算的に集約することができる。 例えば、人口規模を小さくすること(サブ人口での分析を制限すること)、実際のシナリオを少なくすること、シミュレーションを少なくすることでより不確実性を受け入れることなどである。 あるいは、ハードウェアソリューション(GPU並列化など)や、正確性と計算時間の間のトレードオフを操作する近似アプローチを通じてシミュレーションを高速化することも可能だ。 本稿では,「似た考え」を持つエージェントを組み合わせ,集団規模と計算時間を短縮する近似法を提案する。 我々の革新は、エージェントの動作をルールのネットワーク(ファジィ認知マップ)として表現し、これらのネットワーク間の距離の異なる測度を経験的に評価することに依存します。 そして,コミュニティ検出によって思考類似エージェント群を形成し,それらを代表エージェントに単純化する。 ケーススタディでは、単純化が正確であることが示されています。

While Agent-Based Models can create detailed artificial societies based on individual differences and local context, they can be computationally intensive. Modelers may offset these costs through a parsimonious use of the model, for example by using smaller population sizes (which limits analyses in sub-populations), running fewer what-if scenarios, or accepting more uncertainty by performing fewer simulations. Alternatively, researchers may accelerate simulations via hardware solutions (e.g., GPU parallelism) or approximation approaches that operate a tradeoff between accuracy and compute time. In this paper, we present an approximation that combines agents who `think alike', thus reducing the population size and the compute time. Our innovation relies on representing agent behaviors as networks of rules (Fuzzy Cognitive Maps) and empirically evaluating different measures of distance between these networks. Then, we form groups of think-alike agents via community detection and simplify them to a representative agent. Case studies show that our simplifications remain accuracy.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# FPGA上に実装した遅延型PUFにおけるエントロピーの物理層解析

A Physical Layer Analysis of Entropy in Delay-Based PUFs Implemented on FPGAs ( http://arxiv.org/abs/2409.00825v1 )

ライセンス: Link先を確認
Jim Plusquellic, Jennifer Howard, Ross MacKinnon, Kristianna Hoffman, Eirini Eleni Tsiropoulou, Calvin Chan, (参考訳) 物理的不閉関数(PUF)は、エントロピーの源としてデバイス内で発生する信号の変動を利用する。 オンチップインスツルメンテーションはPUFアーキテクチャによってこれらのバリエーションの測定とデジタル化に利用され、認証や暗号化などのセキュリティ機能で使用されるビットストリングや秘密鍵に処理される。 多くの場合、計測信号のばらつきはPUFアーキテクチャで定義された回路構造における一連の成分によって引き起こされる。 特に、Hardware-Embeded deLay PUF (HELP) は、相互接続するワイヤ(ノード)とルックアップテーブル(LUT)からなるフィールドプログラマブルゲートアレイ(FPGA)上の組合せ論理経路で発生する遅延変動を測定する。 これらの経路遅延の変動に関する以前の調査では、高品質なビットストリング、すなわちデバイス個体群全体で高いレベルの特異性とランダム性を示すビットストリングを導出することが可能であることが示されている。 しかし、経路の構成成分に関連する基礎となるソースと変動のレベルは未だ不明である。 本稿では,PUFのエントロピー源を完全に特徴付ける手段として,FPGAの基本成分,すなわちLUTとノードに関連する遅延変動の推定値を求めるために,統計的平均化と差分法を適用した。 この分析は、20個のXilinx Zynq 7020 SoCクラスFPGAから収集された50,015個のパス遅延測定に基づいて行われ、その上で、関数ユニットの25個の同一インスタンスを、合計500個のインスタンスに対してインスタンス化する。

Physical Unclonable Functions (PUFs) leverage signal variations that occur within the device as a source of entropy. On-chip instrumentation is utilized by some PUF architectures to measure and digitize these variations, which are then processed into bitstrings and secret keys for use in security functions such as authentication and encryption. In many cases, the variations in the measured signals are introduced by a sequence of components in the circuit structure defined by the PUF architecture. In particular, the Hardware-Embedded deLay PUF (HELP) measures delay variations that occur in combinational logic paths on Field Programmable Gate Arrays (FPGAs), which are composed of a set of interconnecting wires (nodes) and look-up tables (LUTs). Previous investigations of variations in these path delays show that it is possible to derive high quality bitstrings, i.e., those which exhibit high levels of uniqueness and randomness across the device population. However, the underlying source and level of variations associated with the constituent components of the paths remain unknown. In this paper, we apply statistical averaging and differencing techniques to derive estimates for the delay variation associated with an FPGA's basic components, namely LUTs and nodes, as a means of fully characterizing the PUF's source of entropy. The analysis is carried out on a set of 50,015 path delay measurements collected from a set of 20 Xilinx Zynq 7020 SoC-class FPGAs, on which 25 identical instances of a functional unit are instantiated, for a total of 500 instances.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# Digital Homunculi: 生成エージェントによる民主主義研究の再考

Digital Homunculi: Reimagining Democracy Research with Generative Agents ( http://arxiv.org/abs/2409.00826v1 )

ライセンス: Link先を確認
Petr Specian, (参考訳) 技術革新のペースは、民主的制度の進化を超越し続けており、民主的改革に対する革新的なアプローチに対する緊急の需要を生み出している。 しかし、遅いスピード、高いコスト、限られたスケーラビリティ、倫理的リスクを特徴とする実験のボトルネックは、長い間民主主義研究の進歩を妨げてきた。 本稿では,ジェネラル・人工知能(GenAI)を応用して,社会環境における人間の行動の模倣を目的としたディジタル・ホムンキュリ(GenAI)のシミュレーションにより合成データを生成する手法を提案する。 オルタナティブな制度設計による迅速で低リスクな実験を可能にすることで、このアプローチは民主的イノベーションを著しく加速する可能性がある。 我々は、民主的実験における現在の限界を緩和するためのGenAI支援研究の可能性について検討する。 アルゴリズムバイアスや再現性の問題,AIアライメントの問題といった潜在的なリスクを認めながら,適切な注意を払って実施すれば,合成データのメリットが欠点を上回る可能性が高い,と私は考えています。 既存の課題に対処するために, 技術的, 方法論的, 制度的な適応を幅広く提案する。 本稿では、民主主義研究におけるGenAI支援手法の開発と実施における学際的協力を求めるとともに、急速な技術変革の時代における民主的理論と実践のギャップを埋める可能性を強調した。

The pace of technological change continues to outstrip the evolution of democratic institutions, creating an urgent need for innovative approaches to democratic reform. However, the experimentation bottleneck - characterized by slow speed, high costs, limited scalability, and ethical risks - has long hindered progress in democracy research. This paper proposes a novel solution: employing generative artificial intelligence (GenAI) to create synthetic data through the simulation of digital homunculi, GenAI-powered entities designed to mimic human behavior in social contexts. By enabling rapid, low-risk experimentation with alternative institutional designs, this approach could significantly accelerate democratic innovation. I examine the potential of GenAI-assisted research to mitigate current limitations in democratic experimentation, including the ability to simulate large-scale societal interactions and test complex institutional mechanisms. While acknowledging potential risks such as algorithmic bias, reproducibility challenges, and AI alignment issues, I argue that the benefits of synthetic data are likely to outweigh their drawbacks if implemented with proper caution. To address existing challenges, I propose a range of technical, methodological, and institutional adaptations. The paper concludes with a call for interdisciplinary collaboration in the development and implementation of GenAI-assisted methods in democracy research, highlighting their potential to bridge the gap between democratic theory and practice in an era of rapid technological change.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# 改良量子回路シミュレーションのためのZXダイアグラムのより賢いk分割

Smarter k-Partitioning of ZX-Diagrams for Improved Quantum Circuit Simulation ( http://arxiv.org/abs/2409.00828v1 )

ライセンス: Link先を確認
Matthew Sutcliffe, (参考訳) 最適k分割ZX-ダイアグラムに基づく量子回路の高速古典シミュレーション手法を提案する。 そして、この手法が、様々な大きさ、形状、相互接続性を持つ回路の代替品とどのように異なるかを解析し、これらの代替品を桁違いに高速に性能を向上できるかを示す。

We introduce a novel method for strong classical simulation of quantum circuits based on optimally k-partitioning ZX-diagrams, reducing each part individually, and then efficiently cross-referencing their results to conclude the overall probability amplitude of the original circuit. We then analyse how this method fares against the alternatives for circuits of various size, shape, and interconnectedness and demonstrate how it is often liable to outperform those alternatives in speed by orders of magnitude.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# Curvy: パラメトリック断面による表面再構成

Curvy: A Parametric Cross-section based Surface Reconstruction ( http://arxiv.org/abs/2409.00829v1 )

ライセンス: Link先を確認
Aradhya N. Mathur, Apoorv Khattar, Ojaswa Sharma, (参考訳) 本研究では, 平面スパース断面を用いた形状点雲の再構成手法を提案する。 本稿では, この問題設定における表現と再構築に関するユニークな課題について述べる。 古典文学のほとんどの手法は、オブジェクトクラスに基づいて一般化し、信頼性のある表面を再構築するために複雑な数学的機械を使用する能力に欠ける。 大規模なデータセット上の少数の入力断面から多数の点を生成するための単純な学習可能なアプローチを提案する。 我々は、適応分割を用いたコンパクトなパラメトリックポリライン表現を用いて、断面を表現し、グラフニューラルネットワークを用いて基礎となる形状を適応的に再構築し、提供された断面数への依存を減らす。

In this work, we present a novel approach for reconstructing shape point clouds using planar sparse cross-sections with the help of generative modeling. We present unique challenges pertaining to the representation and reconstruction in this problem setting. Most methods in the classical literature lack the ability to generalize based on object class and employ complex mathematical machinery to reconstruct reliable surfaces. We present a simple learnable approach to generate a large number of points from a small number of input cross-sections over a large dataset. We use a compact parametric polyline representation using adaptive splitting to represent the cross-sections and perform learning using a Graph Neural Network to reconstruct the underlying shape in an adaptive manner reducing the dependence on the number of cross-sections provided.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# FKG.in - インド料理の知識グラフ

Building FKG.in: a Knowledge Graph for Indian Food ( http://arxiv.org/abs/2409.00830v1 )

ライセンス: Link先を確認
Saransh Kumar Gupta, Lipika Dey, Partha Pratim Das, Ramesh Jain, (参考訳) 本稿では,インド料理の料理情報を知識グラフの形で要約する自動システムを構築するために,知識工学と多言語意味推論技術とともにオントロジー設計を提案する。 主な焦点は、オントロジーの設計を導き、食品、レシピ、食材、調理特性、そして最も重要な栄養に関するすべての知識を大規模に捉えるインテリジェントな手法を設計することである。 本ワークショップでは,インド料理の知識を育成する上での課題について詳述し,高レベルのオントロジー設計を提案する。 また、AI、LLM、言語技術を用いて、パブリックドメインのレシピブログサイトから情報をキュレートし、インド料理の知識グラフを構築する新しいワークフローを提案する。 本論文で提案する知識キュレーション手法は汎用的であり,任意の領域に対して複製可能である。 デザインはアプリケーションに依存しず、AI駆動のスマート分析、パーソナライズされたデジタルヘルスのためのレコメンデーションシステムの構築、ユーザ情報、食品生化学、地理情報、農業情報などのコンテキスト情報によるインド食品の知識グラフの補完に使用することができる。

This paper presents an ontology design along with knowledge engineering, and multilingual semantic reasoning techniques to build an automated system for assimilating culinary information for Indian food in the form of a knowledge graph. The main focus is on designing intelligent methods to derive ontology designs and capture all-encompassing knowledge about food, recipes, ingredients, cooking characteristics, and most importantly, nutrition, at scale. We present our ongoing work in this workshop paper, describe in some detail the relevant challenges in curating knowledge of Indian food, and propose our high-level ontology design. We also present a novel workflow that uses AI, LLM, and language technology to curate information from recipe blog sites in the public domain to build knowledge graphs for Indian food. The methods for knowledge curation proposed in this paper are generic and can be replicated for any domain. The design is application-agnostic and can be used for AI-driven smart analysis, building recommendation systems for Personalized Digital Health, and complementing the knowledge graph for Indian food with contextual information such as user information, food biochemistry, geographic information, agricultural information, etc.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# 近赤外量子ゴースト分光法による脅威検出

Near Infrared Quantum Ghost Spectroscopy for Threats Detection ( http://arxiv.org/abs/2409.00833v1 )

ライセンス: Link先を確認
Andrea Chiuri, Federico Angelini, Ilaria Gianani, Simone Santoro, Marco Barbieri, (参考訳) 量子センシング(Quantum Sensing)は、量子科学と技術分野における研究分野として急速に成長している分野であり、量子センサーの商業化の可能性を秘めている。 光子によって提供される量子リソースの活用は、革新的で挑戦的な応用のために量子センサーの性能を高めることができる。 本稿では、量子ゴースト分光法(QGS)のアイデア、すなわち、量子ゴーストイメージング(QGI)の周波数領域において、脅威の検出に特定の応用をターゲットとして構築する。 これは量子光学によって提供される機会、すなわちスペクトル相関によって特徴づけられる光子対の生成を利用して実現される。 本研究は,QGS実験で得られた主な成果について考察し,低資源計測における対象の有無を評価できることを示す。 時間周波数領域は、いくつかのアプリケーションにとって大きなポテンシャルを示し、周波数相関は、直接測定が不可能(例えばセキュリティ)なオブジェクトのスペクトル分析を可能にするために利用される多用途ツールを表す。 相関光子の非退化源を使用することで、可視領域の通常の検出器を用いた近赤外波長のスペクトル特性を明らかにすることができた。

Quantum Sensing is a rapidly growing branch of research within the area of quantum science and technology offering key resources, beyond classical ones, with potential for commercialisation of novel (quantum) sensors. The exploitation of quantum resources offered by photons can boost the performance of quantum sensors for innovative and challenging applications. In this paper we build on the idea of the Quantum Ghost Spectroscopy (QGS), i.e. the counterpart in the frequency domain of Quantum Ghost Imaging (QGI), targeting specific applications in the detection of possible threats. This is implemented by exploiting the opportunities offered by Quantum Optics, i.e. the generation of photon pairs characterized by spectral correlations. We will discuss our main results obtained with pure QGS experiments showing that it is possible to assess the presence of a target dealing with a low resources measurement. The time-frequency domain reveals a huge potential for several applications and frequency correlations represent a versatile tool that can be exploited to enable the spectral analysis of objects where a direct measurement would not be feasible (e.g. security). The use of nondegenerate sources of correlated photons allowed to reveal spectral features in the near infrared wavelengths employing the usual detectors for the visible region.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# You-Only-Randomize-Once:Constraint-based PCGの統計特性

You-Only-Randomize-Once: Shaping Statistical Properties in Constraint-based PCG ( http://arxiv.org/abs/2409.00837v1 )

ライセンス: Link先を確認
Jediah Katz, Bahar Bateni, Adam M. Smith, (参考訳) 手続き的コンテンツ生成では,生成タスクを制約満足度問題としてモデル化することで,生成した出力の局所的制約とグローバル的制約を定義することができる。 しかしながら、ジェネレータが認識する品質には、単に厳しい制約ではなく統計が伴うことが多い。 例えば、生成した出力は、参照設計と同じような分布を持つデザイン要素を使いたがるかもしれません。 しかしながら、そのような統計的性質は、任意の出力の生成に関する厳密な制約として直接表現することはできない。 対照的に、GuminのWaveFunctionCollapse (WFC)アルゴリズムの実装のような汎用制約解決器を使用しないメソッドは、出力統計を制御できるが、制限伝搬能力は限られており、非局所的な制約を表現できない。 本稿では,制約ベースジェネレータに所望の統計情報をエンコードする制約解決器の判定変数順序付け法であるYou-Only-Randomize-Once(YORO)プリローリングを紹介する。 この手法は, 既製のSATソルバが生成するタイルグリッド出力の統計を効果的に制御すると同時に, 出力に対する世界的制約を課していることを示す。 我々の手法は直ちにWFCのような生成問題に適用でき、他の制約ベースジェネレータの設計要素統計を制御するための概念的な出発点を提供する。

In procedural content generation, modeling the generation task as a constraint satisfaction problem lets us define local and global constraints on the generated output. However, a generator's perceived quality often involves statistics rather than just hard constraints. For example, we may desire that generated outputs use design elements with a similar distribution to that of reference designs. However, such statistical properties cannot be expressed directly as a hard constraint on the generation of any one output. In contrast, methods which do not use a general-purpose constraint solver, such as Gumin's implementation of the WaveFunctionCollapse (WFC) algorithm, can control output statistics but have limited constraint propagation ability and cannot express non-local constraints. In this paper, we introduce You-Only-Randomize-Once (YORO) pre-rolling, a method for crafting a decision variable ordering for a constraint solver that encodes desired statistics in a constraint-based generator. Using a solver-based WFC as an example, we show that this technique effectively controls the statistics of tile-grid outputs generated by several off-the-shelf SAT solvers, while still enforcing global constraints on the outputs.1 Our approach is immediately applicable to WFC-like generation problems and it offers a conceptual starting point for controlling the design element statistics in other constraint-based generators.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# エントロピー損失:知的運転のための3次元物体検出ネットワークの解釈可能性増幅器

Entropy Loss: An Interpretability Amplifier of 3D Object Detection Network for Intelligent Driving ( http://arxiv.org/abs/2409.00839v1 )

ライセンス: Link先を確認
Haobo Yang, Shiyan Zhang, Zhuoyi Yang, Xinyu Zhang, Li Wang, Yifan Tang, Jilong Guo, Jun Li, (参考訳) 交通環境の複雑さが増すにつれ、インテリジェントな運転における安全認識の重要性が増している。 知的運転知覚の分野における伝統的な手法は深層学習に依存しており、限定的な解釈可能性に悩まされており、しばしば「ブラックボックス」と表現される。 本稿では,「エントロピー損失」と呼ばれる新しいタイプの損失関数と,革新的なトレーニング戦略を紹介する。 エントロピー損失は知覚モデル内の特徴圧縮ネットワークの機能に基づいて定式化される。 通信システムからインスピレーションを得て、特徴圧縮ネットワークにおける情報伝達プロセスは、情報量の変化と情報エントロピーの継続的な減少を示すことが期待されている。 ネットワーク層を連続確率変数としてモデル化することにより,情報量の変化を定量化する確率モデルを構築する。 エントロピー損失は、これらの期待に基づいて導出され、ネットワークの解釈可能性を高めるために、ネットワークパラメータの更新を導く。 実験により,エントロピーロストレーニング戦略がトレーニング過程を加速することが示された。 同じ60のトレーニングエポックを用いて、KITTIテストセットのエントロピー損失を用いた3次元物体検出モデルの精度は、エントロピー損失のないモデルと比較して最大4.47倍向上し、この手法の有効性を裏付けた。 実装コードは \url{https://github.com/yhbcode000/Eloss-Interpretability} で公開されている。

With the increasing complexity of the traffic environment, the significance of safety perception in intelligent driving is intensifying. Traditional methods in the field of intelligent driving perception rely on deep learning, which suffers from limited interpretability, often described as a "black box." This paper introduces a novel type of loss function, termed "Entropy Loss," along with an innovative training strategy. Entropy Loss is formulated based on the functionality of feature compression networks within the perception model. Drawing inspiration from communication systems, the information transmission process in a feature compression network is expected to demonstrate steady changes in information volume and a continuous decrease in information entropy. By modeling network layer outputs as continuous random variables, we construct a probabilistic model that quantifies changes in information volume. Entropy Loss is then derived based on these expectations, guiding the update of network parameters to enhance network interpretability. Our experiments indicate that the Entropy Loss training strategy accelerates the training process. Utilizing the same 60 training epochs, the accuracy of 3D object detection models using Entropy Loss on the KITTI test set improved by up to 4.47\% compared to models without Entropy Loss, underscoring the method's efficacy. The implementation code is available at \url{https://github.com/yhbcode000/Eloss-Interpretability}.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# 変圧器とニューラル積分演算子を用いた演算子の普遍近似

Universal Approximation of Operators with Transformers and Neural Integral Operators ( http://arxiv.org/abs/2409.00841v1 )

ライセンス: Link先を確認
Emanuele Zappala, Maryam Bagherian, (参考訳) バナッハ空間の作用素に対する変換器とニューラル積分作用素の普遍近似特性について検討する。 特に、変換器アーキテクチャは、H\"古い空間間の積分作用素の普遍近似であることを示す。 さらに、ガヴリン積分に基づく一般化されたニューラル積分作用素はバナッハ空間間の任意の作用素の普遍近似であることを示す。 最後に、レイ・シャウダー写像を用いた変換器の修正版が任意のバナッハ空間間の作用素の普遍近似であることを示す。

We study the universal approximation properties of transformers and neural integral operators for operators in Banach spaces. In particular, we show that the transformer architecture is a universal approximator of integral operators between H\"older spaces. Moreover, we show that a generalized version of neural integral operators, based on the Gavurin integral, are universal approximators of arbitrary operators between Banach spaces. Lastly, we show that a modified version of transformer, which uses Leray-Schauder mappings, is a universal approximator of operators between arbitrary Banach spaces.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# 分散ファイナンスに関する世界的な世論感:150ヶ国におけるジオタグ付きつぶやきの時空間分析

Global Public Sentiment on Decentralized Finance: A Spatiotemporal Analysis of Geo-tagged Tweets from 150 Countries ( http://arxiv.org/abs/2409.00843v1 )

ライセンス: Link先を確認
Yuqi Chen, Yifan Li, Kyrie Zhixuan Zhou, Xiaokang Fu, Lingbo Liu, Shuming Bao, Daniel Sui, Luyao Zhang, (参考訳) デジタル時代には、ブロックチェーン技術、暗号通貨、および非偽造トークン(NFT)が金融と分散システムを変革してきた。 しかし、既存の研究はこれらの技術に対する世論の時空間的変化を無視し、その世界的影響に対するマクロレベルの洞察を制限している。 この調査はTwitterのデータを利用して150カ国の大衆の関心や感情を探り、2012年から2022年にかけての1億5000万以上のジオタグ付きツイートを分析した。 感情スコアは、40億ツイートで訓練されたBERTベースの多言語感情モデルを用いて導出された。 この分析は世界開発指標データベースから世界の暗号通貨規制と経済指標を統合している。 その結果、経済要因に影響された世界的感情の変化が顕著に示され、多くの先進国が議論に従事している一方、先進国はより高い感情レベルを示している。 地理的に重み付けされたレグレッションは、GDP-ツイートのエンゲージメントの相関がBitcoin価格の急騰に伴って増加することを示している。 トピックモデリングは、類似の経済クラスタ内の国々が議論の傾向を共有し、異なるクラスタが異なるトピックに焦点を当てていることを示している。 この研究は、貧困緩和、暗号通貨犯罪、持続的発展に影響を及ぼす経済・地域要因によって形成された分散金融に対する世界的格差を浮き彫りにしている。 データセットとコードはGitHubで公開されている。

In the digital era, blockchain technology, cryptocurrencies, and non-fungible tokens (NFTs) have transformed financial and decentralized systems. However, existing research often neglects the spatiotemporal variations in public sentiment toward these technologies, limiting macro-level insights into their global impact. This study leverages Twitter data to explore public attention and sentiment across 150 countries, analyzing over 150 million geotagged tweets from 2012 to 2022. Sentiment scores were derived using a BERT-based multilingual sentiment model trained on 7.4 billion tweets. The analysis integrates global cryptocurrency regulations and economic indicators from the World Development Indicators database. Results reveal significant global sentiment variations influenced by economic factors, with more developed nations engaging more in discussions, while less developed countries show higher sentiment levels. Geographically weighted regression indicates that GDP-tweet engagement correlation intensifies following Bitcoin price surges. Topic modeling shows that countries within similar economic clusters share discussion trends, while different clusters focus on distinct topics. This study highlights global disparities in sentiment toward decentralized finance, shaped by economic and regional factors, with implications for poverty alleviation, cryptocurrency crime, and sustainable development. The dataset and code are publicly available on GitHub.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# レポートカード:自然言語要約を用いた言語モデルの質的評価

Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries ( http://arxiv.org/abs/2409.00844v1 )

ライセンス: Link先を確認
Blair Yang, Fuyang Cui, Keiran Paster, Jimmy Ba, Pashootan Vaezipoor, Silviu Pitis, Michael R. Zhang, (参考訳) 大規模言語モデル(LLM)の急速な開発と動的性質により、従来の定量的ベンチマークではそれらの能力を正確に評価することは困難である。 本稿では,人間に解釈可能な,特定のスキルやトピックに対するモデル行動の自然言語要約であるレポートカードを提案する。 本研究は,3つの基準に基づいてレポートカードの評価を行う枠組みを開発する。 特異性(モデル区別能力),忠実性(モデル能力の正確な表現),解釈可能性(人間への明瞭さと妥当性)である。 また,人間を指導せずにレポートカードを生成するための反復アルゴリズムを提案する。 一般的なLCMを用いた実験を通じて,レポートカードが従来のベンチマーク以上の洞察を与え,LCMのより解釈可能な総合的な評価の必要性に対処できることを実証する。

The rapid development and dynamic nature of large language models (LLMs) make it difficult for conventional quantitative benchmarks to accurately assess their capabilities. We propose report cards, which are human-interpretable, natural language summaries of model behavior for specific skills or topics. We develop a framework to evaluate report cards based on three criteria: specificity (ability to distinguish between models), faithfulness (accurate representation of model capabilities), and interpretability (clarity and relevance to humans). We also propose an iterative algorithm for generating report cards without human supervision and explore its efficacy by ablating various design choices. Through experimentation with popular LLMs, we demonstrate that report cards provide insights beyond traditional benchmarks and can help address the need for a more interpretable and holistic evaluation of LLMs.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# 自律運転データに対する画像-ライダー関係蒸留

Image-to-Lidar Relational Distillation for Autonomous Driving Data ( http://arxiv.org/abs/2409.00845v1 )

ライセンス: Link先を確認
Anas Mahmoud, Ali Harakeh, Steven Waslander, (参考訳) 広範囲で多様なマルチモーダルデータセットに基づいて事前トレーニングされた2Dファウンデーションモデルは、ロバストな表現のため、下流の監視をほとんどあるいは全く行わない2Dタスクに対処するのに優れています。 2D-to-3D蒸留フレームワークの出現により、これらの機能は3Dモデルに拡張された。 しかしながら、自律運転データセットの3D表現の蒸留は、自己相似性、クラス不均衡、点雲の間隔といった課題を示し、特にゼロショット学習環境では、対照的な蒸留の有効性を妨げる。 類似性に基づく蒸留のような他の手法はゼロショット性能を高めるが、差別的な表現は少なく、少数ショット性能は低下する傾向にある。 本研究では, 最先端蒸留フレームワークによる2次元表現と3次元表現のギャップについて検討し, 両者の間に有意なミスマッチがあることを明らかにする。 さらに, 観察された構造的ギャップは, ゼロショットおよび少数ショットの3次元セマンティックセマンティックセグメンテーションにおける蒸留表現の有効性と負の相関があることを実証した。 このギャップを埋めるために,モーダル内およびクロスモーダル間の制約を強制するリレーショナル蒸留フレームワークを提案する。 このアライメントは、ゼロショットセグメンテーションタスクにおいて、対照的な蒸留によって得られた3次元表現性能を大幅に向上させる。 さらに、我々のリレーショナル・ロスは、分布内および分布外の両方における3次元表現の質を一貫して改善し、類似性損失に依存するアプローチよりも優れています。

Pre-trained on extensive and diverse multi-modal datasets, 2D foundation models excel at addressing 2D tasks with little or no downstream supervision, owing to their robust representations. The emergence of 2D-to-3D distillation frameworks has extended these capabilities to 3D models. However, distilling 3D representations for autonomous driving datasets presents challenges like self-similarity, class imbalance, and point cloud sparsity, hindering the effectiveness of contrastive distillation, especially in zero-shot learning contexts. Whereas other methodologies, such as similarity-based distillation, enhance zero-shot performance, they tend to yield less discriminative representations, diminishing few-shot performance. We investigate the gap in structure between the 2D and the 3D representations that result from state-of-the-art distillation frameworks and reveal a significant mismatch between the two. Additionally, we demonstrate that the observed structural gap is negatively correlated with the efficacy of the distilled representations on zero-shot and few-shot 3D semantic segmentation. To bridge this gap, we propose a relational distillation framework enforcing intra-modal and cross-modal constraints, resulting in distilled 3D representations that closely capture the structure of the 2D representation. This alignment significantly enhances 3D representation performance over those learned through contrastive distillation in zero-shot segmentation tasks. Furthermore, our relational loss consistently improves the quality of 3D representations in both in-distribution and out-of-distribution few-shot segmentation tasks, outperforming approaches that rely on the similarity loss.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# マロランキングのフェデレーションアグリゲーション:ボルダとレーマーの符号化の比較分析

Federated Aggregation of Mallows Rankings: A Comparative Analysis of Borda and Lehmer Coding ( http://arxiv.org/abs/2409.00848v1 )

ライセンス: Link先を確認
Jin Sima, Vishal Rana, Olgica Milenkovic, (参考訳) ランキングアグリゲーションは、複数のランクリストをコンセンサスランキングにまとめる。 バイオメディカルなデータ共有のような分野では、ランキングは分散され、プライバシーが要求される。 これにより、複数のクライアントにまたがる分散、プライベート、および通信効率の学習をサポートするフェデレートされたランク集約プロトコルの必要性が高まっている。 本稿では,BordaスコアリングとLehmer符号を用いて,既知のスケーリング係数$\phi$と未知のセントロイド置換$\sigma_0$を用いて,Mallows分布上でのフェデレーションアルゴリズムのサンプル複雑性に着目した最初のフェデレーションランクアグリゲーション手法を提案する。 フェデレートされたボルダのアプローチには、ローカルクライアントスコアリング、非自明な量子化、プライバシ保護プロトコルが含まれる。 例えば$\phi \in [0,1)$と$\sigma_0$ of length $N$の場合、$L$クライアントのそれぞれに対して、ローカルに集約する$\max\{C_1(\phi), C_2(\phi)\frac{1}{L}\log \frac{N}{\delta}\}$ ranks, where $C_1(\phi)$と$C_2(\phi)$は定数であり、結果を量子化し、$\sigma_0$を$\geq 1-\delta$で回収できるサーバに送信する。 通信複雑性は$NL \log N$とスケールする。 この結果は,Mallowsモデルの下での集中的および分散的設定におけるボルダ法の最初の厳密な解析である。 フェデレートされたLehmerコーディングアプローチは、効率とプライバシのための特殊な量子化メソッドを備えた座標長集約アプローチを使用して、各クライアント用のローカルなLehmerコードを生成する。 我々は、$\phi+\phi^2<1+\phi^N$ および$\sigma_0$ of length $N$ に対して、$L$クライアントのそれぞれに局所的に $\max\{C_3(\phi), C_4(\phi)\frac{1}{L}\log \frac{N}{\delta}\} を足し、$C_3(\phi)$ と $C_4(\phi)$ を定数とする。 クライアントはtruncated Lehmer座標ヒストグラムをサーバに送り、$\sigma_0$を確率$\geq 1-\delta$でリカバリすることができる。 通信複雑性は$\sim O(N\log NL\log L)$である。

Rank aggregation combines multiple ranked lists into a consensus ranking. In fields like biomedical data sharing, rankings may be distributed and require privacy. This motivates the need for federated rank aggregation protocols, which support distributed, private, and communication-efficient learning across multiple clients with local data. We present the first known federated rank aggregation methods using Borda scoring and Lehmer codes, focusing on the sample complexity for federated algorithms on Mallows distributions with a known scaling factor $\phi$ and an unknown centroid permutation $\sigma_0$. Federated Borda approach involves local client scoring, nontrivial quantization, and privacy-preserving protocols. We show that for $\phi \in [0,1)$, and arbitrary $\sigma_0$ of length $N$, it suffices for each of the $L$ clients to locally aggregate $\max\{C_1(\phi), C_2(\phi)\frac{1}{L}\log \frac{N}{\delta}\}$ rankings, where $C_1(\phi)$ and $C_2(\phi)$ are constants, quantize the result, and send it to the server who can then recover $\sigma_0$ with probability $\geq 1-\delta$. Communication complexity scales as $NL \log N$. Our results represent the first rigorous analysis of Borda's method in centralized and distributed settings under the Mallows model. Federated Lehmer coding approach creates a local Lehmer code for each client, using a coordinate-majority aggregation approach with specialized quantization methods for efficiency and privacy. We show that for $\phi+\phi^2<1+\phi^N$, and arbitrary $\sigma_0$ of length $N$, it suffices for each of the $L$ clients to locally aggregate $\max\{C_3(\phi), C_4(\phi)\frac{1}{L}\log \frac{N}{\delta}\}$ rankings, where $C_3(\phi)$ and $C_4(\phi)$ are constants. Clients send truncated Lehmer coordinate histograms to the server, which can recover $\sigma_0$ with probability $\geq 1-\delta$. Communication complexity is $\sim O(N\log NL\log L)$.
翻訳日:2024-09-06 08:51:29 公開日:2024-09-01
# テキスト・ツー・オーディオ検索における時間的理解の分別

Dissecting Temporal Understanding in Text-to-Audio Retrieval ( http://arxiv.org/abs/2409.00851v1 )

ライセンス: Link先を確認
Andreea-Maria Oncescu, João F. Henriques, A. Sophia Koepke, (参考訳) 機械学習の最近の進歩は、例えば、テキスト・トゥ・ビデオやテキスト・トゥ・オーディオ検索のようなマルチモーダルタスクの研究を後押ししている。 これらのタスクは、オブジェクトや文字を含むビデオやオーディオデータのセマンティックな内容を理解するモデルを必要とする。 モデルは空間的配置や時間的関係も学ばなければならない。 本研究では,テキスト・音声検索の文脈における課題である音の時間的順序付けについて分析する。 特に,AudioCaps および Clotho データセット上でのテキスト音声検索のための最先端モデルの時間的理解能力について検討する。 さらに、最近のモデルの時間的能力を評価するための制御された設定を提供する合成テキストオーディオデータセットも導入する。 最後に,テキスト・オーディオ・モデルにイベントの時間的順序付けに集中させるロス関数を提案する。 コードとデータはhttps://www.robots.ox.uk/~vgg/research/audio-retrieval/dtu/で公開されている。

Recent advancements in machine learning have fueled research on multimodal tasks, such as for instance text-to-video and text-to-audio retrieval. These tasks require models to understand the semantic content of video and audio data, including objects, and characters. The models also need to learn spatial arrangements and temporal relationships. In this work, we analyse the temporal ordering of sounds, which is an understudied problem in the context of text-to-audio retrieval. In particular, we dissect the temporal understanding capabilities of a state-of-the-art model for text-to-audio retrieval on the AudioCaps and Clotho datasets. Additionally, we introduce a synthetic text-audio dataset that provides a controlled setting for evaluating temporal capabilities of recent models. Lastly, we present a loss function that encourages text-audio models to focus on the temporal ordering of events. Code and data are available at https://www.robots.ox.ac.uk/~vgg/research/audio-retrieval/dtu/.
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# JaxLife: オープンなエージェントシミュレータ

JaxLife: An Open-Ended Agentic Simulator ( http://arxiv.org/abs/2409.00853v1 )

ライセンス: Link先を確認
Chris Lu, Michael Beukman, Michael Matthews, Jakob Foerster, (参考訳) 人類の知性は地球上の自然選択と進化の過程を通して現れた。 このプロセスをシリコで再現するにはどうすればいいのか検討する。 過去の研究は、しばしば低レベルのプロセス(物理や化学をシミュレートするなど)に焦点を当ててきたが、私たちは代わりによりターゲットを絞ったアプローチを取り、何世代にもわたってオープンな文化や技術を蓄積できるエージェントを進化させることを目指しています。 そこで我々は,深層ニューラルネットワークによってパラメータ化されたエンボディエージェントが,プログラム可能なシステムを含む表現力のある世界で生き残ることを学ばなければならない,人工生命シミュレータJaxLifeを提案する。 まず、環境を記述し、有意義なチューリング完全計算を実現できることを示す。 次に、初歩的なコミュニケーションプロトコル、農業、ツール利用など、進化した創発的エージェントの行動を分析する。 最後に,計算量による複雑性のスケールアップについて検討する。 JaxLifeは、よりオープンなシミュレーションで進化した振る舞いを研究するための一歩を踏み出したと信じています。 私たちのコードはhttps://github.com/luchris429/JaxLifeで利用可能です。

Human intelligence emerged through the process of natural selection and evolution on Earth. We investigate what it would take to re-create this process in silico. While past work has often focused on low-level processes (such as simulating physics or chemistry), we instead take a more targeted approach, aiming to evolve agents that can accumulate open-ended culture and technologies across generations. Towards this, we present JaxLife: an artificial life simulator in which embodied agents, parameterized by deep neural networks, must learn to survive in an expressive world containing programmable systems. First, we describe the environment and show that it can facilitate meaningful Turing-complete computation. We then analyze the evolved emergent agents' behavior, such as rudimentary communication protocols, agriculture, and tool use. Finally, we investigate how complexity scales with the amount of compute used. We believe JaxLife takes a step towards studying evolved behavior in more open-ended simulations. Our code is available at https://github.com/luchris429/JaxLife
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# LanguaShrink: 心理的言語学によるトークンオーバーヘッドの削減

LanguaShrink: Reducing Token Overhead with Psycholinguistics ( http://arxiv.org/abs/2409.00855v1 )

ライセンス: Link先を確認
Xuechen Liang, Meiling Tao, Yinghui Xia, Tianyu Shi, Jun Wang, JingSong Yang, (参考訳) 大規模言語モデル(LLM)が複雑なタスクを扱う能力を向上させるにつれ、長いプロンプトによる計算コストと効率の問題はますます顕著になりつつある。 モデル推論を高速化し、コストを削減するため、LanguaShrinkと呼ばれる革新的なプロンプト圧縮フレームワークを提案する。 LLMの性能は入力プロンプトにおけるキー情報の密度と位置に依存するという観察にインスパイアされたラングアシュリンクは、精神言語学の原理とエビングハウス記憶曲線を活用してタスク非依存のプロンプト圧縮を実現する。 これにより、必須情報を保存しながら、プロンプト長を効果的に削減できる。 我々はOpenChatのトレーニング手法について言及し、より小さなモデルを用いて圧縮対象を学習し、KL正規化強化学習戦略を用いて訓練を行う。 さらに,調整可能な圧縮率を達成するため,チャンクベースの圧縮アルゴリズムを採用する。 提案手法をLongBench, ZeroScrolls, Arxiv Articles, 新たに構築した新しいテストセットなど, 複数データセット上で評価する。 実験の結果、LanguaShrinkは最大26倍の圧縮を達成しながら意味的類似性を維持していることがわかった。 既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。

As large language models (LLMs) improve their capabilities in handling complex tasks, the issues of computational cost and efficiency due to long prompts are becoming increasingly prominent. To accelerate model inference and reduce costs, we propose an innovative prompt compression framework called LanguaShrink. Inspired by the observation that LLM performance depends on the density and position of key information in the input prompts, LanguaShrink leverages psycholinguistic principles and the Ebbinghaus memory curve to achieve task-agnostic prompt compression. This effectively reduces prompt length while preserving essential information. We referred to the training method of OpenChat.The framework introduces part-of-speech priority compression and data distillation techniques, using smaller models to learn compression targets and employing a KL-regularized reinforcement learning strategy for training.\cite{wang2023openchat} Additionally, we adopt a chunk-based compression algorithm to achieve adjustable compression rates. We evaluate our method on multiple datasets, including LongBench, ZeroScrolls, Arxiv Articles, and a newly constructed novel test set. Experimental results show that LanguaShrink maintains semantic similarity while achieving up to 26 times compression. Compared to existing prompt compression methods, LanguaShrink improves end-to-end latency by 1.43 times.
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# ビジュアルデータフロー言語を用いた音声プログラミングのためのLLMコード生成のベンチマーク

Benchmarking LLM Code Generation for Audio Programming with Visual Dataflow Languages ( http://arxiv.org/abs/2409.00856v1 )

ライセンス: Link先を確認
William Zhang, Maria Leon, Ryan Xu, Adrian Cardenas, Amelia Wissink, Hanna Martin, Maya Srikanth, Kaya Dorogi, Christian Valadez, Pedro Perez, Citlalli Grijalva, Corey Zhang, Mark Santolucito, (参考訳) ノードベースのプログラミング言語は、メディアアートコーディングドメインでますます人気がある。 これらの言語は、限られたコーディング経験を持つユーザに対してアクセス可能なように設計されており、広範なプログラミングバックグラウンドなしで創造的なアウトプットを達成できる。 LLMベースのコード生成を使用して、創造的なアウトプットの障壁をさらに低くするというのは、エキサイティングな機会です。 しかし、ビジュアルノードベースのプログラミング言語のためのコード生成の最良の戦略は、まだ未解決の問題である。 特に、そのような言語はテキストで複数のレベルの表現を持ち、それぞれがコード生成に使用することができる。 本研究では,複数の表現レベルで視覚言語における音声プログラミングタスクにおけるLLMコード生成の性能について検討する。 これらの言語(例えば、異なるハイレベルなテキストベースのプログラミング言語を使って言語をコーディングする)のメタプログラミングによるコード生成と、JSONによる直接ノード生成について検討する。 そこで我々は,この方法で生成された2つの視覚言語による音声プログラミングのためのコードの評価を行った。 生成されたコードの正確さと複雑さを計測します。 メタプログラミングがよりセマンティックに正しい生成コードをもたらすことが分かりました。 また、ランダム性とループを用いたよりリッチなメタプログラミングの促進は、より複雑なコードに繋がることがわかった。

Node-based programming languages are increasingly popular in media arts coding domains. These languages are designed to be accessible to users with limited coding experience, allowing them to achieve creative output without an extensive programming background. Using LLM-based code generation to further lower the barrier to creative output is an exciting opportunity. However, the best strategy for code generation for visual node-based programming languages is still an open question. In particular, such languages have multiple levels of representation in text, each of which may be used for code generation. In this work, we explore the performance of LLM code generation in audio programming tasks in visual programming languages at multiple levels of representation. We explore code generation through metaprogramming code representations for these languages (i.e., coding the language using a different high-level text-based programming language), as well as through direct node generation with JSON. We evaluate code generated in this way for two visual languages for audio programming on a benchmark set of coding problems. We measure both correctness and complexity of the generated code. We find that metaprogramming results in more semantically correct generated code, given that the code is well-formed (i.e., is syntactically correct and runs). We also find that prompting for richer metaprogramming using randomness and loops led to more complex code.
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# 信頼できるAIコラボレーション:人間のフィードバックによる強化学習と安全な自律運転のための物理知識

Trustworthy Human-AI Collaboration: Reinforcement Learning with Human Feedback and Physics Knowledge for Safe Autonomous Driving ( http://arxiv.org/abs/2409.00858v1 )

ライセンス: Link先を確認
Zilin Huang, Zihao Sheng, Lei Shi, Sikai Chen, (参考訳) 自動運転の分野では、安全で信頼性の高い自動運転政策の開発は依然として大きな課題である。 近年,RLHF(Reinforcement Learning with Human Feedback)が注目されている。 それでも、既存のRLHF対応の方法は、不完全な人間のデモンストレーションに直面した時にしばしば失敗し、トレーニングの振動や、ルールベースのアプローチよりもパフォーマンスが悪くなる可能性がある。 人間の学習プロセスに触発されて,人間フィードバックを用いた物理強化学習(PE-RLHF)を提案する。 このフレームワークは、人間からのフィードバック(例えば、人間の介入とデモンストレーション)と物理知識(例えば、交通流モデル)を、強化学習のトレーニングループに相乗的に統合する。 PE-RLHFの鍵となる利点は、人間のフィードバック品質が悪化しても、学習されたポリシーが少なくとも物理ベースのポリシーと同様に機能することを保証することで、信頼性の高い安全性の向上が保証されることである。 PE-RLHFは、人間と物理学に基づくアクション間の動的アクション選択のための物理強化されたHuman-AI(PE-HAI)協調パラダイムを導入し、人間の嗜好を捉えるためにプロキシ値関数を用いた報酬のないアプローチを採用し、人間のメンターに対する認知負荷を減らすために最小限の介入メカニズムを組み込んだ。 多様な運転シナリオにわたる大規模な実験により、PE-RLHFは従来の方法よりも大幅に優れ、安全性、効率、一般化性において、人間のフィードバックの質が変化しても、最先端(SOTA)のパフォーマンスを達成することが示されている。 PE-RLHFの背景にある哲学は、自動運転技術の発展だけでなく、他の安全上重要な領域にも価値ある洞察を与えることができる。 デモビデオとコードは以下の通りである。

In the field of autonomous driving, developing safe and trustworthy autonomous driving policies remains a significant challenge. Recently, Reinforcement Learning with Human Feedback (RLHF) has attracted substantial attention due to its potential to enhance training safety and sampling efficiency. Nevertheless, existing RLHF-enabled methods often falter when faced with imperfect human demonstrations, potentially leading to training oscillations or even worse performance than rule-based approaches. Inspired by the human learning process, we propose Physics-enhanced Reinforcement Learning with Human Feedback (PE-RLHF). This novel framework synergistically integrates human feedback (e.g., human intervention and demonstration) and physics knowledge (e.g., traffic flow model) into the training loop of reinforcement learning. The key advantage of PE-RLHF is its guarantee that the learned policy will perform at least as well as the given physics-based policy, even when human feedback quality deteriorates, thus ensuring trustworthy safety improvements. PE-RLHF introduces a Physics-enhanced Human-AI (PE-HAI) collaborative paradigm for dynamic action selection between human and physics-based actions, employs a reward-free approach with a proxy value function to capture human preferences, and incorporates a minimal intervention mechanism to reduce the cognitive load on human mentors. Extensive experiments across diverse driving scenarios demonstrate that PE-RLHF significantly outperforms traditional methods, achieving state-of-the-art (SOTA) performance in safety, efficiency, and generalizability, even with varying quality of human feedback. The philosophy behind PE-RLHF not only advances autonomous driving technology but can also offer valuable insights for other safety-critical domains. Demo video and code are available at: \https://zilin-huang.github.io/PE-RLHF-website/
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# 質問応答のためのトリプルト前処理による半構造化知識とLLMの力の調和

Harnessing the Power of Semi-Structured Knowledge and LLMs with Triplet-Based Prefiltering for Question Answering ( http://arxiv.org/abs/2409.00861v1 )

ライセンス: Link先を確認
Derian Boer, Fabian Koch, Stefan Kramer, (参考訳) 大きな言語モデル(LLM)はドメイン固有の知識を欠くことが多く、微調整されたモデルでさえ幻覚を起こす傾向がある。 したがって、外部知識を含む信頼性の高いモデルが必要である。 パイプラインである4StepFocus、具体的には前処理のステップを示し、LCMの回答を大幅に改善する。 これは、リレーショナルコンテキストをキャプチャし、自分自身で初歩的な推論を行うモデルの能力を利用して、外部知識へのガイド付きアクセスを提供することによって達成される。 この手法は、半構造化知識ベースでの半構造化知識ベースの検索によって、潜在的に正しい答えを絞り込み、非構造化データに基づいてそれらの候補をランク付けする潜在表現に切り替える。 これは、純粋に潜在表現に基づく関連するメソッドと区別する。 4StepFocusは以下のステップから構成される。 1)LLMによる関係データの抽出のためのトリプルト生成 2 知識グラフを用いた回答候補を絞り込むための三つ子における変数の置換 3) 関連非構造化データを含むベクトル類似性探索による残候補のソート。 4) LLM で最高の候補を背景データでランク付けした。 医学、製品レコメンデーション、および学術論文検索テストセットの実験は、このアプローチが確かに強力な拡張であることを示す。 情報検索からトレース可能な背景情報を付加するだけでなく、最先端の手法と比較して性能を大幅に向上させる。 本稿は,未発見の新規な方向性を提示し,今後の幅広い仕事の機会を提供する。 ソースコードはhttps://github.com/kramerlab/4StepFocus.comで入手できる。

Large Language Models (LLMs) frequently lack domain-specific knowledge and even fine-tuned models tend to hallucinate. Hence, more reliable models that can include external knowledge are needed. We present a pipeline, 4StepFocus, and specifically a preprocessing step, that can substantially improve the answers of LLMs. This is achieved by providing guided access to external knowledge making use of the model's ability to capture relational context and conduct rudimentary reasoning by themselves. The method narrows down potentially correct answers by triplets-based searches in a semi-structured knowledge base in a direct, traceable fashion, before switching to latent representations for ranking those candidates based on unstructured data. This distinguishes it from related methods that are purely based on latent representations. 4StepFocus consists of the steps: 1) Triplet generation for extraction of relational data by an LLM, 2) substitution of variables in those triplets to narrow down answer candidates employing a knowledge graph, 3) sorting remaining candidates with a vector similarity search involving associated non-structured data, 4) reranking the best candidates by the LLM with background data provided. Experiments on a medical, a product recommendation, and an academic paper search test set demonstrate that this approach is indeed a powerful augmentation. It not only adds relevant traceable background information from information retrieval, but also improves performance considerably in comparison to state-of-the-art methods. This paper presents a novel, largely unexplored direction and therefore provides a wide range of future work opportunities. Used source code is available at https://github.com/kramerlab/4StepFocus.
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# バックドア攻撃に対する浄化を指針とした漁業情報

Fisher Information guided Purification against Backdoor Attacks ( http://arxiv.org/abs/2409.00863v1 )

ライセンス: Link先を確認
Nazmul Karim, Abdullah Al Arafat, Adnan Siraj Rakin, Zhishan Guo, Nazanin Rahnavard, (参考訳) 近年のバックドア攻撃の研究は、少数のトレーニングサンプルを操作することによって、敵がディープニューラルネットワーク(DNN)の整合性を損なう可能性があることを示唆している。 我々の分析は、そのような操作により、バックドアモデルが悪い局所的ミニマ、すなわち、良性モデルと比較してよりシャープなミニマに収束できることを示している。 直感的には、モデルをスムーズなミニマに再最適化することで、バックドアを浄化することができる。 しかし、よりスムーズなミニマを目標とする最適化を「積極的に採用」することで、クリーンなテスト精度を損なうような準最適浄化技術が生まれる可能性がある。 そこで, バックドア除去とロススムースネスの関連性を確立する新しい視点に着想を得て, このような再最適化を効果的に実現するために, 新たなバックドア浄化フレームワークであるFisher Information Guided Purification (FIP)を提案する。 提案するFIPは,魚情報マトリックス(FIM)の知識を活用することにより,バックドア効果の抑制と,バックドア除去手順全体を通してクリーンなデータ配信の知識の獲得を支援する,新たなレギュレータで構成されている。 さらに、Fast FIPと呼ばれる効率的なFIPを導入し、チューニング可能なパラメータの数を著しく削減し、約5\times$の素晴らしいランタイムゲインを得る。 5つのタスク – 画像認識、オブジェクト検出、ビデオアクション認識、3Dポイントクラウド、言語生成、ImageNet、PASCAL VOC、UCF101を含む11のデータセット、CNNとビジョントランスフォーマーの両方にまたがる多様なモデルアーキテクチャ、14のバックドアアタック、例えばDynamic、WaNet、LIRA、ISSBAなど。

Studies on backdoor attacks in recent years suggest that an adversary can compromise the integrity of a deep neural network (DNN) by manipulating a small set of training samples. Our analysis shows that such manipulation can make the backdoor model converge to a bad local minima, i.e., sharper minima as compared to a benign model. Intuitively, the backdoor can be purified by re-optimizing the model to smoother minima. However, a na\"ive adoption of any optimization targeting smoother minima can lead to sub-optimal purification techniques hampering the clean test accuracy. Hence, to effectively obtain such re-optimization, inspired by our novel perspective establishing the connection between backdoor removal and loss smoothness, we propose Fisher Information guided Purification (FIP), a novel backdoor purification framework. Proposed FIP consists of a couple of novel regularizers that aid the model in suppressing the backdoor effects and retaining the acquired knowledge of clean data distribution throughout the backdoor removal procedure through exploiting the knowledge of Fisher Information Matrix (FIM). In addition, we introduce an efficient variant of FIP, dubbed as Fast FIP, which reduces the number of tunable parameters significantly and obtains an impressive runtime gain of almost $5\times$. Extensive experiments show that the proposed method achieves state-of-the-art (SOTA) performance on a wide range of backdoor defense benchmarks: 5 different tasks -- Image Recognition, Object Detection, Video Action Recognition, 3D point Cloud, Language Generation; 11 different datasets including ImageNet, PASCAL VOC, UCF101; diverse model architectures spanning both CNN and vision transformer; 14 different backdoor attacks, e.g., Dynamic, WaNet, LIRA, ISSBA, etc.
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# 3ビット状態における絡み合いの多部的一様性

Multipartite Monogamy of Entanglement for Three Qubit States ( http://arxiv.org/abs/2409.00865v1 )

ライセンス: Link先を確認
Priyabrata Char, Dipayan Chakraborty, Prabir Kumar Dey, Ajoy Sen, Amit Bhar, Indrani Chattopadhyay, Debasis Sarkar, (参考訳) 多党制における絡み合いの分布は、一夫一婦制や多妻制の原理によって説明できる。 モノガミーは絡み合いの基本的な特徴であり、複数のパーティ(2つ以上)間での分布を制限する。 本研究の目的は, 真のマルチパートエンタングルメント対策とバイパートエンタングルメント対策の両方を活用することで, 量子エンタングルメントをモノガミー関係に従って分散する方法を検討することである。 具体的には,ソース・エンタングルメントを真のマルチパート・エンタングルメント尺度として扱い,バイパート・ケースに特化して生成のエンタングルメントを用いる。 GHZクラス状態に対しては、ソースエンタングルメントの平方が、還元されたサブシステムの形成の絡み合いの平方の和の上限として機能し、特定の非ジェネリックなGHZ状態を除いて、解析的に証明する。 また、この結果を支持する数値的な証拠をW級状態に対して提示する。 さらに、アクセス可能な絡み合いを上限としてモノガミー関係を探索する。

The distribution of entanglement in a multiparty system can be described through the principles of monogamy or polygamy. Monogamy is a fundamental characteristic of entanglement that restricts its distribution among several number of parties(more than two). In this work, our aim is to explore how quantum entanglement can be distributed in accordance with monogamy relations by utilizing both the genuine multipartite entanglement measures and bipartite entanglement measures. Specifically, we treat source entanglement as the genuine multipartite entanglement measure and use the entanglement of formation specifically for bipartite cases. For GHZ class states, we analytically demonstrate that the square of the source entanglement serves as an upper bound for the sum of the squares of the entanglement of formation of the reduced subsystems, with some exceptions for specific non-generic GHZ states. We also present numerical evidence supporting this result for W class states. Additionally, we explore the monogamy relation by using accessible entanglement as an upper bound.
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# テーブルトップ物体の検出・認識・位置推定

Detection, Recognition and Pose Estimation of Tabletop Objects ( http://arxiv.org/abs/2409.00869v1 )

ライセンス: Link先を確認
Sanjuksha Nirgude, Kevin DuCharme, Namrita Madhusoodanan, (参考訳) Deep Neural Networksを使った散らかったテーブルのクリーニングの問題は、社会と産業の両方のロボティクスにおいて非常に興味深い問題である。 このプロジェクトは、この技術の社会的な応用に焦点を当てている。 マグ、マウス、ステープラなどの一般的なテーブルトップオブジェクトを検出して認識することができるニューラルネットワークモデルを開発する。 モデルは、参照に関して、これらのオブジェクトがテーブル上に置かれる角度も予測する。 各オブジェクトがテーブルトップ上の固定された位置と向きを持つと仮定すると、ディープラーニングモデルによって予測される特定のオブジェクトの向きは変換行列を計算し、対象を初期位置から意図された位置へ移動させる。 本論文では,本プロジェクトにおける物体検出と方向推定のための深層学習手法について述べる。

The problem of cleaning a messy table using Deep Neural Networks is a very interesting problem in both social and industrial robotics. This project focuses on the social application of this technology. A neural network model that is capable of detecting and recognizing common tabletop objects, such as a mug, mouse, or stapler is developed. The model also predicts the angle at which these objects are placed on a table,with respect to some reference. Assuming each object has a fixed intended position and orientation on the tabletop, the orientation of a particular object predicted by the deep learning model can be used to compute the transformation matrix to move the object from its initial position to the intended position. This can be fed to a pick and place robot to carry out the transfer.This paper talks about the deep learning approaches used in this project for object detection and orientation estimation.
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# 2つの遠い原子量子ビットの非破壊ベル状態測定

A nondestructive Bell-state measurement on two distant atomic qubits ( http://arxiv.org/abs/2409.00871v1 )

ライセンス: Link先を確認
Stephan Welte, Philip Thomas, Lukas Hartung, Severin Daiss, Stefan Langenfeld, Olivier Morin, Gerhard Rempe, Emanuele Distante, (参考訳) 量子ネットワークの最も興味深い側面の1つは、非局所的な通信リソースとして絡み合いを分散する能力である。 最初のステップでは、絡み合った状態の生成と保存が可能なネットワーク対応デバイスが必要です。 しかし、もう1つの重要なステップは、絡み検出を可能にする計測技術を開発することである。 異なるプラットフォームに対するデモは、完全でないか破壊的であるか、あるいは局所的であるかに苦しむ。 ここでは、2つの空間的に分離されたネットワークノードの初期状態を最大絡み合った状態に常に投影する完全かつ非破壊的な測定手法を示す。 各ノードは光共振器の中に閉じ込められた原子で構成され、2つの光子が連続的に反射される。 光子の偏光度測定は、四つの最大絡み合った状態の間で識別する。 注目すべきは、そのような状態は我々の測定によって破壊されないことだ。 将来的には, この手法は, 絡み合いの崩壊を調査し, 繰り返し測定することで, 劣化防止に有効である可能性が示唆された。

One of the most fascinating aspects of quantum networks is their capability to distribute entanglement as a nonlocal communication resource. In a first step, this requires network-ready devices that can generate and store entangled states. Another crucial step, however, is to develop measurement techniques that allow for entanglement detection. Demonstrations for different platforms suffer from being either not complete, or destructive, or local. Here we demonstrate a complete and nondestructive measurement scheme that always projects any initial state of two spatially separated network nodes onto a maximally entangled state. Each node consists of an atom trapped inside an optical resonator from which two photons are successively reflected. Polarisation measurements on the photons discriminate between the four maximally entangled states. Remarkably, such states are not destroyed by our measurement. In the future, our technique might serve to probe the decay of entanglement and to stabilise it against dephasing via repeated measurements.
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# 反射・記憶増強能力を有する自己進化剤

Self-evolving Agents with reflective and memory-augmented abilities ( http://arxiv.org/abs/2409.00872v1 )

ライセンス: Link先を確認
Xuechen Liang, Meiling Tao, Yinghui Xia, Tianyu Shi, Jun Wang, JingSong Yang, (参考訳) 大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げてきたが、それでも継続的意思決定のような課題に直面している。 本研究では,Ebbinghaus forgeting curveに基づく反復フィードバック,反射機構,メモリ最適化機構を統合した新しいフレームワークを提案する。

Large language models (LLMs) have made significant advances in the field of natural language processing, but they still face challenges such as continuous decision-making. In this research, we propose a novel framework by integrating iterative feedback, reflective mechanisms, and a memory optimization mechanism based on the Ebbinghaus forgetting curve, it significantly enhances the agents' capabilities in handling multi-tasking and long-span information.
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# 転写学習とドメイン適応を用いた皮膚疾患の予測

Equitable Skin Disease Prediction Using Transfer Learning and Domain Adaptation ( http://arxiv.org/abs/2409.00873v1 )

ライセンス: Link先を確認
Sajib Acharjee Dip, Kazi Hasan Ibn Arif, Uddip Acharjee Shuvo, Ishtiaque Ahmed Khan, Na Meng, (参考訳) 皮膚科領域では、皮膚疾患の診断の複雑さは皮膚科医の専門知識を必要とする。 がんから炎症性疾患まで、さまざまな皮膚疾患の正確な同定が最重要である。 しかし、皮膚科学における既存の人工知能(AI)モデルは、特に様々な皮膚のトーンにまたがる疾患を正確に診断する上で、課題に直面している。 さらに、公開されていない偏見のないデータセットの不足は、包括的AI診断ツールの開発を妨げている。 皮膚のさまざまなトーンの皮膚条件を正確に予測する上での課題に対処するために,さまざまな画像領域からのリッチで伝達可能な知識を活かしたトランスファーラーニングアプローチを採用する。 本手法は,皮膚条件予測の堅牢性や包括性を改善するために,一般的な医用画像や特定の医用画像を含む幅広いソースから事前学習した複数のモデルを統合する。 DDI(Diverse Dermatology Images)データセットを用いて,これらのモデルの有効性を厳格に評価した。 あらゆる手法の中で、Med-ViTは様々な画像ソースから学んだ包括的な特徴表現のためにトップパフォーマーとして登場した。 さらに,HAM10000などの皮膚画像データセットを用いて,領域適応を行った。 この適応により、モデル全体の性能が大幅に向上した。

In the realm of dermatology, the complexity of diagnosing skin conditions manually necessitates the expertise of dermatologists. Accurate identification of various skin ailments, ranging from cancer to inflammatory diseases, is paramount. However, existing artificial intelligence (AI) models in dermatology face challenges, particularly in accurately diagnosing diseases across diverse skin tones, with a notable performance gap in darker skin. Additionally, the scarcity of publicly available, unbiased datasets hampers the development of inclusive AI diagnostic tools. To tackle the challenges in accurately predicting skin conditions across diverse skin tones, we employ a transfer-learning approach that capitalizes on the rich, transferable knowledge from various image domains. Our method integrates multiple pre-trained models from a wide range of sources, including general and specific medical images, to improve the robustness and inclusiveness of the skin condition predictions. We rigorously evaluated the effectiveness of these models using the Diverse Dermatology Images (DDI) dataset, which uniquely encompasses both underrepresented and common skin tones, making it an ideal benchmark for assessing our approach. Among all methods, Med-ViT emerged as the top performer due to its comprehensive feature representation learned from diverse image sources. To further enhance performance, we conducted domain adaptation using additional skin image datasets such as HAM10000. This adaptation significantly improved model performance across all models.
翻訳日:2024-09-06 08:40:50 公開日:2024-09-01
# 説明可能な抑うつ検出のための深い知識注入

Deep Knowledge-Infusion For Explainable Depression Detection ( http://arxiv.org/abs/2409.02122v1 )

ライセンス: Link先を確認
Sumit Dalal, Sarika Jain, Mayank Dave, (参考訳) ソーシャルメディア上での個人のうつ病の発見はますます重要になっている。 研究者は自動うつ病検出にML/DLまたはレキシコンベースの手法を使用した。 記述可能で実装が容易な辞書ベースの手法は、文脈を考慮せずに、不況辞書のユーザ投稿からの単語をマッチングする。 DLモデルはコンテキスト情報を活用することができるが、ブラックボックスの性質はドメイン内での採用を制限する。 LIME や SHAP のような代理モデルでは DL モデルの説明が可能であるが、その説明は開発者に適している。 そこで我々は,ニューラルネットワークにDFO(DepressionFeature Ontology)からのドメイン固有知識を取り入れたKnolwedge-infused Neural Network (KiNN)を提案する。 さらに、ATOMICで訓練されたCommonsense Transformer(COMET)からのコモンセンス知識を注入して、うつ病検出におけるユーザポストの一般的な感情的側面について考察する。 このモデルは、うつ病に関連する3つの専門的にキュレートされたデータセットで評価される。 CLEF e-Risk (25% MCC増加, 12% F1増加), 最高のドメイン固有モデルであるMentalBERTよりも, 統計的に有意な(p<0.1)性能向上が見られた。 同様の傾向がPRIMATEデータセット全体で観測され、提案されたモデルはMentalBERT(MCCが2.5%、F1が19%)よりも優れていた。 得られた説明は, ポストホックモデルによる説明と比較して, MHPに対して有益であることが確認された。 その結果、KiNNのユーザレベルの説明可能性もベースラインモデルの性能を上回っ、他のベースラインが不足している説明を提供することができた。 ドメインとコモンセンスの知識をKNNに注入することで、GPT-3.5のようなモデルがアプリケーション関連の説明を生成する能力を高める。

Discovering individuals depression on social media has become increasingly important. Researchers employed ML/DL or lexicon-based methods for automated depression detection. Lexicon based methods, explainable and easy to implement, match words from user posts in a depression dictionary without considering contexts. While the DL models can leverage contextual information, their black-box nature limits their adoption in the domain. Though surrogate models like LIME and SHAP can produce explanations for DL models, the explanations are suitable for the developer and of limited use to the end user. We propose a Knolwedge-infused Neural Network (KiNN) incorporating domain-specific knowledge from DepressionFeature ontology (DFO) in a neural network to endow the model with user-level explainability regarding concepts and processes the clinician understands. Further, commonsense knowledge from the Commonsense Transformer (COMET) trained on ATOMIC is also infused to consider the generic emotional aspects of user posts in depression detection. The model is evaluated on three expertly curated datasets related to depression. We observed the model to have a statistically significant (p<0.1) boost in performance over the best domain-specific model, MentalBERT, across CLEF e-Risk (25% MCC increase, 12% F1 increase). A similar trend is observed across the PRIMATE dataset, where the proposed model performed better than MentalBERT (2.5% MCC increase, 19% F1 increase). The observations confirm the generated explanations to be informative for MHPs compared to post hoc model explanations. Results demonstrated that the user-level explainability of KiNN also surpasses the performance of baseline models and can provide explanations where other baselines fall short. Infusing the domain and commonsense knowledge in KiNN enhances the ability of models like GPT-3.5 to generate application-relevant explanations.
翻訳日:2024-09-05 23:53:09 公開日:2024-09-01
# PuYun: 大規模カーネルアテンション畳み込みネットワークを用いた中距離グローバル気象予報

PuYun: Medium-Range Global Weather Forecasting Using Large Kernel Attention Convolutional Networks ( http://arxiv.org/abs/2409.02123v1 )

ライセンス: Link先を確認
Shengchen Zhu, Yiming Chen, Peiying Yu, Xiang Qu, Yuxiao Zhou, Yiming Ma, Zhizhan Zhao, Yukai Liu, Hao Mi, Bin Wang, (参考訳) 正確な天気予報は、気象に関する影響を理解し緩和するために不可欠である。 本稿では,大規模なカーネルアテンション畳み込みネットワークを利用する自己回帰カスケードモデルであるPuYunを提案する。 モデルの設計は本質的に、効果的な受容場を広げながら、拡張された天気予報水平線をサポートする。 畳み込み層における大きなカーネルの注意機構の統合により、詳細な空間的詳細を捉える能力が向上し、気象現象の予測精度が向上する。 我々は,PuYun-Shortを0~5日間の予測で,PuYun-Mediumを5~10日間の予測で導入する。 このアプローチは10日間の天気予報の精度を高める。 評価の結果,PuYun-Short は GraphCast と FuXi-Short の両方の性能を上回り,正確な10日間の予測が得られた。 特に10日目には、PuYun-Short は Z500 の RMSE を 720 $m^2/s^2$ に減らし、GraphCast の 732 $m^2/s^2$ と FuXi-Short の 740 $m^2/s^2$ に減らした。 さらに、T2MのRMSEは2.60K、GraphCastの2.63K、FuXi-Shortの2.65Kに削減された。 さらに,PuYun-ShortとPuYun-Mediumを統合したカスケード手法を用いることで,FuXi-ShortとFuXi-Mediumの併用性能よりも優れた結果が得られる。 10日目には、Z500 の RMSE はさらに 638 $m^2/s^2$ に減らされ、FuXi の 641 $m^2/s^2$ に減らされた。 これらの結果は,中距離気象予報におけるモデルアンサンブルの有効性を裏付けるものである。 トレーニングコードとモデルはオープンソースになります。

Accurate weather forecasting is essential for understanding and mitigating weather-related impacts. In this paper, we present PuYun, an autoregressive cascade model that leverages large kernel attention convolutional networks. The model's design inherently supports extended weather prediction horizons while broadening the effective receptive field. The integration of large kernel attention mechanisms within the convolutional layers enhances the model's capacity to capture fine-grained spatial details, thereby improving its predictive accuracy for meteorological phenomena. We introduce PuYun, comprising PuYun-Short for 0-5 day forecasts and PuYun-Medium for 5-10 day predictions. This approach enhances the accuracy of 10-day weather forecasting. Through evaluation, we demonstrate that PuYun-Short alone surpasses the performance of both GraphCast and FuXi-Short in generating accurate 10-day forecasts. Specifically, on the 10th day, PuYun-Short reduces the RMSE for Z500 to 720 $m^2/s^2$, compared to 732 $m^2/s^2$ for GraphCast and 740 $m^2/s^2$ for FuXi-Short. Additionally, the RMSE for T2M is reduced to 2.60 K, compared to 2.63 K for GraphCast and 2.65 K for FuXi-Short. Furthermore, when employing a cascaded approach by integrating PuYun-Short and PuYun-Medium, our method achieves superior results compared to the combined performance of FuXi-Short and FuXi-Medium. On the 10th day, the RMSE for Z500 is further reduced to 638 $m^2/s^2$, compared to 641 $m^2/s^2$ for FuXi. These findings underscore the effectiveness of our model ensemble in advancing medium-range weather prediction. Our training code and model will be open-sourced.
翻訳日:2024-09-05 23:53:09 公開日:2024-09-01
# TrajWeaver: 状態伝播拡散モデルによる軌道回復

TrajWeaver: Trajectory Recovery with State Propagation Diffusion Model ( http://arxiv.org/abs/2409.02124v1 )

ライセンス: Link先を確認
Jinming Wang, Hai Wang, Hongkai Wen, Geyong Min, Man Luo, (参考訳) 位置認識装置の普及に伴い、都市環境の周囲を人や車、商品などのエージェントが流れると、大量の軌道が生み出される。 これらの生の軌跡は、車内のGPS、個人用モバイルデバイス、公共交通機関などの様々な情報源から収集されることが多いが、サンプリングレートの制限、インフラのカバレッジ、データ損失により、しばしば断片化され、断片化されている。 この文脈では、軌道の回復は、粗い生の軌道をその密度と連続した軌道に再構成することを目的としており、空間と時間にわたるエージェントのきめ細かい動きを忠実に捉えることができる。 既存の軌道回復アプローチは、通常、移動モードや動きパターンの事前の知識に依存しており、正確な地図が存在しない人口密度の高い都市部では失敗することが多い。 本稿では, その過程での関心領域, ユーザアイデンティティ, ウェイビル情報など, 様々な補助的特徴を前提として, 粗い原材料から高密度・精細な軌跡を復元できる確率拡散モデルに基づくTrajWeaverという新たな回復フレームワークを提案する。 TrajWeaverのコアは、新しいステートプロパゲーション拡散モデル(SPDM)であり、標準拡散モデルの上に新しいステートプロパゲーションメカニズムを導入している。 広範囲な実験により,提案したトラジウィーバーは,様々な長さ,空間レベル,異種移動モードの生軌道から回復し,回収精度において最先端のベースラインを著しく上回ることを示す。 私たちのコードは、https://anonymous.4open.science/r/TrajWeaver/で利用可能です。

With the proliferation of location-aware devices, large amount of trajectories have been generated when agents such as people, vehicles and goods flow around the urban environment. These raw trajectories, typically collected from various sources such as GPS in cars, personal mobile devices, and public transport, are often sparse and fragmented due to limited sampling rates, infrastructure coverage and data loss. In this context, trajectory recovery aims to reconstruct such sparse raw trajectories into their dense and continuous counterparts, so that fine-grained movement of agents across space and time can be captured faithfully. Existing trajectory recovery approaches typically rely on the prior knowledge of travel mode or motion patterns, and often fail in densely populated urban areas where accurate maps are absent. In this paper, we present a new recovery framework called TrajWeaver based on probabilistic diffusion models, which is able to recover dense and refined trajectories from the sparse raw ones, conditioned on various auxiliary features such as Areas of Interest along the way, user identity and waybill information. The core of TrajWeaver is a novel State Propagation Diffusion Model (SPDM), which introduces a new state propagation mechanism on top of the standard diffusion models, so that knowledge computed in earlier diffusion steps can be reused later, improving the recovery performance while reducing the number of steps needed. Extensive experiments show that the proposed TrajWeaver can recover from raw trajectories of various lengths, sparsity levels and heterogeneous travel modes, and outperform the state-of-the-art baselines significantly in recovery accuracy. Our code is available at: https://anonymous.4open.science/r/TrajWeaver/
翻訳日:2024-09-05 23:53:09 公開日:2024-09-01
# グラフニューラルネットワークによる同相3次元多様体の検出

Detecting Homeomorphic 3-manifolds via Graph Neural Networks ( http://arxiv.org/abs/2409.02126v1 )

ライセンス: Link先を確認
Craig Lawrie, Lorenzo Mansi, (参考訳) 3次元超共形場理論のコンパクト化から得られる、ある3d$\mathcal{N}=2$超対称性量子場理論のBPSスペクトルの列挙により、グラフニューラルネットワークの手法を用いてグラフ多様体のクラスに対する同型問題を研究する。 JSJ分解を利用して、配管グラフによるユニークな表現をグラフ多様体から抽出する。 正則グラフ多様体は、このグラフ上のフォン・ノイマン移動の列を通して関連している; これらの移動のアルゴリズム的応用は、2つのグラフが超多項式時間で同型グラフ多様体に対応するかどうかを決定することができる。 しかし、グラフニューラルネットワーク(GNN)を用いることで、多項式時間において精度を犠牲にして同じ問題に対処することができる。 我々は,一対の配管グラフからなるデータセットと,そのペアが同型であるか否かを符号化した隠れラベルを構築した。 我々は、2つの畳み込み層(GEN, GCN, GAT, NNConv)の異なる組み合わせをテストすることによって、教師付き学習環境内の様々なネットワークアーキテクチャを訓練し、ベンチマークし、その後に集約層と分類層が続く。 この同型問題に対する異なるGNNの長所と短所について論じる。

Motivated by the enumeration of the BPS spectra of certain 3d $\mathcal{N}=2$ supersymmetric quantum field theories, obtained from the compactification of 6d superconformal field theories on three-manifolds, we study the homeomorphism problem for a class of graph-manifolds using Graph Neural Network techniques. Utilizing the JSJ decomposition, a unique representation via a plumbing graph is extracted from a graph-manifold. Homeomorphic graph-manifolds are related via a sequence of von Neumann moves on this graph; the algorithmic application of these moves can determine if two graphs correspond to homeomorphic graph-manifolds in super-polynomial time. However, by employing Graph Neural Networks (GNNs), the same problem can be addressed, at the cost of accuracy, in polynomial time. We build a dataset composed of pairs of plumbing graphs, together with a hidden label encoding whether the pair is homeomorphic. We train and benchmark a variety of network architectures within a supervised learning setting by testing different combinations of two convolutional layers (GEN, GCN, GAT, NNConv), followed by an aggregation layer and a classification layer. We discuss the strengths and weaknesses of the different GNNs for this homeomorphism problem.
翻訳日:2024-09-05 23:53:09 公開日:2024-09-01
# 産業用IoTにおける信頼できるフェデレーション学習の実現 - 解釈可能性とロバストさのギャップを埋める

Enabling Trustworthy Federated Learning in Industrial IoT: Bridging the Gap Between Interpretability and Robustness ( http://arxiv.org/abs/2409.02127v1 )

ライセンス: Link先を確認
Senthil Kumar Jagatheesaperumal, Mohamed Rahouti, Ali Alfatemi, Nasir Ghani, Vu Khanh Quy, Abdellah Chehri, (参考訳) フェデレートラーニング(FL)は機械学習におけるパラダイムシフトであり、データのローカライズを維持しながら協調的なモデルトレーニングを可能にする。 このアプローチは特に、データプライバシ、セキュリティ、分散リソースの効率的な利用が最優先される、産業用IoT(Industrial Internet of Things)のコンテキストにおいて重要なものだ。 IIoTにおけるFLの本質は、中央のデータストレージを必要とせずに、多様な分散データソースから学習できることにある。 しかし、その可能性にもかかわらず、いくつかの課題は、特に解釈可能性と堅牢性を保証するために、IIoTにおけるFLの普及を妨げた。 この記事では、信頼の強化、意思決定の改善、規制の遵守の確保に不可欠である、解釈可能性と堅牢性のギャップを埋めることによる、IIoTにおける信頼できるFLの実現に焦点を当てる。 さらに、この記事で要約した設計戦略により、IIoTのFLシステムは透過的で信頼性が高く、決定が重大な安全性と経済的影響を持つ産業環境において不可欠である。 信頼性の高いFLモデルによって駆動されるIIoT環境でのケーススタディでは、IIoTシステムとエンドユーザ間の信頼性の高いコミュニケーションの実践的な洞察が強調されている。

Federated Learning (FL) represents a paradigm shift in machine learning, allowing collaborative model training while keeping data localized. This approach is particularly pertinent in the Industrial Internet of Things (IIoT) context, where data privacy, security, and efficient utilization of distributed resources are paramount. The essence of FL in IIoT lies in its ability to learn from diverse, distributed data sources without requiring central data storage, thus enhancing privacy and reducing communication overheads. However, despite its potential, several challenges impede the widespread adoption of FL in IIoT, notably in ensuring interpretability and robustness. This article focuses on enabling trustworthy FL in IIoT by bridging the gap between interpretability and robustness, which is crucial for enhancing trust, improving decision-making, and ensuring compliance with regulations. Moreover, the design strategies summarized in this article ensure that FL systems in IIoT are transparent and reliable, vital in industrial settings where decisions have significant safety and economic impacts. The case studies in the IIoT environment driven by trustworthy FL models are provided, wherein the practical insights of trustworthy communications between IIoT systems and their end users are highlighted.
翻訳日:2024-09-05 23:53:09 公開日:2024-09-01
# ニューラルネットワークモデルを用いた長期実験による酸性鉱山排水量の予測

The Application of Artificial Neural Network Model to Predicting the Acid Mine Drainage from Long-Term Lab Scale Kinetic Test ( http://arxiv.org/abs/2409.02128v1 )

ライセンス: Link先を確認
Muhammad Sonny Abfertiawan, Muchammad Daniyal Kautsar, Faiz Hasan, Yoseph Palinggi, Kris Pranoto, (参考訳) 酸性鉱山排水(Acid mine drainage、AMD)は、石炭鉱業において、過負荷あるいは廃岩中の硫化物鉱物の酸化によって形成された一般的な環境問題の一つである。 AMDによる酸生成の予測は, 埋没管理と地雷後の土地利用計画において重要である。 AMDを予測するために用いられる手法の1つは、現場の代表的な試料を用いて、時間経過とともに酸の生成速度を決定する実験室の速度論的試験である。 しかし、この試験は長時間の手順を必要とし、大量の化学試薬は非効率なコストをもたらす。 一方、機械学習は、ラボスケールの速度論的テストデータの背後にあるパターンを学習する可能性がある。 本研究では,人工ニューラルネットワーク(ANN)モデルを用いて,実験室での運動実験の結果を予測する手法について述べる。 様々なANNモデルが、100 %の酸性生成岩を含む実験室スケールの運動実験の83週間の実験に基づいて使用されている。 このモデルは、pH、ORP、伝導率、TDS、硫酸塩、重金属(Fe、Mn)のモニタリングにアプローチする。 本研究で得られたナッシュ・サトクリフ効率(NSE)は、トレーニングと検証データで0.99であり、実際の実験室スケールの速度論的テストデータと比較して強い相関関係と正確な予測を示す。 このことは、ANNが過去のデータからパターン、傾向、季節性を正確に予測するために学習し、AMD問題の解決にその重要な貢献を浮き彫りにすることを示している。 この研究は、将来の応用において、時間効率、正確、コスト効率の面でAMDを予測するための新しいアプローチの基礎を確立することも期待されている。

Acid mine drainage (AMD) is one of the common environmental problems in the coal mining industry that was formed by the oxidation of sulfide minerals in the overburden or waste rock. The prediction of acid generation through AMD is important to do in overburden management and planning the post-mining land use. One of the methods used to predict AMD is a lab-scale kinetic test to determine the rate of acid formation over time using representative samples in the field. However, this test requires a long-time procedure and large amount of chemical reagents lead to inefficient cost. On the other hand, there is potential for machine learning to learn the pattern behind the lab-scale kinetic test data. This study describes an approach to use artificial neural network (ANN) modeling to predict the result from lab-scale kinetic tests. Various ANN model is used based on 83 weeks experiments of lab-scale kinetic tests with 100\% potential acid-forming rock. The model approaches the monitoring of pH, ORP, conductivity, TDS, sulfate, and heavy metals (Fe and Mn). The overall Nash-Sutcliffe Efficiency (NSE) obtained in this study was 0.99 on training and validation data, indicating a strong correlation and accurate prediction compared to the actual lab-scale kinetic tests data. This show the ANN ability to learn patterns, trends, and seasonality from past data for accurate forecasting, thereby highlighting its significant contribution to solving AMD problems. This research is also expected to establish the foundation for a new approach to predict AMD, with time efficient, accurate, and cost-effectiveness in future applications.
翻訳日:2024-09-05 23:53:09 公開日:2024-09-01
# 予測的重要性から因果関係へ:どの機械学習モデルが現実を反映しているか?

From Predictive Importance to Causality: Which Machine Learning Model Reflects Reality? ( http://arxiv.org/abs/2409.02130v1 )

ライセンス: Link先を確認
Muhammad Arbab Arshad, Pallavi Kandanur, Saurabh Sonawani, (参考訳) 本研究では,Ames Housing DatasetをCatBoostとLightGBMモデルを用いて分析し,住宅価格予測における特徴的重要性と因果関係について検討する。 価格予測において,SHAP値とEconML予測との相関性を検討した。 分析の結果,SHAPに基づく特徴量と因果的特徴量との間には中程度のスピアマンランク相関が0.48であり,住宅市場分析における因果的理解と予測的モデリングの整合が複雑であることが明らかとなった。 異質性探索や政策樹の解釈を含む広範な因果分析を通じて、ポーチのような特定の特徴が住宅価格に様々なシナリオでどのように影響するかについての洞察を提供する。 この研究は、予測力と不動産評価の因果的洞察を組み合わせた統合的なアプローチの必要性を浮き彫りにし、業界利害関係者に貴重なガイダンスを提供する。

This study analyzes the Ames Housing Dataset using CatBoost and LightGBM models to explore feature importance and causal relationships in housing price prediction. We examine the correlation between SHAP values and EconML predictions, achieving high accuracy in price forecasting. Our analysis reveals a moderate Spearman rank correlation of 0.48 between SHAP-based feature importance and causally significant features, highlighting the complexity of aligning predictive modeling with causal understanding in housing market analysis. Through extensive causal analysis, including heterogeneity exploration and policy tree interpretation, we provide insights into how specific features like porches impact housing prices across various scenarios. This work underscores the need for integrated approaches that combine predictive power with causal insights in real estate valuation, offering valuable guidance for stakeholders in the industry.
翻訳日:2024-09-05 23:53:09 公開日:2024-09-01
# 脳はどのように確率を計算しますか。

How does the brain compute with probabilities? ( http://arxiv.org/abs/2409.02709v1 )

ライセンス: Link先を確認
Ralf M. Haefner, Jeff Beck, Cristina Savin, Mehrdad Salmasi, Xaq Pitkow, (参考訳) この視点は、GAC(Generative Adversarial Collaboration)が「神経活動はどのように確率分布を表すのか?」という疑問に対処した結果である。 まず、競合する仮説を定義するための統一言語を提供する。 第二に、確率的計算に関する3つの顕著な提案 - 確率的人口コード(PPC)、分散分散コード(DDC)、ニューラルサンプリングコード(NSC) - の基本を説明し、その共通言語における類似点と相違点を説明する。 第3に、これらの提案の少なくとも1つの証拠として以前に取られた重要な実証データをレビューし、代替提案によってどのように説明できるか、あるいは説明できないかを説明する。 最後に、議論を解決する上でのいくつかの重要な課題を説明し、理論と実験の組み合わせによってそれらに取り組むための潜在的な方向性を提案する。

This perspective piece is the result of a Generative Adversarial Collaboration (GAC) tackling the question `How does neural activity represent probability distributions?'. We have addressed three major obstacles to progress on answering this question: first, we provide a unified language for defining competing hypotheses. Second, we explain the fundamentals of three prominent proposals for probabilistic computations -- Probabilistic Population Codes (PPCs), Distributed Distributional Codes (DDCs), and Neural Sampling Codes (NSCs) -- and describe similarities and differences in that common language. Third, we review key empirical data previously taken as evidence for at least one of these proposal, and describe how it may or may not be explainable by alternative proposals. Finally, we describe some key challenges in resolving the debate, and propose potential directions to address them through a combination of theory and experiments.
翻訳日:2024-09-05 18:06:49 公開日:2024-09-01
# ポーズ推定のための復元可能な匿名化:プライバシエンハンシングアプローチ

Recoverable Anonymization for Pose Estimation: A Privacy-Enhancing Approach ( http://arxiv.org/abs/2409.02715v1 )

ライセンス: Link先を確認
Wenjun Huang, Yang Ni, Arghavan Rezvani, SungHeon Jeong, Hanning Chen, Yezi Liu, Fei Wen, Mohsen Imani, (参考訳) ヒトのポーズ推定(HPE)は様々な用途に不可欠である。 しかし、HPEアルゴリズムを監視コンテキストに配置すると、顔の特徴や民族性などの機密個人情報(SPI)が漏洩する可能性があるため、プライバシー上の重大な懸念が生じる。 既存のプライバシー強化手法は、しばしばプライバシやパフォーマンスを損なうか、あるいは追加のモダリティを必要とする。 本稿では,HPEの性能を維持しつつ,プライバシ強化されたポートレートを生成する新しいプライバシ向上システムを提案する。 我々の重要な革新は、権限のある人材に対するSPIの可逆的回復と文脈情報の保存である。 プライバシ向上モジュール,プライバシ回復モジュール,ポーズ推定モジュールを共同で最適化することにより,堅牢なプライバシ保護,効率的なSPIリカバリ,高性能なHPEを実現する。 実験により、プライバシ強化、SPIリカバリ、HPEにおけるシステムの堅牢性を示す。

Human pose estimation (HPE) is crucial for various applications. However, deploying HPE algorithms in surveillance contexts raises significant privacy concerns due to the potential leakage of sensitive personal information (SPI) such as facial features, and ethnicity. Existing privacy-enhancing methods often compromise either privacy or performance, or they require costly additional modalities. We propose a novel privacy-enhancing system that generates privacy-enhanced portraits while maintaining high HPE performance. Our key innovations include the reversible recovery of SPI for authorized personnel and the preservation of contextual information. By jointly optimizing a privacy-enhancing module, a privacy recovery module, and a pose estimator, our system ensures robust privacy protection, efficient SPI recovery, and high-performance HPE. Experimental results demonstrate the system's robust performance in privacy enhancement, SPI recovery, and HPE.
翻訳日:2024-09-05 18:06:49 公開日:2024-09-01
# LIPIDS:光度ステレオのための離散(光)空間における学習型照明計画

LIPIDS: Learning-based Illumination Planning In Discretized (Light) Space for Photometric Stereo ( http://arxiv.org/abs/2409.02716v1 )

ライセンス: Link先を確認
Ashish Tiwari, Mihir Sutariya, Shanmuganathan Raman, (参考訳) 光度ステレオは、被写体の異なる照明画像から画素当たりの表面正規値を得るための強力な方法である。 いくつかの方法は、1から2から100までの異なる画像(または光)を持つ測光ステレオに対処するが、最適な照明構成を学ぶことにはほとんど焦点を当てていない。 照明の方向が多すぎるため、最適な設定を見つけることは困難である。 さらに、時間と資源の制約により、全可能性の抜本的なサンプリングは不可能である。 光度ステレオ法は、光空間からわずかにサンプリングされた光方向が制限された既存のデータセットで有望な性能を示した。 したがって、これらのデータセットを照明計画に最適に利用できるか? 本研究ではLIPIDS-Learning-based Illumination Planning In Discretized Light Spaceを導入し,任意の光分布下での測光ステレオの最小かつ最適照明構成を実現する。 光サンプリングネットワーク (LSNet) を提案し, 通常の回帰ネットワークによる通常の損失を最小限に抑え, 一定数の光に対する光の方向を最適化する。 学習された光構成は、オフザシェルフの測光ステレオ法を用いても、推論中に表面の正規性を直接推定することができる。 合成および実世界のデータセットの大規模な定性的および定量的分析により、LIPIDSによる学習された照明構成下での測光ステレオは、異なる測光ステレオバックボーンにわたる既存の照明計画手法に匹敵するか、ほぼ同等であることが示された。

Photometric stereo is a powerful method for obtaining per-pixel surface normals from differently illuminated images of an object. While several methods address photometric stereo with different image (or light) counts ranging from one to two to a hundred, very few focus on learning optimal lighting configuration. Finding an optimal configuration is challenging due to the vast number of possible lighting directions. Moreover, exhaustively sampling all possibilities is impractical due to time and resource constraints. Photometric stereo methods have demonstrated promising performance on existing datasets, which feature limited light directions sparsely sampled from the light space. Therefore, can we optimally utilize these datasets for illumination planning? In this work, we introduce LIPIDS - Learning-based Illumination Planning In Discretized light Space to achieve minimal and optimal lighting configurations for photometric stereo under arbitrary light distribution. We propose a Light Sampling Network (LSNet) that optimizes lighting direction for a fixed number of lights by minimizing the normal loss through a normal regression network. The learned light configurations can directly estimate surface normals during inference, even using an off-the-shelf photometric stereo method. Extensive qualitative and quantitative analyses on synthetic and real-world datasets show that photometric stereo under learned lighting configurations through LIPIDS either surpasses or is nearly comparable to existing illumination planning methods across different photometric stereo backbones.
翻訳日:2024-09-05 17:55:43 公開日:2024-09-01
# サブシーケンスマッチングのための動的境界時間ワープといくつかの例

Dynamic Boundary Time Warping for Sub-sequence Matching with Few Examples ( http://arxiv.org/abs/2010.14464v2 )

ライセンス: Link先を確認
Łukasz Borchmann, Dawid Jurkiewicz, Filip Graliński, Tomasz Górecki, (参考訳) 本稿では,短いシーケンスの集合に類似した,長い時間的シーケンスの断片を見つける新しい方法を提案する。 我々は,クエリの例から平均シーケンスを計算に頼らずに検索を行うアルゴリズムを最初に提案する。 その代わり、クエリの例をそのまま使い、それら全てを同時に利用します。 Dynamic Time Warping (DTW) 技術に基づく提案手法は, クエリ・バイ・サンプル検索タスクにおいて, 明示的に適合する。 自然言語処理の分野での2つの異なるいくつかの問題に対して評価を行った。 結果は、ベースラインと以前のアプローチを上回っているか、少ないサンプルが利用可能であれば同等の結果が得られることを示している。

The paper presents a novel method of finding a fragment in a long temporal sequence similar to the set of shorter sequences. We are the first to propose an algorithm for such a search that does not rely on computing the average sequence from query examples. Instead, we use query examples as is, utilizing all of them simultaneously. The introduced method based on the Dynamic Time Warping (DTW) technique is suited explicitly for few-shot query-by-example retrieval tasks. We evaluate it on two different few-shot problems from the field of Natural Language Processing. The results show it either outperforms baselines and previous approaches or achieves comparable results when a low number of examples is available.
翻訳日:2024-09-04 23:16:54 公開日:2024-09-01
# BEVFusion:Unified Bird's-Eye View Representationによるマルチタスクマルチセンサーフュージョン

BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation ( http://arxiv.org/abs/2205.13542v3 )

ライセンス: Link先を確認
Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, Song Han, (参考訳) 高精度で信頼性の高い自動運転システムには,マルチセンサ融合が不可欠である。 最近のアプローチは、ポイントレベルの融合に基づいており、LiDARポイントクラウドをカメラ機能で強化している。 しかし、カメラ対LiDARプロジェクションは、カメラ特徴のセマンティックな密度を捨て、特に3Dシーンセグメンテーションのようなセマンティック指向タスクにおいて、このような手法の有効性を阻害する。 本稿では,効率的なマルチタスク・マルチセンサ・フュージョン・フレームワークであるBEVFusionについて述べる。 共有鳥眼ビュー(BEV)表現空間におけるマルチモーダルな特徴を統一し、幾何学的情報と意味的情報の両方を良好に保存する。 これを実現するために、最適化されたBEVプーリングによりビュー変換におけるキー効率のボトルネックを診断し、引き上げ、40倍以上のレイテンシを低減した。 BEVFusionは基本的にタスクに依存しず、アーキテクチャ上のほとんど変更なしに異なる3D知覚タスクをシームレスにサポートする。 3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、計算コストは1.9倍である。 結果を再現するコードはhttps://github.com/mit-han-lab/bevfusion.comで公開されている。

Multi-sensor fusion is essential for an accurate and reliable autonomous driving system. Recent approaches are based on point-level fusion: augmenting the LiDAR point cloud with camera features. However, the camera-to-LiDAR projection throws away the semantic density of camera features, hindering the effectiveness of such methods, especially for semantic-oriented tasks (such as 3D scene segmentation). In this paper, we break this deeply-rooted convention with BEVFusion, an efficient and generic multi-task multi-sensor fusion framework. It unifies multi-modal features in the shared bird's-eye view (BEV) representation space, which nicely preserves both geometric and semantic information. To achieve this, we diagnose and lift key efficiency bottlenecks in the view transformation with optimized BEV pooling, reducing latency by more than 40x. BEVFusion is fundamentally task-agnostic and seamlessly supports different 3D perception tasks with almost no architectural changes. It establishes the new state of the art on nuScenes, achieving 1.3% higher mAP and NDS on 3D object detection and 13.6% higher mIoU on BEV map segmentation, with 1.9x lower computation cost. Code to reproduce our results is available at https://github.com/mit-han-lab/bevfusion.
翻訳日:2024-09-04 23:16:54 公開日:2024-09-01
# 属性依存型3次元顔生成のための学習・調整型ニューラルラジアンスフィールド

Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation ( http://arxiv.org/abs/2208.12550v3 )

ライセンス: Link先を確認
Jichao Zhang, Aliaksandr Siarohin, Yahui Liu, Hao Tang, Nicu Sebe, Wei Wang, (参考訳) GNeRF(Generative Neural Radiance Fields)ベースの3D対応GANは、特に顔生成において堅牢な3D一貫性を保ちながら、高忠実な画像を製作する際、顕著な進歩を見せている。 しかし、特定の既存モデルは、乱れよりもビューの一貫性を優先し、生成プロセス中に制約付きセマンティクスや属性制御につながる。 セマンティックマスクを組み込んだり、3Dモーフブルモデル(3DMM)をセマンティックコントロールを備えたイミューモデルに先立たせる方法が数多くあるが、これらの手法は多くの場合、スクラッチからトレーニングを必要としており、計算上のオーバーヘッドがかなり大きい。 本稿では,特定の属性ラベルを入力として統合した条件付きGNeRFモデルを提案する。 提案手法は,事前学習した3D認識顔モデルに基づいており,条件付き正規化フローモジュールを訓練して顔属性の編集を可能にし,潜在ベクトルを最適化して属性編集精度をさらに向上させる,Training as Init and Optimizing for Tuning (TRIOT) 手法を導入している。 提案モデルの有効性を実証し,非ターゲット領域を保護しつつ,視界の整合性を高めた高品質な編集を実現できることを示す。 私たちのモデルのコードはhttps://github.com/zhangqianhui/TT-GNeRF.comで公開されています。

Generative Neural Radiance Fields (GNeRF)-based 3D-aware GANs have showcased remarkable prowess in crafting high-fidelity images while upholding robust 3D consistency, particularly face generation. However, specific existing models prioritize view consistency over disentanglement, leading to constrained semantic or attribute control during the generation process. While many methods have explored incorporating semantic masks or leveraging 3D Morphable Models (3DMM) priors to imbue models with semantic control, these methods often demand training from scratch, entailing significant computational overhead. In this paper, we propose a novel approach: a conditional GNeRF model that integrates specific attribute labels as input, thus amplifying the controllability and disentanglement capabilities of 3D-aware generative models. Our approach builds upon a pre-trained 3D-aware face model, and we introduce a Training as Init and Optimizing for Tuning (TRIOT) method to train a conditional normalized flow module to enable the facial attribute editing, then optimize the latent vector to improve attribute-editing precision further. Our extensive experiments substantiate the efficacy of our model, showcasing its ability to generate high-quality edits with enhanced view consistency while safeguarding non-target regions. The code for our model is publicly available at https://github.com/zhangqianhui/TT-GNeRF.
翻訳日:2024-09-04 23:16:54 公開日:2024-09-01
# 変分量子アルゴリズムの反復複素性

Iteration Complexity of Variational Quantum Algorithms ( http://arxiv.org/abs/2209.10615v3 )

ライセンス: Link先を確認
Vyacheslav Kungurtsev, Georgios Korpas, Jakub Marecek, Elton Yechao Zhu, (参考訳) 量子コンピュータの短期的応用、すなわちハードウェアの限界によりデコヒーレンス時間を短くする量子回路の利用には、近年ずっと関心が寄せられている。 変分量子アルゴリズム(VQA)は、古典的コンピュータで実装された最適化アルゴリズムで、パラメタライズド量子回路を目的関数として評価するものである。 このフレームワークでは、機械学習、予測、応用物理学、組合せ最適化などの様々な問題を解決するために、膨大な数のアルゴリズムが提案されている。 本稿では、VQAの反復複雑性、すなわち、VQAが反復するまでのステップ数を分析する。 VQAプロシージャは、最適化文献において古典的なプロシージャとしてモデル化できるアルゴリズムを組み込んでいるが、短期デバイスにおけるノイズの特定の性質は、これらのアルゴリズムの既製の解析の適用可能性の主張を無効にする。 具体的には、雑音は量子回路による目的関数の評価を行う。 したがって、SPSAやパラメータシフト規則などの一般的な最適化手順は、偏りのある関数評価を伴う微分自由最適化アルゴリズムと見なすことができる。 我々は、欠落した保証を導き、収束率が影響を受けないことを見出す。 しかし、バイアスのレベルは定数と定常性への漸近距離の両方に好ましくなく寄与し、すなわち、バイアスがより多くなるほど、VQA目標の定常点に達することが保証される。

There has been much recent interest in near-term applications of quantum computers, i.e., using quantum circuits that have short decoherence times due to hardware limitations. Variational quantum algorithms (VQA), wherein an optimization algorithm implemented on a classical computer evaluates a parametrized quantum circuit as an objective function, are a leading framework in this space. An enormous breadth of algorithms in this framework have been proposed for solving a range of problems in machine learning, forecasting, applied physics, and combinatorial optimization, among others. In this paper, we analyze the iteration complexity of VQA, that is, the number of steps that VQA requires until its iterates satisfy a surrogate measure of optimality. We argue that although VQA procedures incorporate algorithms that can, in the idealized case, be modeled as classic procedures in the optimization literature, the particular nature of noise in near-term devices invalidates the claim of applicability of off-the-shelf analyses of these algorithms. Specifically, noise makes the evaluations of the objective function via quantum circuits biased. Commonly used optimization procedures, such as SPSA and the parameter shift rule, can thus be seen as derivative-free optimization algorithms with biased function evaluations, for which there are currently no iteration complexity guarantees in the literature. We derive the missing guarantees and find that the rate of convergence is unaffected. However, the level of bias contributes unfavorably to both the constant therein, and the asymptotic distance to stationarity, i.e., the more bias, the farther one is guaranteed, at best, to reach a stationary point of the VQA objective.
翻訳日:2024-09-04 23:05:43 公開日:2024-09-01
# 適応計測による量子平均値の推定

Quantum-enhanced mean value estimation via adaptive measurement ( http://arxiv.org/abs/2210.15624v4 )

ライセンス: Link先を確認
Kaito Wada, Kazuma Fukuchi, Naoki Yamamoto, (参考訳) 量子化(英: Quantum-enhanced)とは、様々な量子技術の基本的なタスクであり、特に量子計算アルゴリズムにおいて重要なサブルーチンである。 特に、量子推定理論は、そのような推定器の最終的な精度を識別するものであり、これは量子クラム{e}r-ラオ(QCR)と呼ばれる。 推定精度はこれらの量子技術システムの性能を直接決定するので、QCR境界を達成する汎用的で実用的な推定方法を開発することが要求される。 しかし、不完全条件下では、量子平均値に対する究極的で実装可能な推定器は開発されていない。 本稿では,多くの量子ビットの極限におけるQCR境界を漸近的に達成する脱分極雑音環境における量子化平均値推定法を提案する。 実用的な設定でQCRバウンドにアプローチするために、状態準備の知識を必要とせずに実装可能な振幅増幅と特定の測定を適応的に最適化する。 本稿では,適応推定器の整合性や漸近正規性などの統計的特性を厳密に解析する。 さらに,本手法の有効性を示す数値シミュレーションもいくつか実施されており,特にQCR境界をほぼ飽和させるためには,推定器が最低限の測定値しか必要としないことを示す。

Quantum-enhanced (i.e., higher performance by quantum effects than any classical methods) mean value estimation of observables is a fundamental task in various quantum technologies; in particular, it is an essential subroutine in quantum computing algorithms. Notably, the quantum estimation theory identifies the ultimate precision of such an estimator, which is referred to as the quantum Cram\'{e}r-Rao (QCR) lower bound or equivalently the inverse of the quantum Fisher information. Because the estimation precision directly determines the performance of those quantum technological systems, it is highly demanded to develop a generic and practically implementable estimation method that achieves the QCR bound. Under imperfect conditions, however, such an ultimate and implementable estimator for quantum mean values has not been developed. In this paper, we propose a quantum-enhanced mean value estimation method in a depolarizing noisy environment that asymptotically achieves the QCR bound in the limit of a large number of qubits. To approach the QCR bound in a practical setting, the method adaptively optimizes the amplitude amplification and a specific measurement that can be implemented without any knowledge of state preparation. We provide a rigorous analysis for the statistical properties of the proposed adaptive estimator such as consistency and asymptotic normality. Furthermore, several numerical simulations are provided to demonstrate the effectiveness of the method, particularly showing that the estimator needs only a modest number of measurements to almost saturate the QCR bound.
翻訳日:2024-09-04 23:05:43 公開日:2024-09-01
# UniHPF : ドメイン知識をゼロにするユニバーサルヘルスケア予測フレームワーク

UniHPF : Universal Healthcare Predictive Framework with Zero Domain Knowledge ( http://arxiv.org/abs/2211.08082v2 )

ライセンス: Link先を確認
Kyunghoon Hur, Jungwoo Oh, Junu Kim, Jiyoun Kim, Min Jae Lee, Eunbyeol Cho, Seong-Eun Moon, Young-Hak Kim, Edward Choi, (参考訳) 電子医療記録(EHR)が豊富にあるにもかかわらず、その異質性は予測モデルの構築における医療データの利用を制限する。 この課題に対処するために、医療分野の知識を必要とせず、複数の予測タスクに対して最小限の事前処理を行うUniHPF(UniHPF)を提案する。 実験結果から、UniHPF は、異なる EHR システムから任意の形態の医療データを処理できる大規模な EHR モデルを構築することができることが示された。 EHRのマルチソース学習のさらなる研究に有用な知見が得られると我々は信じている。

Despite the abundance of Electronic Healthcare Records (EHR), its heterogeneity restricts the utilization of medical data in building predictive models. To address this challenge, we propose Universal Healthcare Predictive Framework (UniHPF), which requires no medical domain knowledge and minimal pre-processing for multiple prediction tasks. Experimental results demonstrate that UniHPF is capable of building large-scale EHR models that can process any form of medical data from distinct EHR systems. We believe that our findings can provide helpful insights for further research on the multi-source learning of EHRs.
翻訳日:2024-09-04 23:05:43 公開日:2024-09-01
# PanopticPartFormer++: Panoptic Part Segmentationの統一された分離ビュー

PanopticPartFormer++: A Unified and Decoupled View for Panoptic Part Segmentation ( http://arxiv.org/abs/2301.00954v4 )

ライセンス: Link先を確認
Xiangtai Li, Shilin Xu, Yibo Yang, Haobo Yuan, Guangliang Cheng, Yunhai Tong, Zhouchen Lin, Ming-Hsuan Yang, Dacheng Tao, (参考訳) Panoptic Part Segmentation (PPS)は、パノプティクスとパートセグメンテーションをひとつのタスクに統合する。 以前の作業では、共有計算やタスクアソシエーションを使わずに、物事や物事、そして部分的な予測を扱うために、別々のアプローチを使用していました。 アーキテクチャレベルでこれらのタスクを統一し、最初のエンドツーエンド統合フレームワークであるPanoptic-PartFormerを設計することを目指しています。 さらに、以前の測定値PartPQはPQに偏っている。 両方の問題に対処するために、私たちはまず、機能の一部を分離するメタアーキテクチャを設計します。 私たちはオブジェクトクエリとして物、物、部品をモデル化し、マスクの予測と分類の統一的な問題として3種類の予測を最適化する直接学習します。 私たちはこのモデルをPanoptic-PartFormerと呼びます。 第2に,PWQ(Part-Whole Quality)を提案する。 また、部分分割と部分分割の誤差を分離する。 第3に,Mask2FormerにインスパイアされたPanoptic-PartFormer++を提案する。 マスク付きクロスアテンションを用いた新しいパートホールインタラクション手法を設計する。 最後に,Panoptic-PartFormerとPanoptic-PartFormer++の有効性について検討した。 以前のPanoptic-PartFormerと比較して、Panoptic-PartFormer++は、Cityscapes PPSデータセットの2% PartPQと3% PWQの改善、Pascal Context PPSデータセットの5% PartPQを実現しています。 両方のデータセット上で、Panoptic-PartFormer++は、新しい最先端の結果を達成する。 私たちのモデルは強力なベースラインとして機能し、PSの将来の研究を支援することができます。 ソースコードとトレーニングされたモデルは、~\url{https://github.com/lxtGH/Panoptic-PartFormer}で入手できる。

Panoptic Part Segmentation (PPS) unifies panoptic and part segmentation into one task. Previous works utilize separate approaches to handle things, stuff, and part predictions without shared computation and task association. We aim to unify these tasks at the architectural level, designing the first end-to-end unified framework, Panoptic-PartFormer. Moreover, we find the previous metric PartPQ biases to PQ. To handle both issues, we first design a meta-architecture that decouples part features and things/stuff features, respectively. We model things, stuff, and parts as object queries and directly learn to optimize all three forms of prediction as a unified mask prediction and classification problem. We term our model as Panoptic-PartFormer. Second, we propose a new metric Part-Whole Quality (PWQ), better to measure this task from pixel-region and part-whole perspectives. It also decouples the errors for part segmentation and panoptic segmentation. Third, inspired by Mask2Former, based on our meta-architecture, we propose Panoptic-PartFormer++ and design a new part-whole cross-attention scheme to boost part segmentation qualities further. We design a new part-whole interaction method using masked cross attention. Finally, extensive ablation studies and analysis demonstrate the effectiveness of both Panoptic-PartFormer and Panoptic-PartFormer++. Compared with previous Panoptic-PartFormer, our Panoptic-PartFormer++ achieves 2% PartPQ and 3% PWQ improvements on the Cityscapes PPS dataset and 5% PartPQ on the Pascal Context PPS dataset. On both datasets, Panoptic-PartFormer++ achieves new state-of-the-art results. Our models can serve as a strong baseline and aid future research in PPS. The source code and trained models will be available at~\url{https://github.com/lxtGH/Panoptic-PartFormer}.
翻訳日:2024-09-04 23:05:43 公開日:2024-09-01
# MLRegTest: 正規言語の機械学習のためのベンチマーク

MLRegTest: A Benchmark for the Machine Learning of Regular Languages ( http://arxiv.org/abs/2304.07687v4 )

ライセンス: Link先を確認
Sam van der Poel, Dakotah Lambert, Kalina Kostyszyn, Tiantian Gao, Rahul Verma, Derek Andersen, Joanne Chau, Emily Peterson, Cody St. Clair, Paul Fodor, Chihiro Shibata, Jeffrey Heinz, (参考訳) フォーマルな言語から構築された合成データセットは、シーケンス分類のための機械学習システムの学習と一般化能力のきめ細かい検証を可能にする。 本稿では,1,800の正規言語からのトレーニング,開発,テストセットを含む,MLRegTestと呼ばれるシーケンス分類に基づく機械学習システムのための新しいベンチマークを提案する。 異なる形式言語は、異なる種類の長距離依存を表現し、シーケンス内の長距離依存を正しく識別することは、MLシステムが正常に一般化する上で既知の課題である。 MLRegTestは、その論理的複雑さ(モナディック二階数、一階数、命題数、単項式)と論理的リテラル(文字列、階層文字列、サブシーケンス、またはそれらの組み合わせ)に基づいて言語を編成する。 リテラルの論理的複雑さと選択は、正規言語における異なる種類の長距離依存を理解する体系的な方法を提供し、そのため、このような長距離依存を学ぶための異なるMLシステムの能力を理解するための体系的な方法を提供する。 最後に, MLRegTestにおける異なるニューラルネットワーク(RNN, LSTM, GRU, 変圧器)の性能について検討した。 主な結論は、パフォーマンスはテストセットの種類、言語のクラス、ニューラルネットワークアーキテクチャに大きく依存する、ということだ。

Synthetic datasets constructed from formal languages allow fine-grained examination of the learning and generalization capabilities of machine learning systems for sequence classification. This article presents a new benchmark for machine learning systems on sequence classification called MLRegTest, which contains training, development, and test sets from 1,800 regular languages. Different kinds of formal languages represent different kinds of long-distance dependencies, and correctly identifying long-distance dependencies in sequences is a known challenge for ML systems to generalize successfully. MLRegTest organizes its languages according to their logical complexity (monadic second order, first order, propositional, or monomial expressions) and the kind of logical literals (string, tier-string, subsequence, or combinations thereof). The logical complexity and choice of literal provides a systematic way to understand different kinds of long-distance dependencies in regular languages, and therefore to understand the capacities of different ML systems to learn such long-distance dependencies. Finally, the performance of different neural networks (simple RNN, LSTM, GRU, transformer) on MLRegTest is examined. The main conclusion is that performance depends significantly on the kind of test set, the class of language, and the neural network architecture.
翻訳日:2024-09-04 22:54:55 公開日:2024-09-01
# GFlowNetsを用いた多要素アクティブラーニング

Multi-Fidelity Active Learning with GFlowNets ( http://arxiv.org/abs/2306.11715v2 )

ライセンス: Link先を確認
Alex Hernandez-Garcia, Nikita Saxena, Moksh Jain, Cheng-Hao Liu, Yoshua Bengio, (参考訳) 過去数十年間、科学と工学の応用において大量のデータを生成する能力は着実に成長してきた。 一方、機械学習は利用可能なデータを処理し、利用するのに適したツールになりつつある。 それでも、関連する科学的・工学的な問題の多くは、現在の機械学習手法が利用可能なデータやリソースを効果的に活用できないという課題を提起している。 例えば、科学的な発見において、我々はしばしば、非常に大きく、構造化され、高次元の空間を探索する問題に直面している。 さらに、高忠実でブラックボックスの客観的関数を評価するのは非常に高価であることが多い。 このような課題に効果的に対処できる機械学習手法の進歩は、薬物や物質発見のような現在重要な領域を加速させるのに役立つだろう。 本稿では,GFlowNetsをサンプルとして多要素能動学習アルゴリズムを提案する。 分子探索タスクの評価の結果,GFlowNets を用いた多要素能動学習は,RL の代替と異なり,多様性を維持しつつ,単一要素の予算のごく一部で高い評価の候補を発見できることがわかった。 これらの結果は、科学的な発見と工学的設計を加速するために、多要素能動学習のための新たな道を開く。

In the last decades, the capacity to generate large amounts of data in science and engineering applications has been growing steadily. Meanwhile, machine learning has progressed to become a suitable tool to process and utilise the available data. Nonetheless, many relevant scientific and engineering problems present challenges where current machine learning methods cannot yet efficiently leverage the available data and resources. For example, in scientific discovery, we are often faced with the problem of exploring very large, structured and high-dimensional spaces. Moreover, the high fidelity, black-box objective function is often very expensive to evaluate. Progress in machine learning methods that can efficiently tackle such challenges would help accelerate currently crucial areas such as drug and materials discovery. In this paper, we propose a multi-fidelity active learning algorithm with GFlowNets as a sampler, to efficiently discover diverse, high-scoring candidates where multiple approximations of the black-box function are available at lower fidelity and cost. Our evaluation on molecular discovery tasks shows that multi-fidelity active learning with GFlowNets can discover high-scoring candidates at a fraction of the budget of its single-fidelity counterpart while maintaining diversity, unlike RL-based alternatives. These results open new avenues for multi-fidelity active learning to accelerate scientific discovery and engineering design.
翻訳日:2024-09-04 22:44:54 公開日:2024-09-01
# 半直線上の離散ランダムウォークのスペクトル量子化と単位円上の直交多項式

Spectral quantization of discrete random walks on half-line, and orthogonal polynomials on the unit circle ( http://arxiv.org/abs/2306.12265v2 )

ライセンス: Link先を確認
Adam Doliwa, Artur Siemaszko, (参考訳) 我々は、半直線上の離散時間ランダムウォークの量子化スキームを、有限マルコフ鎖のSzegedyの量子化と整合的に定義する。 カルリンとマクグレガーによる直交多項式の離散時間ランダムウォークの記述により、セグメント $[-1,1]$ で支えられた測度に関して直交多項式の項での離散時間ランダムウォークの記述により、単位円上の直交多項式の項で量子ウォークのユニタリ進化作用素を表す。 ランダムウォークの遷移確率と量子ウォークの対応する多項式のベルブルンスキー係数の関係を見出した。 両多項式系とその測度は古典的 Szeg\H{o} 写像で連結であることを示す。 我々のスキームは任意のカルリンとマクレガーのランダムウォークに適用でき、いわゆるカンテロ=Gr\"{u}nbaum-Moral-Vel\'{a}zquez法を一般化することができる。 本稿では,ヤコビ多項式に関するランダムウォークの例について述べる。 次に、単位円上の対応する多項式が2周期実ヴァーブルンスキー係数を持つような一定遷移確率を持つランダムウォークの量子化について検討する。 我々は、ジェロニムス多項式の既知の構成を一般化するそのような多項式のスペクトル(一般複素の場合)の幾何学的構成を示す。 アペンディックスでは、単位円上で直交する多項式と任意の周期の係数を持つ実直線上で直交する多項式の第二種のチェビシェフ多項式に関して、明示的な形式を提示する。

We define quantization scheme for discrete-time random walks on the half-line consistent with Szegedy's quantization of finite Markov chains. Motivated by the Karlin and McGregor description of discrete-time random walks in terms of polynomials orthogonal with respect to a measure with support in the segment $[-1,1]$, we represent the unitary evolution operator of the quantum walk in terms of orthogonal polynomials on the unit circle. We find the relation between transition probabilities of the random walk with the Verblunsky coefficients of the corresponding polynomials of the quantum walk. We show that the both polynomials systems and their measures are connected by the classical Szeg\H{o} map. Our scheme can be applied to arbitrary Karlin and McGregor random walks and generalizes the so called Cantero-Gr\"{u}nbaum-Moral-Vel\'{a}zquez method. We illustrate our approach on example of random walks related to the Jacobi polynomials. Then we study quantization of random walks with constant transition probabilities where the corresponding polynomials on the unit circle have two-periodic real Verblunsky coefficients. We present geometric construction of the spectrum of such polynomials (in the general complex case) which generalizes the known construction for the Geronimus polynomials. In the Appendix we present the explicit form, in terms of Chebyshev polynomials of the second kind, of polynomials orthogonal on the unit circle and polynomials orthogonal on the real line with coefficients of arbitrary period.
翻訳日:2024-09-04 22:44:54 公開日:2024-09-01
# LLMエージェントによる多言語グラフ学習手法

A Versatile Graph Learning Approach through LLM-based Agent ( http://arxiv.org/abs/2309.04565v2 )

ライセンス: Link先を確認
Lanning Wei, Huan Zhao, Xiaohan Zheng, Zhiqiang He, Quanming Yao, (参考訳) 多様なグラフやタスクが現実世界のアプリケーションに存在することを考慮し、汎用的なグラフ学習アプローチを設計することが重要である。 既存の手法では、機械学習の自動化、事前学習と微調整の戦略、大規模言語モデルを通じて、この目標を達成しようとしている。 しかし、これらの手法はグラフ学習に十分な汎用性を持っていない。 本稿では,LLMをベースとしたエージェントを用いた多目的グラフ学習手法を提案する。 そこで我々は, 多様なプロファイル, ツール, 機能, ヒューマンエクスペリエンスを備えた LLM ベースのエージェントを開発した。 提案手法をGL-Agentと呼ぶことで,各手順をタスクとデータ固有の設定ステップで協調的に構成する。 多様なタスクやグラフに基づいて評価することにより,提案手法の汎用性,特に複雑なシナリオにおいて,エージェントの正しい結果と同等の性能が示され,資源コストの低さとオープンソースのLLMの利用の可能性は,GL-Agentの効率性を浮き彫りにしている。

Designing versatile graph learning approaches is important, considering the diverse graphs and tasks existing in real-world applications. Existing methods have attempted to achieve this target through automated machine learning techniques, pre-training and fine-tuning strategies, and large language models. However, these methods are not versatile enough for graph learning, as they work on either limited types of graphs or a single task. In this paper, we propose to explore versatile graph learning approaches with LLM-based agents, and the key insight is customizing the graph learning procedures for diverse graphs and tasks. To achieve this, we develop several LLM-based agents, equipped with diverse profiles, tools, functions and human experience. They collaborate to configure each procedure with task and data-specific settings step by step towards versatile solutions, and the proposed method is dubbed GL-Agent. By evaluating on diverse tasks and graphs, the correct results of the agent and its comparable performance showcase the versatility of the proposed method, especially in complex scenarios.The low resource cost and the potential to use open-source LLMs highlight the efficiency of GL-Agent.
翻訳日:2024-09-04 22:35:08 公開日:2024-09-01
# VoiceFlow: 正規化フローマッチングによるテキスト音声合成の効率化

VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching ( http://arxiv.org/abs/2309.05027v3 )

ライセンス: Link先を確認
Yiwei Guo, Chenpeng Du, Ziyang Ma, Xie Chen, Kai Yu, (参考訳) テキストから音声への拡散モデルは、その強い生成能力のために人気があるが、拡散モデルからのサンプリングの本質的な複雑さは、その効率を損なう。 あるいは,修正フローマッチングアルゴリズムを用いて,限られたサンプリングステップ数で高い合成品質を実現する音響モデルであるVoiceFlowを提案する。 VoiceFlowは、ベクトル場を推定するテキスト入力に基づいて、通常の微分方程式にメルスペクトルを生成する過程を定式化する。 整流流法は、効率的な合成のためにサンプリング軌道を効果的に整列する。 単話者コーパスと多話者コーパスの主観的および客観的評価の結果,VoiceFlowの合成品質は拡散コーパスに比べて優れていた。 さらに,VoiceFlowにおける正流法の妥当性を検証した。

Although diffusion models in text-to-speech have become a popular choice due to their strong generative ability, the intrinsic complexity of sampling from diffusion models harms their efficiency. Alternatively, we propose VoiceFlow, an acoustic model that utilizes a rectified flow matching algorithm to achieve high synthesis quality with a limited number of sampling steps. VoiceFlow formulates the process of generating mel-spectrograms into an ordinary differential equation conditional on text inputs, whose vector field is then estimated. The rectified flow technique then effectively straightens its sampling trajectory for efficient synthesis. Subjective and objective evaluations on both single and multi-speaker corpora showed the superior synthesis quality of VoiceFlow compared to the diffusion counterpart. Ablation studies further verified the validity of the rectified flow technique in VoiceFlow.
翻訳日:2024-09-04 22:35:08 公開日:2024-09-01
# 大規模言語モデルのためのパーソナリティの編集

Editing Personality for Large Language Models ( http://arxiv.org/abs/2310.02168v4 )

ライセンス: Link先を確認
Shengyu Mao, Xiaohan Wang, Mengru Wang, Yong Jiang, Pengjun Xie, Fei Huang, Ningyu Zhang, (参考訳) 本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。 この課題は,個々人の人格が表現された意見の形で現れることが多いため,特定の話題に対する意見関連質問に対するモデルの反応を調整し,異なる人格特性を示す。 具体的には、このタスクに対処するための新しいベンチマークデータセットであるPersonalityEditを構築します。 社会心理学の理論に基づいて、我々は、我々のベンチマークの基礎として、神経症、外転、不可避性の3つの代表的特徴を抽出した。 そして、GPT-4を用いてデータを収集し、特定のトピックに一致した応答を生成し、ターゲットの性格特性を具現化する。 様々なベースラインを含む包括的実験を行い,LLMにおける個性行動の表現について議論する。 本研究は,提案課題の潜在的な課題を明らかにし,いくつかの課題について考察した。 我々は,モデル編集やパーソナリティ関連研究において,この研究がさらなるアノテーションを刺激することを期待している。 コードはhttps://github.com/zjunlp/EasyEdit.comで入手できる。

This paper introduces an innovative task focused on editing the personality traits of Large Language Models (LLMs). This task seeks to adjust the models' responses to opinion-related questions on specified topics since an individual's personality often manifests in the form of their expressed opinions, thereby showcasing different personality traits. Specifically, we construct PersonalityEdit, a new benchmark dataset to address this task. Drawing on the theory in Social Psychology, we isolate three representative traits, namely Neuroticism, Extraversion, and Agreeableness, as the foundation for our benchmark. We then gather data using GPT-4, generating responses that align with a specified topic and embody the targeted personality trait. We conduct comprehensive experiments involving various baselines and discuss the representation of personality behavior in LLMs. Our findings uncover potential challenges of the proposed task, illustrating several remaining issues. We anticipate that our work can stimulate further annotation in model editing and personality-related research. Code is available at https://github.com/zjunlp/EasyEdit.
翻訳日:2024-09-04 22:24:42 公開日:2024-09-01
# U-BEV:ハイウェイト・アウェア・バードズ・アイビュー・セグメンテーションとニューラルマップによる再局在

U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization ( http://arxiv.org/abs/2310.13766v2 )

ライセンス: Link先を確認
Andrea Boscolo Camiletto, Alfredo Bochicchio, Alexander Liniger, Dengxin Dai, Abel Gawel, (参考訳) GPS受信が不十分な場合やセンサによるローカライゼーションが失敗する場合、インテリジェントな車両には効率的な再ローカライゼーションが不可欠である。 近年のBird's-Eye-View (BEV)セグメンテーションの進歩により、局所的な景観の正確な推定が可能となり、車両の再位置化の恩恵を受けることができる。 しかし、BEV手法の欠点の1つは、幾何学的制約を利用するのに必要な重い計算である。 本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。 この拡張により、U-BEVの性能は最大4.11IoU向上する。 さらに、符号化されたニューラルBEVと差別化可能なテンプレートマーカを組み合わせて、ニューラルSDマップデータ上で再ローカライズを行う。 モデルは完全にエンドツーエンドのトレーニングが可能で、同様の計算複雑性を持つトランスフォーマーベースのBEVメソッドを1.7から2.8mIoUで、BEVベースの再ローカライゼーションを26%以上、nuScenesデータセット上でリコール精度を向上させる。

Efficient relocalization is essential for intelligent vehicles when GPS reception is insufficient or sensor-based localization fails. Recent advances in Bird's-Eye-View (BEV) segmentation allow for accurate estimation of local scene appearance and in turn, can benefit the relocalization of the vehicle. However, one downside of BEV methods is the heavy computation required to leverage the geometric constraints. This paper presents U-BEV, a U-Net inspired architecture that extends the current state-of-the-art by allowing the BEV to reason about the scene on multiple height layers before flattening the BEV features. We show that this extension boosts the performance of the U-BEV by up to 4.11 IoU. Additionally, we combine the encoded neural BEV with a differentiable template matcher to perform relocalization on neural SD-map data. The model is fully end-to-end trainable and outperforms transformer-based BEV methods of similar computational complexity by 1.7 to 2.8 mIoU and BEV-based relocalization by over 26% Recall Accuracy on the nuScenes dataset.
翻訳日:2024-09-04 22:14:48 公開日:2024-09-01
# Gramian Angular Field Vision Transformerに基づく自動運転車の運転行動探索

Exploring Driving Behavior for Autonomous Vehicles Based on Gramian Angular Field Vision Transformer ( http://arxiv.org/abs/2310.13906v2 )

ライセンス: Link先を確認
Junwei You, Ying Chen, Zhuoyu Jiang, Zhangchi Liu, Zilin Huang, Yifeng Ding, Bin Ran, (参考訳) 自動運転車の運転行動の効果的な分類は、AV運転障害の診断、自律運転アルゴリズムの強化、事故率の低減に重要な領域として現れる。 本稿では,AV駆動動作の解析を目的としたGAF-ViTモデルを提案する。 提案したGAF-ViTモデルは、GAF Transformer Module、Channel Attention Module、Multi-Channel ViT Moduleの3つの主要なコンポーネントで構成されている。 これらのモジュールは、多変量行動の代表列を多チャンネル画像に変換し、行動分類に画像認識技術を用いる。 チャネルアテンション機構を多チャンネル画像に適用し、様々な運転行動特徴の影響を識別する。 Waymo Open Dataset of trajectories 実験により,提案モデルが最先端性能を実現することを示す。 さらに、アブレーション研究は、モデル内の個々のモジュールの有効性を効果的に裏付けるものである。

Effective classification of autonomous vehicle (AV) driving behavior emerges as a critical area for diagnosing AV operation faults, enhancing autonomous driving algorithms, and reducing accident rates. This paper presents the Gramian Angular Field Vision Transformer (GAF-ViT) model, designed to analyze AV driving behavior. The proposed GAF-ViT model consists of three key components: GAF Transformer Module, Channel Attention Module, and Multi-Channel ViT Module. These modules collectively convert representative sequences of multivariate behavior into multi-channel images and employ image recognition techniques for behavior classification. A channel attention mechanism is applied to multi-channel images to discern the impact of various driving behavior features. Experimental evaluation on the Waymo Open Dataset of trajectories demonstrates that the proposed model achieves state-of-the-art performance. Furthermore, an ablation study effectively substantiates the efficacy of individual modules within the model.
翻訳日:2024-09-04 22:14:48 公開日:2024-09-01
# 通信制約のあるモバイルコンピューティングにおけるDMLのためのデータ認識グラディエント圧縮

Data-Aware Gradient Compression for DML in Communication-Constrained Mobile Computing ( http://arxiv.org/abs/2311.07324v2 )

ライセンス: Link先を確認
Rongwei Lu, Yutong Jiang, Yinan Mao, Chen Tang, Bin Chen, Laizhong Cui, Zhi Wang, (参考訳) モバイル環境における分散機械学習(DML)は、重要な通信ボトルネックに直面している。 グラディエント圧縮はこの問題に対する効果的な解決策として証明されており、帯域幅と計測データに制限のある環境においてかなりの利点がある。 しかし、作業者間で異なるデータボリュームを考慮しないワンサイズ圧縮アプローチのため、非IID環境では厳しいパフォーマンス低下に直面している。 したがって、データ分散とボリュームが異なるワーカーに様々な圧縮比率を割り当てることは、有望な解決策である。 本研究は, 分散SGDの非一様圧縮による収束率を導出し, モデル収束と各作業者に適用される圧縮比との複雑な関係を明らかにする。 そこで我々は, 相対圧縮比の割り当てを, 限られた通信予算で制約されたn$変数のカイ二乗非線形最適化問題として設定した。 本稿では,大規模データボリュームを扱う作業者に対して,保守的な圧縮を割り当てるDAGC-Rを提案する。 モバイル機器の計算限界を認識し,非IIDシナリオにおける圧縮の頑健さを向上するDAGC-Aを提案する。 実験の結果,DAGC-AとDAGC-Rは,高度に不均衡なデータボリューム分布と制限された通信を扱う場合,それぞれに対して16.65\%,25.43\%のトレーニング速度を向上できることがわかった。

Distributed machine learning (DML) in mobile environments faces significant communication bottlenecks. Gradient compression has proven as an effective solution to this issue, offering substantial benefits in environments with limited bandwidth and metered data. Yet, it encounters severe performance drops in non-IID environments due to a one-size-fits-all compression approach, which does not account for the varying data volumes across workers. Assigning varying compression ratios to workers with distinct data distributions and volumes is therefore a promising solution. This work derives the convergence rate of distributed SGD with non-uniform compression, which reveals the intricate relationship between model convergence and the compression ratios applied to individual workers. Accordingly, we frame the relative compression ratio assignment as an $n$-variable chi-squared nonlinear optimization problem, constrained by a limited communication budget. We propose DAGC-R, which assigns conservative compression to workers handling larger data volumes. Recognizing the computational limitations of mobile devices, we propose the DAGC-A, which is computationally less demanding and enhances the robustness of compression in non-IID scenarios. Our experiments confirm that the DAGC-A and DAGC-R can speed up the training speed by up to $16.65\%$ and $25.43\%$ compared to the uniform compression respectively, when dealing with highly imbalanced data volume distribution and restricted communication.
翻訳日:2024-09-04 22:14:48 公開日:2024-09-01
# 超低温フェルミガス中の2次元非エルミート皮膚効果

Two-dimensional non-Hermitian skin effect in an ultracold Fermi gas ( http://arxiv.org/abs/2311.07931v2 )

ライセンス: Link先を確認
Entong Zhao, Zhiyuan Wang, Chengdong He, Ting Fung Jeffrey Poon, Ka Kwan Pak, Yu-Jun Liu, Peng Ren, Xiong-Jun Liu, Gyu-Boong Jo, (参考訳) 非ハーモニティの概念はバンドトポロジーの理解を拡大し、反直観現象の出現につながった。 例えば、非エルミート皮膚効果(NHSE)は、境界における固有状態の集中を伴う。 しかし、曲線空間、高次位相位相、ブラックホールのような領域における高次元非エルミート量子系から得られる潜在的な洞察にもかかわらず、高次元におけるこの効果の実現は未解明のままである。 ここでは,2次元(2次元)非エルミート位相バンドをスピン軌道結合型光格子中の超低温フェルミオンに対して生成し,NHSEを示す。 まず, 2次元皮膚効果が成立する複素エネルギー平面における非零スペクトル巻線数について実験を行った。 さらに、原子の質量運動の中心をモニタリングすることにより、実空間におけるNHSEのリアルタイムな動的シグネチャを観察する。 最後に、エルミート系で見られる閉ループとは対照的に、一対の例外点 (EP) が運動量空間において開のバルクフェルミ弧で連結されることを示す。 関連するEPは放散量の増加とともに出現し、フェルミ弧を形成する。 我々の研究は、高次元の非エルミート物理学をシミュレートするさらなる研究のステージを設定し、量子統計学とNHSEの相互作用を理解するための道を開く。

The concept of non-Hermiticity has expanded the understanding of band topology leading to the emergence of counter-intuitive phenomena. One example is the non-Hermitian skin effect (NHSE), which involves the concentration of eigenstates at the boundary. However, despite the potential insights that can be gained from high-dimensional non-Hermitian quantum systems in areas like curved space, high-order topological phases, and black holes, the realization of this effect in high dimensions remains unexplored. Here, we create a two-dimensional (2D) non-Hermitian topological band for ultracold fermions in spin-orbit-coupled optical lattices with tunable dissipation, which exhibits the NHSE. We first experimentally demonstrate pronounced nonzero spectral winding numbers in the complex energy plane with non-zero dissipation, which establishes the existence of 2D skin effect. Further, we observe the real-space dynamical signature of NHSE in real space by monitoring the center of mass motion of atoms. Finally, we also demonstrate that a pair of exceptional points (EPs) are created in the momentum space, connected by an open-ended bulk Fermi arc, in contrast to closed loops found in Hermitian systems. The associated EPs emerge and shift with increasing dissipation, leading to the formation of the Fermi arc. Our work sets the stage for further investigation into simulating non-Hermitian physics in high dimensions and paves the way for understanding the interplay of quantum statistics with NHSE.
翻訳日:2024-09-04 22:14:48 公開日:2024-09-01
# 拡散・変形・寄与分散による科学的影響予測

Predicting Scientific Impact Through Diffusion, Conformity, and Contribution Disentanglement ( http://arxiv.org/abs/2311.09262v4 )

ライセンス: Link先を確認
Zhikai Xue, Guoxiu He, Zhuoren Jiang, Sichen Gu, Yangyang Kang, Star Zhao, Wei Lu, (参考訳) 学術論文の科学的影響は、動的人気や本質的な貢献などの複雑な要因に影響を受けている。 既存のモデルは通常、引用数の推定に静的グラフに依存しており、ソース間での差別化に失敗した。 対照的に、様々な要因から導かれる影響を区別し、動的文脈における潜在的影響の推定として引用インクリメントを予測することを提案する。 本研究では, 論文の拡散, コンフォーマル性, コントリビューションに対する影響を分散させる新しいモデルDPPDCCを紹介する。 引用ネットワークから導出される動的ヘテロジニアスグラフ内の時間的および構造的特徴を符号化し、絡み合うために様々な補助的タスクを適用する。 DPPDCCは、比較情報と共興奮情報を強調し、スナップショットを進化的に集約することにより、引用ネットワーク内の知識フローをキャプチャする。 その後、拡張グラフを対比して引用拡散の本質を抽出し、定量整合性モデリングのための引用蓄積ビンを予測することで人気を概説する。 直交的制約は、貢献値を保存することによって、各視点の異なるモデリングを保証する。 出版時間全体の一般化を測り、現実的な動的文脈を再現するために、特定の時間点に基づいてデータを分割し、厳密なフィルタリングなしに全てのサンプルを保持する。 3つのデータセットに関する大規模な実験は、DPPDCCが以前、新しく、そしてすぐに発行された論文のベースラインよりも優れていることを検証し、その堅牢性についてさらなる分析を行った。 コードと補足資料はhttps://github.com/ECNU-Text-Computing/DPPDCCで確認できます。

The scientific impact of academic papers is influenced by intricate factors such as dynamic popularity and inherent contribution. Existing models typically rely on static graphs for citation count estimation, failing to differentiate among its sources. In contrast, we propose distinguishing effects derived from various factors and predicting citation increments as estimated potential impacts within the dynamic context. In this research, we introduce a novel model, DPPDCC, which Disentangles the Potential impacts of Papers into Diffusion, Conformity, and Contribution values. It encodes temporal and structural features within dynamic heterogeneous graphs derived from the citation networks and applies various auxiliary tasks for disentanglement. By emphasizing comparative and co-cited/citing information and aggregating snapshots evolutionarily, DPPDCC captures knowledge flow within the citation network. Afterwards, popularity is outlined by contrasting augmented graphs to extract the essence of citation diffusion and predicting citation accumulation bins for quantitative conformity modeling. Orthogonal constraints ensure distinct modeling of each perspective, preserving the contribution value. To gauge generalization across publication times and replicate the realistic dynamic context, we partition data based on specific time points and retain all samples without strict filtering. Extensive experiments on three datasets validate DPPDCC's superiority over baselines for papers published previously, freshly, and immediately, with further analyses confirming its robustness. Our codes and supplementary materials can be found at https://github.com/ECNU-Text-Computing/DPPDCC.
翻訳日:2024-09-04 22:14:48 公開日:2024-09-01
# 制約付き生成逆数ネットワークを用いた負荷注入の時間的相関した高分解能プロファイルの作成

Creating Temporally Correlated High-Resolution Profiles of Load Injection Using Constrained Generative Adversarial Networks ( http://arxiv.org/abs/2311.12166v4 )

ライセンス: Link先を確認
Hritik Gopal Shah, Behrouz Azimian, Anamitra Pal, (参考訳) 従来のスマートメーターは15分以上毎のエネルギー使用量を計測し、少なくとも数時間後に報告するが、リアルタイムの意思決定に必要な粒度は欠如している。 この問題に対処するために,凸最適化を用いた厳密な不等式制約を通した高分解能出力の時間的整合性を実現するGAN(Generative Adversarial Network)を用いた新しい手法を提案する。 GANモデルのユニークな特徴は、スマートメーターから得られる遅い時間スケールの歴史的エネルギーデータのみに基づいて訓練されていることである。 その結果,15分間隔の平均消費電力情報から,時間的に時間的に相関した電力使用量のプロファイルを作成することができた。 この革新的なアプローチは、ニューロン間の制約を強調し、分散システムにおける高速状態推定を改善するための有望な方法を提供し、そのようなシステムを監視し、その後制御するためのデータ駆動型ソリューションの適用性を高める。

Traditional smart meters, which measure energy usage every 15 minutes or more and report it at least a few hours later, lack the granularity needed for real-time decision-making. To address this practical problem, we introduce a new method using generative adversarial networks (GAN) that enforces temporal consistency on its high-resolution outputs via hard inequality constraints using convex optimization. A unique feature of our GAN model is that it is trained solely on slow timescale aggregated historical energy data obtained from smart meters. The results demonstrate that the model can successfully create minute-by-minute temporally correlated profiles of power usage from 15-minute interval average power consumption information. This innovative approach, emphasizing inter-neuron constraints, offers a promising avenue for improved high-speed state estimation in distribution systems and enhances the applicability of data-driven solutions for monitoring and subsequently controlling such systems.
翻訳日:2024-09-04 22:02:40 公開日:2024-09-01
# アナーリーズ・エ・モデルーム・デ・ジョゴス・デジタイス : 教育学・教育学・教育学・教育学・教育学・教育学・教育学

Análise e modelagem de jogos digitais: relato de uma experiência educacional utilizando metodologias ativas em um grupo multidisciplinar ( http://arxiv.org/abs/2311.14704v2 )

ライセンス: Link先を確認
David de Oliveira Lemes, Ezequiel França dos Santos, Eduardo Romanek, Celso Fujimoto, Adriano Felix Valente, (参考訳) ソフトウェア工学の伝統的な教えは、技術的なスキルに重点を置いている。 学生がコンテンツを体験し、現実と対話するアクティブ戦略は効果的である。 市場は、モデリングビジネスの複雑さと人、システム、技術間の相互接続を扱う、デジタルトランスフォーメーションにおける新しいスキルを必要とします。 問題ベース学習(PBL)のようなアクティブな方法論への移行は、実際の市場シナリオを教室にもたらす。 この記事では、そのコースでの経験を報告し、概念と結果を示します。

The traditional teaching of software engineering is focused on technical skills. Active strategies, where students experience content and interact with reality, are effective. The market demands new skills in the digital transformation, dealing with the complexity of modeling businesses and the interconnection between people, systems, and technologies. The transition to active methodologies, such as Problem-Based Learning (PBL), brings real market scenarios into the classroom. This article reports on the experience in the course, presenting concepts and results.
翻訳日:2024-09-04 22:02:40 公開日:2024-09-01
# 高速フーリエ変換を用いた分子ドッキングのための等変スカラー場

Equivariant Scalar Fields for Molecular Docking with Fast Fourier Transforms ( http://arxiv.org/abs/2312.04323v2 )

ライセンス: Link先を確認
Bowen Jing, Tommi Jaakkola, Bonnie Berger, (参考訳) 分子ドッキングは、構造に基づく仮想スクリーニングにとって重要であるが、そのようなワークフローのスループットは、ほとんどのドッキングアルゴリズムに関わるスコアリング関数の高価な最適化によって制限される。 より迅速な最適化を可能にする機能形式でスコアリング関数を学習することで、機械学習がこのプロセスをいかに加速できるかを考察する。 具体的には、このスコアリング関数を、同変グラフニューラルネットワークによってパラメータ化された多チャンネルリガンドとタンパク質スカラー場の相互相関として定義し、高速フーリエ変換による剛体自由度に対する高速な最適化を可能にする。 このアプローチのランタイムは、いくつかの抽象化レベルで再生可能であり、一般的なバインディングポケットを備えた仮想スクリーニング設定に特に適しています。 我々は,2つの簡易ドッキング関連タスク,デコイポーズスコアリングと剛性コンフォメータドッキングのスコアリング機能をベンチマークした。 提案手法は,広く使用されているVinaとGninaのスコアリング関数と比較して,結晶構造に類似しているが高速な性能を実現し,計算的に予測された構造に対してより堅牢である。 コードはhttps://github.com/bjing2016/scalar-fieldsで公開されている。

Molecular docking is critical to structure-based virtual screening, yet the throughput of such workflows is limited by the expensive optimization of scoring functions involved in most docking algorithms. We explore how machine learning can accelerate this process by learning a scoring function with a functional form that allows for more rapid optimization. Specifically, we define the scoring function to be the cross-correlation of multi-channel ligand and protein scalar fields parameterized by equivariant graph neural networks, enabling rapid optimization over rigid-body degrees of freedom with fast Fourier transforms. The runtime of our approach can be amortized at several levels of abstraction, and is particularly favorable for virtual screening settings with a common binding pocket. We benchmark our scoring functions on two simplified docking-related tasks: decoy pose scoring and rigid conformer docking. Our method attains similar but faster performance on crystal structures compared to the widely-used Vina and Gnina scoring functions, and is more robust on computationally predicted structures. Code is available at https://github.com/bjing2016/scalar-fields.
翻訳日:2024-09-04 22:02:40 公開日:2024-09-01
# 間接的否定的証拠を用いたグレディ文法誘導

Greedy Grammar Induction with Indirect Negative Evidence ( http://arxiv.org/abs/2312.15321v2 )

ライセンス: Link先を確認
Joseph Potashnik, (参考訳) 本稿では,文脈自由文法学習に必要な情報の上限として,ポンピング補題定数を新たに検討する。 間接的負の証拠に基づく目的関数は、十分に長い提示後に遭遇する有限個の弦の発生と非発生を考察する。 この関数は仮説空間の最適部分構造を持ち、分岐法および有界法における欲求探索学習者を生み出す。 学習可能なクラスの階層は、インプットを漸進的に適合させるために暫定的なソリューションに追加する必要がある生産ルールの数の観点から定義される。 効率性は、階層内の対象文法の位置と入力の豊かさに強く依存する。

This paper offers a fresh look at the pumping lemma constant as an upper bound on the information required for learning Context Free Grammars. An objective function based on indirect negative evidence considers the occurrences, and non-occurrences, of a finite number of strings, encountered after a sufficiently long presentation. This function has optimal substructure in the hypotheses space, giving rise to a greedy search learner in a branch and bound method. A hierarchy of learnable classes is defined in terms of the number of production rules that must be added to interim solutions in order to incrementally fit the input. Efficiency strongly depends on the position of the target grammar in the hierarchy and on the richness of the input.
翻訳日:2024-09-04 21:42:39 公開日:2024-09-01
# 密度行列平均場理論

Density-Matrix Mean-Field Theory ( http://arxiv.org/abs/2401.06236v3 )

ライセンス: Link先を確認
Junyi Zhang, Zhengqian Cheng, (参考訳) 平均場理論は、より正確だがより計算的に要求される代替手法を補完し、多種多様な物質相を探索するための効率的なツールであることが証明されている。 従来の平均場理論は量子ゆらぎの捕捉に不足することが多く、量子効果を持つ系に適用性を制限する。 本稿では,改良された平均場理論,密度行列平均場理論(DMMFT)を提案する。 DMMFTは、密度の低下した行列によって定量化される絡み合いによって形成された量子環境を組み込んだ効果的なハミルトン多様体を構成する。 したがって、量子秩序相におけるゆらぎと絡みの影響を考慮し、体系的で偏りのないアプローチを提供する。 実証的な例として、DMMFTは、量子ゆらぎによって誘導される順序パラメータの再正規化を定量的に評価できるだけでなく、位相量子位相も検出できることを示す。 さらに、有限温度におけるシステムと障害のあるシステムに対するDMMFTの拡張についても論じる。 我々の研究は、非伝統的な量子秩序を示す位相を探索する効率的なアプローチを提供しており、特に高空間次元におけるフラストレーションのあるスピン系の研究に有用である。

Mean-field theories have proven to be efficient tools for exploring diverse phases of matter, complementing alternative methods that are more precise but also more computationally demanding. Conventional mean-field theories often fall short in capturing quantum fluctuations, which restricts their applicability to systems with significant quantum effects. In this article, we propose an improved mean-field theory, density-matrix mean-field theory (DMMFT). DMMFT constructs effective Hamiltonians, incorporating quantum environments shaped by entanglements, quantified by the reduced density matrices. Therefore, it offers a systematic and unbiased approach to account for the effects of fluctuations and entanglements in quantum ordered phases. As demonstrative examples, we show that DMMFT can not only quantitatively evaluate the renormalization of order parameters induced by quantum fluctuations, but can also detect the topological quantum phases. Additionally, we discuss the extensions of DMMFT for systems at finite temperatures and those with disorders. Our work provides an efficient approach to explore phases exhibiting unconventional quantum orders, which can be particularly beneficial for investigating frustrated spin systems in high spatial dimensions.
翻訳日:2024-09-04 21:31:42 公開日:2024-09-01
# 宇宙弦時空における絡み合い収穫

Entanglement harvesting in cosmic string spacetime ( http://arxiv.org/abs/2401.13406v2 )

ライセンス: Link先を確認
Ying Ji, Jialin Zhang, Hongwei Yu, (参考訳) 本研究では、宇宙線時空における無質量スカラー場と局所的に相互作用する静的検出器の絡み合い収穫現象について検討する。 具体的には、弦に対する3つの検出器アライメントを解析し、弦の同じ側にある検出器と平行および直交のアライメントと、弦の反対側にある検出器と直交のアライメントとを解析した。 弦の同側のアライメントについて、宇宙糸の存在が絡み合いの収穫を助けるか妨げる可能性があることを観察し、絡み合いの程度と到達可能なインターディテクターの分離範囲の両方に影響を及ぼすことを示した。 この効果は検出器と弦の間の距離に依存し、反射境界を持つ局所平坦な時空のシナリオとは大きく異なる。 逆に、弦の反対側の検出器とのアライメントでは、検出器は宇宙の弦のない平らな時空のものよりも、常に絡み合っていることが分かる。 これは、同じ側にある検出器で観測される挙動とは対照的である。 興味深いことに、宇宙の弦の存在は、弦の近傍でのみ直交する検出器の収穫到達範囲を拡大する一方、平行する検出器の到達範囲は必然的に減少する。

We investigate the entanglement harvesting phenomenon for static detectors that locally interact with massless scalar fields in the cosmic string spacetime, which, though locally flat, features a conical structure defined by a deficit angle. Specifically, we analyze three detector alignments relative to the string: parallel and orthogonal alignments with detectors on the same side of the string, and an orthogonal alignment with detectors on opposite sides of the string. For the alignments on the same side of the string, we observe that the cosmic string's presence can either aid or hinder entanglement harvesting, affecting both the extent of entanglement harvested and the achievable range of interdetector separation. This effect depends on the distance between the detectors and the string and differs markedly from scenarios in a locally flat spacetime with a reflecting boundary, where the boundary invariably extends the harvesting-achievable range. Conversely, for the alignment with detectors on opposite sides of the string, we find that detectors consistently harvest more entanglement than those in a flat spacetime devoid of a cosmic string. This starkly contrasts the behavior observed with detectors on the same side. Interestingly, the presence of a cosmic string expands the harvesting-achievable range for detectors in orthogonal alignment only when near the string, whereas it invariably reduces the achievable range for detectors in parallel alignment.
翻訳日:2024-09-04 21:31:42 公開日:2024-09-01
# 擬似ラベルメンバーシップによる微調整によるトレーニングデータ露出の増幅

Amplifying Training Data Exposure through Fine-Tuning with Pseudo-Labeled Memberships ( http://arxiv.org/abs/2402.12189v2 )

ライセンス: Link先を確認
Myung Gyo Oh, Hong Eun Ahn, Leo Hyun Park, Taekyoung Kwon, (参考訳) ニューラルネットワークモデル(LM)は、データ記憶によるデータ抽出攻撃のトレーニングに脆弱である。 本稿では,攻撃者が学習済みのLMを逆さまに微調整して,元のトレーニングデータの露出を増幅する,新たな攻撃シナリオを提案する。 この戦略は、LMの事前学習データセットの保持を強化することを目的として、以前の研究とは異なる。 これを実現するために、攻撃者は事前訓練されたデータと密に一致した生成されたテキストを収集する必要がある。 しかし、実際のデータセットの知識がなければ、生成されたテキスト内の事前学習データの量を定量化することは困難である。 そこで本研究では,これらのテキストに対する擬似ラベルの利用を提案する。 その後、私たちはLMを微調整し、そのメンバーシップ確率に基づいて、事前学習データから派生する確率の高い世代を選好した。 1B以上のパラメータを持つLMは、トレーニングデータ露出の4倍から8倍の増大を示す。 我々は潜在的な緩和について議論し、今後の研究の方向性を提案する。

Neural language models (LMs) are vulnerable to training data extraction attacks due to data memorization. This paper introduces a novel attack scenario wherein an attacker adversarially fine-tunes pre-trained LMs to amplify the exposure of the original training data. This strategy differs from prior studies by aiming to intensify the LM's retention of its pre-training dataset. To achieve this, the attacker needs to collect generated texts that are closely aligned with the pre-training data. However, without knowledge of the actual dataset, quantifying the amount of pre-training data within generated texts is challenging. To address this, we propose the use of pseudo-labels for these generated texts, leveraging membership approximations indicated by machine-generated probabilities from the target LM. We subsequently fine-tune the LM to favor generations with higher likelihoods of originating from the pre-training data, based on their membership probabilities. Our empirical findings indicate a remarkable outcome: LMs with over 1B parameters exhibit a four to eight-fold increase in training data exposure. We discuss potential mitigations and suggest future research directions.
翻訳日:2024-09-04 19:31:47 公開日:2024-09-01
# Strict Partitioning for Sporadic Rigid Gang Tasks

Strict Partitioning for Sporadic Rigid Gang Tasks ( http://arxiv.org/abs/2403.10726v2 )

ライセンス: Link先を確認
Binqi Sun, Tomasz Kloda, Marco Caccamo, (参考訳) 厳密なギャングタスクモデルは、効率と性能を向上させるために、一定数のプロセッサ上で複数のスレッドを同時に実行するというアイデアに基づいている。 グローバルな厳密なギャングスケジューリングには広範な文献があるが、分割されたアプローチにはいくつかの実用的な利点がある(例えば、タスク分離とスケジューリングオーバーヘッドの削減)。 本稿では,厳密なパーティショニングという,厳密なギャングタスクのための分割型スケジューリング手法を提案する。 この方法は、パーティション間干渉を避けるために、タスクとプロセッサの切り離しパーティションを生成する。 さらに、同じボリューム(すなわち並列性)のタスクを同じパーティションに割り当てて、パーティション内干渉を減らす。 各パーティション内では、タスクは任意のタイプのスケジューラを使ってスケジュールすることができる。 エッジTPUベンチマークに基づく大規模合成実験とケーススタディにより、厳密なパーティショニングは、プリエンプティブと非プリエンプティブな厳密なギャングタスクセットの両方に対して、最先端のグローバルギャングスケジューリング可能性分析よりも優れたスケジュール性を実現することが示された。

The rigid gang task model is based on the idea of executing multiple threads simultaneously on a fixed number of processors to increase efficiency and performance. Although there is extensive literature on global rigid gang scheduling, partitioned approaches have several practical advantages (e.g., task isolation and reduced scheduling overheads). In this paper, we propose a new partitioned scheduling strategy for rigid gang tasks, named strict partitioning. The method creates disjoint partitions of tasks and processors to avoid inter-partition interference. Moreover, it tries to assign tasks with similar volumes (i.e., parallelisms) to the same partition so that the intra-partition interference can be reduced. Within each partition, the tasks can be scheduled using any type of scheduler, which allows the use of a less pessimistic schedulability test. Extensive synthetic experiments and a case study based on Edge TPU benchmarks show that strict partitioning achieves better schedulability performance than state-of-the-art global gang schedulability analyses for both preemptive and non-preemptive rigid gang task sets.
翻訳日:2024-09-04 19:15:46 公開日:2024-09-01
# CRS-Diff:拡散モデルによる制御可能なリモートセンシング画像生成

CRS-Diff: Controllable Remote Sensing Image Generation with Diffusion Model ( http://arxiv.org/abs/2403.11614v4 )

ライセンス: Link先を確認
Datao Tang, Xiangyong Cao, Xingsong Hou, Zhongyuan Jiang, Junmin Liu, Deyu Meng, (参考訳) 生成モデルの出現は、リモートセンシング(RS)画像生成の分野に革命をもたらした。 高品質な画像を生成するにもかかわらず、既存の手法は主にテキスト制御条件に依存しているため、常に正確かつ安定に画像を生成するとは限らない。 本稿では,RS画像生成に適した新しいRS生成フレームワークであるCRS-Diffを提案する。 具体的には、CRS-Diffはテキスト条件、メタデータ条件、画像条件制御入力を同時にサポートし、より正確な制御により生成プロセスを洗練できる。 複数条件制御情報を効果的に統合するために,複数機能融合を実現するための新しい条件制御機構を導入し,制御条件の誘導効果を高める。 我々の知る限り、CRS-Diffは、最初の多重条件制御可能なRS生成モデルである。 CRS-Diffは, 従来法と比較して, 定量的かつ定性的にRS画像を生成する能力に優れていた。 さらに、当社のCRS-Diffは、下流タスク、例えば道路抽出のための高品質なトレーニングデータを生成するデータエンジンとして機能する。 コードはhttps://github.com/Sonettoo/CRS-Diffで公開されている。

The emergence of generative models has revolutionized the field of remote sensing (RS) image generation. Despite generating high-quality images, existing methods are limited in relying mainly on text control conditions, and thus do not always generate images accurately and stably. In this paper, we propose CRS-Diff, a new RS generative framework specifically tailored for RS image generation, leveraging the inherent advantages of diffusion models while integrating more advanced control mechanisms. Specifically, CRS-Diff can simultaneously support text-condition, metadata-condition, and image-condition control inputs, thus enabling more precise control to refine the generation process. To effectively integrate multiple condition control information, we introduce a new conditional control mechanism to achieve multi-scale feature fusion, thus enhancing the guiding effect of control conditions. To our knowledge, CRS-Diff is the first multiple-condition controllable RS generative model. Experimental results in single-condition and multiple-condition cases have demonstrated the superior ability of our CRS-Diff to generate RS images both quantitatively and qualitatively compared with previous methods. Additionally, our CRS-Diff can serve as a data engine that generates high-quality training data for downstream tasks, e.g., road extraction. The code is available at https://github.com/Sonettoo/CRS-Diff.
翻訳日:2024-09-04 19:02:17 公開日:2024-09-01
# NEDS-SLAM:3次元ガウススプレイティングを用いたニューラル・エクスプリシト・ディエンス・セマンティック・SLAMフレームワーク

NEDS-SLAM: A Neural Explicit Dense Semantic SLAM Framework using 3D Gaussian Splatting ( http://arxiv.org/abs/2403.11679v3 )

ライセンス: Link先を確認
Yiming Ji, Yang Liu, Guanghu Xie, Boyu Ma, Zongwu Xie, (参考訳) 本研究では,3次元ガウス表現に基づく高密度セマンティックSLAMシステムNEDS-SLAMを提案する。 本システムでは,事前訓練されたセグメンテーションヘッドからの誤推定が意味再構成に与える影響を低減し,ロバストな3次元意味ガウスマッピングを実現するために,空間一貫性のある特徴融合モデルを提案する。 さらに,高次元のセマンティック特徴をコンパクトな3次元ガウス表現に圧縮する軽量エンコーダデコーダを用いて,過剰なメモリ消費の負担を軽減する。 さらに, 3次元ガウススティングの利点を活用し, 効率よく, 微分可能な新しいビューレンダリングを実現するとともに, 映像表現の質を効果的に向上させる仮想カメラビュープルーニング手法を提案する。 NEDS-SLAM法は,Replica と ScanNet のデータセット上でのマッピングと追跡の精度の観点から,既存の高密度意味論的SLAM法と競合する性能を示した。

We propose NEDS-SLAM, a dense semantic SLAM system based on 3D Gaussian representation, that enables robust 3D semantic mapping, accurate camera tracking, and high-quality rendering in real-time. In the system, we propose a Spatially Consistent Feature Fusion model to reduce the effect of erroneous estimates from pre-trained segmentation head on semantic reconstruction, achieving robust 3D semantic Gaussian mapping. Additionally, we employ a lightweight encoder-decoder to compress the high-dimensional semantic features into a compact 3D Gaussian representation, mitigating the burden of excessive memory consumption. Furthermore, we leverage the advantage of 3D Gaussian splatting, which enables efficient and differentiable novel view rendering, and propose a Virtual Camera View Pruning method to eliminate outlier gaussians, thereby effectively enhancing the quality of scene representations. Our NEDS-SLAM method demonstrates competitive performance over existing dense semantic SLAM methods in terms of mapping and tracking accuracy on Replica and ScanNet datasets, while also showing excellent capabilities in 3D dense semantic mapping.
翻訳日:2024-09-04 19:02:17 公開日:2024-09-01
# Tur[k]ingBench: Webエージェントのチャレンジベンチマーク

Tur[k]ingBench: A Challenge Benchmark for Web Agents ( http://arxiv.org/abs/2403.11905v3 )

ライセンス: Link先を確認
Kevin Xu, Yeganeh Kordi, Tanay Nayak, Ado Asija, Yizhong Wang, Kate Sanders, Adam Byerly, Jingyu Zhang, Benjamin Van Durme, Daniel Khashabi, (参考訳) 高度なマルチモーダルモデルは、複雑なWebベースのタスクに効果的に対処できるのか? このようなタスクはクラウドソーシングプラットフォームでよく見られ、クラウドワーカーはWebベースの環境におけるマイクロタスクに挑戦する。 このアイデアに基づいてTurkingBenchを提案する。TurkingBenchは、テキスト命令とマルチモーダルコンテキストを備えたWebページとして提示されるタスクからなるベンチマークである。 人工的に合成されたWebページに依存する従来のアプローチとは異なり、我々のベンチマークはもともと、クラウドソーシングワーカーが様々なアノテーションタスクを実行するために設計された自然なHTMLページを使用する。 各タスクのHTML命令は、クラウドソーシングタスクから派生したさまざまな値でインスタンス化され、多様なインスタンスを生成する。 このベンチマークには158タスクにまたがる32.2Kインスタンスが含まれている。 本研究では、TurkingBenchの評価を支援するために、Webページ上のアクション(例えば、テキストボックスの変更、ラジオボタンの選択など)にチャットボットの応答をリンクするフレームワークを開発した。 本稿では,GPT4 や InternVL などの言語のみを含む最先端のプライベートおよびオープンソースモデルの性能評価を行う。 以上の結果から,これらのモデルがランダムな確率よりも優れているが,改善の余地は依然として大きいことがわかった。 このベンチマークがWebベースのエージェントの評価と開発を進展させることを期待している。

Can advanced multi-modal models effectively tackle complex web-based tasks? Such tasks are often found on crowdsourcing platforms, where crowdworkers engage in challenging micro-tasks within web-based environments. Building on this idea, we present TurkingBench, a benchmark consisting of tasks presented as web pages with textual instructions and multi-modal contexts. Unlike previous approaches that rely on artificially synthesized web pages, our benchmark uses natural HTML pages originally designed for crowdsourcing workers to perform various annotation tasks. Each task's HTML instructions are instantiated with different values derived from crowdsourcing tasks, creating diverse instances. This benchmark includes 32.2K instances spread across 158 tasks. To support the evaluation of TurkingBench, we have developed a framework that links chatbot responses to actions on web pages (e.g., modifying a text box, selecting a radio button). We assess the performance of cutting-edge private and open-source models, including language-only and vision-language models (such as GPT4 and InternVL), on this benchmark. Our results show that while these models outperform random chance, there is still significant room for improvement. We hope that this benchmark will drive progress in the evaluation and development of web-based agents.
翻訳日:2024-09-04 19:02:17 公開日:2024-09-01
# Pensieve: 視覚幻覚を緩和するレトロスペクティブ

Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination ( http://arxiv.org/abs/2403.14401v2 )

ライセンス: Link先を確認
Dingchen Yang, Bowen Cao, Guang Chen, Changjun Jiang, (参考訳) MLLM(Multi-modal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めている。 しかし、それらは視覚幻覚に悩まされ、生成した応答は提供された画像から分岐する。 MLLMは幻覚の正確な視覚的手がかりを無視しているか? 我々の調査は、視覚枝が正確かつ誤った内容の両方を同じように主張する可能性があることを明らかにしている。 この問題に対処するために,一般的な意味的特徴と外観的特徴を共有する画像によって誘導される類似の視覚幻覚を利用する学習不要の手法であるPensieveを提案し,幻覚を緩和する。 特に、Pensieveでは、MLLMが関連する画像を参照として振り返り、信頼スコアのサブトラクションを通じて、その視覚内容とテスト画像を比較することができる。 さらに,本パラダイムは,抽出したスコアを適応的にスケーリングすることで,視覚的およびテキスト的両方の分岐からエラーに対処する効果のバランスをとる。 Whoops, LLaVA Bench, POPE, MMEの実験は、Pensieveが視覚幻覚を緩和し、他の高度な復号戦略を上回る効果を示した。 Pensieveはまた、視覚的詳細を識別するMLLMを支援し、生成された画像記述の特異性を高める。

Multi-modal Large Language Models (MLLMs) demonstrate remarkable success across various vision-language tasks. However, they suffer from visual hallucination, where the generated responses diverge from the provided image. Are MLLMs oblivious to the accurate visual cues when they hallucinate? Our investigation reveals that the visual branch may equally advocate both accurate and erroneous content. To address this issue, we propose Pensieve, a training-free method that leverages the analogous visual hallucinations, which are induced by images sharing common semantic and appearance characteristics, to mitigate hallucination. Specifically, Pensieve enables MLLMs to retrospect relevant images as references and compare their visual content with the test image via confidence score subtraction. Moreover, our paradigm balances the effects of addressing errors from both the visual and textual branches by adaptively scaling the subtracted scores. Experiments on Whoops, LLaVA Bench, POPE, and MME demonstrate the efficacy of Pensieve in mitigating visual hallucination, surpassing other advanced decoding strategies. Pensieve also aids MLLMs in identifying visual details and enhance the specificity of generated image descriptions.
翻訳日:2024-09-04 19:02:17 公開日:2024-09-01
# ベイジアン推論によるSim-to-Realギャップのブリッジ

Bridging the Sim-to-Real Gap with Bayesian Inference ( http://arxiv.org/abs/2403.16644v2 )

ライセンス: Link先を確認
Jonas Rothfuss, Bhavya Sukhija, Lenart Treven, Florian Dörfler, Stelian Coros, Andreas Krause, (参考訳) データからロボットダイナミクスを学習するためのSIM-FSVGDを提案する。 従来の手法とは対照的に、SIM-FSVGDは、シミュレーターの形で低忠実度物理先行性、例えば、ニューラルネットワークモデルのトレーニングを規則化する。 SIM-FSVGDは、既に低いデータ状態にある正確なダイナミクスを学習する一方で、より多くのデータが利用可能になった時にスケールし、拡張する。 暗黙の物理的前提による学習が正確な平均モデル推定と正確な不確実性定量化をもたらすことを実証的に示す。 高性能RCレースカーシステムにおけるSIM-to-realギャップのブリッジ化におけるSIM-FSVGDの有効性を実証する。 モデルベースRLを用いて、ドリフトを伴う非常にダイナミックな駐車操作を実演する。

We present SIM-FSVGD for learning robot dynamics from data. As opposed to traditional methods, SIM-FSVGD leverages low-fidelity physical priors, e.g., in the form of simulators, to regularize the training of neural network models. While learning accurate dynamics already in the low data regime, SIM-FSVGD scales and excels also when more data is available. We empirically show that learning with implicit physical priors results in accurate mean model estimation as well as precise uncertainty quantification. We demonstrate the effectiveness of SIM-FSVGD in bridging the sim-to-real gap on a high-performance RC racecar system. Using model-based RL, we demonstrate a highly dynamic parking maneuver with drifting, using less than half the data compared to the state of the art.
翻訳日:2024-09-04 19:02:17 公開日:2024-09-01
# AirPilot:ロバスト自律飛行のための解釈可能なPPOベースのDRL自動調整型PIDドローンコントローラ

AirPilot: Interpretable PPO-based DRL Auto-Tuned Nonlinear PID Drone Controller for Robust Autonomous Flights ( http://arxiv.org/abs/2404.00204v4 )

ライセンス: Link先を確認
Junyang Zhang, Cristian Emanuel Ocampo Rivera, Kyle Tyni, Steven Nguyen, Ulices Santa Cruz Leal, Yasser Shoukry, (参考訳) 航法精度、速度、安定性は、無人航空機(UAV)の安全な飛行操作および動的環境における効果的な飛行ミッション実行に不可欠である。 異なる飛行ミッションには、エネルギー消費の最小化、正確な位置決めの達成、速度の最大化など、様々な目的がある。 異なる目的に適応できるコントローラーは、非常に貴重である。 Proportional Integral Derivative (PID) コントローラは、ドローンやその他の制御システムにおいて最も人気があり広く使われている制御アルゴリズムの1つであるが、その線形制御アルゴリズムは、ダイナミックな風条件や複雑なドローンシステムの非線形特性を捉えていない。 手動で様々なミッションのためにPIDのゲインを調整するのは時間がかかるし、かなりの専門知識を必要とする。 本稿では,PPO (Proximal Policy Optimization) を用いた非線形深層強化学習 (DRL) 強化型PID (Proportional Integral Derivative) ドローン制御系であるAirPilotを提示することにより,ドローンの飛行制御に革命をもたらすことを目的とする。 AirPilotコントローラは、従来のPID制御のシンプルさと有効性と、DRLの適応性、学習能力、最適化能力を組み合わせる。 これにより、環境が動的であり、ミッション固有のパフォーマンス要求が高い現代のドローンアプリケーションに適している。 私たちはシミュレータ内でDRLエージェントを訓練するためにCOEX Clover自律ドローンを使用し、実際の実験室でそれを実装しました。 Airpilotは、デフォルトのPX4 PID位置コントローラのナビゲーションエラーを90%削減し、微調整されたPIDコントローラのナビゲーション速度を21%改善し、それぞれ17%、オーバーシュートを16%削減できる。

Navigation precision, speed and stability are crucial for safe Unmanned Aerial Vehicle (UAV) flight maneuvers and effective flight mission executions in dynamic environments. Different flight missions may have varying objectives, such as minimizing energy consumption, achieving precise positioning, or maximizing speed. A controller that can adapt to different objectives on the fly is highly valuable. Proportional Integral Derivative (PID) controllers are one of the most popular and widely used control algorithms for drones and other control systems, but their linear control algorithm fails to capture the nonlinear nature of the dynamic wind conditions and complex drone system. Manually tuning the PID gains for various missions can be time-consuming and requires significant expertise. This paper aims to revolutionize drone flight control by presenting the AirPilot, a nonlinear Deep Reinforcement Learning (DRL) - enhanced Proportional Integral Derivative (PID) drone controller using Proximal Policy Optimization (PPO). AirPilot controller combines the simplicity and effectiveness of traditional PID control with the adaptability, learning capability, and optimization potential of DRL. This makes it better suited for modern drone applications where the environment is dynamic, and mission-specific performance demands are high. We employed a COEX Clover autonomous drone for training the DRL agent within the simulator and implemented it in a real-world lab setting, which marks a significant milestone as one of the first attempts to apply a DRL-based flight controller on an actual drone. Airpilot is capable of reducing the navigation error of the default PX4 PID position controller by 90%, improving effective navigation speed of a fine-tuned PID controller by 21%, reducing settling time and overshoot by 17% and 16% respectively.
翻訳日:2024-09-04 19:02:17 公開日:2024-09-01
# CMAT: 小規模言語モデルの強化のためのマルチエージェントコラボレーションチューニングフレームワーク

CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models ( http://arxiv.org/abs/2404.01663v4 )

ライセンス: Link先を確認
Xuechen Liang, Meiling Tao, Yinghui Xia, Tianyu Shi, Jun Wang, JingSong Yang, (参考訳) オープンな大規模言語モデル(LLM)は、自然言語処理の分野を著しく進歩させ、様々なタスクにおいて印象的なパフォーマンスを示しているが、LLMの大幅な進歩にもかかわらず、その効果的な操作は、対話の流れを正確に導くために人間の入力に大きく依存している。 また,環境フィードバックに基づく適応重み更新による言語エージェントの能力向上を目的とした,協調型マルチエージェントチューニング(CMAT)フレームワークを提案する。 このフレームワークは、複数の知的エージェント間の協調学習とリアルタイム適応を促進し、コンテキスト認識と長期記憶を高める。 本研究では,マルチエージェントシステムと環境フィードバック機構を統合し,協調動作を探索するスケーラブルな手法を提供する通信エージェントフレームワークを提案する。 特に,我々のTinyAgent-7Bモデルは,パラメータが少ないにもかかわらず,GPT-3.5と同等の性能を示し,LCMの効率と有効性を大幅に向上させることを示す。

Open large language models (LLMs) have significantly advanced the field of natural language processing, showcasing impressive performance across various tasks.Despite the significant advancements in LLMs, their effective operation still relies heavily on human input to accurately guide the dialogue flow, with agent tuning being a crucial optimization technique that involves human adjustments to the model for better response to such guidance.Addressing this dependency, our work introduces the TinyAgent model, trained on a meticulously curated high-quality dataset. We also present the Collaborative Multi-Agent Tuning (CMAT) framework, an innovative system designed to augment language agent capabilities through adaptive weight updates based on environmental feedback. This framework fosters collaborative learning and real-time adaptation among multiple intelligent agents, enhancing their context-awareness and long-term memory. In this research, we propose a new communication agent framework that integrates multi-agent systems with environmental feedback mechanisms, offering a scalable method to explore cooperative behaviors. Notably, our TinyAgent-7B model exhibits performance on par with GPT-3.5, despite having fewer parameters, signifying a substantial improvement in the efficiency and effectiveness of LLMs.
翻訳日:2024-09-04 18:50:14 公開日:2024-09-01
# Software-Defined Cryptography: 暗号のアジリティ設計の特徴

Software-Defined Cryptography: A Design Feature of Cryptographic Agility ( http://arxiv.org/abs/2404.01808v2 )

ライセンス: Link先を確認
Jihoon Cho, Changhoon Lee, Eunkyung Kim, Jieun Lee, Beumjin Cho, (参考訳) エンタープライズITで暗号が広く使われていることを考えると、ポスト量子暗号(PQC)への移行は、完全には置き換えられません。 暗号化のアジリティ(英: Cryptographic agility, 英: Cryptographic-agility)は、新しい暗号アルゴリズムと標準のシームレスな更新を可能にする設計機能である。 本稿では,暗号の集中管理とPQCへのマイグレーションなどの暗号ポリシーの自動化におけるソフトウェアの役割を強調し,暗号の望ましい設計機能としてのソフトウェア定義暗号の概念を紹介する。

Given the widespread use of cryptography in Enterprise IT, migration to post-quantum cryptography (PQC) is not drop-in replacement at all. Cryptographic agility, or crypto-agility, is a design feature that enables seamless updates to new cryptographic algorithms and standards without the need to modify or replace the surrounding infrastructure. This paper introduces a notion of software-defined cryptography as the desired design feature for crypto-agility, emphasizing the role of software in providing centralized governance for cryptography and automated enforcement of cryptographic policies, such as migration to PQC.
翻訳日:2024-09-04 18:50:14 公開日:2024-09-01
# Med-MoE:軽量医用ビジョンランゲージモデルのためのドメイン特化専門家の混在

Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models ( http://arxiv.org/abs/2404.10237v3 )

ライセンス: Link先を確認
Songtao Jiang, Tuo Zheng, Yan Zhang, Yeying Jin, Li Yuan, Zuozhu Liu, (参考訳) 汎用・ドメイン特化多モーダル言語モデル(LLM)の最近の進歩は、医学的意思決定において顕著な進歩をみせている。 しかし、それらは特定の分類や生成タスクのために指定されており、スケール可能なパラメータと膨大な計算量を持つ大規模データセットのモデルトレーニングや微調整が必要であり、実際は様々なリソース制約のあるシナリオで臨床効果を妨げている。 本稿では,識別的および生成的マルチモーダル医療タスクに対処する,新規で軽量なMed-MoE(Mixture-of-Experts)を提案する。 Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。 マルチモーダル医療画像とLCMトークンを整列させた後、インプットモダリティ間の専門家選択に適したトレーニング可能なルータとともに、インストラクションチューニングによる様々なマルチモーダル医療タスクのモデルを有効にする。 最後に、モデルはルータと複数のドメイン固有の専門家を統合することで調整される。 VQA-RAD,SLAKE,Path-VQAといったデータセットをまたいだオープン・エンドの医療質問応答(Med-VQA)と画像分類タスクの総合的な実験により,我々のモデルは,アクティベートモデルパラメータの約30~50%しか必要とせず,最先端のベースラインに匹敵する性能を達成できることが実証された。 本手法の有効性と実用性を包括的に分析し,その有効性を検証した。

Recent advancements in general-purpose or domain-specific multimodal large language models (LLMs) have witnessed remarkable progress for medical decision-making. However, they are designated for specific classification or generative tasks, and require model training or finetuning on large-scale datasets with sizeable parameters and tremendous computing, hindering their clinical utility across diverse resource-constrained scenarios in practice. In this paper, we propose a novel and lightweight framework Med-MoE (Mixture-of-Experts) that tackles both discriminative and generative multimodal medical tasks. The learning of Med-MoE consists of three steps: multimodal medical alignment, instruction tuning and routing, and domain-specific MoE tuning. After aligning multimodal medical images with LLM tokens, we then enable the model for different multimodal medical tasks with instruction tuning, together with a trainable router tailored for expert selection across input modalities. Finally, the model is tuned by integrating the router with multiple domain-specific experts, which are selectively activated and further empowered by meta expert. Comprehensive experiments on both open- and close-end medical question answering (Med-VQA) and image classification tasks across datasets such as VQA-RAD, SLAKE and Path-VQA demonstrate that our model can achieve performance superior to or on par with state-of-the-art baselines, while only requiring approximately 30\%-50\% of activated model parameters. Extensive analysis and ablations corroborate the effectiveness and practical utility of our method.
翻訳日:2024-09-04 18:50:14 公開日:2024-09-01
# 局所解析関数上のプッシュフォワードの有限次元近似

Finite-dimensional approximations of push-forwards on locally analytic functionals ( http://arxiv.org/abs/2404.10769v2 )

ライセンス: Link先を確認
Isao Ishikawa, (参考訳) 本稿では,有限離散データから解析マップを解析するための新しい理論的枠組みを提案する。 我々のアプローチは、解析写像そのものを直接扱うのではなく、局所解析関数の空間上のプッシュフォワードを考えることである。 フーリエ・ボレル変換とフォック空間の理論を用いて、有限離散データからプッシュフォワードの適切な有限次元近似を可能にする方法論を確立する。 さらに、厳密な収束の結果を収束率で証明する。 応用として、最小二乗多項式ではなく、解析関数を近似し、さらにデータ分布の支持を超えた近似を可能にする高次項を解いた多項式であることが証明される。 この理論の利点の1つは、線形代数演算をプッシュフォワードの有限次元近似に適用できることである。 これを利用して、通常の微分方程式のフローマップの有限データから解析ベクトル場を近似する手法の収束性を証明する。

This paper introduces a novel theoretical framework for investigating analytic maps from finite discrete data. Our approach is to consider the push-forward on the space of locally analytic functionals, instead of directly handling the analytic map itself. We establish a methodology enabling appropriate finite-dimensional approximation of the push-forward from finite discrete data, through the theory of the Fourier--Borel transform and the Fock space. Moreover, we prove a rigorous convergence result with a convergence rate. As an application, we prove that it is not the least-squares polynomial, but the polynomial obtained by truncating its higher-degree terms, that approximates analytic functions and further allows for approximation beyond the support of the data distribution. One advantage of our theory is that it enables us to apply linear algebraic operations to the finite-dimensional approximation of the push-forward. Utilizing this, we prove the convergence of a method for approximating an analytic vector field from finite data of the flow map of an ordinary differential equation.
翻訳日:2024-09-04 18:50:14 公開日:2024-09-01
# Mens Sana in Corpore Sano: 脆弱性研究のためのサウンドファームウェアコーポラ

Mens Sana In Corpore Sano: Sound Firmware Corpora for Vulnerability Research ( http://arxiv.org/abs/2404.11977v3 )

ライセンス: Link先を確認
René Helmke, Elmar Padilla, Nils Aschenbruck, (参考訳) 脆弱性研究のためのファームウェアコーパスは科学的に健全であるべきだ。 サンプル取得(例えば、サンプル取得)は困難であり、プロプライエタリなデータや暗号化されたデータの障壁を克服しなければならない。 画像の内容は事前に分かっていないため、科学的要求を満たす高品質なサンプルを選択することは困難である。 理想的には、データを共有することで互いに助け合っています。 しかしここでは、著作権法のために共有が問題となる。 代わりに、文書はコーパス生成の各ステップを慎重に文書化する必要がある。 これは、結果の妥当性、代表性、そして音性にカスケード効果をもたらす。 あらゆる課題にもかかわらず、ファームウェアコーパスの健全性をどのように維持できるか? 本稿では,問題空間を徹底的に分析し,その研究への影響について考察する。 これらの知見を用いて、研究者がコーパスの複製性と代表性を育むのに役立つガイドラインを導出する。 44階層の論文に適用し、科学的コーパス作成の実践を体系的に分析する。 本研究の総合的な分析から,現在,研究に共通する根拠は存在しないことが確認された。 コーパス作成の方法論的な問題を発見し、ドキュメントに最小のステップストーンを公開することによって、私たちのガイドラインの付加価値が示されます。 これらの曖昧なビジョンは代表性に影響を与え、複製性を阻害し、したがって、他の場合は優れた作品の音質に悪影響を及ぼす。 最後に、我々のガイドラインの実現可能性を示し、Linuxファームウェアの大規模解析のための新しいレプリカブルコーパスLFwCを構築した。 私たちは、優れた(そして証明された)複製性のために、リッチなメタデータを共有します。 我々は, アンパックの検証, 復号化, 内容の特定, 根拠的真理の提示, LFwCの実用性を示す。

Firmware corpora for vulnerability research should be scientifically sound. Yet, several practical challenges complicate the creation of sound corpora: Sample acquisition, e.g., is hard and one must overcome the barrier of proprietary or encrypted data. As image contents are unknown prior analysis, it is hard to select high-quality samples that can satisfy scientific demands. Ideally, we help each other out by sharing data. But here, sharing is problematic due to copyright laws. Instead, papers must carefully document each step of corpus creation: If a step is unclear, replicability is jeopardized. This has cascading effects on result verifiability, representativeness, and, thus, soundness. Despite all challenges, how can we maintain the soundness of firmware corpora? This paper thoroughly analyzes the problem space and investigates its impact on research: We distill practical binary analysis challenges that significantly influence corpus creation. We use these insights to derive guidelines that help researchers to nurture corpus replicability and representativeness. We apply them to 44 top tier papers and systematically analyze scientific corpus creation practices. Our comprehensive analysis confirms that there is currently no common ground in related work. It shows the added value of our guidelines, as they discover methodical issues in corpus creation and unveil miniscule step stones in documentation. These blur visions on representativeness, hinder replicability, and, thus, negatively impact the soundness of otherwise excellent work. Finally, we show the feasibility of our guidelines and build a new, replicable corpus for large-scale analyses on Linux firmware: LFwC. We share rich meta data for good (and proven) replicability. We verify unpacking, deduplicate, identify contents, provide ground truth, and show LFwC's utility for research.
翻訳日:2024-09-04 18:50:14 公開日:2024-09-01
# Gross-Pitaevskii方程式に対するPython GPU加速解法と多体空洞QEDへの応用

A Python GPU-accelerated solver for the Gross-Pitaevskii equation and applications to many-body cavity QED ( http://arxiv.org/abs/2404.14401v3 )

ライセンス: Link先を確認
Lorenzo Fioroni, Luca Gravina, Justyna Stefaniak, Alexander Baumgärtner, Fabian Finger, Davide Dreon, Tobias Donner, (参考訳) TorchGPEはGross-Pitaevskii方程式(GPE)を解くために開発された汎用Pythonパッケージである。 この解法は線形ポテンシャルと非線形ポテンシャルのスペクトルにわたって波動関数を統合するように設計されている。 TorchGPEの特異な側面はモジュラーアプローチであり、任意の自己整合性および時間依存ポテンシャル、例えば多体空洞QEDモデルに関係のあるポテンシャルを組み込むことができる。 このパッケージは、実時間と虚時間の両方で有効である対称分割ステップフーリエ伝搬法を用いている。 本稿では,GPUの計算能力を活用することにより,計算効率の大幅な向上を実証する。 後者の技術の統合により、TorchGPEは従来のCPUベースの手法に比べて大幅にスピードアップし、この分野の研究範囲と可能性を大きく広げる。

TorchGPE is a general-purpose Python package developed for solving the Gross-Pitaevskii equation (GPE). This solver is designed to integrate wave functions across a spectrum of linear and non-linear potentials. A distinctive aspect of TorchGPE is its modular approach, which allows the incorporation of arbitrary self-consistent and time-dependent potentials, e.g., those relevant in many-body cavity QED models. The package employs a symmetric split-step Fourier propagation method, effective in both real and imaginary time. In our work, we demonstrate a significant improvement in computational efficiency by leveraging GPU computing capabilities. With the integration of the latter technology, TorchGPE achieves a substantial speed-up with respect to conventional CPU-based methods, greatly expanding the scope and potential of research in this field.
翻訳日:2024-09-04 18:40:27 公開日:2024-09-01
# ミツバチにおける小分子毒性の分類のための新しいベンチマークデータセットApisTox

ApisTox: a new benchmark dataset for the classification of small molecules toxicity on honey bees ( http://arxiv.org/abs/2404.16196v2 )

ライセンス: Link先を確認
Jakub Adamczyk, Jakub Poziemski, Paweł Siedlecki, (参考訳) ミツバチのグローバルな減少は、農業、生物多様性、環境安定に重大なリスクをもたらす。 既存のデータのギャップを埋めるため,ハチに対する殺虫剤の毒性に着目した包括的データセットであるApisToxを紹介した。 このデータセットは、ECOTOXやPPDBといった既存のソースからのデータを組み合わせ、活用することで、以前のデータセットを超える広範囲で一貫性のある、キュレートされたコレクションを提供する。 ApisToxには、化学物質の毒性レベル、論文の出版時期などの詳細、外部の化学物質データベースにリンクする識別子など、幅広いデータが含まれている。 このデータセットは、環境・農業研究の重要なツールとして機能するが、ミツバチの個体数に対する害を最小限に抑えるための政策や慣行の開発を支援することもできる。 最後に、ApisToxはアグロケミカル化合物の分子特性予測法をベンチマークするためのユニークな資源を提供し、環境科学と化学情報学の両方の進歩を促進する。 これは、ミツバチの保護における学術研究と実践的応用の両方に有用な道具である。

The global decline in bee populations poses significant risks to agriculture, biodiversity, and environmental stability. To bridge the gap in existing data, we introduce ApisTox, a comprehensive dataset focusing on the toxicity of pesticides to honey bees (Apis mellifera). This dataset combines and leverages data from existing sources such as ECOTOX and PPDB, providing an extensive, consistent, and curated collection that surpasses the previous datasets. ApisTox incorporates a wide array of data, including toxicity levels for chemicals, details such as time of their publication in literature, and identifiers linking them to external chemical databases. This dataset may serve as an important tool for environmental and agricultural research, but also can support the development of policies and practices aimed at minimizing harm to bee populations. Finally, ApisTox offers a unique resource for benchmarking molecular property prediction methods on agrochemical compounds, facilitating advancements in both environmental science and cheminformatics. This makes it a valuable tool for both academic research and practical applications in bee conservation.
翻訳日:2024-09-04 18:30:43 公開日:2024-09-01
# REBEL:Regressing Relative Rewardsによる強化学習

REBEL: Reinforcement Learning via Regressing Relative Rewards ( http://arxiv.org/abs/2404.16767v3 )

ライセンス: Link先を確認
Zhaolin Gao, Jonathan D. Chang, Wenhao Zhan, Owen Oertell, Gokul Swamy, Kianté Brantley, Thorsten Joachims, J. Andrew Bagnell, Jason D. Lee, Wen Sun, (参考訳) 元々は連続的な制御問題のために開発されたが、PPO(Proximal Policy Optimization)は、生成モデルの微調整を含む様々な強化学習(RL)応用のワークホースとして登場した。 残念ながら、PPOは安定収束を可能にするために複数のヒューリスティック(例えば、値ネットワーク、クリップ)を必要としており、これらのコンポーネントの正確な実装に敏感であることで有名である。 これに対し、我々は後退して、生成モデルの時代における最小限のRLアルゴリズムがどのようなものになるのかを尋ねる。 本稿では、ポリシー最適化の問題をきれいに軽減し、2つの完了間の相対報酬をプロンプトに回帰させ、極めて軽量な実装を可能にするアルゴリズムREBELを提案する。 理論的には、自然ポリシーグラディエントのような基本的RLアルゴリズムはREBELの変種と見なせることが証明され、RLの文献における収束とサンプルの複雑さの観点から最も強力な理論的保証と一致させることができる。 REBELはまた、オフラインデータをきれいに組み込んで、実際によく見られる非推移的な好みを扱うように拡張することもできる。 経験的に、REBELは言語モデリングと画像生成に統一的なアプローチを提供し、PPOやDPOに近い性能で、PPOよりも実装が簡単で、計算効率が良い。 Llama-3-8B-インストラクションを微調整すると、REBELはAlpacaEval 2.0、MT-Bench、Open LLM Leaderboardで高いパフォーマンスを達成した。

While originally developed for continuous control problems, Proximal Policy Optimization (PPO) has emerged as the work-horse of a variety of reinforcement learning (RL) applications, including the fine-tuning of generative models. Unfortunately, PPO requires multiple heuristics to enable stable convergence (e.g. value networks, clipping), and is notorious for its sensitivity to the precise implementation of these components. In response, we take a step back and ask what a minimalist RL algorithm for the era of generative models would look like. We propose REBEL, an algorithm that cleanly reduces the problem of policy optimization to regressing the relative reward between two completions to a prompt in terms of the policy, enabling strikingly lightweight implementation. In theory, we prove that fundamental RL algorithms like Natural Policy Gradient can be seen as variants of REBEL, which allows us to match the strongest known theoretical guarantees in terms of convergence and sample complexity in the RL literature. REBEL can also cleanly incorporate offline data and be extended to handle the intransitive preferences we frequently see in practice. Empirically, we find that REBEL provides a unified approach to language modeling and image generation with stronger or similar performance as PPO and DPO, all while being simpler to implement and more computationally efficient than PPO. When fine-tuning Llama-3-8B-Instruct, REBEL achieves strong performance in AlpacaEval 2.0, MT-Bench, and Open LLM Leaderboard.
翻訳日:2024-09-04 18:30:43 公開日:2024-09-01
# DiffMap: 拡散モデルを用いたマップによるマップセグメンテーションの強化

DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model ( http://arxiv.org/abs/2405.02008v2 )

ライセンス: Link先を確認
Peijin Jia, Tuopu Wen, Ziang Luo, Mengmeng Yang, Kun Jiang, Zhiquan Lei, Xuewei Tang, Ziyuan Liu, Le Cui, Bo Zhang, Long Huang, Diange Yang, (参考訳) 高精細(HD)マップの構築は、自動運転を実現する上で重要な要件である。 近年,バードアイビュー(Bird's-Eye View,BEV)の認識の進歩を活用して,このニーズに対応するためにいくつかのマップセグメンテーションアルゴリズムが開発されている。 しかし、既存のモデルは、現実的で一貫性のあるセマンティックマップレイアウトを作成する際の課題に直面している。 1つの顕著な問題は、マップセグメンテーションマスクに固有の構造化前駆体の限られた利用である。 そこで本研究では,潜在拡散モデルを用いて,地図分割マスクの構造をモデル化する新しい手法DiffMapを提案する。 この手法を取り入れることで、既存のセグメンテーション手法の性能を大幅に向上することができ、セグメンテーション出力に存在する特定の構造誤差を効果的に修正することができる。 特に,提案モジュールは任意のマップセグメンテーションモデルにシームレスに統合することができ,セマンティック情報を正確に記述することができる。 さらに, 広域可視化解析により, 実世界の地図レイアウトをより正確に反映し, 生成した地図の品質向上に有効であることを示す。

Constructing high-definition (HD) maps is a crucial requirement for enabling autonomous driving. In recent years, several map segmentation algorithms have been developed to address this need, leveraging advancements in Bird's-Eye View (BEV) perception. However, existing models still encounter challenges in producing realistic and consistent semantic map layouts. One prominent issue is the limited utilization of structured priors inherent in map segmentation masks. In light of this, we propose DiffMap, a novel approach specifically designed to model the structured priors of map segmentation masks using latent diffusion model. By incorporating this technique, the performance of existing semantic segmentation methods can be significantly enhanced and certain structural errors present in the segmentation outputs can be effectively rectified. Notably, the proposed module can be seamlessly integrated into any map segmentation model, thereby augmenting its capability to accurately delineate semantic information. Furthermore, through extensive visualization analysis, our model demonstrates superior proficiency in generating results that more accurately reflect real-world map layouts, further validating its efficacy in improving the quality of the generated maps.
翻訳日:2024-09-04 18:30:43 公開日:2024-09-01
# グリーン関数零点の大域的異常

Global anomalies of Green's function zeros ( http://arxiv.org/abs/2405.08093v2 )

ライセンス: Link先を確認
Lei Su, Ivar Martin, (参考訳) 異常解析は、何十年もの間、非摂動物理学の研究において重要かつ強力なツールであった。 異常流入機構は、トポロジカルシステムにおけるバルク境界対応の直感的な解釈を提供する。 本研究では、対称性を保ったルッティンガー曲面を持つ系の大域的異常、すなわち、零エネルギーにおける運動量空間におけるフェルミオングリーンの函数 0 の多様体について、非局所有効理論によって記述する。 我々は、非局所的な有効理論は、いくつかの低エネルギー状態を統合する結果であると考えている。 積分された状態が異常に余分な寄与をしないと仮定すると、最も単純なラグランジアンがギャップのないディラックゼロと2極の変種、それらの大域的な異常、およびバルク境界対応を記述する。 次に、非フェルミ液体やルッティンガー面上の創発的隙間のない準粒子など、ディラック型のグリーン関数ゼロの可能な位相上の制約について考察する。 また、Golterman と Shamir (arXiv: 2311.12790) によって議論された非局所フェルミオン効果理論が対称的にギャップされた位相の出発点に適さない理由についてもいくつかの見解を述べる。

Anomaly analysis has been an important and powerful tool in studying nonperturbative physics for decades. The anomaly inflow mechanism provides an intuitive interpretation of the bulk-boundary correspondence in topological systems. In this work, we study global anomalies in systems with symmetry-preserving Luttinger surfaces, i.e. the manifolds of fermionic Green's function zeros in the momentum space at zero energy, described by nonlocal effective theories. We view the nonlocal effective theories as a result of integrating out some low energy states. Assuming that the states integrated out do not make extra contributions to the anomalies, we discuss the simplest Lagrangian describing a gapless Dirac zero and a two-pole variant, their global anomalies, and the bulk-boundary correspondence. We then consider the constraints on possible phases with Green's function zeros of Dirac type, such as non-Fermi liquids and emergent gapless quasiparticles on Luttinger surfaces. We also provide some perspectives on why the nonlocal fermionic effective theory discussed by Golterman and Shamir (arXiv: 2311.12790) is not a suitable starting point for a symmetrically gapped phase.
翻訳日:2024-09-04 18:20:55 公開日:2024-09-01
# 分解能非依存DNN画像透かしの達成:暗黙のニューラル表現の新しい視点

Achieving Resolution-Agnostic DNN-based Image Watermarking: A Novel Perspective of Implicit Neural Representation ( http://arxiv.org/abs/2405.08340v2 )

ライセンス: Link先を確認
Yuchen Wang, Xingyu Zhu, Guanhui Ye, Shiyao Zhang, Xuetao Wei, (参考訳) DNNベースの透かし手法は、急速に発展し、素晴らしいパフォーマンスを提供している。 最近の進歩は、可変解像度透かし問題を固定解像度透かし問題に還元することで、解像度に依存しない画像透かしを実現する。 しかし、そのような削減プロセスは、アーティファクトを導入し、ロバスト性も低い可能性がある。 この問題に対処するため,画像の暗黙的ニューラル表現(INR)を透かし,リゾリューションに依存しない画像ウォーターマーキング(RAIMark)フレームワークを提案する。 従来の手法とは異なり、画像画素の代わりに連続信号を直接透かし、解像度に依存しない透かしを実現することで、従来の縮小処理に依存しない。 正確には、任意の解像度の画像が与えられた場合、ターゲット画像にINRを適合させる。 連続信号として、そのようなINRをサンプリングして、可変解像度の画像を得ることができる。 次に、実装したINRを素早く微調整し、二項秘密メッセージに透かしを付けたINRを得る。 予め訓練された透かしデコーダは任意の解像度でサンプル画像から隠されたメッセージを抽出する。 InRを直接透かし、高ロバスト性を有する分解能非依存な透かしを実現する。 拡張実験により,提案手法は従来手法よりも性能が向上し,ビット精度が7%向上した。 特に、従来の手法は少なくとも1つのウォーターマーキング攻撃(JPEG、作物、再サイズなど)に対して脆弱であり、我々の手法は全てのウォーターマーキング攻撃に対して堅牢である。

DNN-based watermarking methods are rapidly developing and delivering impressive performances. Recent advances achieve resolution-agnostic image watermarking by reducing the variant resolution watermarking problem to a fixed resolution watermarking problem. However, such a reduction process can potentially introduce artifacts and low robustness. To address this issue, we propose the first, to the best of our knowledge, Resolution-Agnostic Image WaterMarking (RAIMark) framework by watermarking the implicit neural representation (INR) of image. Unlike previous methods, our method does not rely on the previous reduction process by directly watermarking the continuous signal instead of image pixels, thus achieving resolution-agnostic watermarking. Precisely, given an arbitrary-resolution image, we fit an INR for the target image. As a continuous signal, such an INR can be sampled to obtain images with variant resolutions. Then, we quickly fine-tune the fitted INR to get a watermarked INR conditioned on a binary secret message. A pre-trained watermark decoder extracts the hidden message from any sampled images with arbitrary resolutions. By directly watermarking INR, we achieve resolution-agnostic watermarking with increased robustness. Extensive experiments show that our method outperforms previous methods with significant improvements: averagely improved bit accuracy by 7%$\sim$29%. Notably, we observe that previous methods are vulnerable to at least one watermarking attack (e.g. JPEG, crop, resize), while ours are robust against all watermarking attacks.
翻訳日:2024-09-04 18:20:55 公開日:2024-09-01
# IC:手書き数式認識の高度化のための暗黙的文字支援学習

ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2405.09032v3 )

ライセンス: Link先を確認
Jianhua Zhu, Liangcai Gao, Wenqi Zhao, (参考訳) 従来のエンコーダ・デコーダ法では,大域的な情報をLaTeX$でモデル化することは困難である。 そこで本研究では,グローバルな表現情報をマイニングし,手書きの数学的表現認識を強化するための新しい手法であるImplicit Character-Aided Learning(ICAL)を提案する。 具体的には,暗黙的な文字列の予測を行うImplicit Character Construction Module (ICCM)を提案し,ICCMとデコーダの出力を融合するためにFusion Moduleを用いて修正した予測を生成する。 暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。 実験結果から, CROHME 2014/2016/2019データセットの表現認識率(ExpRate)を2.25\%/1.81\%/1.39\%向上し, 挑戦的なHME100kテストセットにおいて, 69.06\%を達成した。 私たちはGitHubでコードを公開しています。

Significant progress has been made in the field of handwritten mathematical expression recognition, while existing encoder-decoder methods are usually difficult to model global information in $LaTeX$. Therefore, this paper introduces a novel approach, Implicit Character-Aided Learning (ICAL), to mine the global expression information and enhance handwritten mathematical expression recognition. Specifically, we propose the Implicit Character Construction Module (ICCM) to predict implicit character sequences and use a Fusion Module to merge the outputs of the ICCM and the decoder, thereby producing corrected predictions. By modeling and utilizing implicit character information, ICAL achieves a more accurate and context-aware interpretation of handwritten mathematical expressions. Experimental results demonstrate that ICAL notably surpasses the state-of-the-art(SOTA) models, improving the expression recognition rate (ExpRate) by 2.25\%/1.81\%/1.39\% on the CROHME 2014/2016/2019 datasets respectively, and achieves a remarkable 69.06\% on the challenging HME100k test set. We make our code available on the GitHub: https://github.com/qingzhenduyu/ICAL
翻訳日:2024-09-04 18:20:55 公開日:2024-09-01
# ホップ代数からの一般化クラスター状態:非可逆対称性とホップテンソルネットワーク表現

Generalized cluster states from Hopf algebras: non-invertible symmetry and Hopf tensor network representation ( http://arxiv.org/abs/2405.09277v4 )

ライセンス: Link先を確認
Zhian Jia, (参考訳) クラスタ状態は、測定ベースの量子計算(MBQC)にとって重要なリソースである。 対称性保護トポロジカル秩序(SPT)を示すため、トポロジカルフェーズの研究にも重要な役割を果たしている。 ホップ代数に基づくクラスター状態の構成について述べる。 有限群値quditをホップ代数値quditに一般化し、ホップ代数の正則作用に基づく一般化されたパウリ-X作用素を導入し、ホップ代数上の既約表現作用に基づく一般化されたパウリ-Z作用素を導入することにより、ホップ量子の包括的理論を開発する。 ホップ四重項に対して非可逆対称性が自然に現れることを示す。 その後、クラスタグラフと呼ばれる二部グラフに対して、同一性状態と自明な表現状態はそれぞれ偶数頂点と奇数頂点に割り当てる。 エッジアンタングルを制御された正規動作として導入し、ホップクラスター状態の一般的な構成を提供する。 エッジエンタングルの可換性を確保するために,任意の三角形多様体に対してクラスタ格子を構築する手法を提案する。 構築を説明する例として,1dクラスタ状態の例を例に挙げる。 これはSPT相の有望な候補として機能するため、このシナリオのためにギャップ付きハミルトン多様体を構築し、その非可逆対称性について詳細な議論を行う。 1dクラスタ状態モデルが,1つの粗い境界と1つの滑らかな境界を持つ準1dホップ量子二重モデルと等価であることを示す。 また、対称性トポロジカル場理論によるホップクラスタ状態モデルのホップはしごモデルへの一般化についても論じる。 さらに,構造定数のテンソル表現とホップ代数の弦図を統合することにより,ホップクラスタ状態のホップテンソルネットワーク表現を導入する。

Cluster states are crucial resources for measurement-based quantum computation (MBQC). It exhibits symmetry-protected topological (SPT) order, thus also playing a crucial role in studying topological phases. We present the construction of cluster states based on Hopf algebras. By generalizing the finite group valued qudit to a Hopf algebra valued qudit and introducing the generalized Pauli-X operator based on the regular action of the Hopf algebra, as well as the generalized Pauli-Z operator based on the irreducible representation action on the Hopf algebra, we develop a comprehensive theory of Hopf qudits. We demonstrate that non-invertible symmetry naturally emerges for Hopf qudits. Subsequently, for a bipartite graph termed the cluster graph, we assign the identity state and trivial representation state to even and odd vertices, respectively. Introducing the edge entangler as controlled regular action, we provide a general construction of Hopf cluster states. To ensure the commutativity of the edge entangler, we propose a method to construct a cluster lattice for any triangulable manifold. We use the 1d cluster state as an example to illustrate our construction. As this serves as a promising candidate for SPT phases, we construct the gapped Hamiltonian for this scenario and provide a detailed discussion of its non-invertible symmetries. We demonstrate that the 1d cluster state model is equivalent to the quasi-1d Hopf quantum double model with one rough boundary and one smooth boundary. We also discuss the generalization of the Hopf cluster state model to the Hopf ladder model through symmetry topological field theory. Furthermore, we introduce the Hopf tensor network representation of Hopf cluster states by integrating the tensor representation of structure constants with the string diagrams of the Hopf algebra, which can be used to solve the Hopf cluster state model.
翻訳日:2024-09-04 18:20:55 公開日:2024-09-01
# フェデレート・プロンプト学習における一般化とパーソナライゼーションの調和

Harmonizing Generalization and Personalization in Federated Prompt Learning ( http://arxiv.org/abs/2405.09771v2 )

ライセンス: Link先を確認
Tianyu Cui, Hongxia Li, Jingya Wang, Ye Shi, (参考訳) フェデレート・プロンプト・ラーニング(FPL)は、大規模な事前学習型ビジョン・ランゲージ・モデル(VLM)を即時チューニングによるフェデレーション・ラーニングに組み込む。 VLMの伝達可能な表現と顕著な一般化能力は、連合学習の統合と高い互換性を持つ。 フェデレーション学習におけるデータの不均一性に対処するにはパーソナライズが必要であるが、クライアント全体への過剰なフォーカスは、モデルを効果的に一般化する能力を損なう可能性がある。 VLMの印象的な一般化能力を維持するためには、FPLのパーソナライゼーションと一般化のバランスをとることが不可欠である。 この課題に対処するため、我々は、CLIPの事前学習を取り入れたFedPGP(Federated Prompt Learning with CLIP Generalization and Low-rank Personalization)を提案する。 さらに、FedPGPは、知識指導とパーソナライズされた適応を同時に達成し、FPLにおけるパーソナライゼーションと一般化の調和したバランスを可能にする。 本研究は,FedPGPが一般化とパーソナライゼーションのバランスをとる上で優れていることを示すため,異種データを用いたカテゴリレベルのシナリオとドメインレベルのシナリオの両方において,ベース・ツー・ノーベルな一般化を探索する広範囲な実験を行う。

Federated Prompt Learning (FPL) incorporates large pre-trained Vision-Language models (VLM) into federated learning through prompt tuning. The transferable representations and remarkable generalization capacity of VLM make them highly compatible with the integration of federated learning. Addressing data heterogeneity in federated learning requires personalization, but excessive focus on it across clients could compromise the model's ability to generalize effectively. To preserve the impressive generalization capability of VLM, it is crucial to strike a balance between personalization and generalization in FPL. To tackle this challenge, we proposed Federated Prompt Learning with CLIP Generalization and low-rank Personalization (FedPGP), which employs pre-trained CLIP to provide knowledge-guidance on the global prompt for improved generalization and incorporates a low-rank adaptation term to personalize the global prompt. Further, FedPGP integrates a prompt-wise contrastive loss to achieve knowledge guidance and personalized adaptation simultaneously, enabling a harmonious balance between personalization and generalization in FPL. We conduct extensive experiments on various datasets to explore base-to-novel generalization in both category-level and domain-level scenarios with heterogeneous data, showing the superiority of FedPGP in balancing generalization and personalization.
翻訳日:2024-09-04 18:20:55 公開日:2024-09-01
# スピン系における安定化器レニーエントロピーのための非平衡量子モンテカルロアルゴリズム

Non-equilibrium Quantum Monte Carlo Algorithm for Stabilizer Rényi Entropy in Spin Systems ( http://arxiv.org/abs/2405.19577v2 )

ライセンス: Link先を確認
Zejun Liu, Bryan K. Clark, (参考訳) 量子マジック(英: Quantum magic, nonstabilizerness)は、安定化状態を持つ古典的なシミュラビリティに関する量子系の重要な特徴である。 本研究では,量子魔法の尺度の1つである安定化器R'enyiエントロピーを,サインプロブレム自由ハミルトニアンを持つスピン系で計算するための,新しい,効率的なアルゴリズムを提案する。 このアルゴリズムは、2つの分割関数のアンサンブル間の作業の経路積分の量子モンテカルロシミュレーションに基づいており、全ての空間次元と温度に適用される。 このアルゴリズムは, 有限温度と零温度の両方で1次元および2次元の逆場Isingモデル上で実演し, テンソルネットワークに基づくアルゴリズムと定量的に一致することを示す。 さらに,計算コストを解析し,解析的および数値的証拠の両方をシステムサイズの多項式として提供する。

Quantum magic, or nonstabilizerness, provides a crucial characterization of quantum systems, regarding the classical simulability with stabilizer states. In this work, we propose a novel and efficient algorithm for computing stabilizer R\'enyi entropy, one of the measures for quantum magic, in spin systems with sign-problem free Hamiltonians. This algorithm is based on the quantum Monte Carlo simulation of the path integral of the work between two partition function ensembles and it applies to all spatial dimensions and temperatures. We demonstrate this algorithm on the one and two dimensional transverse field Ising model at both finite and zero temperatures and show the quantitative agreements with tensor-network based algorithms. Furthermore, we analyze the computational cost and provide both analytical and numerical evidences for it to be polynomial in system size.
翻訳日:2024-09-04 18:00:58 公開日:2024-09-01
# 階層型Token-Semantic Audio Transformerアーキテクチャを用いたマルチマイクロホン音声認識

Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture ( http://arxiv.org/abs/2406.03272v2 )

ライセンス: Link先を確認
Ohad Cohen, Gershon Hazan, Sharon Gannot, (参考訳) ほとんどの感情認識システムの性能は、残響によって音声が汚染される現実の状況(「野生」シナリオ)で劣化する。 本研究では,SERアルゴリズムの性能劣化を緩和し,悪条件に対するより堅牢なシステムを構築するための新しい手法について検討する。 これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。 我々は,マルチチャンネルオーディオ入力を処理するために,最先端のトランスフォーマーモデルであるHTS-ATを採用する。 チャネル間の平均メル-スペクトログラムの評価と,パッチ埋め込み表現の要約の2つの戦略を評価する。 我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインと比較して優れた性能を実現する。

The performance of most emotion recognition systems degrades in real-life situations ('in the wild' scenarios) where the audio is contaminated by reverberation. Our study explores new methods to alleviate the performance degradation of SER algorithms and develop a more robust system for adverse conditions. We propose processing multi-microphone signals to address these challenges and improve emotion classification accuracy. We adopt a state-of-the-art transformer model, the HTS-AT, to handle multi-channel audio inputs. We evaluate two strategies: averaging mel-spectrograms across channels and summing patch-embedded representations. Our multi-microphone model achieves superior performance compared to single-channel baselines when tested on real-world reverberant environments.
翻訳日:2024-09-04 18:00:58 公開日:2024-09-01
# 量子暗黙的ニューラル表現

Quantum Implicit Neural Representations ( http://arxiv.org/abs/2406.03873v3 )

ライセンス: Link先を確認
Jiaming Zhao, Wenbo Qiao, Peng Zhang, Hui Gao, (参考訳) 暗黙の神経表現は、画像や音などの信号を表現するための強力なパラダイムとして登場した。 このアプローチは、ニューラルネットワークを用いて信号の暗黙的な機能をパラメータ化することを目的としている。 しかし、暗黙の関数を表す場合、ReLUベースの多層パーセプトロンのような従来のニューラルネットワークは、信号の高周波成分を正確にモデル化する上で困難に直面している。 最近の研究は、この制限を克服するためにフーリエニューラルネットワーク(FNN)の利用を探求し始めている。 本稿では,新しいFNNの量子一般化である量子暗黙表現ネットワーク(QIREN)を提案する。 さらに、理論解析により、QIRENは古典的なFNNに対して量子的優位性を持つことを示した。 最後に,信号表現,画像スーパーレゾリューション,画像生成タスクにおいて,最先端のSOTAモデルと比較してQIRENの優れた性能を示す実験を行った。 我々の研究は量子アドバンテージを暗黙のニューラルネットワーク表現に組み込むだけでなく、量子ニューラルネットワークの有望な応用方向を明らかにする。

Implicit neural representations have emerged as a powerful paradigm to represent signals such as images and sounds. This approach aims to utilize neural networks to parameterize the implicit function of the signal. However, when representing implicit functions, traditional neural networks such as ReLU-based multilayer perceptrons face challenges in accurately modeling high-frequency components of signals. Recent research has begun to explore the use of Fourier Neural Networks (FNNs) to overcome this limitation. In this paper, we propose Quantum Implicit Representation Network (QIREN), a novel quantum generalization of FNNs. Furthermore, through theoretical analysis, we demonstrate that QIREN possesses a quantum advantage over classical FNNs. Lastly, we conducted experiments in signal representation, image superresolution, and image generation tasks to show the superior performance of QIREN compared to state-of-the-art (SOTA) models. Our work not only incorporates quantum advantages into implicit neural representations but also uncovers a promising application direction for Quantum Neural Networks.
翻訳日:2024-09-04 18:00:58 公開日:2024-09-01
# BEAD: ドメイン間のバイアス評価

BEADs: Bias Evaluation Across Domains ( http://arxiv.org/abs/2406.04220v3 )

ライセンス: Link先を確認
Shaina Raza, Mizanur Rahman, Michael R. Zhang, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語処理(NLP)アプリケーションを大幅に強化している。 それでも、これらのモデルはトレーニングデータからバイアスを継承することが多い。 様々なデータセットが利用可能であるにもかかわらず、ほとんどが1つまたは2つのNLPタスク(典型的には分類または評価)に限定され、幅広いNLPタスクに対する包括的な評価が欠如している。 このギャップに対処するため,テキスト分類,トークン分類,バイアス定量化,良言語生成など,幅広いNLPタスクをサポートするために設計されたBias Evaluations Across Domains(BEADs)データセットを紹介した。 本論文の重要な焦点はBEADのゴールド・ラベル・サブセットであり、信頼性を確保するために専門家が検証したデータの重要な部分である。 BEADsは、分類と言語生成タスクを含む微調整とLLMの評価の両方にデータを提供する。 この結果から,BEADは,このデータセットを微調整した場合に,多くのバイアスを効果的に識別できることが示唆された。 また、言語品質を保ちながら、微調整の言語生成タスクに使用する際のバイアスを低減する。 以上の結果から, BEADが人口動態評価に使用される場合, LLMの人口統計学的バイアスが顕著であることが明らかとなった。 ベンチマークの結果は, 偏差識別のための微調整LDMの有効性と包括的偏差評価の必要性を強調した。 BEADを公開して、より責任のあるAI開発を促進します。 データセットはhttps://huggingface.co/datasets/shainar/BEAD でアクセスできる。

Recent advancements in large language models (LLMs) have greatly enhanced natural language processing (NLP) applications. Nevertheless, these models often inherit biases from their training data. Despite the availability of various datasets, most are limited to one or two NLP tasks (typically classification or evaluation) and lack comprehensive evaluations across a broader range of NLP tasks. To address this gap, we introduce the Bias Evaluations Across Domains (BEADs) dataset, designed to support a wide array of NLP tasks, including text classification, token classification, bias quantification, and benign language generation. A key focus of this paper is the gold label subset of BEADs, an important portion of the data verified by experts to ensure high reliability. BEADs provides data for both fine-tuning, including classification and language generation tasks, and for evaluating LLMs. Our findings indicate that BEADs effectively identifies numerous biases when fine-tuned on this dataset. It also reduces biases when used for fine-tuning language generation task, while preserving language quality. The results also reveal some prevalent demographic biases in LLMs when BEADs is used for evaluation in demographic task. The benchmarking results highlight the efficacy of fine-tuning LLMs for bias identification and the necessity of comprehensive bias evaluation. We make BEADs publicly available to promote more responsible AI development. The dataset can be accessed at https://huggingface.co/datasets/shainar/BEAD .
翻訳日:2024-09-04 18:00:58 公開日:2024-09-01
# MedFuzz: 医療質問応答における大規模言語モデルのロバスト性を探る

MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering ( http://arxiv.org/abs/2406.06573v2 )

ライセンス: Link先を確認
Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz, (参考訳) 大規模言語モデル (LLM) は、医学的質問応答ベンチマークにおいて優れたパフォーマンスを達成している。 しかし、高いベンチマーク精度は、実際の臨床環境にパフォーマンスが一般化することを意味するものではない。 医学的質問答えベンチマークは、LLMのパフォーマンスの定量化と整合した仮定に頼っているが、クリニックのオープンワールドには当てはまらないかもしれない。 しかし、LLMは、著名なベンチマークにおける非現実的な仮定に関係なく、LLMが実践的な条件に一般化するのに役立つ幅広い知識を学習する。 我々は, LLM の医学的質問応答ベンチマークの性能が, ベンチマークの仮定に違反した場合にどのように一般化するかを定量化する。 具体的には,MedFuzz(医療ファズリング)と呼ぶ逆法を提案する。 MedFuzz は LLM のコンバウンドを目的とした方法でベンチマークの問題を修正しようと試みている。 MedQAベンチマークで提示された患者特性に関する強い仮定をターゲットとして,本手法を実証する。 成功した"アタック"は、ベンチマーク項目を医療専門家を騙す可能性が低い方法で修正するが、にもかかわらず、LSMを正しい回答から間違った回答に変更させる"トリック"を行う。 さらに,攻撃を成功させることが統計的に重要であることを示すための置換試験手法を提案する。 我々は、"MedFuzzed"ベンチマークでのパフォーマンスの使用方法と、個々の攻撃の成功例を示します。 これらの手法は、LLMがより現実的な環境で堅牢に動作する能力についての洞察を提供することを約束している。

Large language models (LLM) have achieved impressive performance on medical question-answering benchmarks. However, high benchmark accuracy does not imply that the performance generalizes to real-world clinical settings. Medical question-answering benchmarks rely on assumptions consistent with quantifying LLM performance but that may not hold in the open world of the clinic. Yet LLMs learn broad knowledge that can help the LLM generalize to practical conditions regardless of unrealistic assumptions in celebrated benchmarks. We seek to quantify how well LLM medical question-answering benchmark performance generalizes when benchmark assumptions are violated. Specifically, we present an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz attempts to modify benchmark questions in ways aimed at confounding the LLM. We demonstrate the approach by targeting strong assumptions about patient characteristics presented in the MedQA benchmark. Successful "attacks" modify a benchmark item in ways that would be unlikely to fool a medical expert but nonetheless "trick" the LLM into changing from a correct to an incorrect answer. Further, we present a permutation test technique that can ensure a successful attack is statistically significant. We show how to use performance on a "MedFuzzed" benchmark, as well as individual successful attacks. The methods show promise at providing insights into the ability of an LLM to operate robustly in more realistic settings.
翻訳日:2024-09-04 17:51:09 公開日:2024-09-01
# 大規模言語モデルを用いた選好最適化アルゴリズムの探索

Discovering Preference Optimization Algorithms with and for Large Language Models ( http://arxiv.org/abs/2406.08414v2 )

ライセンス: Link先を確認
Chris Lu, Samuel Holt, Claudio Fanconi, Alex J. Chan, Jakob Foerster, Mihaela van der Schaar, Robert Tjarko Lange, (参考訳) オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。 通常、選好最適化は、手作業による凸損失関数を用いたオフライン教師付き学習タスクとしてアプローチされる。 これらの手法は理論的な洞察に基づくものであるが、人間の創造性によって本質的に制約されているため、損失関数の巨大な探索空間はいまだ検討されていない。 我々は、LLMによる客観的な探索を行い、人間の介入を伴わずに、新しい最先端の選好最適化アルゴリズムを自動で発見することで、この問題に対処する。 具体的には,以前に評価された性能指標に基づいて,LLMに新たな優先最適化損失関数の提案と実装を反復的に促す。 このプロセスは、以前は知られていなかった、パフォーマンスの高い選好最適化アルゴリズムの発見につながる。 DiscoPOP(Discovered Preference Optimization)は、ロジスティックな損失と指数的な損失を適応的にブレンドするアルゴリズムである。 実験は、DiscoPOPの最先端性能と、ホールドアウトタスクへの転送の成功を実証する。

Offline preference optimization is a key method for enhancing and controlling the quality of Large Language Model (LLM) outputs. Typically, preference optimization is approached as an offline supervised learning task using manually-crafted convex loss functions. While these methods are based on theoretical insights, they are inherently constrained by human creativity, so the large search space of possible loss functions remains under explored. We address this by performing LLM-driven objective discovery to automatically discover new state-of-the-art preference optimization algorithms without (expert) human intervention. Specifically, we iteratively prompt an LLM to propose and implement new preference optimization loss functions based on previously-evaluated performance metrics. This process leads to the discovery of previously-unknown and performant preference optimization algorithms. The best performing of these we call Discovered Preference Optimization (DiscoPOP), a novel algorithm that adaptively blends logistic and exponential losses. Experiments demonstrate the state-of-the-art performance of DiscoPOP and its successful transfer to held-out tasks.
翻訳日:2024-09-04 17:51:09 公開日:2024-09-01
# CancerLLM: がん領域における大規模言語モデル

CancerLLM: A Large Language Model in Cancer Domain ( http://arxiv.org/abs/2406.10459v2 )

ライセンス: Link先を確認
Mingchen Li, Jiatan Huang, Jeremy Yeung, Anne Blaes, Steven Johnson, Hongfang Liu, Hua Xu, Rui Zhang, (参考訳) 臨床カメラ70BやLlama3-OpenBioLLM70Bのような医療用大言語モデル(LLM)は、様々な医療用NLPタスクにおいて印象的な性能を示してきたが、がん領域に特化した大規模言語モデル(LLM)はいまだに存在しない。 さらに、これらのLSMは、典型的には数十億のパラメータを持ち、医療システムには計算コストがかかるが、本研究では、70億のパラメータとMistralスタイルのアーキテクチャを持つモデルであるCancerLLMを提案し、17種類のがんを対象とする2,676,642の臨床ノートと515,524の病理報告を事前訓練し、がんの表現型抽出、がん診断生成を含む3つのがん関連タスクを微調整した。 以上の結果から,ClancLLMは既存のLLMと比較して平均F1スコアが7.61 %向上した。 さらに、CASELLMは2つの提案された堅牢性テストベッドで他のモデルよりも優れている。 このことは、がんLLMが臨床AIシステムに効果的に適用され、がん分野における臨床研究と医療提供が促進されることを示している。

Medical Large Language Models (LLMs) such as ClinicalCamel 70B, Llama3-OpenBioLLM 70B have demonstrated impressive performance on a wide variety of medical NLP task.However, there still lacks a large language model (LLM) specifically designed for cancer domain. Moreover, these LLMs typically have billions of parameters, making them computationally expensive for healthcare systems.Thus, in this study, we propose CancerLLM, a model with 7 billion parameters and a Mistral-style architecture, pre-trained on 2,676,642 clinical notes and 515,524 pathology reports covering 17 cancer types, followed by fine-tuning on three cancer-relevant tasks, including cancer phenotypes extraction, and cancer diagnosis generation. Our evaluation demonstrated that CancerLLM achieves state-of-the-art results compared to other existing LLMs, with an average F1 score improvement of 7.61 %. Additionally, CancerLLM outperforms other models on two proposed robustness testbeds. This illustrates that CancerLLM can be effectively applied to clinical AI systems, enhancing clinical research and healthcare delivery in the field of cancer.
翻訳日:2024-09-04 17:51:09 公開日:2024-09-01
# LongRAG:Long-context LLMを用いた検索拡張ジェネレーションの実現

LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs ( http://arxiv.org/abs/2406.15319v3 )

ライセンス: Link先を確認
Ziyan Jiang, Xueguang Ma, Wenhu Chen, (参考訳) 従来のRAGフレームワークでは、基本的な検索ユニットは通常短い。 DPRのような一般的なレトリバーは、通常100ワードのウィキペディアの段落で機能する。 このような設計は、レトリバーが大きなコーパスを探索して 'needle' ユニットを見つけることを強制する。 対照的に、読者は短い検索単位からのみ回答を生成する必要がある。 不均衡な 'heavy' レトリバーと 'light' リーダの設計は、準最適パフォーマンスをもたらす可能性がある。 短時間のチャンク単位における文脈情報の喪失は、検索段階でハードネガティブを導入する可能性を高める可能性がある。 さらに、読者は最近のLLMの進歩の能力を十分に活用できないかもしれない。 本研究では,この不均衡を緩和するために,「ロングレトリバー」と「ロングレトリバー」からなる新しいフレームワークであるLongRAGを提案する。 NQとHotpotQAという2つのウィキペディアベースのデータセットにおいて、LongRAGは関連する文書をグループ化してウィキペディアのコーパス全体を4Kトークン単位に処理する。 ユニットサイズを増大させることで、ユニットの総数を大幅に削減する。 これにより、レトリバーの負担を大幅に低減し、トップユニットがわずかに(8単位未満)の強い検索性能が得られる。 トレーニングを必要とせずに、LongRAGはNQで62.7%、HotpotQAで64.3%のEMを達成している。 さらに、Wikipediaをベースとしない2つのデータセット、QasperとMultiFieldQA-enをテストする。 LongRAGは個々のドキュメントを小さな単位に分割するのではなく、単一の(長い)単位として処理する。 これにより、Qasperで25.9%、MultiFieldQA-enで57.5%のF1スコアが得られる。 本稿では,RAGと長期LLMを組み合わせるための今後のロードマップについて考察する。

In traditional RAG framework, the basic retrieval units are normally short. The common retrievers like DPR normally work with 100-word Wikipedia paragraphs. Such a design forces the retriever to search over a large corpus to find the `needle' unit. In contrast, the readers only need to generate answers from the short retrieved units. The imbalanced `heavy' retriever and `light' reader design can lead to sub-optimal performance. The loss of contextual information in the short, chunked units may increase the likelihood of introducing hard negatives during the retrieval stage. Additionally, the reader might not fully leverage the capabilities of recent advancements in LLMs. In order to alleviate the imbalance, we propose a new framework LongRAG, consisting of a `long retriever' and a `long reader'. In the two Wikipedia-based datasets, NQ and HotpotQA, LongRAG processes the entire Wikipedia corpus into 4K-token units by grouping related documents. By increasing the unit size, we significantly reduce the total number of units. This greatly reduces the burden on the retriever, resulting in strong retrieval performance with only a few (less than 8) top units. Without requiring any training, LongRAG achieves an EM of 62.7% on NQ and 64.3% on HotpotQA, which are on par with the (fully-trained) SoTA model. Furthermore, we test on two non-Wikipedia-based datasets, Qasper and MultiFieldQA-en. LongRAG processes each individual document as a single (long) unit rather than chunking them into smaller units. By doing so, we achieve an F1 score of 25.9% on Qasper and 57.5% on MultiFieldQA-en. Our study offers insights into the future roadmap for combining RAG with long-context LLMs.
翻訳日:2024-09-04 17:41:09 公開日:2024-09-01
# 独立成分推定のためのホースシュー型前駆体

Horseshoe-type Priors for Independent Component Estimation ( http://arxiv.org/abs/2406.17058v2 )

ライセンス: Link先を確認
Jyotishka Datta, Nicholas G. Polson, (参考訳) 独立成分推定(ICE)は、機能工学的抽出法として、現代の機械学習に多くの応用がある。 ホースシュー型プリエントは、予測最大化(EM)とマルコフ・チェイン・モンテカルロ(MCMC)アルゴリズムによる完全な後方サンプリングによるポイント推定を可能にするスケーラブルなアルゴリズムを提供するために使用される。 提案手法は,非線形特徴抽出とディープラーニングのためのフローベース手法にも適用できる。 また,条件付き後続法とエンベロープ法を用いて最適化する方法についても論じる。 この階層表現を通じて、多くの異なる推定手順を統一する。 数値的な例で方法論とアルゴリズムを解説する。 最後に,今後の研究の方向性について述べる。

Independent Component Estimation (ICE) has many applications in modern day machine learning as a feature engineering extraction method. Horseshoe-type priors are used to provide scalable algorithms that enables both point estimates via expectation-maximization (EM) and full posterior sampling via Markov Chain Monte Carlo (MCMC) algorithms. Our methodology also applies to flow-based methods for nonlinear feature extraction and deep learning. We also discuss how to implement conditional posteriors and envelope-based methods for optimization. Through this hierarchy representation, we unify a number of hitherto disparate estimation procedures. We illustrate our methodology and algorithms on a numerical example. Finally, we conclude with directions for future research.
翻訳日:2024-09-04 17:31:13 公開日:2024-09-01
# GRACE:ロバストディープフェイクビデオ検出のためのラプラシアンスムースティングによるグラフ規則化された注意的畳み込み

GRACE: Graph-Regularized Attentive Convolutional Entanglement with Laplacian Smoothing for Robust DeepFake Video Detection ( http://arxiv.org/abs/2406.19941v3 )

ライセンス: Link先を確認
Chih-Chung Hsu, Shao-Ning Chen, Mei-Hsuan Wu, Yi-Fang Wang, Chia-Ming Lee, Yi-Shiuan Chou, (参考訳) DeepFakeのビデオ操作技術がエスカレートし、深刻な脅威を生じさせるにつれ、効率的な検出戦略を開発する緊急の必要性が強調されている。 しかし、特定の問題は、顔画像が誤検出されていることであり、しばしば劣化したビデオや敵の攻撃が原因であり、予期せぬ時間的成果物がDeepFakeのビデオ検出技術の有効性を損なう可能性がある。 本稿では,グラフ畳み込みネットワークをベースとしたGRACE(Graph-Regularized Attentive Convolutional Entanglement)のパワーを生かしたDeepFakeビデオ検出手法を提案する。 まず、従来の畳み込みニューラルネットワークを使用して、ビデオ全体の時空間的機能を実行する。 そして、その空間的特徴と時間的特徴は、スパース制約のあるグラフを構築し、残されるノイズの多い顔列における有効な顔画像の本質的特徴を強制することにより相互に絡み合わされ、DeepFakeビデオ検出の安定性と性能が向上する。 さらに,グラフ畳み込みネットワークでは,特徴空間のノイズパターンを除去し,さらなる性能向上を図るため,グラフラプラシアン先行法が提案されている。 提案手法は, ノイズのある顔系列下でのDeepFakeビデオ検出において, 最先端の性能を実現することを実証するために, 総合実験を行った。 ソースコードはhttps://github.com/ming053l/GRACEで入手できる。

As DeepFake video manipulation techniques escalate, posing profound threats, the urgent need to develop efficient detection strategies is underscored. However, one particular issue lies with facial images being mis-detected, often originating from degraded videos or adversarial attacks, leading to unexpected temporal artifacts that can undermine the efficacy of DeepFake video detection techniques. This paper introduces a novel method for robust DeepFake video detection, harnessing the power of the proposed Graph-Regularized Attentive Convolutional Entanglement (GRACE) based on the graph convolutional network with graph Laplacian to address the aforementioned challenges. First, conventional Convolution Neural Networks are deployed to perform spatiotemporal features for the entire video. Then, the spatial and temporal features are mutually entangled by constructing a graph with sparse constraint, enforcing essential features of valid face images in the noisy face sequences remaining, thus augmenting stability and performance for DeepFake video detection. Furthermore, the Graph Laplacian prior is proposed in the graph convolutional network to remove the noise pattern in the feature space to further improve the performance. Comprehensive experiments are conducted to illustrate that our proposed method delivers state-of-the-art performance in DeepFake video detection under noisy face sequences. The source code is available at https://github.com/ming053l/GRACE.
翻訳日:2024-09-04 17:31:13 公開日:2024-09-01
# 産業規模データの事前学習による各種グラフ・タスク間のグラフ変換器の一般化

Generalizing Graph Transformers Across Diverse Graphs and Tasks via Pre-Training on Industrial-Scale Data ( http://arxiv.org/abs/2407.03953v2 )

ライセンス: Link先を確認
Yufei He, Zhenyu Hou, Yukuo Cen, Feng He, Xu Cheng, Bryan Hooi, (参考訳) グラフ事前学習は、小さなグラフ(例えば分子グラフ)のグラフレベルに集中したり、固定グラフ上のノード表現を学習したりしてきた。 グラフ事前トレーニングされたモデルを、産業シナリオにおいて数十億のノードを持つWebスケールのグラフに拡張する一方で、グラフやタスク間の負の転送を回避することは、依然として課題である。 我々は,未知の新しいノードや新しいグラフを予測できるインダクティブ能力を持つ汎用グラフ事前学習モデルを開発することを目指している。 本稿では、PGT(Pre-trained Graph Transformer)と呼ばれるスケーラブルなトランスフォーマーベースのグラフ事前学習フレームワークを提案する。 具体的には、バックボーンネットワークとしてフレキシブルでスケーラブルなグラフ変換器を設計する。 一方、マスク付きオートエンコーダアーキテクチャに基づいて、ノード特徴の再構成と局所構造の再構築の2つの事前学習タスクを設計する。 事前学習したデコーダを破棄するオリジナルのオートエンコーダアーキテクチャとは異なり,デコーダを機能拡張に利用する新しい戦略を提案する。 私たちはTencentのオンラインゲームデータにフレームワークをデプロイしました。 大規模な実験により、我々のフレームワークは5億4000万以上のノードと1200億のエッジを持つ実世界のWebスケールグラフで事前トレーニングを実行でき、下流タスクの異なる新しいグラフを効果的に一般化できることが示された。 我々はさらに、1100万のノードと160億のエッジからなる、公開可能なogbn-papers100Mデータセットの実験を行っている。 当社のフレームワークは,産業用データセットと公共用データセットの両方で最先端のパフォーマンスを実現すると同時に,スケーラビリティと効率性も享受する。

Graph pre-training has been concentrated on graph-level on small graphs (e.g., molecular graphs) or learning node representations on a fixed graph. Extending graph pre-trained models to web-scale graphs with billions of nodes in industrial scenarios, while avoiding negative transfer across graphs or tasks, remains a challenge. We aim to develop a general graph pre-trained model with inductive ability that can make predictions for unseen new nodes and even new graphs. In this work, we introduce a scalable transformer-based graph pre-training framework called PGT (Pre-trained Graph Transformer). Specifically, we design a flexible and scalable graph transformer as the backbone network. Meanwhile, based on the masked autoencoder architecture, we design two pre-training tasks: one for reconstructing node features and the other one for reconstructing local structures. Unlike the original autoencoder architecture where the pre-trained decoder is discarded, we propose a novel strategy that utilizes the decoder for feature augmentation. We have deployed our framework on Tencent's online game data. Extensive experiments have demonstrated that our framework can perform pre-training on real-world web-scale graphs with over 540 million nodes and 12 billion edges and generalizes effectively to unseen new graphs with different downstream tasks. We further conduct experiments on the publicly available ogbn-papers100M dataset, which consists of 111 million nodes and 1.6 billion edges. Our framework achieves state-of-the-art performance on both industrial datasets and public datasets, while also enjoying scalability and efficiency.
翻訳日:2024-09-04 17:31:13 公開日:2024-09-01
# T2VSafetyBench: テキスト・ビデオ生成モデルの安全性を評価する

T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models ( http://arxiv.org/abs/2407.05965v2 )

ライセンス: Link先を確認
Yibo Miao, Yifan Zhu, Yinpeng Dong, Lijia Yu, Jun Zhu, Xiao-Shan Gao, (参考訳) Soraの最近の発展は、テキスト・トゥ・ビデオ(T2V)世代の新しい時代へと繋がる。 これに伴い、セキュリティリスクに対する懸念が高まっている。 生成されたビデオには違法なコンテンツや非倫理的なコンテンツが含まれており、それらの安全性に関する包括的な定量的理解が欠如しており、信頼性と実践的な展開に挑戦している。 これまでの評価は、主にビデオ生成の品質に焦点を当てていた。 テキスト・ツー・イメージ・モデルのいくつかの評価は安全性を考慮しているが、より少ない側面をカバーし、ビデオ生成に固有のユニークな時間的リスクに対処しない。 この研究ギャップを埋めるために,テキスト・ツー・ビデオモデルの安全性クリティカルな評価を行うために設計された新しいベンチマークであるT2VSafetyBenchを紹介する。 ビデオ生成の安全性の12つの重要な側面を定義し、実世界のプロンプト、LLM生成プロンプト、ジェイルブレイク攻撃に基づくプロンプトを含む悪意のあるプロンプトデータセットを構築する。 評価結果から,いくつかの重要な知見が得られた。 1) 異なるモデルが様々な強みを示すため,すべての面において単一のモデルが優れているものはない。 2) GPT-4評価とマニュアルレビューの相関は概ね高い。 3)テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。 このことは、ビデオ生成の分野が急速に進歩するにつれて、安全リスクが急上昇し、ビデオ安全性の優先順位付けの急激さが浮き彫りになることを示している。 我々は、T2VSafetyBenchが、生成AI時代のビデオ生成の安全性をよりよく理解するための洞察を提供することを期待している。

The recent development of Sora leads to a new era in text-to-video (T2V) generation. Along with this comes the rising concern about its security risks. The generated videos may contain illegal or unethical content, and there is a lack of comprehensive quantitative understanding of their safety, posing a challenge to their reliability and practical deployment. Previous evaluations primarily focus on the quality of video generation. While some evaluations of text-to-image models have considered safety, they cover fewer aspects and do not address the unique temporal risk inherent in video generation. To bridge this research gap, we introduce T2VSafetyBench, a new benchmark designed for conducting safety-critical assessments of text-to-video models. We define 12 critical aspects of video generation safety and construct a malicious prompt dataset including real-world prompts, LLM-generated prompts and jailbreak attack-based prompts. Based on our evaluation results, we draw several important findings, including: 1) no single model excels in all aspects, with different models showing various strengths; 2) the correlation between GPT-4 assessments and manual reviews is generally high; 3) there is a trade-off between the usability and safety of text-to-video generative models. This indicates that as the field of video generation rapidly advances, safety risks are set to surge, highlighting the urgency of prioritizing video safety. We hope that T2VSafetyBench can provide insights for better understanding the safety of video generation in the era of generative AI.
翻訳日:2024-09-04 17:31:13 公開日:2024-09-01
# Flashアテンションによるパッケージングによるトレーニング効率の向上

Enhancing Training Efficiency Using Packing with Flash Attention ( http://arxiv.org/abs/2407.09105v6 )

ライセンス: Link先を確認
Achintya Kundu, Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti, Mayank Mishra, (参考訳) パディングは、各バッチの最長シーケンスの長さに合わせて、短いトレーニング例に特別なトークンを追加することで、LLMモデルのチューニングによく使用される。 これはバッチ処理の統一性を保証するが、計算に無関係なパディングトークンを含め、GPUリソースを浪費することで非効率を導入する。 Hugging Face SFTトレーナーは常に、パッキングを使用して複数のトレーニング例を組み合わせるオプションを提供しており、GPUリソースの最大利用を可能にしている。 しかし、これまでは各満員のトレーニング例の適切なマスキングを提供していなかった。 この機能はHugging Face Transformers 4.44に追加された。 この新機能を解析し、さまざまな種類のパッキングにまたがるメリットを示します。

Padding is often used in tuning LLM models by adding special tokens to shorter training examples to match the length of the longest sequence in each batch. While this ensures uniformity for batch processing, it introduces inefficiencies by including irrelevant padding tokens in the computation and wastes GPU resources. Hugging Face SFT trainer has always offered the option to use packing to combine multiple training examples, allowing for maximal utilization of GPU resources. However, up till now, it did not offer proper masking of each packed training example. This capability has been added to Hugging Face Transformers 4.44. We analyse this new feature and show the benefits across different variations of packing.
翻訳日:2024-09-04 17:21:21 公開日:2024-09-01
# AIシアターのオスカー: 言語モデルによるロールプレイングに関する調査

The Oscars of AI Theater: A Survey on Role-Playing with Language Models ( http://arxiv.org/abs/2407.11484v6 )

ライセンス: Link先を確認
Nuo Chen, Yan Wang, Yang Deng, Jia Li, (参考訳) 本研究では,言語モデルを用いたロールプレイングの急成長分野を探求し,初期のペルソナモデルから,大規模言語モデル(LLM)によって促進される高度なキャラクタ駆動シミュレーションへの展開に焦点を当てた。 当初はモデル能力の制限により単純なペルソナ一貫性に制限されていたため、ロールプレイングタスクは、キャラクターの一貫性、行動アライメント、全体的な魅力を含む複雑なキャラクター描写を受け入れるように拡張された。 データやモデル,アライメント,エージェントアーキテクチャ,評価など,これらのシステムを設計する上で重要なコンポーネントを包括的に分類する。 この調査は、動的な個人プロファイルの管理やハイレベルなペルソナの整合性の実現など、現在の方法論や課題を概説するだけでなく、ロールプレイングアプリケーションの深さと現実性を改善するための今後の研究の道筋も示唆している。 目標は、現在の方法論の構造化された概要を提供し、改善のための潜在的な領域を特定することで、将来の研究を導くことである。 関連リソースとドキュメントはhttps://github.com/nuochenpku/Awesome-Role-Play-Papers.comで公開されている。

This survey explores the burgeoning field of role-playing with language models, focusing on their development from early persona-based models to advanced character-driven simulations facilitated by Large Language Models (LLMs). Initially confined to simple persona consistency due to limited model capabilities, role-playing tasks have now expanded to embrace complex character portrayals involving character consistency, behavioral alignment, and overall attractiveness. We provide a comprehensive taxonomy of the critical components in designing these systems, including data, models and alignment, agent architecture and evaluation. This survey not only outlines the current methodologies and challenges, such as managing dynamic personal profiles and achieving high-level persona consistency but also suggests avenues for future research in improving the depth and realism of role-playing applications. The goal is to guide future research by offering a structured overview of current methodologies and identifying potential areas for improvement. Related resources and papers are available at https://github.com/nuochenpku/Awesome-Role-Play-Papers.
翻訳日:2024-09-04 17:21:21 公開日:2024-09-01
# LoAS:デュアルスパーススパイクニューラルネットワークのためのフルテンポラルパラレルデータフロー

LoAS: Fully Temporal-Parallel Dataflow for Dual-Sparse Spiking Neural Networks ( http://arxiv.org/abs/2407.14073v3 )

ライセンス: Link先を確認
Ruokai Yin, Youngeun Kim, Di Wu, Priyadarshini Panda, (参考訳) スパイキングニューラルネットワーク(SNN)は、リソースに制約のあるエッジデバイスを駆動する可能性から、過去10年間で大きな研究注目を集めている。 既存のSNNアクセラレーターはスパーススパイクを高効率で処理できるが、スパースウェイトを持つSNNでは、二重スパースシティの機会は少ない。 本研究では,スパース行列-スパース行列乗算(spMspM)のコア演算に着目し,二重スパースSNNの高速化について検討する。 両スパースニューラルネットワーク(ANN)用に設計された既存のspMspMアクセラレータ上で、双スパースSNNを鼻で動作させることで、準最適効率を示す。 主な課題は、SNNの自然な性質である処理タイムステップが、ANNspMspMに余分なループを導入し、レイテンシが長くなり、メモリトラフィックが増加することだ。 この問題に対処するために、時間ステップ間のデータ移動と、二重スパースSNNのエンドツーエンド遅延を最小化する、完全時相並列(FTP)データフローを提案する。 FTPデータフローの効率を最大化するために,単一ビットのスパイクを効率よく圧縮し,連続的なメモリアクセスを確保するFTPフレンドリーなスパイク圧縮機構を提案する。 さらに、スループットのペナルティがほとんどない高価なプレフィックスサム回路のコストを低減できるFTPフレンドリーなインナージョイント回路を提案する。 FTPデータフローのすべてのテクニックは、デュアルスパースSNN用の低遅延推論加速器であるLoASにカプセル化されている。 FTPデータフロー、圧縮、インナージョイントでは、LOAS上でデュアルスパースSNNワークロードを実行すると、以前のデュアルスパースアクセラレーターで実行する場合と比較して、大幅なスピードアップ(最大8.51\times$)とエネルギー削減(最大3.68\times$)が示される。

Spiking Neural Networks (SNNs) have gained significant research attention in the last decade due to their potential to drive resource-constrained edge devices. Though existing SNN accelerators offer high efficiency in processing sparse spikes with dense weights, opportunities are less explored in SNNs with sparse weights, i.e., dual-sparsity. In this work, we study the acceleration of dual-sparse SNNs, focusing on their core operation, sparse-matrix-sparse-matrix multiplication (spMspM). We observe that naively running a dual-sparse SNN on existing spMspM accelerators designed for dual-sparse Artificial Neural Networks (ANNs) exhibits sub-optimal efficiency. The main challenge is that processing timesteps, a natural property of SNNs, introduces an extra loop to ANN spMspM, leading to longer latency and more memory traffic. To address the problem, we propose a fully temporal-parallel (FTP) dataflow, which minimizes both data movement across timesteps and the end-to-end latency of dual-sparse SNNs. To maximize the efficiency of FTP dataflow, we propose an FTP-friendly spike compression mechanism that efficiently compresses single-bit spikes and ensures contiguous memory access. We further propose an FTP-friendly inner-join circuit that can lower the cost of the expensive prefix-sum circuits with almost no throughput penalty. All the above techniques for FTP dataflow are encapsulated in LoAS, a Low-latency inference Accelerator for dual-sparse SNNs. With FTP dataflow, compression, and inner-join, running dual-sparse SNN workloads on LoAS demonstrates significant speedup (up to $8.51\times$) and energy reduction (up to $3.68\times$) compared to running it on prior dual-sparse accelerators.
翻訳日:2024-09-04 17:11:28 公開日:2024-09-01
# CardioLab: 心電図の特徴による検査値の推定 -- 探索的研究

CardioLab: Laboratory Values Estimation from Electrocardiogram Features -- An Exploratory Study ( http://arxiv.org/abs/2407.18629v2 )

ライセンス: Link先を確認
Juan Miguel Lopez Alcaraz, Nils Strodthoff, (参考訳) 導入:実験室の価値は、医学診断の基盤となっているが、遅いターンアラウンド時間と高いコストに悩まされており、単一の時点の情報しか提供できない。 心電図(ECG)のような非侵襲的データからの検査値の連続推定は、医療モニタリングにおいて重要なフロンティアとなる。 変革の可能性にもかかわらず、この領域は医療コミュニティ内では比較的過小評価されている。 方法:本研究では,木系モデル(XGBoost)を用いて,ECGの特徴と患者集団から実験室値の推測の可能性を検討するために,公開データセット(MIMIC-IV-ECG)を用いた。 予測タスクを,実験室の値が低いか高いかを予測する二項予測問題として定義する。 モデルパフォーマンスはAUROCを使って評価できる。 結果: 異なる臓器系に関する実験室の値が, 小さいが包括的特徴セットに基づいて推定できることが示唆された。 医療モニタリングにおける心電図による評価の臨床的有用性と一般化性について,さらなる研究と検証が求められている一方で,心電図データを用いた検査値推定手法の今後の研究の基盤となるものと考えられる。 このような進歩は予測医療アプリケーションに革命をもたらすと約束しており、より速く、非侵襲的で、より安価な患者モニタリング手段を提供する。

Introduction: Laboratory value represents a cornerstone of medical diagnostics, but suffers from slow turnaround times, and high costs and only provides information about a single point in time. The continuous estimation of laboratory values from non-invasive data such as electrocardiogram (ECG) would therefore mark a significant frontier in healthcare monitoring. Despite its transformative potential, this domain remains relatively underexplored within the medical community. Methods: In this preliminary study, we used a publicly available dataset (MIMIC-IV-ECG) to investigate the feasibility of inferring laboratory values from ECG features and patient demographics using tree-based models (XGBoost). We define the prediction task as a binary prediction problem of predicting whether the lab value falls into low or high abnormalities. The model performance can then be assessed using AUROC. Results: Our findings demonstrate promising results in the estimation of laboratory values related to different organ systems based on a small yet comprehensive set of features. While further research and validation are warranted to fully assess the clinical utility and generalizability of ECG-based estimation in healthcare monitoring, our findings lay the groundwork for future investigations into approaches to laboratory value estimation using ECG data. Such advancements hold promise for revolutionizing predictive healthcare applications, offering faster, non-invasive, and more affordable means of patient monitoring.
翻訳日:2024-09-04 17:11:28 公開日:2024-09-01
# グラフ正規化を用いた表現学習によるダウンリンクCCM推定

Downlink CCM Estimation via Representation Learning with Graph Regularization ( http://arxiv.org/abs/2407.18865v2 )

ライセンス: Link先を確認
Melih Can Zerin, Elif Vural, Ali Özgür Yılmaz, (参考訳) 本稿では,一様線形アレイ (ULA) アンテナ構造を有する基地局 (BS) を用いたFDD(Multiple-Input multiple-output) 通信システムにおけるダウンリンクチャネル共分散行列 (CCM) 推定アルゴリズムを提案する。 本稿では,UL CCM を DL CCM にマッピング関数でマッピングする環境について考察する。 まず,高推定性能を実現するために,写像関数のリプシッツ正則性の重要性を示す写像関数を構築し,非線形埋め込みを学習する理論的誤差解析を行う。 そこで,この理論に基づいて,推定問題の解として表現学習アルゴリズムを提案する。そこでは,ガウス系RBFカーネル補間器を選択して,UL CCMをDLにマップする。 提案アルゴリズムは、トレーニングデータセットにおけるDL CCMとUL CCMサンプル間の回帰モデルに適合し、UL CCM空間におけるデータの局所的な幾何学的構造を保ちながら、我々の理論的な知見に基づき、マッピング関数のリプシッツ連続性を明示的に制御する目的関数の最適化に基づく。 提案アルゴリズムは,シミュレーションで示される3つの誤差指標を用いて,ベンチマーク手法を超越する。

In this paper, we propose an algorithm for downlink (DL) channel covariance matrix (CCM) estimation for frequency division duplexing (FDD) massive multiple-input multiple-output (MIMO) communication systems with base station (BS) possessing a uniform linear array (ULA) antenna structure. We consider a setting where the UL CCM is mapped to DL CCM by a mapping function. We first present a theoretical error analysis of learning a nonlinear embedding by constructing a mapping function, which points to the importance of the Lipschitz regularity of the mapping function for achieving high estimation performance. Then, based on the theoretical ground, we propose a representation learning algorithm as a solution for the estimation problem, where Gaussian RBF kernel interpolators are chosen to map UL CCMs to their DL counterparts. The proposed algorithm is based on the optimization of an objective function that fits a regression model between the DL CCM and UL CCM samples in the training dataset and preserves the local geometric structure of the data in the UL CCM space, while explicitly regulating the Lipschitz continuity of the mapping function in light of our theoretical findings. The proposed algorithm surpasses benchmark methods in terms of three error metrics as shown by simulations.
翻訳日:2024-09-04 17:11:28 公開日:2024-09-01
# 医用画像セグメンテーションの促進:拡散変換器を用いた形態駆動学習

Advancing Medical Image Segmentation: Morphology-Driven Learning with Diffusion Transformer ( http://arxiv.org/abs/2408.00347v2 )

ライセンス: Link先を確認
Sungmin Kang, Jaeha Song, Jihie Kim, (参考訳) 医学画像の形態的構造を理解し,興味領域や異常領域を正確に区分することは診断を助ける重要な課題である。 しかし, 医用画像の特徴は明瞭なセグメンテーションを困難にしており, 高いコストと時間を要するラベル付け作業は, 粗い接地事実の表現に繋がる。 これらの問題に直面して,ノイズの存在下での頑健なセグメンテーションのための新しい拡散変圧器セグメンテーション(DTS)モデルを提案する。 本稿では,トランスフォーマアーキテクチャを応用した実験により,自己注意によるグローバルな依存性を捉えることで,支配的なデノナイズU-Netエンコーダに代わる方法を提案する。 さらに,k-neighborラベルの平滑化,逆境界注意,形態学学習による自己教師型学習を提案し,複雑な構造を識別する能力を向上させる。 画像の形態的表現を解析する本モデルでは,CT,MRI,病変画像など,様々な画像モダリティにおいて,従来のモデルよりも良好な結果が得られた。

Understanding the morphological structure of medical images and precisely segmenting the region of interest or abnormality is an important task that can assist in diagnosis. However, the unique properties of medical imaging make clear segmentation difficult,and the high cost and time-consuming task of labeling leads to a coarse-grained representation of ground truth. Facing with these problems, we propose a novel Diffusion Transformer Segmentation (DTS) model for robust segmentation in the presence of noise. We propose an alternative to the dominant Denoising U-Net encoder through experiments applying a transformer architecture, which captures global dependency through self-attention. Additionally, we propose k-neighbor label smoothing, reverse boundary attention, and self-supervised learning with morphology-driven learning to improve the ability to identify complex structures. Our model, which analyzes the morphological representation of images, shows better results than the previous models in various medical imaging modalities, including CT, MRI, and lesion images.
翻訳日:2024-09-04 17:11:28 公開日:2024-09-01
# サブグラフゲームにおける低純度量子連成構造生成に向けて

Towards Less Greedy Quantum Coalition Structure Generation in Induced Subgraph Games ( http://arxiv.org/abs/2408.04366v2 )

ライセンス: Link先を確認
Jonas Nüßlein, Daniëlle Schuman, David Bucher, Naeimeh Mohseni, Kumar Ghosh, Corey O'Meara, Giorgio Cortiana, Claudia Linnhoff-Popien, (参考訳) 100%再生可能エネルギーへの移行には、マイクログレードと呼ばれる有能なプロシューマーのサブセットに分割するなど、エネルギーネットワークを管理する新しい技術が必要である。 これはNP完全問題であり、非方向の完全重み付きグラフを、内部重みの和を最大化する方法でサブグラフに分割する必要がある。 最近、Venkatesh et al (arXiv:2212.11372)は、GCS-Qと呼ばれる量子アニーリング(QA)ベースの反復アルゴリズムを発表した。 この問題に対するQAの適用は期待できるように思えるが、これは欲張りのアルゴリズムであり、この研究はより欲求の少ないQAベースのアプローチを提案し、いずれもソリューションの品質の観点からGCS-Qより優れているかどうかを調査する。 従来のQBSolvソフトウェアをソルバとして使用する場合、ほとんどの場合、D-Waveハードウェアではまだそうではないことが分かっています。 特に,4分割反復R-QUBOと呼ぶアルゴリズムが潜在的な可能性を示し,実行時の問題サイズに優しくスケールしながら,データセット内のすべての最適化を見つけ出す。 したがって、QAハードウェアが時間とともによりノイズ耐性を持つようになると仮定して、この問題に対する量子的アプローチに関する将来の研究は興味深いものと思われる。

The transition to 100% renewable energy requires new techniques for managing energy networks, such as dividing them into sensible subsets of prosumers called micro-grids. Doing so in an optimal manner is a difficult optimization problem, as it can be abstracted to the Coalition Structure Generation problem in Induced Subgraph Games, a NP-complete problem which requires dividing an undirected, complete, weighted graph into subgraphs in a way that maximizes the sum of their internal weights. Recently, Venkatesh et al. (arXiv:2212.11372) published a Quantum Annealing (QA)-based iterative algorithm called GCS-Q, which they claim to be the best currently existing solver for the problem in terms of runtime complexity. As this algorithm makes the application of QA to the problem seem promising, but is a greedy one, this work proposes several less greedy QA-based approaches and investigates whether any of them can outperform GCS-Q in terms of solution quality. While we find that this is not the case yet on D-Wave hardware, most of them do when using the classical QBSolv software as a solver. Especially an algorithm we call 4-split iterative R-QUBO shows potential here, finding all optima in our dataset while scaling favorably with the problem size in terms of runtime. Thus, it appears to be interesting for future research on quantum approaches to the problem, assuming QA hardware will become more noise-resilient over time.
翻訳日:2024-09-04 17:01:34 公開日:2024-09-01
# ブラウザ履歴からのライブチャットインテントの予測

Forecasting Live Chat Intent from Browsing History ( http://arxiv.org/abs/2408.04668v2 )

ライセンス: Link先を確認
Se-eun Yoon, Ahmad Bin Rabiah, Zaid Alibadi, Surya Kallumadi, Julian McAuley, (参考訳) 顧客は、製品の詳細やリターンの要求など、さまざまな意図を持ったオンラインライブチャットエージェントに連絡を取る。 本稿では,閲覧履歴からユーザ意図を予測する問題を提案し,それを2段階のアプローチで解決する。 第1段階は、ユーザのブラウジング履歴を高レベルなインテントカテゴリに分類する。 ここでは、各ブラウジング履歴をページ属性のテキストシーケンスとして表現し、グランドトゥルースクラスラベルを用いて事前学習したトランスフォーマーを微調整する。 第2段階は、閲覧履歴と予測意図クラスを備えた大きな言語モデル(LLM)を提供し、きめ細かいインテントを生成する。 自動評価には,人間の判断と密接に一致した,生成された意図と地道意図の類似性を判断するために,別個のLCMを用いる。 我々の2段階のアプローチは、分類段階を伴わない意図の生成に比べ、大きなパフォーマンス向上をもたらす。

Customers reach out to online live chat agents with various intents, such as asking about product details or requesting a return. In this paper, we propose the problem of predicting user intent from browsing history and address it through a two-stage approach. The first stage classifies a user's browsing history into high-level intent categories. Here, we represent each browsing history as a text sequence of page attributes and use the ground-truth class labels to fine-tune pretrained Transformers. The second stage provides a large language model (LLM) with the browsing history and predicted intent class to generate fine-grained intents. For automatic evaluation, we use a separate LLM to judge the similarity between generated and ground-truth intents, which closely aligns with human judgments. Our two-stage approach yields significant performance gains compared to generating intents without the classification stage.
翻訳日:2024-09-04 17:01:34 公開日:2024-09-01
# 手術用VQLA++:ロボット手術におけるロバスト視覚質問応答の校正のための対人コントラスト学習

Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery ( http://arxiv.org/abs/2408.04958v2 )

ライセンス: Link先を確認
Long Bai, Guankun Wang, Mobarakol Islam, Lalithkumar Seenivasan, An Wang, Hongliang Ren, (参考訳) 医用視覚質問応答(VQA)は、視覚情報と臨床的意思決定のギャップを埋め、医師が臨床画像やビデオから理解を抽出することを可能にする。 特に、外科的VQAは、正確な診断、効果的な教育、臨床介入を補助し、外科的データの解釈を強化することができる。 しかしながら、VQAモデルが与えられた質問に対応する関心領域を視覚的に示すことができないため、手術シーンの理解が不十分になる。 そこで本研究では,外科的画像に関する特定のクエリに対して,精密かつコンテキスト認識の応答を行うために,外科的視覚的質問応答(VQLA)を提案する。 さらに, 手術シナリオにおける安全性の強い要求, 画像の取得・送信における破壊の可能性に対処するため, マルチモーダル情報を効果的に統合・整合するCalibrated Co-Attention Gated Vision-Language (C$^2$G-ViL) という新しい手法を提案する。 さらに,対戦型サンプルベースのコントラスト学習戦略を活用して,性能とロバスト性を高める。 また、EdoVis-18-VQLAとEdoVis-17-VQLAデータセットを拡張して、データの範囲と適用範囲を広げています。 上記のデータセットに関する大規模な実験は、我々のソリューションの顕著な性能と堅牢性を示している。 われわれのソリューションは、現実世界のイメージの腐敗を効果的に防ぐことができる。 そこで本提案手法は, 外科教育, 患者ケア, 手術成績の向上を支援する有効なツールとして有効である。

Medical visual question answering (VQA) bridges the gap between visual information and clinical decision-making, enabling doctors to extract understanding from clinical images and videos. In particular, surgical VQA can enhance the interpretation of surgical data, aiding in accurate diagnoses, effective education, and clinical interventions. However, the inability of VQA models to visually indicate the regions of interest corresponding to the given questions results in incomplete comprehension of the surgical scene. To tackle this, we propose the surgical visual question localized-answering (VQLA) for precise and context-aware responses to specific queries regarding surgical images. Furthermore, to address the strong demand for safety in surgical scenarios and potential corruptions in image acquisition and transmission, we propose a novel approach called Calibrated Co-Attention Gated Vision-Language (C$^2$G-ViL) embedding to integrate and align multimodal information effectively. Additionally, we leverage the adversarial sample-based contrastive learning strategy to boost our performance and robustness. We also extend our EndoVis-18-VQLA and EndoVis-17-VQLA datasets to broaden the scope and application of our data. Extensive experiments on the aforementioned datasets demonstrate the remarkable performance and robustness of our solution. Our solution can effectively combat real-world image corruption. Thus, our proposed approach can serve as an effective tool for assisting surgical education, patient care, and enhancing surgical outcomes.
翻訳日:2024-09-04 16:51:50 公開日:2024-09-01
# AI科学者:完全に自動化されたオープンな科学発見を目指す

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery ( http://arxiv.org/abs/2408.06292v3 )

ライセンス: Link先を確認
Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, David Ha, (参考訳) 人工知能の大きな課題の1つは、科学的研究を行い、新しい知識を発見することができるエージェントを開発することである。 フロンティアモデルはすでに人間の科学者の補助として使われており、アイデアのブレインストーミング、コードの作成、予測といったタスクも行われているが、それでも科学プロセスのごく一部しか行っていない。 本稿では、フロンティア大言語モデルが独立して研究を行い、研究結果を伝達することのできる、完全自動科学的発見のための最初の包括的枠組みを提案する。 我々は、新しい研究アイデアを生成し、コードを書き、実験を実行し、結果を視覚化し、完全な科学論文を書き、その結果を記述し、シミュレーションされたレビュープロセスを実行し、評価を行うAI Scientistを紹介します。 原則として、このプロセスは、人間の科学コミュニティのように行動しながら、オープンな方法でアイデアを反復的に発展させることができる。 我々は、拡散モデリング、トランスフォーマーベース言語モデリング、学習力学の3つの異なるサブフィールドに適用することで、その汎用性を実証する。 それぞれのアイデアは、紙1枚につき15ドル以下で、完全な紙に実装され、開発される。 生成した論文を評価するため,自動レビュアーを設計,検証し,紙のスコアを評価する上で,ほぼ人間に近い性能を発揮することを示す。 AI Scientistは、私たちの自動レビュアーが判断するように、トップクラスの機械学習カンファレンスで、受け入れ閾値を超える論文を作成できる。 このアプローチは、機械学習における科学的発見の新しい時代の始まりである。AIエージェントの変革的なメリットをAI自体の研究プロセス全体にもたらすこと、そして、無限に手頃な価格の創造性とイノベーションが、世界の最も困難な問題に解き放たれる世界へと私たちを近づけること。 私たちのコードはhttps://github.com/SakanaAI/AI-Scientistでオープンソース化されています

One of the grand challenges of artificial general intelligence is developing agents capable of conducting scientific research and discovering new knowledge. While frontier models have already been used as aides to human scientists, e.g. for brainstorming ideas, writing code, or prediction tasks, they still conduct only a small part of the scientific process. This paper presents the first comprehensive framework for fully automatic scientific discovery, enabling frontier large language models to perform research independently and communicate their findings. We introduce The AI Scientist, which generates novel research ideas, writes code, executes experiments, visualizes results, describes its findings by writing a full scientific paper, and then runs a simulated review process for evaluation. In principle, this process can be repeated to iteratively develop ideas in an open-ended fashion, acting like the human scientific community. We demonstrate its versatility by applying it to three distinct subfields of machine learning: diffusion modeling, transformer-based language modeling, and learning dynamics. Each idea is implemented and developed into a full paper at a cost of less than $15 per paper. To evaluate the generated papers, we design and validate an automated reviewer, which we show achieves near-human performance in evaluating paper scores. The AI Scientist can produce papers that exceed the acceptance threshold at a top machine learning conference as judged by our automated reviewer. This approach signifies the beginning of a new era in scientific discovery in machine learning: bringing the transformative benefits of AI agents to the entire research process of AI itself, and taking us closer to a world where endless affordable creativity and innovation can be unleashed on the world's most challenging problems. Our code is open-sourced at https://github.com/SakanaAI/AI-Scientist
翻訳日:2024-09-04 16:51:50 公開日:2024-09-01
# Ex3: Extracting, Excelsior and Expandingによる自動新規作成

Ex3: Automatic Novel Writing by Extracting, Excelsior and Expanding ( http://arxiv.org/abs/2408.08506v2 )

ライセンス: Link先を確認
Lei Huang, Jiaming Guo, Guanhua He, Xishan Zhang, Rui Zhang, Shaohui Peng, Shaoli Liu, Tianshi Chen, (参考訳) 人工知能を使って小説などの長期的なテキストを生成することは、常に困難である。 一般的なアプローチは、大きな言語モデル(LLM)を使用して、最初に計画し、次に書く階層的なフレームワークを構築することである。 生成された小説が十分な長さに達するという事実にもかかわらず、彼らのプロットに論理的一貫性と魅力が乏しく、性格や出来事の描写に欠陥があり、最終的に全体の物語の質を損なうことになる。 本稿では,Excelsior と Expanding を抽出する手法を提案する。 Ex3は、当初、生の新規データから構造情報を抽出する。 この構造情報を新しいデータと組み合わせることで、指示追従データセットを慎重に作成する。 このデータセットを使用してLLMを微調整し、優れた生成性能を実現する。 最終段階では、任意に長い小説の生成を容易にするために、木のような展開方法が展開される。 以前の手法に対する評価は、高品質の長編小説を制作するEx3の能力を示している。

Generating long-term texts such as novels using artificial intelligence has always been a challenge. A common approach is to use large language models (LLMs) to construct a hierarchical framework that first plans and then writes. Despite the fact that the generated novels reach a sufficient length, they exhibit poor logical coherence and appeal in their plots and deficiencies in character and event depiction, ultimately compromising the overall narrative quality. In this paper, we propose a method named Extracting Excelsior and Expanding. Ex3 initially extracts structure information from raw novel data. By combining this structure information with the novel data, an instruction-following dataset is meticulously crafted. This dataset is then utilized to fine-tune the LLM, aiming for excelsior generation performance. In the final stage, a tree-like expansion method is deployed to facilitate the generation of arbitrarily long novels. Evaluation against previous methods showcases Ex3's ability to produce higher-quality long-form novels.
翻訳日:2024-09-04 16:42:00 公開日:2024-09-01
# 臨床展望 : 医学における言語モデルの概要

Clinical Insights: A Comprehensive Review of Language Models in Medicine ( http://arxiv.org/abs/2408.11735v2 )

ライセンス: Link先を確認
Nikita Neveditsin, Pawan Lingras, Vijay Mago, (参考訳) 本稿では、医療分野における大規模言語モデルの進歩と応用について、特に臨床応用に焦点を当てて詳細に検討する。 この研究は、LLMの基盤技術から、ドメイン固有モデルやマルチモーダル統合の最新の発展まで、その進化を辿っている。 エンコーダベースのモデルから、テキストデータ、視覚データ、聴覚データを統合する高度なアプローチへの微調整を必要とし、医療における包括的なAIソリューションを促進する技術的進歩を探求する。 本稿では、これらの技術が臨床効率を高めるための機会と、倫理、データプライバシ、実装の観点からそれらがもたらす課題について論じる。 さらに、LLMのデプロイメント戦略を批判的に評価し、医療環境におけるデータのプライバシと適応性を保証するためのオープンソースモデルの必要性を強調している。 医療におけるLLMの現実的有効性を評価するための実証的研究と、さらなる研究のためのオープンデータセットの開発に焦点をあてて、今後の研究方向性を提案する。 このレビューは、AIと医療の交差点に関心を持つ新入生と学際研究者の両方に包括的なリソースを提供することを目的としている。

This paper provides a detailed examination of the advancements and applications of large language models in the healthcare sector, with a particular emphasis on clinical applications. The study traces the evolution of LLMs from their foundational technologies to the latest developments in domain-specific models and multimodal integration. It explores the technical progression from encoder-based models requiring fine-tuning to sophisticated approaches that integrate textual, visual, and auditory data, thereby facilitating comprehensive AI solutions in healthcare. The paper discusses both the opportunities these technologies present for enhancing clinical efficiency and the challenges they pose in terms of ethics, data privacy, and implementation. Additionally, it critically evaluates the deployment strategies of LLMs, emphasizing the necessity of open-source models to ensure data privacy and adaptability within healthcare environments. Future research directions are proposed, focusing on empirical studies to evaluate the real-world efficacy of LLMs in healthcare and the development of open datasets for further research. This review aims to provide a comprehensive resource for both newcomers and multidisciplinary researchers interested in the intersection of AI and healthcare.
翻訳日:2024-09-04 16:32:02 公開日:2024-09-01
# MBSS-T1:ロバスト心臓T1マッピングのためのモデルベース自己監督運動補正

MBSS-T1: Model-Based Self-Supervised Motion Correction for Robust Cardiac T1 Mapping ( http://arxiv.org/abs/2408.11992v2 )

ライセンス: Link先を確認
Eyal Hanania, Ilya Volovik, Daphna Link-Sourani, Israel Cohen, Moti Freiman, (参考訳) T1マッピングは、拡散性心筋疾患の診断に有用な定量的MRI技術である。 従来の方法では、呼吸ホールドシーケンスとエコートリガーを頼りにしており、患者のコンプライアンスと不整脈による課題に直面し、その効果を制限している。 画像の登録は、モーションロバストなT1マッピングを可能にするが、時間点間の固有の強度差は困難である。 心臓T1マッピングにおける運動補正の自己制御モデルMBSS-T1を導入する。 物理的制約は期待される信号減衰挙動を保証し、解剖学的制約は現実的な変形を維持する。 これらの制約のユニークな組み合わせは、縦方向緩和軸に沿った正確なT1マッピングを保証する。 MBSS-T1は210例のパブリックデータセット(STONEシークエンス)と19例の社内データセット(MOLLIシークエンス)の5倍の実験において、ベースライン深層学習に基づく画像登録のアプローチよりも優れていた。 MBSS-T1はモデル適合性(R^2$:0.975 vs. 0.941, 0.946)、解剖学的アライメント(Dice score: 0.89 vs. 0.84, 0.88)、視覚的品質評価(4.33 vs. 3.38, 3.66)に優れていた。 MBSS-T1は、広範囲の患者に対してモーションローバストT1マッピングを可能にする可能性があり、不整脈や準最適コンプライアンスといった課題を克服し、大規模なトレーニングデータセットを必要とせずに、自由呼吸T1マッピングを可能にする。 私たちのコードは受理時に公開されます。

T1 mapping is a valuable quantitative MRI technique for diagnosing diffuse myocardial diseases. Traditional methods, relying on breath-hold sequences and echo triggering, face challenges with patient compliance and arrhythmias, limiting their effectiveness. Image registration can enable motion-robust T1 mapping, but inherent intensity differences between time points pose a challenge. We introduce MBSS-T1, a self-supervised model for motion correction in cardiac T1 mapping, constrained by physical and anatomical principles. The physical constraints ensure expected signal decay behavior, while the anatomical constraints maintain realistic deformations. The unique combination of these constraints ensures accurate T1 mapping along the longitudinal relaxation axis. MBSS-T1 outperformed baseline deep-learning-based image registration approaches in a 5-fold experiment on a public dataset of 210 patients (STONE sequence) and an internal dataset of 19 patients (MOLLI sequence). MBSS-T1 excelled in model fitting quality ($R^2$: 0.975 vs. 0.941, 0.946), anatomical alignment (Dice score: 0.89 vs. 0.84, 0.88), and expert visual quality assessment for the presence of visible motion artifacts (4.33 vs. 3.38, 3.66). MBSS-T1 has the potential to enable motion-robust T1 mapping for a broader range of patients, overcoming challenges such as arrhythmias and suboptimal compliance, and allowing for free-breathing T1 mapping without requiring large training datasets. Our code will be publicly available upon acceptance.
翻訳日:2024-09-04 16:32:02 公開日:2024-09-01
# LLMは自律走行ゲームにおける社会的規範を理解できるか?

Can LLMs Understand Social Norms in Autonomous Driving Games? ( http://arxiv.org/abs/2408.12680v2 )

ライセンス: Link先を確認
Boxuan Wang, Haonan Duan, Yanhao Feng, Xu Chen, Yongjie Fu, Zhaobin Mo, Xuan Di, (参考訳) 社会規範は、社会において許容される行動の共有標準として定義される。 社会的規範の出現は、インテリジェント輸送システムにおけるAVの大規模展開に不可欠である、ハードコードされたルールのないエージェント間の協調を促進する。 本稿では,自律走行ゲームにおける社会規範の理解とモデル化におけるLLMの適用について検討する。 我々は、テキストプロンプトに従って意思決定を行うインテリジェントエージェントとして、自律走行ゲームにLSMを導入する。 これらのエージェントはLLMベースのエージェントと呼ばれる。 我々のフレームワークはマルチエージェントシステム(MAS)でマルコフゲームをプレイするLLMベースのエージェントで、個々のエージェント間の社会的規範の出現を調査できる。 本研究の目的は,環境設定や LLM エージェントの観察に関連するテキスト情報に基づいて,プロンプトを設計し,LCM を利用した社会規範の特定である。 GPT-4.0をベースとしたOpenAI Chat APIを用いて,対話をシミュレートし,LLMをベースとしたエージェントの性能評価を行う。 その結果, LLMをベースとしたエージェントはマルコフゲームにおいて動的に変化する環境を処理でき, どちらのシナリオにおいても社会的規範はLLMベースのエージェントの間で進化していることがわかった。 交差点ゲームでは、LSMベースのエージェントは、潜在的な自動車事故に直面した場合に保守的な運転ポリシーを採用する傾向がある。 ゲームにおけるLLMベースのエージェントの利点は、その強力な操作性と分析可能性にある。

Social norm is defined as a shared standard of acceptable behavior in a society. The emergence of social norms fosters coordination among agents without any hard-coded rules, which is crucial for the large-scale deployment of AVs in an intelligent transportation system. This paper explores the application of LLMs in understanding and modeling social norms in autonomous driving games. We introduce LLMs into autonomous driving games as intelligent agents who make decisions according to text prompts. These agents are referred to as LLM-based agents. Our framework involves LLM-based agents playing Markov games in a multi-agent system (MAS), allowing us to investigate the emergence of social norms among individual agents. We aim to identify social norms by designing prompts and utilizing LLMs on textual information related to the environment setup and the observations of LLM-based agents. Using the OpenAI Chat API powered by GPT-4.0, we conduct experiments to simulate interactions and evaluate the performance of LLM-based agents in two driving scenarios: unsignalized intersection and highway platoon. The results show that LLM-based agents can handle dynamically changing environments in Markov games, and social norms evolve among LLM-based agents in both scenarios. In the intersection game, LLM-based agents tend to adopt a conservative driving policy when facing a potential car crash. The advantage of LLM-based agents in games lies in their strong operability and analyzability, which facilitate experimental design.
翻訳日:2024-09-04 16:32:02 公開日:2024-09-01
# AI生成画像における可視性:計算量と人間中心解析

Visual Verity in AI-Generated Imagery: Computational Metrics and Human-Centric Analysis ( http://arxiv.org/abs/2408.12762v2 )

ライセンス: Link先を確認
Memoona Aziz, Umair Rehman, Syed Ali Safi, Amir Zaib Abbasi, (参考訳) AI技術の急速な進歩は、エンターテイメント、広告、eコマースなど、さまざまな分野におけるグラフィカルコンテンツの制作に革命をもたらした。 これらの開発により、AI生成画像の品質とリアリズムを評価するための堅牢な評価手法の必要性が高まった。 そこで我々は3つの研究を行った。 まず,フォトリアリズム,画質,テキスト画像のアライメントを計測する「ビジュアル・バーティ」という質問紙を導入,検証した。 次に,このアンケートを用いて,AIモデル(DALL-E2,DALL-E3,GLIDE,Stable Diffusion)とカメラ生成画像から画像を評価する。 また, 色調, 彩度, 明度において, カメラ生成画像が低い値を示した。 第3に,MS-SSIMとCLIPを人間の判断と最も整合した指標として,人間の判断と計算メトリクスの整合性を評価した。 さらに,画像品質評価のためのニューラル特徴類似度スコア(NFSS)を提案する。 我々の研究は、人間の視覚的知覚をよりよく捉え、AIによるコンテンツ評価を向上させるために、計算メトリクスの精細化の必要性を強調した。

The rapid advancements in AI technologies have revolutionized the production of graphical content across various sectors, including entertainment, advertising, and e-commerce. These developments have spurred the need for robust evaluation methods to assess the quality and realism of AI-generated images. To address this, we conducted three studies. First, we introduced and validated a questionnaire called Visual Verity, which measures photorealism, image quality, and text-image alignment. Second, we applied this questionnaire to assess images from AI models (DALL-E2, DALL-E3, GLIDE, Stable Diffusion) and camera-generated images, revealing that camera-generated images excelled in photorealism and text-image alignment, while AI models led in image quality. We also analyzed statistical properties, finding that camera-generated images scored lower in hue, saturation, and brightness. Third, we evaluated computational metrics' alignment with human judgments, identifying MS-SSIM and CLIP as the most consistent with human assessments. Additionally, we proposed the Neural Feature Similarity Score (NFSS) for assessing image quality. Our findings highlight the need for refining computational metrics to better capture human visual perception, thereby enhancing AI-generated content evaluation.
翻訳日:2024-09-04 16:32:02 公開日:2024-09-01
# マルチメディアトラフィック異常検出

Multimedia Traffic Anomaly Detection ( http://arxiv.org/abs/2408.14884v3 )

ライセンス: Link先を確認
Tongtong Feng, Qi Qi, Jingyu Wang, (参考訳) ユーザレベルのソーシャルマルチメディアトラフィックにおける精度異常検出は、プライバシのセキュリティに不可欠である。 大規模なラベル付きトレーニングサンプルを持つ特定の異常クラスを受動的に検出する既存のモデルと比較して、ユーザレベルのソーシャルマルチメディアトラフィックは、ラベル付きサンプルがほとんどなく、不均衡で自己相似で、データ・ハングリーな性質を持つ、大きな新しい異常クラスを含んでいる。 GAN(Generative Adversarial Networks)のような最近の進歩は、サンプルジェネレータを目にするクラスサンプルのみから学習し、新しいサンプルを合成することによって解決している。 しかし、多くの新しいクラスを検知すれば、合成サンプルの数は不確実に見積もられ、この操作は計算複雑性とエネルギー消費を大幅に増加させます。 本稿では,ユーザレベルのソーシャルマルチメディアトラフィック異常検出のためのメタラーニング手法である「textit{Meta-UAD}」を提案する。 このスキームは叙述的な訓練パラダイムに依存しており、K-way-M-shot分類タスクの集合から学習する。 ユーザレベルのソーシャルマルチメディアトラフィックは、ユーザとソーシャルアプリケーションの複雑なインタラクションプロセスから生まれるので、我々はさらに、スキーム性能を向上させる機能抽出器を開発する。 LSTMベースのAutoEncoderを用いて、累積的重要性ランキングと時系列特徴を用いて統計的特徴を抽出する。 提案手法を2つの公開データセット上で評価し,Meta-UADの優位性をさらに証明した。

Accuracy anomaly detection in user-level social multimedia traffic is crucial for privacy security. Compared with existing models that passively detect specific anomaly classes with large labeled training samples, user-level social multimedia traffic contains sizeable new anomaly classes with few labeled samples and has an imbalance, self-similar, and data-hungry nature. Recent advances, such as Generative Adversarial Networks (GAN), solve it by learning a sample generator only from seen class samples to synthesize new samples. However, if we detect many new classes, the number of synthesizing samples would be unfeasibly estimated, and this operation will drastically increase computational complexity and energy consumption. Motivation on these limitations, in this paper, we propose \textit{Meta-UAD}, a Meta-learning scheme for User-level social multimedia traffic Anomaly Detection. This scheme relies on the episodic training paradigm and learns from the collection of K-way-M-shot classification tasks, which can use the pre-trained model to adapt any new class with few samples by going through few iteration steps. Since user-level social multimedia traffic emerges from a complex interaction process of users and social applications, we further develop a feature extractor to improve scheme performance. It extracts statistical features using cumulative importance ranking and time-series features using an LSTM-based AutoEncoder. We evaluate our scheme on two public datasets and the results further demonstrate the superiority of Meta-UAD.
翻訳日:2024-09-04 16:21:29 公開日:2024-09-01
# ReMamba: 効果的なロングシーケンスモデリングを備えたEquip Mamba

ReMamba: Equip Mamba with Effective Long-Sequence Modeling ( http://arxiv.org/abs/2408.15496v3 )

ライセンス: Link先を確認
Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao, (参考訳) Mambaアーキテクチャは、短コンテキスト自然言語処理(NLP)タスクにおいて、推論効率と競合性能が優れていることを示す一方で、長いコンテキストを理解する能力はトランスフォーマーベースのモデルと比較して制限されていることを示す実証的な証拠である。 本研究では,マンバモデルの長期文脈効率問題について検討し,マンバの長期文脈理解能力を高めるReMambaを提案する。 ReMambaは2段階のリフォワードプロセスに選択的圧縮と適応技術を導入し、最小追加の推論コストのオーバーヘッドを発生させる。 LongBench と L-Eval のベンチマークによる実験結果は、ReMamba の有効性を示し、ベースラインを 3.2 と 1.6 に改善し、同じサイズのトランスフォーマーモデルとほぼ同等の性能を達成した。

While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.
翻訳日:2024-09-04 12:51:25 公開日:2024-09-01
# CSAD: 論理異常検出のための教師なしコンポーネントセグメンテーション

CSAD: Unsupervised Component Segmentation for Logical Anomaly Detection ( http://arxiv.org/abs/2408.15628v2 )

ライセンス: Link先を確認
Yu-Hsuan Hsieh, Shang-Hong Lai, (参考訳) 論理的異常検出を改善するために,従来の異常検出手法とセグメンテーション技術を統合した先行研究がある。 これらの手法は有効であるが、しばしば不満足なセグメンテーション結果をもたらし、手動のアノテーションを必要とする。 これらの欠点に対処するために、基礎モデルを利用した教師なしコンポーネントセグメンテーション手法を開発し、人間のラベルを使わずに軽量セグメンテーションネットワークのためのトレーニングラベルを自律的に生成する。 今回提案したPatch HistogramモジュールとLGSTモジュールを統合し,従来のSOTA法を超越したMVTec LOCO ADデータセットで95.3%のAUROCを検出する。 さらに,提案手法は既存の手法よりもレイテンシが低く,スループットも高い。

To improve logical anomaly detection, some previous works have integrated segmentation techniques with conventional anomaly detection methods. Although these methods are effective, they frequently lead to unsatisfactory segmentation results and require manual annotations. To address these drawbacks, we develop an unsupervised component segmentation technique that leverages foundation models to autonomously generate training labels for a lightweight segmentation network without human labeling. Integrating this new segmentation technique with our proposed Patch Histogram module and the Local-Global Student-Teacher (LGST) module, we achieve a detection AUROC of 95.3% in the MVTec LOCO AD dataset, which surpasses previous SOTA methods. Furthermore, our proposed method provides lower latency and higher throughput than most existing approaches.
翻訳日:2024-09-04 12:43:33 公開日:2024-09-01
# 適応的交通信号制御のための強化学習:混雑軽減のためのターンベースおよび時間ベースアプローチ

Reinforcement Learning for Adaptive Traffic Signal Control: Turn-Based and Time-Based Approaches to Reduce Congestion ( http://arxiv.org/abs/2408.15751v2 )

ライセンス: Link先を確認
Muhammad Tahir Rafique, Ahmed Mustafa, Hasan Sajid, (参考訳) 都市部における道路利用需要の増加は交通渋滞を招き、インフラ拡張だけではコストがかかる課題となっている。 代替として、既存の交通管理システム、特に適応的な交通信号制御を最適化することは、有望な解決策を提供する。 本稿では,大規模なセンサネットワークを使わずに混雑を低減することを目的とした,交差点における信号処理の強化を目的とした強化学習(Reinforcement Learning, RL)について検討する。 本稿では,リアルタイム待ち行列長に基づく信号の動的優先順位付けを行うターンベースエージェントと,固定位相サイクルに従って信号の位相長を調整するタイムベースエージェントの2つのアルゴリズムを紹介する。 状態をスカラーキュー長として表現することで、学習プロセスを単純化し、デプロイメントコストを削減できます。 アルゴリズムは、パフォーマンスを総合的に評価するために、7つの評価指標を使用して、4つの異なるトラフィックシナリオでテストされた。 シミュレーションの結果, 両RLアルゴリズムは従来の交通信号制御システムよりも大幅に優れており, 都市交通流を効率的に改善する可能性を示している。

The growing demand for road use in urban areas has led to significant traffic congestion, posing challenges that are costly to mitigate through infrastructure expansion alone. As an alternative, optimizing existing traffic management systems, particularly through adaptive traffic signal control, offers a promising solution. This paper explores the use of Reinforcement Learning (RL) to enhance traffic signal operations at intersections, aiming to reduce congestion without extensive sensor networks. We introduce two RL-based algorithms: a turn-based agent, which dynamically prioritizes traffic signals based on real-time queue lengths, and a time-based agent, which adjusts signal phase durations according to traffic conditions while following a fixed phase cycle. By representing the state as a scalar queue length, our approach simplifies the learning process and lowers deployment costs. The algorithms were tested in four distinct traffic scenarios using seven evaluation metrics to comprehensively assess performance. Simulation results demonstrate that both RL algorithms significantly outperform conventional traffic signal control systems, highlighting their potential to improve urban traffic flow efficiently.
翻訳日:2024-09-04 12:43:33 公開日:2024-09-01
# 確率微分方程式によるグラフニューラルネットワークの不確かさモデリング

Uncertainty Modeling in Graph Neural Networks via Stochastic Differential Equations ( http://arxiv.org/abs/2408.16115v2 )

ライセンス: Link先を確認
Richard Bergna, Sergio Calvo-Ordoñez, Felix L. Opolka, Pietro Liò, Jose Miguel Hernandez-Lobato, (参考訳) グラフ構造データに対する不確実性認識表現の学習の問題に対処する。 グラフニューラル正規微分方程式(GNODE)はノード表現の学習に有効であるが、不確かさの定量化には失敗した。 これを解決するために、ブラウン運動によってランダム性を埋め込んで不確実性を定量化することによってGNODEを強化するLatent Graph Neural Stochastic Differential Equations (LGNSDE)を導入する。 我々は,LGNSDEの理論的保証を提供し,不確実性定量化における性能を実証的に示す。

We address the problem of learning uncertainty-aware representations for graph-structured data. While Graph Neural Ordinary Differential Equations (GNODE) are effective in learning node representations, they fail to quantify uncertainty. To address this, we introduce Latent Graph Neural Stochastic Differential Equations (LGNSDE), which enhance GNODE by embedding randomness through Brownian motion to quantify uncertainty. We provide theoretical guarantees for LGNSDE and empirically show better performance in uncertainty quantification.
翻訳日:2024-09-04 12:43:33 公開日:2024-09-01
# SFR-GNN: 構造攻撃に対する単純かつ高速なロバストGNN

SFR-GNN: Simple and Fast Robust GNNs against Structural Attacks ( http://arxiv.org/abs/2408.16537v2 )

ライセンス: Link先を確認
Xing Ai, Guanyu Zhu, Yulin Zhu, Yu Zheng, Gaolei Li, Jianhua Li, Kai Zhou, (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データに対する可換性を示す。 しかし、GNNはグラフトポロジに依存しているため、しばしば敵対的な構造攻撃に対して脆弱である。 既存の取り組みは、悪意ある改変された構造を浄化したり、適応的なアグリゲーションを適用し、敵の構造物攻撃に対する堅牢性を高めることを目的としている。 修正された構造に関する事前知識が欠如しているため、ディフェンダーが重い計算コストを消費することは避けられない。 そこで我々は,SFR-GNN (Simple and Fast Robust Graph Neural Network) と呼ばれる,相互情報理論に支えられた効率的な防御手法を提案する。 SFR-GNNは、まずノード属性を使用してGNNモデルを事前訓練し、修正された構造と適応的なアグリゲーションを浄化することができない対照的な学習法で修正されたグラフを微調整し、高い効率向上を達成する。 その結果、SFR-GNNは、高度なロバストモデルと比較して24%--162%のスピードアップを示し、ノード分類タスクに優れたロバスト性を示す。

Graph Neural Networks (GNNs) have demonstrated commendable performance for graph-structured data. Yet, GNNs are often vulnerable to adversarial structural attacks as embedding generation relies on graph topology. Existing efforts are dedicated to purifying the maliciously modified structure or applying adaptive aggregation, thereby enhancing the robustness against adversarial structural attacks. It is inevitable for a defender to consume heavy computational costs due to lacking prior knowledge about modified structures. To this end, we propose an efficient defense method, called Simple and Fast Robust Graph Neural Network (SFR-GNN), supported by mutual information theory. The SFR-GNN first pre-trains a GNN model using node attributes and then fine-tunes it over the modified graph in the manner of contrastive learning, which is free of purifying modified structures and adaptive aggregation, thus achieving great efficiency gains. Consequently, SFR-GNN exhibits a 24%--162% speedup compared to advanced robust models, demonstrating superior robustness for node classification tasks.
翻訳日:2024-09-04 12:43:33 公開日:2024-09-01
# ポーズプローブとしてのジェネリックオブジェクト

Generic Objects as Pose Probes for Few-Shot View Synthesis ( http://arxiv.org/abs/2408.16690v2 )

ライセンス: Link先を確認
Zhirui Gao, Renjiao Yi, Chenyang Zhu, Ke Zhuang, Wei Chen, Kai Xu, (参考訳) NeRF や 3D Gaussian などの放射場は高忠実なレンダリングやシーン再構成において大きな可能性を秘めている。 COLMAPはポーズを推定する前処理に頻繁に使用されるが、多くの特徴マッチングが必要であり、スパースな特徴、画像間の大きなベースライン、限られた数の入力画像によって特徴づけられるシーンと競合する。 我々は,3~6面のシーン画像のみを用いて,少数視点のNeRF再構成を実現することを目的としている。 従来の方法では校正板を使うことが多いが、画像では一般的ではない。 画像と実生活の両方でよく見られる日常的な物体を「目的プローブ」として活用する新しいアイデアを提案する。 プローブオブジェクトはSAMによって自動的にセグメンテーションされ、その形状は立方体から初期化される。 我々は、ポーズ最適化を制約し、幾何を共同で洗練するために、デュアルブランチボリュームレンダリング最適化(オブジェクトのNeRFとシーンのNeRF)を適用した。 具体的には、2つのビューのオブジェクトのポーズは、最初のポーズとして機能するSDF表現におけるPnPマッチングによって最初に推定される。 少数の機能しか必要としないPnPマッチングは、機能スパースシーンに適している。 追加のビューは、先行するビューからのポーズを洗練するために漸進的に組み込まれます。 実験では、PoseProbeは複数のデータセットにまたがるポーズ推定と新しいビュー合成の両方で最先端のパフォーマンスを達成する。 特に,COLMAPが苦しむ少数視点および大規模ベースラインシーンにおいて,その効果を実証する。 アブレーションでは、シーンで異なるオブジェクトを使用すると、同等のパフォーマンスが得られる。 私たちのプロジェクトページは以下の通りである。

Radiance fields including NeRFs and 3D Gaussians demonstrate great potential in high-fidelity rendering and scene reconstruction, while they require a substantial number of posed images as inputs. COLMAP is frequently employed for preprocessing to estimate poses, while it necessitates a large number of feature matches to operate effectively, and it struggles with scenes characterized by sparse features, large baselines between images, or a limited number of input images. We aim to tackle few-view NeRF reconstruction using only 3 to 6 unposed scene images. Traditional methods often use calibration boards but they are not common in images. We propose a novel idea of utilizing everyday objects, commonly found in both images and real life, as "pose probes". The probe object is automatically segmented by SAM, whose shape is initialized from a cube. We apply a dual-branch volume rendering optimization (object NeRF and scene NeRF) to constrain the pose optimization and jointly refine the geometry. Specifically, object poses of two views are first estimated by PnP matching in an SDF representation, which serves as initial poses. PnP matching, requiring only a few features, is suitable for feature-sparse scenes. Additional views are incrementally incorporated to refine poses from preceding views. In experiments, PoseProbe achieves state-of-the-art performance in both pose estimation and novel view synthesis across multiple datasets. We demonstrate its effectiveness, particularly in few-view and large-baseline scenes where COLMAP struggles. In ablations, using different objects in a scene yields comparable performance. Our project page is available at: \href{https://zhirui-gao.github.io/PoseProbe.github.io/}{this https URL}
翻訳日:2024-09-04 12:24:11 公開日:2024-09-01