このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240829となっている論文です。

PDF登録状況(公開日: 20240829)

TitleAuthorsAbstract論文公表日・翻訳日
# スパイクニューラルネットワークのエネルギー効率再考

Reconsidering the energy efficiency of spiking neural networks ( http://arxiv.org/abs/2409.08290v1 )

ライセンス: Link先を確認
Zhanglu Yan, Zhenyu Bai, Weng-Fai Wong, (参考訳) スパイキングニューラルネットワーク(SNN)は乗算を使わないため、一般的にエネルギー効率が高いと考えられている。 しかしながら、ほとんどのSNNは、メモリアクセスやデータ移動操作といった他のオーバーヘッドを無視して、エネルギー消費を評価するための加算のカウントのみを考慮する。 この監視は、特に最先端のSNNアクセラレーターが非常に小さな時間窓サイズで動作する場合、効率の誤解を招く可能性がある。 本稿では、ハードウェアの観点から、ニューラルネットワーク(ANN)とSNNのエネルギー消費量を詳細に比較する。 本稿では,古典的マルチレベルメモリ階層アーキテクチャ,ニューロモルフィックなデータフローアーキテクチャ,空間データフローアーキテクチャの改良に基づくエネルギー消費の正確な式を提案する。 我々の研究は、ANNと同等の精度とエネルギー効率を達成するために、SNNは時間ウィンドウサイズTとスパーシティsの両方に厳密な制限を必要とすることを示した。 例えば、VGG16モデルと6の固定Tでは、ほとんどのアーキテクチャでエネルギー効率を確保するためにニューロンの間隔率は93%を超えなければならない。 この発見に触発されて, 空間性を高めてエネルギー効率を高める戦略を探究した。 トレーニング中に2つの規則化用語を導入し、重みとアクティベーションを制限し、スペーサ率を効果的に向上させる。 CIFAR-10データセットをT of 6を用いて実験したところ、SNNは空間データフローアーキテクチャ上で最適化されたANNが使用するエネルギーの69%を消費し、SNNの精度は94.18%を維持した。 PyTorchを使って開発されたこのフレームワークは、使用とさらなる研究のために公開されている。

Spiking neural networks (SNNs) are generally regarded as more energy-efficient because they do not use multiplications. However, most SNN works only consider the counting of additions to evaluate energy consumption, neglecting other overheads such as memory accesses and data movement operations. This oversight can lead to a misleading perception of efficiency, especially when state-of-the-art SNN accelerators operate with very small time window sizes. In this paper, we present a detailed comparison of the energy consumption of artificial neural networks (ANNs) and SNNs from a hardware perspective. We provide accurate formulas for energy consumption based on classical multi-level memory hierarchy architectures, commonly used neuromorphic dataflow architectures, and our proposed improved spatial-dataflow architecture. Our research demonstrates that to achieve comparable accuracy and greater energy efficiency than ANNs, SNNs require strict limitations on both time window size T and sparsity s. For instance, with the VGG16 model and a fixed T of 6, the neuron sparsity rate must exceed 93% to ensure energy efficiency across most architectures. Inspired by our findings, we explore strategies to enhance energy efficiency by increasing sparsity. We introduce two regularization terms during training that constrain weights and activations, effectively boosting the sparsity rate. Our experiments on the CIFAR-10 dataset, using T of 6, show that our SNNs consume 69% of the energy used by optimized ANNs on spatial-dataflow architectures, while maintaining an SNN accuracy of 94.18%. This framework, developed using PyTorch, is publicly available for use and further research.
翻訳日:2024-09-22 21:50:24 公開日:2024-08-29
# ChatSUMO:都市運動シミュレーションによる交通シナリオの自動生成のための大規模言語モデル

ChatSUMO: Large Language Model for Automating Traffic Scenario Generation in Simulation of Urban MObility ( http://arxiv.org/abs/2409.09040v1 )

ライセンス: Link先を確認
Shuyang Li, Talha Azfar, Ruimin Ke, (参考訳) 大規模言語モデル(LLM)は、テキスト、音声、画像、ビデオなどのマルチモーダルな入力と出力を扱うことができ、情報処理の方法を変えつつある。 プロンプトに対するテキスト応答を生成するだけでなく、さまざまなソフトウェアプラットフォームと統合して、さまざまなアプリケーションにまたがる包括的なソリューションを提供することもできる。 本稿では,LLMをベースとしたエージェントChatSUMOを提案する。このエージェントは,広範に使用されている交通シミュレータであるSUMO(Simulation of Urban Mobility)において,言語処理スキルを統合し,抽象的および実世界のシミュレーションシナリオを生成する。 我々の方法論は、pythonスクリプトの実行に必要な関連するキーワードに変換するユーザ入力にLLMを活用することから始まります。 これらのスクリプトは、指定されたリージョンを座標に変換し、OpenStreetMapからデータをフェッチし、それをロードネットワークに変換し、次に指定されたトラフィック条件でSUMOシミュレーションを実行するように設計されている。 シミュレーションの出力はLLMによって解釈され、情報的比較と要約をもたらす。 ユーザは、事前にトラフィックシミュレーションの専門知識を必要とせずに、対話を継続し、さまざまなカスタマイズシナリオを生成することができる。 シミュレーション生成のために,オールバニ市を対象とした実世界のシミュレーションを作成し,96\%の精度でシミュレーションを行った。 ChatSUMOはまた、エッジ編集、トラフィック光の最適化、利用者による車の編集を効果的にカスタマイズすることを実現する。

Large Language Models (LLMs), capable of handling multi-modal input and outputs such as text, voice, images, and video, are transforming the way we process information. Beyond just generating textual responses to prompts, they can integrate with different software platforms to offer comprehensive solutions across diverse applications. In this paper, we present ChatSUMO, a LLM-based agent that integrates language processing skills to generate abstract and real-world simulation scenarios in the widely-used traffic simulator - Simulation of Urban MObility (SUMO). Our methodology begins by leveraging the LLM for user input which converts to relevant keywords needed to run python scripts. These scripts are designed to convert specified regions into coordinates, fetch data from OpenStreetMap, transform it into a road network, and subsequently run SUMO simulations with the designated traffic conditions. The outputs of the simulations are then interpreted by the LLM resulting in informative comparisons and summaries. Users can continue the interaction and generate a variety of customized scenarios without prior traffic simulation expertise. For simulation generation, we created a real-world simulation for the city of Albany with an accuracy of 96\%. ChatSUMO also realizes the customizing of edge edit, traffic light optimization, and vehicle edit by users effectively.
翻訳日:2024-09-22 21:50:24 公開日:2024-08-29
# 基礎モデルにおける許容可能な利用法

Acceptable Use Policies for Foundation Models ( http://arxiv.org/abs/2409.09041v1 )

ライセンス: Link先を確認
Kevin Klyman, (参考訳) ファンデーションモデルは数億のユーザを蓄積しているため、開発者は有害なタイプの使用を防止するための措置を講じている。 ファンデーションモデル開発者が採用する適切な介入の1つは、許容できる利用ポリシーである。 本稿では、30のファンデーションモデル開発者から許容される利用ポリシーを特定し、それらが含んでいる利用制限を分析し、ファンデーションモデルの規制を理解する上で、許容可能な利用ポリシーが重要なレンズであると論じる。 開発者による許容される利用ポリシーには、127の異なる利用制限が含まれている。 開発者は、競争相手や特定の産業がモデルを利用するのを防ぐために、許容可能な利用ポリシーも採用している。 開発者は、何が許容できる利用を構成するかを決めるだけで、ポリシーの実施方法に関する透明性を提供することは滅多にありません。 実際には、許容可能な使用ポリシーを強制することは困難であり、厳格な実施は研究者のアクセスの障壁となり、基礎モデルの有益な利用を制限することができる。 それでも、ファンデーションモデルに対する許容可能な利用ポリシーは、ファンデーションモデルとAIエコシステム全体の市場に大きな影響を及ぼす自己規制の初期の例である。

As foundation models have accumulated hundreds of millions of users, developers have begun to take steps to prevent harmful types of uses. One salient intervention that foundation model developers adopt is acceptable use policies: legally binding policies that prohibit users from using a model for specific purposes. This paper identifies acceptable use policies from 30 foundation model developers, analyzes the use restrictions they contain, and argues that acceptable use policies are an important lens for understanding the regulation of foundation models. Taken together, developers' acceptable use policies include 127 distinct use restrictions; the wide variety in the number and type of use restrictions may create fragmentation across the AI supply chain. Developers also employ acceptable use policies to prevent competitors or specific industries from making use of their models. Developers alone decide what constitutes acceptable use, and rarely provide transparency about how they enforce their policies. In practice, acceptable use policies are difficult to enforce, and scrupulous enforcement can act as a barrier to researcher access and limit beneficial uses of foundation models. Nevertheless, acceptable use policies for foundation models are an early example of self-regulation that have a significant impact on the market for foundation models and the overall AI ecosystem.
翻訳日:2024-09-22 21:42:00 公開日:2024-08-29
# HARQを用いた協調知覚のための意味コミュニケーション

Semantic Communication for Cooperative Perception using HARQ ( http://arxiv.org/abs/2409.09042v1 )

ライセンス: Link先を確認
Yucheng Sheng, Le Liang, Hao Ye, Shi Jin, Geoffrey Ye Li, (参考訳) 独立認識よりも広い視野を提供する協調認識は、自律運転においてますます重要になっている。 この認識は、車両間通信(V2V)を通じて可能であり、接続された自動車両(CAV)が光検出や測光(LiDAR)点雲などのセンサデータを交換し、環境の集合的理解を高める。 本稿では,重要な意味情報を抽出するために重要地図を活用し,中間融合を利用した協調認識意味コミュニケーションフレームワークを導入する。 時間変化によるマルチパスフェーディングによる課題に対処するため,直交周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用した。 さらに、信頼性の高い送信の必要性を認識し、特に低SNRシナリオにおいて、ハイブリッド自動繰り返し要求(HARQ)の精神において、セマンティック通信フレームワークと統合された新しいセマンティックエラー検出手法を導入する。 シミュレーションの結果,HARQの有無に関わらず,従来のソースチャネル符号化手法を超越した認識性能が得られた。 さらにスループットの面では,従来の符号化手法よりも優れた効率性を示すHARQ方式を提案する。

Cooperative perception, offering a wider field of view than standalone perception, is becoming increasingly crucial in autonomous driving. This perception is enabled through vehicle-to-vehicle (V2V) communication, allowing connected automated vehicles (CAVs) to exchange sensor data, such as light detection and ranging (LiDAR) point clouds, thereby enhancing the collective understanding of the environment. In this paper, we leverage an importance map to distill critical semantic information, introducing a cooperative perception semantic communication framework that employs intermediate fusion. To counter the challenges posed by time-varying multipath fading, our approach incorporates the use of orthogonal frequency-division multiplexing (OFDM) along with channel estimation and equalization strategies. Furthermore, recognizing the necessity for reliable transmission, especially in the low SNR scenarios, we introduce a novel semantic error detection method that is integrated with our semantic communication framework in the spirit of hybrid automatic repeated request (HARQ). Simulation results show that our model surpasses the traditional separate source-channel coding methods in perception performance, both with and without HARQ. Additionally, in terms of throughput, our proposed HARQ schemes demonstrate superior efficiency to the conventional coding approaches.
翻訳日:2024-09-22 21:42:00 公開日:2024-08-29
# ElasticAI: 分散コンピューティングのためのエネルギー効率の良いディープラーニングアクセラレータの作成とデプロイ

ElasticAI: Creating and Deploying Energy-Efficient Deep Learning Accelerator for Pervasive Computing ( http://arxiv.org/abs/2409.09044v1 )

ライセンス: Link先を確認
Chao Qian, Tianheng Ling, Gregor Schiele, (参考訳) 組み込みデバイスにディープラーニング(DL)をデプロイすることは、広く普及するコンピューティングの難題である。 組み込みデバイス上のほとんどのマイクロコントローラは、計算能力に制限があるため、DLアクセラレータを追加する必要がある。 組み込みフィールドプログラマブルゲートアレイ(FPGA)は、組み込みデバイス向けにDLアクセラレータをデプロイするのに適しているが、FPGA上でエネルギー効率の良いDLアクセラレータを開発するのは容易ではない。 そこで本研究では,組込みFPGA上でのハードウェアアクセラレーションとしてDLモデルを作成,デプロイすることを目的としたElasticAI-Workflowを提案する。 このワークフローは、ElasticAI-CreatorとElastic Nodeの2つの重要なコンポーネントで構成されている。 前者はFPGA上でDLアクセラレータを自動的に生成するツールチェーンである。 後者は、生成されたアクセラレータのパフォーマンスを検証するためのハードウェアプラットフォームである。 これにより、加速器の性能を十分に保証することができる。 ケーススタディを通じて、我々のアプローチの可能性を実証する。

Deploying Deep Learning (DL) on embedded end devices is a scorching trend in pervasive computing. Since most Microcontrollers on embedded devices have limited computing power, it is necessary to add a DL accelerator. Embedded Field Programmable Gate Arrays (FPGAs) are suitable for deploying DL accelerators for embedded devices, but developing an energy-efficient DL accelerator on an FPGA is not easy. Therefore, we propose the ElasticAI-Workflow that aims to help DL developers to create and deploy DL models as hardware accelerators on embedded FPGAs. This workflow consists of two key components: the ElasticAI-Creator and the Elastic Node. The former is a toolchain for automatically generating DL accelerators on FPGAs. The latter is a hardware platform for verifying the performance of the generated accelerators. With this combination, the performance of the accelerator can be sufficiently guaranteed. We will demonstrate the potential of our approach through a case study.
翻訳日:2024-09-22 21:42:00 公開日:2024-08-29
# 多様性の統一 : 2024年欧州議会議員選挙の LLM に基づく予測の文脈的分岐

United in Diversity? Contextual Biases in LLM-Based Predictions of the 2024 European Parliament Elections ( http://arxiv.org/abs/2409.09045v1 )

ライセンス: Link先を確認
Leah von der Heyde, Anna-Carolina Haensch, Alexander Wenz, (参考訳) 大規模言語モデル(LLM)は社会科学研究に革命をもたらす可能性があると認識されており、そのトレーニングデータには人間の態度や行動に関する情報が含まれている。 もしこれらの姿勢がLLMの出力に反映されているなら、LLMが生成した「合成サンプル」は、実際の人間の調査に有効で効率的な代替品として利用することができる。 しかし、LLM合成サンプルは、訓練データや微調整プロセスが多種多様な言語、社会的、政治的、デジタルの文脈を表わさないため、カバレッジバイアスを示す可能性がある。 本研究では,2024年の欧州議会議員選挙での投票行動を予測することで,世論のLLMに基づく予測が文脈依存性の偏りを示すかを検討した。 我々はGPT-4-Turboに匿名化された個人レベルの背景情報、プロンプト内容と言語の変更、各人の投票行動の予測をLSMに依頼し、重み付けされた集計結果を実際の選挙結果と比較する。 以上の結果から, LLM合成試料の一般世論予測への適用性に限界があることが示唆された。 1) LLMによる将来の投票行動の予測は概ね失敗し, (2) 予測精度は国内および言語的文脈で不平等に分布し, (3) LLMの予測を改善するためには個人に関する詳細な統計情報が必要である。 世論のLLMに基づく予測の文脈的差異を考察し,LLMの発達におけるバイアスや不平等の理解と緩和と,その計算社会科学への応用に寄与する。

Large language models (LLMs) are perceived by some as having the potential to revolutionize social science research, considering their training data includes information on human attitudes and behavior. If these attitudes are reflected in LLM output, LLM-generated "synthetic samples" could be used as a viable and efficient alternative to surveys of real humans. However, LLM-synthetic samples might exhibit coverage bias due to training data and fine-tuning processes being unrepresentative of diverse linguistic, social, political, and digital contexts. In this study, we examine to what extent LLM-based predictions of public opinion exhibit context-dependent biases by predicting voting behavior in the 2024 European Parliament elections using a state-of-the-art LLM. We prompt GPT-4-Turbo with anonymized individual-level background information, varying prompt content and language, ask the LLM to predict each person's voting behavior, and compare the weighted aggregates to the real election results. Our findings emphasize the limited applicability of LLM-synthetic samples to public opinion prediction. We show that (1) the LLM-based prediction of future voting behavior largely fails, (2) prediction accuracy is unequally distributed across national and linguistic contexts, and (3) improving LLM predictions requires detailed attitudinal information about individuals for prompting. In investigating the contextual differences of LLM-based predictions of public opinion, our research contributes to the understanding and mitigation of biases and inequalities in the development of LLMs and their applications in computational social science.
翻訳日:2024-09-22 21:42:00 公開日:2024-08-29
# HyPA-RAG:AI法と政策応用のためのハイブリッドパラメータ適応検索型生成システム

HyPA-RAG: A Hybrid Parameter Adaptive Retrieval-Augmented Generation System for AI Legal and Policy Applications ( http://arxiv.org/abs/2409.09046v1 )

ライセンス: Link先を確認
Rishi Kalra, Zekun Wu, Ayesha Gulley, Airlie Hilliard, Xin Guan, Adriano Koshiyama, Philip Treleaven, (参考訳) 大規模言語モデル(LLMs)はテキスト生成や質問応答に優れるが、AI法とポリシーにおけるそれらの有効性は、複雑な文脈における時代遅れの知識、幻覚、不十分な推論によって制限される。 Retrieval-Augmented Generation (RAG) システムは、外部知識を統合することで応答精度を向上させるが、検索エラー、コンテキスト統合の貧弱、高コストに苦しむ。 本稿では,ニューヨーク地方法144(LL144)で実証されたAI法と政策に適したハイブリッドパラメータ適応RAG(HyPA-RAG)システムを提案する。 HyPA-RAGは、適応パラメータチューニングのためのクエリ複雑性分類器、密度、スパース、知識グラフメソッドを組み合わせたハイブリッド検索戦略、および特定の質問タイプとメトリクスを用いた評価フレームワークを使用する。 パラメータを動的に調整することにより、HyPA-RAGは検索精度と応答忠実度を大幅に改善する。 LL144のテストでは、複雑で高精度なAI法とポリシーの応用において、適応可能なNLPシステムの必要性に対処して、正確性、忠実性、文脈的精度の向上が示されている。

While Large Language Models (LLMs) excel in text generation and question-answering, their effectiveness in AI legal and policy is limited by outdated knowledge, hallucinations, and inadequate reasoning in complex contexts. Retrieval-Augmented Generation (RAG) systems improve response accuracy by integrating external knowledge but struggle with retrieval errors, poor context integration, and high costs, particularly in interpreting qualitative and quantitative AI legal texts. This paper introduces a Hybrid Parameter-Adaptive RAG (HyPA-RAG) system tailored for AI legal and policy, exemplified by NYC Local Law 144 (LL144). HyPA-RAG uses a query complexity classifier for adaptive parameter tuning, a hybrid retrieval strategy combining dense, sparse, and knowledge graph methods, and an evaluation framework with specific question types and metrics. By dynamically adjusting parameters, HyPA-RAG significantly improves retrieval accuracy and response fidelity. Testing on LL144 shows enhanced correctness, faithfulness, and contextual precision, addressing the need for adaptable NLP systems in complex, high-stakes AI legal and policy applications.
翻訳日:2024-09-22 21:42:00 公開日:2024-08-29
# AIが教室と出会う:ChatGPTはいつ学習するのか?

AI Meets the Classroom: When Does ChatGPT Harm Learning? ( http://arxiv.org/abs/2409.09047v1 )

ライセンス: Link先を確認
Matthias Lehmann, Philipp B. Cornelius, Fabian J. Sting, (参考訳) 本稿では,生成型AI,特に大規模言語モデル(LLM)がプログラミングクラスにおける学習に与える影響について検討する。 LLMの使用が学習結果に肯定的,否定的な影響を及ぼす可能性が3つの研究で示された。 大学レベルのプログラミングコースからの観察データを用いて、この分野においてそのような効果を確立する。 これらの知見は、典型的な学習シナリオによく似たその後の実験で再現され、因果性を示す。 LLM使用法が学習に与える影響を判定する2つのコントラスト機構の証拠を見いだす。 LLMを個人教師として使用する学生は、トピックについて会話し、説明を求めることで、利用の恩恵を受けることができる。 しかし、LLMを過度に頼り、実践演習を解決し、そのために十分な精神的な努力を投資しない学生には、学習が損なわれている。 LLMを一度も使わなかった人は、特にそのような有害な振る舞いをしがちである。 事前のドメイン知識を持たない学生は、LSMにアクセスすることでより多くのものを得ることができます。 最後に,LLMを学習に利用することによる自己認識的利益が,実際の利益を上回り,自己の能力が過大評価される可能性が示唆された。 全体としては,LLMを学習支援として有望な可能性を示しているが,学生は落とし穴に非常に慎重でなければならない。

In this paper, we study how generative AI and specifically large language models (LLMs) impact learning in coding classes. We show across three studies that LLM usage can have positive and negative effects on learning outcomes. Using observational data from university-level programming courses, we establish such effects in the field. We replicate these findings in subsequent experimental studies, which closely resemble typical learning scenarios, to show causality. We find evidence for two contrasting mechanisms that determine the overall effect of LLM usage on learning. Students who use LLMs as personal tutors by conversing about the topic and asking for explanations benefit from usage. However, learning is impaired for students who excessively rely on LLMs to solve practice exercises for them and thus do not invest sufficient own mental effort. Those who never used LLMs before are particularly prone to such adverse behavior. Students without prior domain knowledge gain more from having access to LLMs. Finally, we show that the self-perceived benefits of using LLMs for learning exceed the actual benefits, potentially resulting in an overestimation of one's own abilities. Overall, our findings show promising potential of LLMs as learning support, however also that students have to be very cautious of possible pitfalls.
翻訳日:2024-09-22 21:42:00 公開日:2024-08-29
# WET: 線形変換透かしを用いた埋め込み・アズ・ア・サービスにおけるパラフレーズ脆弱性の克服

WET: Overcoming Paraphrasing Vulnerabilities in Embeddings-as-a-Service with Linear Transformation Watermarks ( http://arxiv.org/abs/2409.04459v1 )

ライセンス: Link先を確認
Anudeex Shetty, Qiongkai Xu, Jey Han Lau, (参考訳) Embeddings-as-a-Service(EaaS)は、LLMによって生成された埋め込みを提供するために、大規模言語モデル(LLM)開発者が提供するサービスである。 従来の研究は、EaaSが模倣攻撃の傾向にあることを示唆している -- クエリされた埋め込みに関する別のモデルをトレーニングすることで、基盤となるEaaSモデルをクローンする攻撃だ。 その結果、EaaSプロバイダの知的財産を保護するためにEaaSの透かしが導入される。 本稿では,攻撃者がモデルをクローンした場合に,既存のEaaS透かしをパラフレーズで除去できることを最初に示す。 次に, 埋め込みを線形に変形させる新しい透かし手法を提案し, パラフレージングに対して経験的かつ理論的に堅牢であることを示す。

Embeddings-as-a-Service (EaaS) is a service offered by large language model (LLM) developers to supply embeddings generated by LLMs. Previous research suggests that EaaS is prone to imitation attacks -- attacks that clone the underlying EaaS model by training another model on the queried embeddings. As a result, EaaS watermarks are introduced to protect the intellectual property of EaaS providers. In this paper, we first show that existing EaaS watermarks can be removed by paraphrasing when attackers clone the model. Subsequently, we propose a novel watermarking technique that involves linearly transforming the embeddings, and show that it is empirically and theoretically robust against paraphrasing.
翻訳日:2024-09-15 05:31:27 公開日:2024-08-29
# 確率的メートル変動と重力波の検出

Stochastic Metric Fluctuations and Detection of Gravitons ( http://arxiv.org/abs/2409.02948v1 )

ライセンス: Link先を確認
John W. Moffat, (参考訳) 時空距離がランダムな変数であり、時空多様体が一定の長さスケールで変動する物理系である確率重力について検討した。 ブラウン運動実験を再現してグラビトンを検出する方法を提案する。 重力子に対するボース=アインシュタインの占有数$N_g$は、物理系の重力ランダムなメートル法ゆらぎの粒子成分となるのに十分大きい。 重力波によって生じる確率的な重力ノイズは、物理系の巨大な試験粒子を変位させ、重力波の検出を可能にする。 グラビトンを検出するための可能な実験は、多数のグラビトンを集団的に確率的に揺らぎ、ブラウン運動の変位が巨大な試験体に$\Delta x$をもたらすことを含む。 高度な干渉計技術とミラーを含む重力波実験は、多数の重力子を検出し、検出器成分鏡における試験粒子のブラウン運動を検出することができた。 熱その他の背景雑音を低減させる問題について検討した。

A stochastic gravity in which the spacetime metric is a random variable and the spacetime manifold is a fluctuating physical system at a certain length scale is investigated. We will propose a way to detect gravitons by replicating the Brownian motion experiment. The Bose-Einstein occupation number $N_g$ for gravitons can be large enough to be the particle components of the gravitational random metric fluctuations in a physical system. The stochastic gravitational noise produced by the gravitons displaces a massive test particle in a physical system, allowing for the detection of gravitons. Possible experiments to detect gravitons are proposed involving collective stochastic fluctuations of a large number of gravitons causing a Brownian motion displacement $\Delta x$ of a massive test body. Gravitational wave experiments involving advanced interferometer techniques and mirrors could detect the large collective number of gravitons, and could detect Brownian motion of test particles in the detectors component mirrors. The problem of reducing thermal and other background noise is investigated.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-29
# Latent-EnSF:スパース観測データと高次元データ同化のための潜時アンサンブルスコアフィルタ

Latent-EnSF: A Latent Ensemble Score Filter for High-Dimensional Data Assimilation with Sparse Observation Data ( http://arxiv.org/abs/2409.00127v1 )

ライセンス: Link先を確認
Phillip Si, Peng Chen, (参考訳) 複雑な物理系の正確なモデリングと予測は、しばしばモデルシミュレーションに固有の誤りを修正するためにデータ同化技術に依存する。 Ensemble Kalman Filter (EnKF) のような従来の手法や、最近開発されたEnsemble Score Filters (EnSF) のような手法は、高次元および非線形ベイズフィルタ問題とスパース・オブザーバで扱う場合、現実のアプリケーションでユビキタスである。 本稿では,EnSFを有効かつ一貫した全状態の潜在表現とスパース観測で活用し,非線形ベイズフィルタの観測における高次元と高空間の連成課題に対処する新しいデータ同化手法であるLatent-EnSFを提案する。 本研究では,2つのエンコーダを結合した変分オートエンコーダ(VAE)を導入し,定常分布マッチングと正規化,および一貫した状態再構成によって保証される一貫した方法で全状態を符号化し,観察を疎結合にする。 いくつかの手法と比較して,浅海波伝搬と中距離気象予報の複雑なモデルを用いた2つの挑戦的応用に対して,Latent-EnSFの高精度,高速収束,高効率性を実証した。

Accurate modeling and prediction of complex physical systems often rely on data assimilation techniques to correct errors inherent in model simulations. Traditional methods like the Ensemble Kalman Filter (EnKF) and its variants as well as the recently developed Ensemble Score Filters (EnSF) face significant challenges when dealing with high-dimensional and nonlinear Bayesian filtering problems with sparse observations, which are ubiquitous in real-world applications. In this paper, we propose a novel data assimilation method, Latent-EnSF, which leverages EnSF with efficient and consistent latent representations of the full states and sparse observations to address the joint challenges of high dimensionlity in states and high sparsity in observations for nonlinear Bayesian filtering. We introduce a coupled Variational Autoencoder (VAE) with two encoders to encode the full states and sparse observations in a consistent way guaranteed by a latent distribution matching and regularization as well as a consistent state reconstruction. With comparison to several methods, we demonstrate the higher accuracy, faster convergence, and higher efficiency of Latent-EnSF for two challenging applications with complex models in shallow water wave propagation and medium-range weather forecasting, for highly sparse observations in both space and time.
翻訳日:2024-09-06 17:07:21 公開日:2024-08-29
# ミニショギにおける到達可能な位置の数の推定

Estimating the number of reachable positions in Minishogi ( http://arxiv.org/abs/2409.00129v1 )

ライセンス: Link先を確認
Sotaro Ishii, Tetsuro Tanaka, (参考訳) 極小木(後御所)の解法の可能性を検討するためには、初期位置から到達可能な位置の数を知る必要がある。 しかし、ミニショギの正当性を確認することは困難であるため、現在、下限と上限の間には大きなギャップが残っている。 本論文では、一様ランダムサンプリングを用いて候補位置を生成し、初期位置からの一連の法的移動により到達可能な位置の比率を測定することにより、到達可能な位置の数を推定する。 実験の結果、到達可能なMinishogi位置の数はおよそ2.38 \times 10^{18}$であることがわかった。

To investigate the feasibility of solving Minishogi (Gogo Shogi) strongly, we need to know the number of its reachable positions from the initial position. However, there currently remains a significant gap between the lower and upper bounds of the value, since checking the legality of a Minishogi position is difficult. In this paper, we estimated the number of reachable positions by generating candidate positions using uniform random sampling and measuring the proportion of those reachable by a series of legal moves from the initial position. The experimental results revealed that the number of reachable Minishogi positions is approximately $2.38 \times 10^{18}$.
翻訳日:2024-09-06 16:50:17 公開日:2024-08-29
# 被写体非依存運動画像に基づく脳波信号認識のためのミラーコントラスト損失ベーススライディングウインドウトランス

Mirror contrastive loss based sliding window transformer for subject-independent motor imagery based EEG signal recognition ( http://arxiv.org/abs/2409.00130v1 )

ライセンス: Link先を確認
Jing Luo, Qi Mao, Weiwei Shi, Zhenghao Shi, Xiaofan Wang, Xiaofeng Lu, Xinhong Hei, (参考訳) 深層学習モデルは運動画像に基づく脳波信号認識に広く利用されているが、ブラックボックスとして機能することが多い。 脳の片側感覚運動野における事象関連脱同期(ERD)を左右の運動の心的イメージが引き起こすことを示す神経学的知見により、ミラーコントラスト損失に基づくスライディングウインドウトランスフォーマー(MCL-SWT)を提案し、被写体非依存の運動像に基づく脳波信号認識を強化する。 具体的には,脳波信号の左半球と右半球のチャネルを交互に交換することにより,脳波信号とミラーミラー脳波信号とを対比することにより,脳波信号の空間的位置に対する感度を高める。 さらに,高時間分解能特徴から自己注意スコアを計算する時間的スライディングウインドウ変換器を導入し,管理可能な計算複雑性を伴ってモデル性能を向上させる。 脳波信号認識タスクにおけるMCL-SWTの性能評価を行い,MCL-SWTの精度は66.48%,75.62%であり,それぞれ2.82%,2.17%であった。 さらに, アブレーション実験により, 提案手法の有効性を確認した。 MCL-SWTのコードデモはhttps://github.com/roniusLuo/MCL_SWTで公開されている。

While deep learning models have been extensively utilized in motor imagery based EEG signal recognition, they often operate as black boxes. Motivated by neurological findings indicating that the mental imagery of left or right-hand movement induces event-related desynchronization (ERD) in the contralateral sensorimotor area of the brain, we propose a Mirror Contrastive Loss based Sliding Window Transformer (MCL-SWT) to enhance subject-independent motor imagery-based EEG signal recognition. Specifically, our proposed mirror contrastive loss enhances sensitivity to the spatial location of ERD by contrasting the original EEG signals with their mirror counterparts-mirror EEG signals generated by interchanging the channels of the left and right hemispheres of the EEG signals. Moreover, we introduce a temporal sliding window transformer that computes self-attention scores from high temporal resolution features, thereby improving model performance with manageable computational complexity. We evaluate the performance of MCL-SWT on subject-independent motor imagery EEG signal recognition tasks, and our experimental results demonstrate that MCL-SWT achieved accuracies of 66.48% and 75.62%, surpassing the state-of-the-art (SOTA) model by 2.82% and 2.17%, respectively. Furthermore, ablation experiments confirm the effectiveness of the proposed mirror contrastive loss. A code demo of MCL-SWT is available at https://github.com/roniusLuo/MCL_SWT.
翻訳日:2024-09-06 16:50:17 公開日:2024-08-29
# 数学語問題に対する軽量大言語モデルを用いた論理コントラスト推論

Logic Contrastive Reasoning with Lightweight Large Language Model for Math Word Problems ( http://arxiv.org/abs/2409.00131v1 )

ライセンス: Link先を確認
Ding Kai, Ma Zhenguo, Yan Xiaoran, (参考訳) 本研究は,数理推論タスクにおける軽量大言語モデル(LLM)の性能向上に焦点をあてる。 本稿では,数理論理の類似性を測定する新しい手法を提案し,意味的類似性と論理的類似性の両方を統合する参照問題の集合を構築するための自動スクリーニング機構を設計する。 肯定的かつ否定的な事例プロンプトを慎重に作成することにより、我々は、音響推論論理を採用するためのモデルを導出する。 我々の知る限りでは、これは数学的問題解決に検索強化生成を利用する最初の試みである。 実験の結果,本手法はSVAMPデータセットにおけるChain of Thoughtアプローチよりも15.8%改善し,GSM8Kデータセットでは21.5%改善した。 この手法を1750億のパラメータを持つ大規模モデルに適用すると、上記の両方のデータセットの最良の結果に匹敵する性能が得られる。 最後に、推論過程における誤りの分析を行い、大規模言語モデルを用いた推論タスクの今後の研究に有用な洞察と方向性を提供する。

This study focuses on improving the performance of lightweight Large Language Models (LLMs) in mathematical reasoning tasks. We introduce a novel method for measuring mathematical logic similarity and design an automatic screening mechanism to construct a set of reference problems that integrate both semantic and logical similarity. By employing carefully crafted positive and negative example prompts, we guide the model towards adopting sound reasoning logic. To the best of our knowledge, this is the first attempt to utilize retrieval-enhanced generation for mathematical problem-solving. Experimental results demonstrate that our method achieves a 15.8% improvement over the Chain of Thought approach on the SVAMP dataset and a 21.5 % improvement on the GSM8K dataset. Further application of this method to a large-scale model with 175 billion parameters yields performance comparable to the best results on both aforementioned datasets. Finally, we conduct an analysis of errors during the reasoning process, providing valuable insights and directions for future research on reasoning tasks using large language models.
翻訳日:2024-09-06 16:50:17 公開日:2024-08-29
# バイオメディシンにおける大規模言語モデルの探索

A Survey for Large Language Models in Biomedicine ( http://arxiv.org/abs/2409.00133v1 )

ライセンス: Link先を確認
Chong Wang, Mengyao Li, Junjun He, Zhongruo Wang, Erfan Darzi, Zan Chen, Jin Ye, Tianbin Li, Yanzhou Su, Jing Ke, Kaili Qu, Shuxin Li, Yi Yu, Pietro Liò, Tianyun Wang, Yu Guang Wang, Yiqing Shen, (参考訳) 大規模言語モデル(LLM)の最近のブレークスルーは、前例のない自然言語の理解と生成能力を提供する。 しかしながら、生物医学におけるLCMに関する既存の調査は、しばしば特定のアプリケーションやモデルアーキテクチャに焦点を当て、様々な生物医学領域における最新の進歩を統合する包括的な分析を欠いている。 このレビューは、PubMed、Web of Science、arXivなどのデータベースから得られた484の出版物の分析に基づいて、バイオメディシンにおけるLLMの現在の展望、応用、課題、展望を詳細に検証し、実際の生体医学的文脈におけるこれらのモデルの実践的意味に焦点を当てて、自分自身を区別する。 まず, 診断支援, 薬物発見, パーソナライズドメディカル医療など, 幅広いバイオメディカル・タスクにおいて, ゼロショット学習におけるLCMの能力について, 137 つの重要な研究から考察した。 そこで,本研究では,一様・多様両方のLDMを微調整して,ゼロショットが達成できない特殊なバイオメディカルコンテキストにおいて,医療質問応答やバイオメディカル文献の効率的な処理など,それらの性能を向上させることを含むLCMの適応戦略について論じる。 最後に、データプライバシの懸念、モデル解釈可能性の制限、データセットの品質の問題、バイオメディカルデータのセンシティブな性質による倫理、信頼性の高いモデル出力の必要性、医療におけるAI導入の倫理的影響など、LLMがバイオメディシック領域で直面する課題について議論する。 これらの課題に対処するために、我々は、データのプライバシーを維持するためのフェデレートされた学習方法や、LLMの透明性を高めるための説明可能なAI方法論の統合を含む、バイオメディシンにおけるLLMの今後の研究方向も特定する。

Recent breakthroughs in large language models (LLMs) offer unprecedented natural language understanding and generation capabilities. However, existing surveys on LLMs in biomedicine often focus on specific applications or model architectures, lacking a comprehensive analysis that integrates the latest advancements across various biomedical domains. This review, based on an analysis of 484 publications sourced from databases including PubMed, Web of Science, and arXiv, provides an in-depth examination of the current landscape, applications, challenges, and prospects of LLMs in biomedicine, distinguishing itself by focusing on the practical implications of these models in real-world biomedical contexts. Firstly, we explore the capabilities of LLMs in zero-shot learning across a broad spectrum of biomedical tasks, including diagnostic assistance, drug discovery, and personalized medicine, among others, with insights drawn from 137 key studies. Then, we discuss adaptation strategies of LLMs, including fine-tuning methods for both uni-modal and multi-modal LLMs to enhance their performance in specialized biomedical contexts where zero-shot fails to achieve, such as medical question answering and efficient processing of biomedical literature. Finally, we discuss the challenges that LLMs face in the biomedicine domain including data privacy concerns, limited model interpretability, issues with dataset quality, and ethics due to the sensitive nature of biomedical data, the need for highly reliable model outputs, and the ethical implications of deploying AI in healthcare. To address these challenges, we also identify future research directions of LLM in biomedicine including federated learning methods to preserve data privacy and integrating explainable AI methodologies to enhance the transparency of LLMs.
翻訳日:2024-09-06 16:50:17 公開日:2024-08-29
# MAPF-GPT:マルチエージェントパスフィニングにおけるシミュレーション学習

MAPF-GPT: Imitation Learning for Multi-Agent Pathfinding at Scale ( http://arxiv.org/abs/2409.00134v1 )

ライセンス: Link先を確認
Anton Andreychuk, Konstantin Yakovlev, Aleksandr Panov, Alexey Skrynnik, (参考訳) MAPF(Multi-agent pathfinding)は、共有環境において、複数のエージェントの衝突のない経路を見つけるのが通常である、難しい計算問題である。 MAPFを最適に解くことはNPハードであるが、自動化された倉庫や輸送システムを含む多くのアプリケーションにとって非常に重要である。 近年、MAPFへの学習に基づくアプローチが注目されており、特に深層強化学習を活用している。 機械学習のトレンドに続き、MAPF-GPTと呼ばれるMAPF問題の基盤モデルを作成しました。 模擬学習を用いて、我々は、追加のヒューリスティックや報酬関数、他のエージェントとのコミュニケーションを伴わずに、部分観測可能性の条件下でアクションを生成可能な、事前コンパイルされた準最適専門家軌道のセットに関するポリシーを訓練した。 MAPF-GPTモデルは、トレーニングデータセットに存在しないMAPF問題インスタンスを解く際に、ゼロショット学習能力を示す。 MAPF-GPTは,多種多様な問題インスタンスにおいて,現在最も優れた学習可能なMAPFソルバよりも優れており,(推論モードにおいて)計算の面で効率がよいことを示す。

Multi-agent pathfinding (MAPF) is a challenging computational problem that typically requires to find collision-free paths for multiple agents in a shared environment. Solving MAPF optimally is NP-hard, yet efficient solutions are critical for numerous applications, including automated warehouses and transportation systems. Recently, learning-based approaches to MAPF have gained attention, particularly those leveraging deep reinforcement learning. Following current trends in machine learning, we have created a foundation model for the MAPF problems called MAPF-GPT. Using imitation learning, we have trained a policy on a set of pre-collected sub-optimal expert trajectories that can generate actions in conditions of partial observability without additional heuristics, reward functions, or communication with other agents. The resulting MAPF-GPT model demonstrates zero-shot learning abilities when solving the MAPF problem instances that were not present in the training dataset. We show that MAPF-GPT notably outperforms the current best-performing learnable-MAPF solvers on a diverse range of problem instances and is efficient in terms of computation (in the inference mode).
翻訳日:2024-09-06 16:50:17 公開日:2024-08-29
# HoneyComb:材料科学のためのフレキシブルLCMベースのエージェントシステム

HoneyComb: A Flexible LLM-Based Agent System for Materials Science ( http://arxiv.org/abs/2409.00135v1 )

ライセンス: Link先を確認
Huan Zhang, Yu Song, Ziyu Hou, Santiago Miret, Bang Liu, (参考訳) 特殊な大規模言語モデル(LLM)の出現は、材料科学の複雑な課題に対処する上で有望であることを示している。 しかし、多くのLSMは、材料科学の計算タスクのような、物質科学のタスクの異なる複雑さに苦しむことが多く、しばしば時代遅れの暗黙の知識に強く依存し、不正確さや幻覚をもたらす。 これらの課題に対処するために,材料科学に特化して設計された最初のLCMベースのエージェントシステムであるHoneyCombを紹介する。 HoneyCombは、新しい高品質の材料科学知識ベース(MatSciKB)と高度なツールハブ(ToolHub)を活用して、材料科学に適した推論と計算能力を強化している。 MatSciKBは信頼性の高い文献に基づく構造化された知識収集であり、ToolHubはインダクティブツール構築法を使用して、材料科学のためのAPIツールを生成し、分解し、洗練する。 さらに、HoneyCombは、特定のタスクに対して適切な知識ソースまたはツールを適応的に選択する検索モジュールを活用し、精度と関連性を保証する。 以上の結果から,HoneyCombは材料科学における各種タスクにおけるベースラインモデルよりも有意に優れており,現在のLLM能力とこの分野の専門的ニーズとのギャップを効果的に埋めていることが明らかとなった。 さらに、我々の適応可能なフレームワークは他の科学分野にも容易に拡張でき、科学研究や応用の進展における幅広い適用可能性を強調している。

The emergence of specialized large language models (LLMs) has shown promise in addressing complex tasks for materials science. Many LLMs, however, often struggle with distinct complexities of material science tasks, such as materials science computational tasks, and often rely heavily on outdated implicit knowledge, leading to inaccuracies and hallucinations. To address these challenges, we introduce HoneyComb, the first LLM-based agent system specifically designed for materials science. HoneyComb leverages a novel, high-quality materials science knowledge base (MatSciKB) and a sophisticated tool hub (ToolHub) to enhance its reasoning and computational capabilities tailored to materials science. MatSciKB is a curated, structured knowledge collection based on reliable literature, while ToolHub employs an Inductive Tool Construction method to generate, decompose, and refine API tools for materials science. Additionally, HoneyComb leverages a retriever module that adaptively selects the appropriate knowledge source or tools for specific tasks, thereby ensuring accuracy and relevance. Our results demonstrate that HoneyComb significantly outperforms baseline models across various tasks in materials science, effectively bridging the gap between current LLM capabilities and the specialized needs of this domain. Furthermore, our adaptable framework can be easily extended to other scientific domains, highlighting its potential for broad applicability in advancing scientific research and applications.
翻訳日:2024-09-06 16:50:17 公開日:2024-08-29
# フロンティアモデルにおける新たな脆弱性:マルチターンジェイルブレイク攻撃

Emerging Vulnerabilities in Frontier Models: Multi-Turn Jailbreak Attacks ( http://arxiv.org/abs/2409.00137v1 )

ライセンス: Link先を確認
Tom Gibbs, Ethan Kosak-Hine, George Ingebretsen, Jason Zhang, Julius Broomfield, Sara Pieri, Reihaneh Iranmanesh, Reihaneh Rabbany, Kellin Pelrine, (参考訳) 大規模言語モデル(LLM)は例外的な速度で改善されている。 しかし、これらのモデルは依然としてジェイルブレイク攻撃の影響を受けており、モデルがますます強力になるにつれて、ますます危険が増している。 そこで本研究では,各例を単一あるいは複数ターンの形式で入力可能なジェイルブレイクのデータセットを提案する。 コンテンツでは同等だが、ジェイルブレイクの成功では同等ではない。ある構造に対する防御は、他方に対する防御を保証するものではない。 同様に、LLMベースのフィルタガードレールも、入力内容だけでなく、入力構造にも依存する。 したがって、フロンティアモデルの脆弱性は、シングルターンとマルチターンの両方の設定で調査する必要がある。

Large language models (LLMs) are improving at an exceptional rate. However, these models are still susceptible to jailbreak attacks, which are becoming increasingly dangerous as models become increasingly powerful. In this work, we introduce a dataset of jailbreaks where each example can be input in both a single or a multi-turn format. We show that while equivalent in content, they are not equivalent in jailbreak success: defending against one structure does not guarantee defense against the other. Similarly, LLM-based filter guardrails also perform differently depending on not just the input content but the input structure. Thus, vulnerabilities of frontier models should be studied in both single and multi-turn settings; this dataset provides a tool to do so.
翻訳日:2024-09-06 16:50:17 公開日:2024-08-29
# PrivacyLens: 行動中の言語モデルのプライバシノーム認識を評価する

PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action ( http://arxiv.org/abs/2409.00138v1 )

ライセンス: Link先を確認
Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang, (参考訳) 言語モデル(LM)は、パーソナライズされたコミュニケーションシナリオ(例えば、電子メールの送信、ソーシャルメディアの投稿の書き込みなど)で広く利用され、一定のレベルのエージェンシーによって授けられているため、コンテキストプライバシの規範に従って行動することがますます重要になる。 しかし,(1)プライバシに敏感なケースの文脈的・長期的特性,(2)現実的なアプリケーションシナリオを捉えた評価手法の欠如などにより,LMのプライバシ規範の意識の定量化や,LMを介したコミュニケーションにおけるプライバシーリスクの増大は困難である。 これらの課題に対処するために、我々はプライバシーに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張する新しいフレームワークであるPrivacyLensを提案し、LMエージェントの動作におけるプライバシー漏洩のマルチレベル評価を可能にした。 プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。 このデータセットを用いて,エージェント設定でユーザ命令を実行する際に,探索質問に対する回答におけるLM性能と実際の動作との相違を明らかにする。 GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。 また、各シードを複数のトラジェクトリに拡張することで、プライバシLensの動的な性質を赤チームLMプライバシリークリスクに示す。 データセットとコードはhttps://github.com/SALT-NLP/PrivacyLens.comで入手できる。

As language models (LMs) are widely utilized in personalized communication scenarios (e.g., sending emails, writing social media posts) and endowed with a certain level of agency, ensuring they act in accordance with the contextual privacy norms becomes increasingly critical. However, quantifying the privacy norm awareness of LMs and the emerging privacy risk in LM-mediated communication is challenging due to (1) the contextual and long-tailed nature of privacy-sensitive cases, and (2) the lack of evaluation approaches that capture realistic application scenarios. To address these challenges, we propose PrivacyLens, a novel framework designed to extend privacy-sensitive seeds into expressive vignettes and further into agent trajectories, enabling multi-level evaluation of privacy leakage in LM agents' actions. We instantiate PrivacyLens with a collection of privacy norms grounded in privacy literature and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM performance in answering probing questions and their actual behavior when executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4 and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even when prompted with privacy-enhancing instructions. We also demonstrate the dynamic nature of PrivacyLens by extending each seed into multiple trajectories to red-team LM privacy leakage risk. Dataset and code are available at https://github.com/SALT-NLP/PrivacyLens.
翻訳日:2024-09-06 16:50:17 公開日:2024-08-29
# 畳み込みニューラルネットワークにおける四元成分の影響の統計的解析

Statistical Analysis of the Impact of Quaternion Components in Convolutional Neural Networks ( http://arxiv.org/abs/2409.00140v1 )

ライセンス: Link先を確認
Gerardo Altamirano-Gómez, Carlos Gershenson, (参考訳) 近年,様々な問題に準値畳み込みニューラルネットワーク(QCNN)を用いたモデルが提案されている。 四元数畳み込み層の定義は同じだが、他の原子部品の四元数領域への適応、例えば、プール層、活性化関数、完全に接続された層などが異なる。 しかしながら、これらのコンポーネントの特定のタイプを選択することの効果と、それらの相互作用がモデルの性能にどのように影響するかは、まだ不明である。 これらの選択がモデルパフォーマンスに与える影響を理解することは、QCNNを効果的に活用するために不可欠である。 本稿では,画像分類問題に対する既存成分の性能を比較するため,実験データを用いて統計的解析を行った。 さらに、モデル性能を向上させるために四元数代数のユニークな性質を利用する、新しい四元数ReLUアクティベーション関数を導入する。

In recent years, several models using Quaternion-Valued Convolutional Neural Networks (QCNNs) for different problems have been proposed. Although the definition of the quaternion convolution layer is the same, there are different adaptations of other atomic components to the quaternion domain, e.g., pooling layers, activation functions, fully connected layers, etc. However, the effect of selecting a specific type of these components and the way in which their interactions affect the performance of the model still unclear. Understanding the impact of these choices on model performance is vital for effectively utilizing QCNNs. This paper presents a statistical analysis carried out on experimental data to compare the performance of existing components for the image classification problem. In addition, we introduce a novel Fully Quaternion ReLU activation function, which exploits the unique properties of quaternion algebra to improve model performance.
翻訳日:2024-09-06 16:50:17 公開日:2024-08-29
# Tiny-Toxic-Detector: 毒性コンテンツ検出のためのコンパクトトランスモデル

Tiny-Toxic-Detector: A compact transformer-based model for toxic content detection ( http://arxiv.org/abs/2409.02114v1 )

ライセンス: Link先を確認
Michiel Kamphuis, (参考訳) 本稿では, 有害なコンテンツ検出を目的とした小型トランスモデルTiny-toxic-detectorを提案する。 わずか2100万のパラメータを持つにもかかわらず、Tiny-toxic-detectorはベンチマークデータセット上での競合性能を達成しており、ToxiGenでは90.97%、Jigsawデータセットでは86.98%の精度で、50倍以上のモデルに匹敵する。 この効率性は、リソース制約のある環境へのデプロイを可能にし、パフォーマンスと計算効率のバランスをとる効果的なコンテンツモデレーションツールの必要性に対処する。 モデルアーキテクチャは、4つのトランスフォーマーエンコーダ層を備え、それぞれ2つのアテンションヘッド、埋め込み寸法64、フィードフォワード寸法128である。 パブリックデータセットとプライベートデータセットの両方でトレーニングされたTiny-toxic-detectorは、オンライン毒性に対処する効率的なタスク固有のモデルの可能性を示している。 本論文は,ソーシャルメディア監視やコンテンツモデレーションなどのアプリケーションに適用可能な,モデルアーキテクチャ,トレーニングプロセス,パフォーマンスベンチマーク,制限について述べる。 より大きなモデルに匹敵する結果を達成し、計算要求を大幅に削減することで、Tiny-toxic-detectorは、より持続可能でスケーラブルなAI駆動のコンテンツモデレーションソリューションへの進歩を表している。

This paper presents Tiny-toxic-detector, a compact transformer-based model designed for toxic content detection. Despite having only 2.1 million parameters, Tiny-toxic-detector achieves competitive performance on benchmark datasets, with 90.97% accuracy on ToxiGen and 86.98% accuracy on the Jigsaw dataset, rivaling models over 50 times its size. This efficiency enables deployment in resource-constrained environments, addressing the need for effective content moderation tools that balance performance with computational efficiency. The model architecture features 4 transformer encoder layers, each with 2 attention heads, an embedding dimension of 64, and a feedforward dimension of 128. Trained on both public and private datasets, Tiny-toxic-detector demonstrates the potential of efficient, task-specific models for addressing online toxicity. The paper covers the model architecture, training process, performance benchmarks, and limitations, underscoring its suitability for applications such as social media monitoring and content moderation. By achieving results comparable to much larger models while significantly reducing computational demands, Tiny-toxic-detector represents progress toward more sustainable and scalable AI-driven content moderation solutions.
翻訳日:2024-09-05 23:53:09 公開日:2024-08-29
# 分子生成モデルに基づく属性グラフ:限られたデータによる学習への道

Attribute Graphs Underlying Molecular Generative Models: Path to Learning with Limited Data ( http://arxiv.org/abs/2207.07174v2 )

ライセンス: Link先を確認
Samuel C. Hoffman, Payel Das, Karthikeyan Shanmugam, Kahini Wadhawan, Prasanna Sattigeri, (参考訳) データのリッチなセマンティクスをキャプチャし、そのようなモデルによって符号化された潜在表現を解釈する生成モデルを訓練することは、教師なし学習において非常に重要な問題である。 本研究では、事前学習された生成オートエンコーダの潜伏符号の摂動実験を頼りに、生成モデルによって示唆される属性グラフを探索する簡単なアルゴリズムを提案する。 我々は摂動実験を行い、与えられた潜在変数が属性のサブセットに与える影響をチェックする。 この結果から,外因性変数として取られた潜在符号と,観測された変数として取られた属性との間の構造方程式モデルをモデル化する有効なグラフィカルモデルに適合することを示す。 興味深い側面の1つは、単一の潜伏変数が、完全な独立を強制しようとする従来のアプローチとは異なり、属性の複数の重複部分集合を制御することである。 小分子の大規模なデータセットに基づいて学習した事前学習された生成自己エンコーダを用いて,本アルゴリズムで学習した様々な分子特性と潜時符号の間のグラフィカルモデルを用いて,異なる分布から引き出された分子の特定の特性を予測することができることを示す。 従来の因果探索法やスパース学習/特徴選択法と同様に,単純なベースラインで選択された様々な特徴サブセットに基づいて訓練された予測モデルと,本手法から抽出したマルコフブランケットの予測モデルを比較した。 その結果、マルコフの毛布属性に依存する予測器は、新しい分布からいくつかのサンプルを転送または微調整した場合、特にトレーニングデータに制限がある場合、分布シフトに対して頑健であることが実証された。

Training generative models that capture rich semantics of the data and interpreting the latent representations encoded by such models are very important problems in un-/self-supervised learning. In this work, we provide a simple algorithm that relies on perturbation experiments on latent codes of a pre-trained generative autoencoder to uncover an attribute graph that is implied by the generative model. We perform perturbation experiments to check for influence of a given latent variable on a subset of attributes. Given this, we show that one can fit an effective graphical model that models a structural equation model between latent codes taken as exogenous variables and attributes taken as observed variables. One interesting aspect is that a single latent variable controls multiple overlapping subsets of attributes unlike conventional approaches that try to impose full independence. Using a pre-trained generative autoencoder trained on a large dataset of small molecules, we demonstrate that the graphical model between various molecular attributes and latent codes learned by our algorithm can be used to predict a specific property for molecules which are drawn from a different distribution. We compare prediction models trained on various feature subsets chosen by simple baselines, as well as existing causal discovery and sparse learning/feature selection methods, with the ones in the derived Markov blanket from our method. Results show empirically that the predictor that relies on our Markov blanket attributes is robust to distribution shifts when transferred or fine-tuned with a few samples from the new distribution, especially when training data is limited.
翻訳日:2024-09-02 20:50:35 公開日:2024-08-29
# MelHuBERT: Mel Spectrogramsを簡略化したHuBERT

MelHuBERT: A simplified HuBERT on Mel spectrograms ( http://arxiv.org/abs/2211.09944v3 )

ライセンス: Link先を確認
Tzu-Quan Lin, Hung-yi Lee, Hao Tang, (参考訳) 自己教師付きモデルは、様々な下流タスクに一般化できる音声表現の学習に大きな成功を収めてきた。 しかし、ほとんどの自己教師型モデルは、訓練するために大量の計算と複数のGPUを必要とし、自己教師型学習の開発を著しく妨げている。 トレーニングの計算を減らそうとする試みとして,高度に成功した自己教師型モデルであるHuBERTのトレーニングを再考する。 我々は、損失関数、入力表現、複数の段階におけるトレーニングなど、いくつかの重要なコンポーネントを改善し、単純化する。 我々のモデルであるMelHuBERTは、HuBERTに対する音声認識、話者識別、自動音声認識において、事前学習時間の31.2%、または1秒あたり33.5%のMACを節約し、良好なパフォーマンスを達成することができる。 コードと事前訓練されたモデルはhttps://github.com/nervjack2/MelHuBERT.comで入手できる。

Self-supervised models have had great success in learning speech representations that can generalize to various downstream tasks. However, most self-supervised models require a large amount of compute and multiple GPUs to train, significantly hampering the development of self-supervised learning. In an attempt to reduce the computation of training, we revisit the training of HuBERT, a highly successful self-supervised model. We improve and simplify several key components, including the loss function, input representation, and training in multiple stages. Our model, MelHuBERT, is able to achieve favorable performance on phone recognition, speaker identification, and automatic speech recognition against HuBERT, while saving 31.2% of the pre-training time, or equivalently 33.5% MACs per one second speech. The code and pre-trained models are available in https://github.com/nervjack2/MelHuBERT.
翻訳日:2024-09-02 20:50:35 公開日:2024-08-29
# 量子センシングによる単一グラビトンの検出

Detecting single gravitons with quantum sensing ( http://arxiv.org/abs/2308.15440v2 )

ライセンス: Link先を確認
Germain Tobar, Sreenath K. Manikandan, Thomas Beitel, Igor Pikovski, (参考訳) 重力の量子化は重力波を形成する離散エネルギーの粒子である重力子をもたらすと広く信じられている。 しかし、これまでのところ検出は不可能と見なされている。 ここでは,実験室で単一グラビトン交換のシグネチャが観察可能であることを示す。 本研究では, 量子音響共振器において, 刺激された単一重力過程と自発的な単一重力過程が関連しうること, 量子ジャンプの連続検知により, 刺激された吸収を解消できること, を示す。 物質と重力波の間の単一エネルギー量子の交換を観測できる可能性を分析する。 実験の結果,1つのグラビトンシグネチャが実験の範囲内にあることが明らかとなった。 光子に対する光電効果の発見と類似して、そのようなシグネチャは重力の量子化に関する最初の実験的手がかりを与えることができる。

The quantization of gravity is widely believed to result in gravitons -- particles of discrete energy that form gravitational waves. But their detection has so far been considered impossible. Here we show that signatures of single graviton exchange can be observed in laboratory experiments. We show that stimulated and spontaneous single-graviton processes can become relevant for massive quantum acoustic resonators and that stimulated absorption can be resolved through continuous sensing of quantum jumps. We analyze the feasibility of observing the exchange of single energy quanta between matter and gravitational waves. Our results show that single graviton signatures are within reach of experiments. In analogy to the discovery of the photo-electric effect for photons, such signatures can provide the first experimental clue of the quantization of gravity.
翻訳日:2024-09-02 20:41:13 公開日:2024-08-29
# Loop Copilot: 音楽生成と反復編集のためのAIアンサンブルを実行する

Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing ( http://arxiv.org/abs/2310.12404v2 )

ライセンス: Link先を確認
Yixiao Zhang, Akira Maezawa, Gus Xia, Kazuhiko Yamamoto, Simon Dixon, (参考訳) 音楽の制作は反復的であり、各段階で様々な方法を必要とする。 しかし、既存のAI音楽システムは、多様なニーズのために複数のサブシステムのオーケストレーションに不足している。 このギャップに対処するために,対話型多ラウンド対話インタフェースによりユーザが音楽を生成し,反復的に洗練することのできる新しいシステムであるLoop Copilotを導入する。 このシステムは、大きな言語モデルを使用して、ユーザの意図を解釈し、タスク実行に適切なAIモデルを選択する。 各バックエンドモデルは特定のタスクに特化しており、そのアウトプットはユーザの要求を満たすように集約される。 音楽コヒーレンスを確保するため、本質的な属性を集中テーブルに保持する。 本システムの有効性は,半構造化インタビューやアンケートを通じて評価し,音楽制作の促進だけでなく,幅広い応用の可能性も浮き彫りにしている。

Creating music is iterative, requiring varied methods at each stage. However, existing AI music systems fall short in orchestrating multiple subsystems for diverse needs. To address this gap, we introduce Loop Copilot, a novel system that enables users to generate and iteratively refine music through an interactive, multi-round dialogue interface. The system uses a large language model to interpret user intentions and select appropriate AI models for task execution. Each backend model is specialized for a specific task, and their outputs are aggregated to meet the user's requirements. To ensure musical coherence, essential attributes are maintained in a centralized table. We evaluate the effectiveness of the proposed system through semi-structured interviews and questionnaires, highlighting its utility not only in facilitating music creation but also its potential for broader applications.
翻訳日:2024-09-02 20:41:13 公開日:2024-08-29
# ポーカーハンドの記録と記述

Recording and Describing Poker Hands ( http://arxiv.org/abs/2312.11753v5 )

ライセンス: Link先を確認
Juho Kim, (参考訳) 本稿ではポーカーハンドヒストリー(PHH)ファイルフォーマットを紹介する。 心身スポーツとしてポーカーが主流の文化で広く普及し、不完全な情報AIエージェントのベンチマークとしての人工知能(AI)研究の分野における卓越しているにもかかわらず、機械で簡単に解析できる様々な種類のポーカーハンドを人間が文書化するために使用できる一貫したフォーマットが欠如している。 このギャップに対処するため,本論文では,初期ゲームパラメータやアクションから,会場,プレーヤ,タイムコントロール情報に制限されないコンテキストパラメータに至るまで,手作業のさまざまな詳細を包括的にキャプチャする,手作業履歴の簡潔で可読なマシンフレンドリーな表現を提供するPHHフォーマットを提案する。 補足では、PHHフォーマットの11種類の変種をカバーする10,088個の手を提供する。 完全な仕様はhttps://github.com/uoftcprg/phh-stdで公開されている。

This paper introduces the Poker Hand History (PHH) file format, designed to standardize the recording of poker hands across different game variants. Despite poker's widespread popularity in the mainstream culture as a mind sport and its prominence in the field of artificial intelligence (AI) research as a benchmark for imperfect information AI agents, it lacks a consistent format that humans can use to document poker hands across different variants that can also easily be parsed by machines. To address this gap in the literature, we propose the PHH format which provides a concise human-readable machine-friendly representation of hand history that comprehensively captures various details of the hand, ranging from initial game parameters and actions to contextual parameters including but not limited to the venue, players, and time control information. In the supplementary, we provide 10,088 hands covering 11 different variants in the PHH format. The full specification is available on https://github.com/uoftcprg/phh-std
翻訳日:2024-09-02 20:31:28 公開日:2024-08-29
# 古典的および量子的相関関係の定量化のための因果モデル

A Causal Model for Quantifying Multipartite Classical and Quantum Correlations ( http://arxiv.org/abs/2401.16414v4 )

ライセンス: Link先を確認
Shuchan Wang, Gerhard Wunder, (参考訳) 我々は、与えられた複数の古典的あるいは量子的相関の中で情報理論資源の操作的定義を与える。 我々は,この相関関係の情報源符号化側として機能する因果モデルを提案し,資源レートという新しい概念を導入する。 我々は、古典的な機密性以外にも、分散コンピューティング問題のセキュリティに有用なリソースが存在しており、リソースレートによって捕捉できると論じている。 さらに,資源レートとシャノンの対数情報尺度の拡張,すなわち総相関との関係を確立する。

We give an operational definition of information-theoretic resources within a given multipartite classical or quantum correlation. We present our causal model that serves as the source coding side of this correlation and introduce a novel concept of resource rate. We argue that, beyond classical secrecy, additional resources exist that are useful for the security of distributed computing problems, which can be captured by the resource rate. Furthermore, we establish a relationship between resource rate and an extension of Shannon's logarithmic information measure, namely, total correlation.
翻訳日:2024-09-02 20:21:37 公開日:2024-08-29
# 分散量子コンピューティングにおける量子アルゴリズム

Quantum algorithms in distributed quantum computing ( http://arxiv.org/abs/2402.10745v2 )

ライセンス: Link先を確認
Sreraman Muralidharan, (参考訳) 分散量子コンピューティング(DQC)は、量子通信リンクを介して接続される複数の量子処理ユニット(QPU)を使用して量子コンピュータをスケールする方法を提供する。 本稿では,分散量子コンピューティングシミュレータを構築し,量子フーリエ変換,量子位相推定,量子振幅推定,DQCにおける確率分布の生成などの量子アルゴリズムの探索に利用した。 シミュレータは、簡単に分散量子回路を生成して実行することができ、アルゴリズムの忠実度や絡み合い生成ステップの数などのDQCパラメータを取得し、ベンチマークし、分散環境で動的回路を使用して結果を改善することができる。 そこでは,DQCにおける動的量子回路の適用性を示す。そこでは,ノイズの多いプロセッサ間(非局所)量子ゲートの代わりに,中間回路計測,局所演算,古典的通信が使用される。

Distributed quantum computing (DQC), provides a way to scale quantum computers using multiple quantum processing units (QPU) which are connected through quantum communication links. In this paper, we have built a distributed quantum computing simulator and used the simulator to investigate quantum algorithms such as the quantum Fourier transform, quantum phase estimation, quantum amplitude estimation, and the generation of probability distribution in DQC. The simulator can be used to generate and execute distributed quantum circuits with ease, obtain and benchmark DQC parameters such as the fidelity of the algorithm and the number of entanglement generation steps, and use dynamic circuits in a distributed setting to improve results. We show the applicability of dynamic quantum circuits in DQC, where mid-circuit measurements, local operations, and classical communication are used in place of noisy inter-processor (nonlocal) quantum gates.
翻訳日:2024-09-02 20:21:37 公開日:2024-08-29
# EHRデータを用いた5年間の慢性疾患コホート予測のための大規模言語マルチモーダルモデル

Large Language Multimodal Models for 5-Year Chronic Disease Cohort Prediction Using EHR Data ( http://arxiv.org/abs/2403.04785v2 )

ライセンス: Link先を確認
Jun-En Ding, Phan Nguyen Minh Thao, Wen-Chih Peng, Jian-Zhe Wang, Chun-Cheng Chug, Min-Chen Hsieh, Yun-Chien Tseng, Ling Chen, Dongsheng Luo, Chi-Te Wang, Pei-fu Chen, Feng Liu, Fang-Ming Hung, (参考訳) 糖尿病などの慢性疾患が世界中で致死率と死亡率の主な原因となっている。 様々な深層学習モデルを用いて多くの研究が試みられている。 しかし、これまでのほとんどの研究では、公開データセット(例えばMIMIC)や不均衡なデータなど、一定の制限があった。 本研究では,台湾の病院データベースから,1,420,596名,387,392名の臨床検査結果,1,505名以上の臨床検査項目を含む5年間の電子健康記録(EHR)を収集し,大規模言語モデルの事前学習に焦点をあてた。 臨床ノートから得られたマルチモーダルデータを組み込んだLLMM(Large Language Multimodal Models)フレームワークと,慢性疾患リスク予測のための検査結果を提案した。 本手法では, テキスト埋め込みエンコーダとマルチヘッドアテンション層を組み合わせて, 深層ニューラルネットワーク(DNN)モジュールを用いて, 血液の特徴と慢性疾患のセマンティクスを潜在空間にマージする。 本実験では,臨床BERTとPubMed-BERTの併用により,多型性慢性疾患および糖尿病予測において73%の精度が得られた。 実験室の試験値をテキスト記述に変換し,Flan T-5モデルを用いて,ROC曲線(AUROC)の下で76%のエリアを達成し,言語モデルのトレーニングと推論に数値テキストデータを活用することの有効性を実証した。 このアプローチは早期糖尿病予測の精度を大幅に向上させる。

Chronic diseases such as diabetes are the leading causes of morbidity and mortality worldwide. Numerous research studies have been attempted with various deep learning models in diagnosis. However, most previous studies had certain limitations, including using publicly available datasets (e.g. MIMIC), and imbalanced data. In this study, we collected five-year electronic health records (EHRs) from the Taiwan hospital database, including 1,420,596 clinical notes, 387,392 laboratory test results, and more than 1,505 laboratory test items, focusing on research pre-training large language models. We proposed a novel Large Language Multimodal Models (LLMMs) framework incorporating multimodal data from clinical notes and laboratory test results for the prediction of chronic disease risk. Our method combined a text embedding encoder and multi-head attention layer to learn laboratory test values, utilizing a deep neural network (DNN) module to merge blood features with chronic disease semantics into a latent space. In our experiments, we observe that clinicalBERT and PubMed-BERT, when combined with attention fusion, can achieve an accuracy of 73% in multiclass chronic diseases and diabetes prediction. By transforming laboratory test values into textual descriptions and employing the Flan T-5 model, we achieved a 76% Area Under the ROC Curve (AUROC), demonstrating the effectiveness of leveraging numerical text data for training and inference in language models. This approach significantly improves the accuracy of early-stage diabetes prediction.
翻訳日:2024-09-02 20:11:53 公開日:2024-08-29
# AIの意識は必然的:理論的コンピュータ科学の視点

AI Consciousness is Inevitable: A Theoretical Computer Science Perspective ( http://arxiv.org/abs/2403.17101v6 )

ライセンス: Link先を確認
Lenore Blum, Manuel Blum, (参考訳) 我々は,資源制限下での計算を研究する数学の分野である理論計算機科学のレンズを通して,意識を考察する。 この観点から、意識のための正式な機械モデルを開発する。 このモデルはアラン・チューリングの単純だが強力な計算モデルとバーナード・ベアーズの意識の劇場モデルにインスパイアされている。 非常に単純ではあるが、このモデルは人間と動物の意識に関する主要な科学的理論の多くと高いレベルで一致しており、機械の意識は避けられないという我々の主張を支持している。

We look at consciousness through the lens of Theoretical Computer Science, a branch of mathematics that studies computation under resource limitations. From this perspective, we develop a formal machine model for consciousness. The model is inspired by Alan Turing's simple yet powerful model of computation and Bernard Baars' theater model of consciousness. Though extremely simple, the model aligns at a high level with many of the major scientific theories of human and animal consciousness, supporting our claim that machine consciousness is inevitable.
翻訳日:2024-09-02 20:11:53 公開日:2024-08-29
# 構造化知識ベースを用いた大規模言語モデルによるメタデータのキュレーション

Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models ( http://arxiv.org/abs/2404.05893v4 )

ライセンス: Link先を確認
Sowmya S. Sundaram, Benjamin Solomon, Avani Khatri, Anisha Laumas, Purvesh Khatri, Mark A. Musen, (参考訳) メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。 本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル(LLM),特に GPT-4 の可能性について検討する。 NCBI BioSampleレポジトリの肺がん関連サンプルを記載した200件のランダムなデータ記録について実験を行い,GPT-4のメタデータ標準に準拠した編集を提案する能力について検討した。 ピアレビュープロセスによりフィールド名-フィールド値ペアのアテンデンス精度を算出し,標準データ辞書のアテンデンスを79%から80%(p<0.5。 CEDARテンプレートのテキスト記述形式でGPT-4を誘導し,79% (p<0.01。 以上の結果から,LCMはレガシメタデータの修正ができず,標準に忠実に適合することが確認できないが,構造化知識ベースと統合した場合に,メタデータの自動キュレーションでの使用が期待できることを示す。

Metadata play a crucial role in ensuring the findability, accessibility, interoperability, and reusability of datasets. This paper investigates the potential of large language models (LLMs), specifically GPT-4, to improve adherence to metadata standards. We conducted experiments on 200 random data records describing human samples relating to lung cancer from the NCBI BioSample repository, evaluating GPT-4's ability to suggest edits for adherence to metadata standards. We computed the adherence accuracy of field name-field value pairs through a peer review process, and we observed a marginal average improvement in adherence to the standard data dictionary from 79% to 80% (p<0.5). We then prompted GPT-4 with domain information in the form of the textual descriptions of CEDAR templates and recorded a significant improvement to 97% from 79% (p<0.01). These results indicate that, while LLMs may not be able to correct legacy metadata to ensure satisfactory adherence to standards when unaided, they do show promise for use in automated metadata curation when integrated with a structured knowledge base
翻訳日:2024-09-02 20:01:42 公開日:2024-08-29
# ECCアナライザ:ストックパフォーマンス予測のための大規模言語モデルを用いたEarnings Conferenceコールからのトレーディング信号抽出

ECC Analyzer: Extract Trading Signal from Earnings Conference Calls using Large Language Model for Stock Performance Prediction ( http://arxiv.org/abs/2404.18470v2 )

ライセンス: Link先を確認
Yupeng Cao, Zhi Chen, Qingyun Pei, Nathan Jinseok Lee, K. P. Subbalakshmi, Papa Momar Ndiaye, (参考訳) 金融分析の分野では、決算会議コール(ECC)のような非構造データを活用して株価のボラティリティを予測することは、学者と投資家の両方を惹きつけている重要な課題である。 これまでの研究では、多モードの深層学習モデルを用いて、ボラティリティ予測のためのECCの一般的なビューを取得してきたが、詳細で複雑な情報の取得に失敗することが多い。 大規模な言語モデル(LLM)を用いて,ECCからよりリッチで予測性の高いコンテンツを抽出し,モデルの予測性能を向上する。 我々は、事前訓練された大規模モデルを用いて、ECCからテキストや音声の特徴を抽出し、階層的な情報抽出戦略を実装し、よりきめ細かい情報を抽出する。 この戦略は、まずテキストを要約して段落レベルの一般情報を抽出し、その後、検索型拡張生成(RAG)を用いて微粒な焦点文を抽出する。 これらの特徴は、揮発性予測を行うためにマルチモーダルな特徴融合を通じて融合される。 実験により,本モデルが従来の分析指標より優れており,金融分析における高度なLCM手法の有効性が確認された。

In the realm of financial analytics, leveraging unstructured data, such as earnings conference calls (ECCs), to forecast stock volatility is a critical challenge that has attracted both academics and investors. While previous studies have used multimodal deep learning-based models to obtain a general view of ECCs for volatility predicting, they often fail to capture detailed, complex information. Our research introduces a novel framework: \textbf{ECC Analyzer}, which utilizes large language models (LLMs) to extract richer, more predictive content from ECCs to aid the model's prediction performance. We use the pre-trained large models to extract textual and audio features from ECCs and implement a hierarchical information extraction strategy to extract more fine-grained information. This strategy first extracts paragraph-level general information by summarizing the text and then extracts fine-grained focus sentences using Retrieval-Augmented Generation (RAG). These features are then fused through multimodal feature fusion to perform volatility prediction. Experimental results demonstrate that our model outperforms traditional analytical benchmarks, confirming the effectiveness of advanced LLM techniques in financial analysis.
翻訳日:2024-09-02 20:01:42 公開日:2024-08-29
# 植生から分離した森林の分類にテクスチャーを用いる

Using Texture to Classify Forests Separately from Vegetation ( http://arxiv.org/abs/2405.00264v2 )

ライセンス: Link先を確認
David R. Treadwell IV, Derek Jacoby, Will Parkinson, Bruce Maxwell, Yvonne Coady, (参考訳) 衛星画像データ内の地形を特定することは、地理情報科学において重要な問題であり、環境や安全性に多くの影響を及ぼす。 衛星が捉えたスペクトルデータから分類を導き出す多くの技術が存在する。 しかし、植物を確実に分類する能力は依然として課題である。 特に、高レベルの衛星画像において森林と非森林の植生を分類するための正確な方法は存在しない。 本稿では,検出エッジから生成されたテクスチャ特徴と,Sentinel-2衛星画像から得られたNDVI比を用いて,衛星画像データの森林領域を静的に同定する手法を提案する。 そこで本研究では,分類および検証プロセスの精度向上のための次のステップについて述べる。

Identifying terrain within satellite image data is a key issue in geographical information sciences, with numerous environmental and safety implications. Many techniques exist to derive classifications from spectral data captured by satellites. However, the ability to reliably classify vegetation remains a challenge. In particular, no precise methods exist for classifying forest vs. non-forest vegetation in high-level satellite images. This paper provides an initial proposal for a static, algorithmic process to identify forest regions in satellite image data through texture features created from detected edges and the NDVI ratio captured by Sentinel-2 satellite images. With strong initial results, this paper also identifies the next steps to improve the accuracy of the classification and verification processes.
翻訳日:2024-09-02 20:01:42 公開日:2024-08-29
# ピアスワイド線形アンサンブルの合同最適化

Joint Optimization of Piecewise Linear Ensembles ( http://arxiv.org/abs/2405.00303v3 )

ライセンス: Link先を確認
Matt Raymond, Angela Violi, Clayton Scott, (参考訳) ツリーアンサンブルは多くの予測タスクで最先端のパフォーマンスを達成する。 我々は$\textbf{J}$oint $\textbf{O}$ptimization of $\textbf{P}$iecewise $\textbf{L}$inear $\textbf{En}$sembles (JOPLEn)を提案する。 JOPLEnは、アンサンブル表現性の向上に加えて、スパーシティプロモーションやサブスペースノルムを含むいくつかの一般的な罰則を非線形予測に適用することができる。 例えば、核ノルムのペナルティを持つJOPLEnは、部分空間整列関数を学ぶ。 また、JOPLEn(Dirty LASSOのペナルティと組み合わせた)は、マルチタスク学習における非線形予測に有効な特徴選択法である。 最後に、153の回帰および分類データセットと、様々な罰則を用いてJOPLEnの性能を示す。 JOPLEnは、標準的なランダムな森林や樹木のアンサンブルの強化だけでなく、他の樹木のアンサンブルの強化方法と比較して、予測性能の向上につながる。

Tree ensembles achieve state-of-the-art performance on numerous prediction tasks. We propose $\textbf{J}$oint $\textbf{O}$ptimization of $\textbf{P}$iecewise $\textbf{L}$inear $\textbf{En}$sembles (JOPLEn), which jointly fits piecewise linear models at all leaf nodes of an existing tree ensemble. In addition to enhancing the ensemble expressiveness, JOPLEn allows several common penalties, including sparsity-promoting and subspace-norms, to be applied to nonlinear prediction. For example, JOPLEn with a nuclear norm penalty learns subspace-aligned functions. Additionally, JOPLEn (combined with a Dirty LASSO penalty) is an effective feature selection method for nonlinear prediction in multitask learning. Finally, we demonstrate the performance of JOPLEn on 153 regression and classification datasets and with a variety of penalties. JOPLEn leads to improved prediction performance relative to not only standard random forest and boosted tree ensembles, but also other methods for enhancing tree ensembles.
翻訳日:2024-09-02 20:01:42 公開日:2024-08-29
# 機械学習による再帰関係の解法と論理プログラムのコスト分析への応用

A Machine Learning-based Approach for Solving Recurrence Relations and its use in Cost Analysis of Logic Programs ( http://arxiv.org/abs/2405.06972v2 )

ライセンス: Link先を確認
Louis Rustenholz, Maximiliano Klemen, Miguel Ángel Carreira-Perpiñán, Pedro López-García, (参考訳) 自動静的コスト分析は、具体的なデータで実際に実行せずにプログラムが使用するリソースに関する情報を推測し、入力データサイズの関数のような情報を提示する。 CiaoPPのような論理プログラム(および他の言語の多く)の分析ツールのほとんどは、述語の計算コストを表す(有界な)再帰関係を設定し、閉形式関数を見つけるためにそれらを解決することに基づいている。 このようなリカレンス解決は、現在のツールのボトルネックとなっている: 解析中に発生するリカレンスの多くは、コンピュータ代数システム(CAS)を含む最先端のリカレンスでは解決できないため、異なるリカレンスクラスの特定のメソッドを開発する必要がある。 このような課題は、任意の制約付き反復関係を解くための新しい一般的なアプローチを開発し、機械学習(疎線形および記号的)回帰手法を用いて候補閉形式関数を推定し、SMT-ソルバとCASを組み合わせることで、それが実際に再発の解であるかどうかを確認することで解決する。 CiaoPPシステムにおけるプロトタイプの実装とその実験的評価は,非常に有望な結果を示した。 総合的に比較すると,提案手法は最先端のコスト解析器や繰り返し解法よりも優れており,それらが解決できない繰り返し解法を解くことができる。 論理プログラミングの理論と実践(TPLP)

Automatic static cost analysis infers information about the resources used by programs without actually running them with concrete data, and presents such information as functions of input data sizes. Most of the analysis tools for logic programs (and many for other languages), as CiaoPP, are based on setting up recurrence relations representing (bounds on) the computational cost of predicates, and solving them to find closed-form functions. Such recurrence solving is a bottleneck in current tools: many of the recurrences that arise during the analysis cannot be solved with state-of-the-art solvers, including Computer Algebra Systems (CASs), so that specific methods for different classes of recurrences need to be developed. We address such a challenge by developing a novel, general approach for solving arbitrary, constrained recurrence relations, that uses machine-learning (sparse-linear and symbolic) regression techniques to guess a candidate closed-form function, and a combination of an SMT-solver and a CAS to check if it is actually a solution of the recurrence. Our prototype implementation and its experimental evaluation within the context of the CiaoPP system show quite promising results. Overall, for the considered benchmarks, our approach outperforms state-of-the-art cost analyzers and recurrence solvers, and solves recurrences that cannot be solved by them. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2024-09-02 20:01:42 公開日:2024-08-29
# 空間干渉の有無を考慮した時空間干渉の直接因果効果と間接因果効果の推定

Estimating Direct and Indirect Causal Effects of Spatiotemporal Interventions in Presence of Spatial Interference ( http://arxiv.org/abs/2405.08174v2 )

ライセンス: Link先を確認
Sahara Ali, Omar Faruque, Jianwu Wang, (参考訳) 空間干渉は、ある場所での治療が他の場所での結果に影響を与えるときに起こる。 時空間における空間干渉の会計は、干渉が安定した単位処理値の仮定に反するので、空間的に異なる結果における時間変化処理の効果を定量化するための標準的な因果推論法では不可能である。 本稿では, 空間干渉という概念を, 不測の共起を前提に, 潜在的結果の枠組みを拡張して, 時間変化による治療課題における空間干渉の概念を定式化する。 次に、時空間因果推論のための深層学習に基づく潜在的な結果モデルを提案する。 U-Netアーキテクチャのパワーを活用しながら、遅延因子モデルを用いて時間的変化によるバイアスを低減し、時間とともにグローバルかつ局所的な空間干渉を捕捉する。 我々の因果推定器は、直接的(DATE)と間接的(IATE)を推定するための平均治療効果(ATE)の拡張である。 本手法は,深層学習に基づく時空間因果推論手法としては初めてであり,空間的干渉を伴わない2つの合成データセットの実験結果に基づいて,いくつかの基本手法の利点を示す。 実世界の気候データセットに関する我々の結果は、ドメイン知識とも一致し、提案手法の有効性をさらに実証する。

Spatial interference (SI) occurs when the treatment at one location affects the outcomes at other locations. Accounting for spatial interference in spatiotemporal settings poses further challenges as interference violates the stable unit treatment value assumption, making it infeasible for standard causal inference methods to quantify the effects of time-varying treatment at spatially varying outcomes. In this paper, we first formalize the concept of spatial interference in case of time-varying treatment assignments by extending the potential outcome framework under the assumption of no unmeasured confounding. We then propose our deep learning based potential outcome model for spatiotemporal causal inference. We utilize latent factor modeling to reduce the bias due to time-varying confounding while leveraging the power of U-Net architecture to capture global and local spatial interference in data over time. Our causal estimators are an extension of average treatment effect (ATE) for estimating direct (DATE) and indirect effects (IATE) of spatial interference on treated and untreated data. Being the first of its kind deep learning based spatiotemporal causal inference technique, our approach shows advantages over several baseline methods based on the experiment results on two synthetic datasets, with and without spatial interference. Our results on real-world climate dataset also align with domain knowledge, further demonstrating the effectiveness of our proposed method.
翻訳日:2024-09-02 19:51:26 公開日:2024-08-29
# CReMa: ソーシャルメディア上で共有された言語間要求の計算的識別とマッチングによる危機応答

CReMa: Crisis Response through Computational Identification and Matching of Cross-Lingual Requests and Offers Shared on Social Media ( http://arxiv.org/abs/2405.11897v2 )

ライセンス: Link先を確認
Rabindra Lamsal, Maria Rodriguez Read, Shanika Karunasekera, Muhammad Imran, (参考訳) 危機期には、ソーシャルメディアプラットフォームはコミュニケーションの促進と資源の調整に重要な役割を担っている。 混乱と不確実性の中で、コミュニティはしばしばこれらのプラットフォームを頼りにし、助けを求める緊急の嘆願を共有し、支援を拡張し、救援活動の組織化を行っている。 しかし、このような期間における圧倒的な会話量は前例のないレベルにエスカレートし、要求の自動識別とマッチングを必要とし、救援活動の合理化を提供する。 さらに、地理的地域が多様な言語集団を持つことができるにもかかわらず、多言語環境での研究は顕著な欠如がある。 そこで我々は,CReMa(Crisis Response Matcher)を提案する。CReMa(Crisis Response Matcher)は,緊急時のソーシャルメディアプラットフォームにおける要求を効果的に識別し,マッチングするという課題に対処するために,テキスト,時間,空間的特徴を統合した体系的アプローチである。 本手法では,危機固有の事前学習モデルと多言語埋め込み空間を用いる。 人間の意思決定をエミュレートし、時間的・空間的特徴を計算し、テキスト的特徴を非線形に評価する。 私たちの実験の結果は有望であり、強いベースラインを上回ります。 さらに,16言語によるソーシャルメディアの援助と支援をシミュレートした多言語データセットを導入し,総合的な言語間実験を行った。 さらに、100万件のジオタグ付きグローバルデータセットを分析し、ソーシャルメディアにおける支援と支援のパターンを理解する。 全体として、これらの貢献は危機情報学の分野を前進させ、地域の将来の研究のためのベンチマークを提供する。

During times of crisis, social media platforms play a crucial role in facilitating communication and coordinating resources. In the midst of chaos and uncertainty, communities often rely on these platforms to share urgent pleas for help, extend support, and organize relief efforts. However, the overwhelming volume of conversations during such periods can escalate to unprecedented levels, necessitating the automated identification and matching of requests and offers to streamline relief operations. Additionally, there is a notable absence of studies conducted in multi-lingual settings, despite the fact that any geographical area can have a diverse linguistic population. Therefore, we propose CReMa (Crisis Response Matcher), a systematic approach that integrates textual, temporal, and spatial features to address the challenges of effectively identifying and matching requests and offers on social media platforms during emergencies. Our approach utilizes a crisis-specific pre-trained model and a multi-lingual embedding space. We emulate human decision-making to compute temporal and spatial features and non-linearly weigh the textual features. The results from our experiments are promising, outperforming strong baselines. Additionally, we introduce a novel multi-lingual dataset simulating help-seeking and offering assistance on social media in 16 languages and conduct comprehensive cross-lingual experiments. Furthermore, we analyze a million-scale geotagged global dataset to understand patterns in seeking help and offering assistance on social media. Overall, these contributions advance the field of crisis informatics and provide benchmarks for future research in the area.
翻訳日:2024-09-02 19:51:26 公開日:2024-08-29
# テキスト生成:課題・評価・課題の体系的文献レビュー

Text Generation: A Systematic Literature Review of Tasks, Evaluation, and Challenges ( http://arxiv.org/abs/2405.15604v3 )

ライセンス: Link先を確認
Jonas Becker, Jan Philip Wahle, Bela Gipp, Terry Ruas, (参考訳) テキスト生成はこれまでになくアクセスしやすくなり、特に大きな言語モデルを用いたシステムへの関心が高まり、関連出版物が増えている。 本稿は,2017年から2024年にかけて244件の論文からなる体系的な文献レビューを行う。 このレビューでは、テキスト生成における作業は、オープンエンドテキスト生成、要約、翻訳、パラフレーズ化、質問応答の5つの主要なタスクに分類する。 各タスクについて、関連する特徴、サブタスク、および特定の課題(例えば、多文書要約のためのデータセットの欠如、ストーリー生成におけるコヒーレンス、質問応答のための複雑な推論)についてレビューする。 さらに、テキスト生成システムの評価と、現在のメトリクスの問題点の確認のための現在のアプローチを評価する。 私たちの調査によると、最近のテキスト生成出版物では、バイアス、推論、幻覚、誤用、プライバシー、解釈可能性、透明性、データセット、コンピューティングという、タスクやサブタスクに共通する9つの顕著な課題が示されています。 われわれはこれらの課題とその潜在的な解決策を詳細に分析し、そのギャップはコミュニティのさらなる関与を必要としている。 この体系的な文献レビューは、自然言語処理の初期の研究者が分野の概要を探究し、研究の方向性を期待する、経験豊富な研究者がタスク、評価方法論、オープンチャレンジ、最近の緩和戦略の詳細なビューを求める、という2つの主要なオーディエンスをターゲットにしている。

Text generation has become more accessible than ever, and the increasing interest in these systems, especially those using large language models, has spurred an increasing number of related publications. We provide a systematic literature review comprising 244 selected papers between 2017 and 2024. This review categorizes works in text generation into five main tasks: open-ended text generation, summarization, translation, paraphrasing, and question answering. For each task, we review their relevant characteristics, sub-tasks, and specific challenges (e.g., missing datasets for multi-document summarization, coherence in story generation, and complex reasoning for question answering). Additionally, we assess current approaches for evaluating text generation systems and ascertain problems with current metrics. Our investigation shows nine prominent challenges common to all tasks and sub-tasks in recent text generation publications: bias, reasoning, hallucinations, misuse, privacy, interpretability, transparency, datasets, and computing. We provide a detailed analysis of these challenges, their potential solutions, and which gaps still require further engagement from the community. This systematic literature review targets two main audiences: early career researchers in natural language processing looking for an overview of the field and promising research directions, as well as experienced researchers seeking a detailed view of tasks, evaluation methodologies, open challenges, and recent mitigation strategies.
翻訳日:2024-09-02 19:51:26 公開日:2024-08-29
# BiomedBench:低消費電力ウェアラブル向けTinyMLバイオメディカルアプリケーションのベンチマークスイート

BiomedBench: A benchmark suite of TinyML biomedical applications for low-power wearables ( http://arxiv.org/abs/2406.03886v2 )

ライセンス: Link先を確認
Dimitrios Samakovlis, Stefano Albini, Rubén Rodríguez Álvarez, Denisa-Andreea Constantinescu, Pasquale Davide Schiavone, Miguel Peón Quirós, David Atienza, (参考訳) バイオメディカル領域における低消費電力ウェアラブルの設計は、チップ製造技術の進歩により、mW範囲内での低複雑さMLを用いた患者のリアルタイムモニタリングが可能となり、近年注目されている。 アプリケーションとハードウェアの設計研究の進歩にもかかわらず、このドメインはハードウェア評価に対する体系的なアプローチを欠いている。 本研究では,ウェアラブルデバイスを用いた患者のリアルタイムモニタリングのための,完全なエンドツーエンドTinyMLバイオメディカルアプリケーションからなるベンチマークスイートであるBiomedBenchを提案する。 各アプリケーションは、様々な計算処理やアクティブ時間とアイドル時間の関係を含む、典型的な信号取得と処理フェーズで異なる要件を提示する。 さらに、エネルギー効率の観点から、5つの最先端低消費電力プラットフォームを評価した結果、現代のプラットフォームは、あらゆる種類のバイオメディカル応用を効果的にターゲットできないことがわかった。 BiomedBenchは、ハードウェア評価を標準化し、TinyMLウェアラブルドメインでハードウェアとアプリケーション設計をガイドするオープンソーススイートとしてリリースされた。

The design of low-power wearables for the biomedical domain has received a lot of attention in recent decades, as technological advances in chip manufacturing have allowed real-time monitoring of patients using low-complexity ML within the mW range. Despite advances in application and hardware design research, the domain lacks a systematic approach to hardware evaluation. In this work, we propose BiomedBench, a new benchmark suite composed of complete end-to-end TinyML biomedical applications for real-time monitoring of patients using wearable devices. Each application presents different requirements during typical signal acquisition and processing phases, including varying computational workloads and relations between active and idle times. Furthermore, our evaluation of five state-of-the-art low-power platforms in terms of energy efficiency shows that modern platforms cannot effectively target all types of biomedical applications. BiomedBench is released as an open-source suite to standardize hardware evaluation and guide hardware and application design in the TinyML wearable domain.
翻訳日:2024-09-02 19:51:26 公開日:2024-08-29
# DAISY:音声表現モデルのためのデータ適応型自己監督型早期出力

DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models ( http://arxiv.org/abs/2406.05464v2 )

ライセンス: Link先を確認
Tzu-Quan Lin, Hung-yi Lee, Hao Tang, (参考訳) 自己教師付き音声モデルは様々なタスクに有用であることが示されているが、その大きなサイズは計算能力とメモリが低いデバイスでの使用を制限する。 本研究では,ネットワークのフォワードプロセスの早期終了によるレイテンシ低減手法であるアーリーエグジットについて検討する。 アーリーエグジットのほとんどのアプローチでは、各タスクごとに別々のアーリーエグジットモデルが必要であり、一部では事前訓練されたモデル全体の微調整も必要である。 我々は,データ適応型自己監督早期退避(DAISY)を導入する。これは,自己監督的損失に基づいていつ退避するかを決定するアプローチであり,複数ラウンドのトレーニングや微調整は不要である。 DAISY は MiniSUPERB ベンチマークで HuBERT のパフォーマンスと一致しているが、推論時間の方がはるかに速い。 DAISYの適応性に関する分析では, ノイズレベルに基づいて推論の計算コストを動的に調整し, クリーンデータ上で早期に(より少ない層を用いて)退避し, ノイズデータ上で(より多くの層を用いて)退避することを示す。

Self-supervised speech models have shown to be useful for various tasks, but their large size limits the use in devices with low computing power and memory. In this work, we explore early exit, an approach for reducing latency by exiting the forward process of a network early. Most approaches of early exit need a separate early exit model for each task, with some even requiring fine-tuning of the entire pretrained model. We introduce Data Adaptive Self-Supervised Early Exit (DAISY), an approach that decides when to exit based on the self-supervised loss, eliminating the need for multiple round of training and fine-tuning. DAISY matches the performance of HuBERT on the MiniSUPERB benchmark, but with much faster inference times. Our analysis on the adaptivity of DAISY shows that the model exits early (using fewer layers) on clean data while exits late (using more layers) on noisy data, dynamically adjusting the computational cost of inference based on the noise level of each sample.
翻訳日:2024-09-02 19:41:40 公開日:2024-08-29
# 小規模言語モデルは、実践的な応用のために大規模言語モデルと競合する準備が整っているか?

Are Small Language Models Ready to Compete with Large Language Models for Practical Applications? ( http://arxiv.org/abs/2406.11402v2 )

ライセンス: Link先を確認
Neelabh Sinha, Vinija Jain, Aman Chadha, (参考訳) 言語モデル(LM)の急速な普及により、いくつかのアプリケーションでの利用が拡大した。 しかし、モデルサイズ、関連するコスト、あるいはプロプライエタリな制約のために、最先端(SOTA)のLSMを利用することは、必ずしも実現不可能であるとは限らない。 オープンで小さなLMが出現すると、より多くのアプリケーションがそれらの能力を活用することができるが、より小さなLMが普遍的にうまく機能しないため、適切なLMを選択することは困難である。 この研究は、タスクタイプ、アプリケーションドメイン、推論タイプという3つの実践的な側面でアウトプットの意味的正当性を計測し、様々なプロンプトスタイルを用いて、実践的な環境で小規模でオープンなLMを実験的に評価するフレームワークを提案することによって、このギャップを埋めようとしている。 また、提案したフレームワークを用いて、特定のアプリケーション要件に応じて、ベストなLMとプロンプトスタイルを特定するために、10個のオープンなLMの詳細な比較を行う。 また、適切に選択すれば、DeepSeek-v2、GPT-4o-mini、Gemini-1.5-ProといったSOTA LLMよりも優れ、GPT-4oと競合することを示す。

The rapid rise of Language Models (LMs) has expanded their use in several applications. Yet, due to constraints of model size, associated cost, or proprietary restrictions, utilizing state-of-the-art (SOTA) LLMs is not always feasible. With open, smaller LMs emerging, more applications can leverage their capabilities, but selecting the right LM can be challenging as smaller LMs don't perform well universally. This work tries to bridge this gap by proposing a framework to experimentally evaluate small, open LMs in practical settings through measuring semantic correctness of outputs across three practical aspects: task types, application domains and reasoning types, using diverse prompt styles. It also conducts an in-depth comparison of 10 small, open LMs to identify best LM and prompt style depending on specific application requirement using the proposed framework. We also show that if selected appropriately, they can outperform SOTA LLMs like DeepSeek-v2, GPT-4o-mini, Gemini-1.5-Pro, and even compete with GPT-4o.
翻訳日:2024-09-02 19:41:40 公開日:2024-08-29
# Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment

Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment ( http://arxiv.org/abs/2408.06266v3 )

ライセンス: Link先を確認
Karel D'Oosterlinck, Winnie Xu, Chris Develder, Thomas Demeester, Amanpreet Singh, Christopher Potts, Douwe Kiela, Shikib Mehri, (参考訳) 大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使って整列される。 モデル、ペアデータ、および目的間の相互作用は複雑な手順を作り、時にサブパー結果を生成する。 私たちはこれを研究し、それを見つけます 二 嗜好データにより、基礎となる応答が対照的な場合に、より良い学習信号が得られること。 (ii)アライメントの目的は、トレーニング中にモデルに対するさらなるコントロールを指定すると、パフォーマンスが向上する。 これらの知見に基づき、よりコントラスト的な選好ペアを生み出すデータ生成手法であるContrastive Learning from AI Revisions (CLAIR)と、制御可能でより安定したアライメント目的であるAnchored Preference Optimization (APO)を紹介する。 我々はLlama-3-8B-Instructを、様々な類似したデータセットとアライメント目標を用いて調整し、MixEval-Hardスコアを測定する。 CLAIRの選好はすべてのデータセットの中で最強のパフォーマンスをもたらし、APOは一貫してコントロール可能な目標よりも優れています。 我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。 私たちのコードはhttps://github.com/ContextualAI/CLAIR_and_APO.orgで公開されています。

Large Language Models (LLMs) are often aligned using contrastive alignment objectives and preference pair datasets. The interaction between model, paired data, and objective makes alignment a complicated procedure, sometimes producing subpar results. We study this and find that (i) preference data gives a better learning signal when the underlying responses are contrastive, and (ii) alignment objectives lead to better performance when they specify more control over the model during training. Based on these insights, we introduce Contrastive Learning from AI Revisions (CLAIR), a data-creation method which leads to more contrastive preference pairs, and Anchored Preference Optimization (APO), a controllable and more stable alignment objective. We align Llama-3-8B-Instruct using various comparable datasets and alignment objectives and measure MixEval-Hard scores, which correlate highly with human judgments. The CLAIR preferences lead to the strongest performance out of all datasets, and APO consistently outperforms less controllable objectives. Our best model, trained on 32K CLAIR preferences with APO, improves Llama-3-8B-Instruct by 7.65%, closing the gap with GPT4-turbo by 45%. Our code is available at https://github.com/ContextualAI/CLAIR_and_APO.
翻訳日:2024-09-02 17:38:32 公開日:2024-08-29
# Goal-directed ASP を用いたシステム保証事例のセマンティック解析の自動化

Automating Semantic Analysis of System Assurance Cases using Goal-directed ASP ( http://arxiv.org/abs/2408.11699v2 )

ライセンス: Link先を確認
Anitha Murugesan, Isaac Wong, Joaquín Arias, Robert Stroud, Srivatsan Varadarajan, Elmer Salazar, Gopal Gupta, Robin Bloomfield, John Rushby, (参考訳) 保証ケースは、安全とセキュリティが重要となるシステムの認証に関する議論と証拠を示すための構造化された方法を提供する。 しかしながら、これらの保証ケースの作成と評価は、適度な複雑さのシステムであっても複雑で困難である可能性がある。 そのため、これらのタスクのための新しい自動化手法を開発する必要性が高まっている。 既存の保証ケースツールは構造的側面の自動化に重点を置いているが、保証引数のセマンティックコヒーレンスと正確性を完全に評価する能力は欠如している。 従来の作業では、推論プロセス、エビデンス利用、およびデファタ(デファタ)と反証拠の明確な記述を優先するAssurance 2.0フレームワークを導入しました。 本稿では,共通センス推論と解集合プログラミングの解法,特にs(CASP)を用いて,意味ルールに基づく分析機能を備えた Assurance 2.0 の拡張手法を提案する。 これらの分析手法を用いることで、論理的整合性、妥当性、不実現性など、保証事例のユニークな意味的側面を考察する。 これらの分析の応用は、システム開発者と評価者の両方に、保証ケースに対する信頼性を高めます。

Assurance cases offer a structured way to present arguments and evidence for certification of systems where safety and security are critical. However, creating and evaluating these assurance cases can be complex and challenging, even for systems of moderate complexity. Therefore, there is a growing need to develop new automation methods for these tasks. While most existing assurance case tools focus on automating structural aspects, they lack the ability to fully assess the semantic coherence and correctness of the assurance arguments. In prior work, we introduced the Assurance 2.0 framework that prioritizes the reasoning process, evidence utilization, and explicit delineation of counter-claims (defeaters) and counter-evidence. In this paper, we present our approach to enhancing Assurance 2.0 with semantic rule-based analysis capabilities using common-sense reasoning and answer set programming solvers, specifically s(CASP). By employing these analysis techniques, we examine the unique semantic aspects of assurance cases, such as logical consistency, adequacy, indefeasibility, etc. The application of these analyses provides both system developers and evaluators with increased confidence about the assurance case.
翻訳日:2024-09-02 17:38:32 公開日:2024-08-29
# 監視量子回路の光-円錐相関における効率的な後選択

Efficient post-selection in light-cone correlations of monitored quantum circuits ( http://arxiv.org/abs/2408.13096v2 )

ライセンス: Link先を確認
Jimin Li, Robert L. Jack, Bruno Bertini, Juan P. Garrahan, (参考訳) 我々は、監視量子回路における非定型的な測定結果、すなわち選択後の問題に基づいて進化を目標にする方法を検討する。 簡単な測定手法では, 異なるユニタリ回路の平均相関から, 選択後の光円錐動的相関関数を効率的に得ることができることを示す。 これは、ある回路における稀な測定結果と別の回路における典型的な結果とを結びつける。 我々は、XYZゲートからなるブリックワーク量子回路において、この稀-典型マッピングが存在する条件を導出する。 これらの一般的な結果は、事象統計学において動的交叉(スムーズな動的遷移)を示すモデルシステムを用いて説明し、より一般的な動的相関に対する拡張について議論する。

We consider how to target evolution conditioned on atypical measurement outcomes in monitored quantum circuits, i.e., the post-selection problem. We show that for a simple class of measurement schemes, post-selected light-cone dynamical correlation functions can be obtained efficiently from the averaged correlations of a different unitary circuit. This connects rare measurement outcomes in one circuit to typical outcomes in another one. We derive conditions for the existence of this rare-to-typical mapping in brickwork quantum circuits made of XYZ gates. We illustrate these general results with a model system that exhibits a dynamical crossover (a smoothed dynamical transition) in event statistics, and discuss extensions to more general dynamical correlations.
翻訳日:2024-09-02 17:28:49 公開日:2024-08-29
# 船舶設計におけるジェネレーティブAI

Generative AI in Ship Design ( http://arxiv.org/abs/2408.16798v1 )

ライセンス: Link先を確認
Sahil Thakur, Navneet V Saxena, Prof Sitikantha Roy, (参考訳) 船体設計のプロセスは複雑で、総コストの約70%を占める船体形状の影響を強く受けている。 従来の手法は、海軍アーキテクチャの原則と技術分析に基づく人間主導の反復プロセスに依存している。 対照的に、生成AIは、機械学習と人工知能に根ざした計算アルゴリズムを利用して船体設計を最適化する、新しいアプローチを提示している。 本報告では、データセット収集、モデルアーキテクチャの選択、トレーニング、検証などのステップを含む、この目的のための生成AIの体系的な作成について概説する。 3万の船体からなる「SHIP-D」データセットを用いて、Gaussian Mixture Model(GMM)を生成モデルアーキテクチャとして採用した。 GMMは、データ分散を分析する統計的フレームワークを提供し、革新的な船の設計を効率的に作成するのに不可欠である。 全体として、このアプローチは、より広い設計空間を探索し、多分野最適化の目的を効果的に統合することで、船の設計に革命をもたらすことを約束している。

The process of ship design is intricate, heavily influenced by the hull form which accounts for approximately 70% of the total cost. Traditional methods rely on human-driven iterative processes based on naval architecture principles and engineering analysis. In contrast, generative AI presents a novel approach, utilizing computational algorithms rooted in machine learning and artificial intelligence to optimize ship hull design. This report outlines the systematic creation of a generative AI for this purpose, involving steps such as dataset collection, model architecture selection, training, and validation. Utilizing the "SHIP-D" dataset, consisting of 30,000 hull forms, the report adopts the Gaussian Mixture Model (GMM) as the generative model architecture. GMMs offer a statistical framework to analyze data distribution, crucial for generating innovative ship designs efficiently. Overall, this approach holds promise in revolutionizing ship design by exploring a broader design space and integrating multidisciplinary optimization objectives effectively.
翻訳日:2024-09-02 17:28:49 公開日:2024-08-29
# 心電図を用いた心血管疾患のCNNによる検出

CNN Based Detection of Cardiovascular Diseases from ECG Images ( http://arxiv.org/abs/2408.16800v1 )

ライセンス: Link先を確認
Irem Sayin, Rana Gursoy, Buse Cicek, Yunus Emre Mert, Fatih Ozturk, Taha Emre Pamukcu, Ceylin Deniz Sevimli, Huseyin Uvet, (参考訳) 本研究では,心電図(ECG)画像から心筋梗塞(MI)を検出する畳み込みニューラルネットワーク(CNN)モデルを開発した。 このモデルは、InceptionV3アーキテクチャを用いて構築され、転送学習によって最適化され、Chから得られたECGデータを用いて訓練された。 Pervaiz Elahi Institute of Cardiology in Pakistan所属。 このデータセットは、心筋梗塞、異常心拍、心筋梗塞の歴史、正常心臓活動の4つの異なる心臓状態を表すECG画像を含む。 開発されたモデルでは、MIや他の心血管疾患を93.27%の精度で検出することに成功した。 本研究は, 心臓発作の早期発見と予防において, 深層学習モデルが臨床医に重要な支援を提供することを示す。

This study develops a Convolutional Neural Network (CNN) model for detecting myocardial infarction (MI) from Electrocardiogram (ECG) images. The model, built using the InceptionV3 architecture and optimized through transfer learning, was trained using ECG data obtained from the Ch. Pervaiz Elahi Institute of Cardiology in Pakistan. The dataset includes ECG images representing four different cardiac conditions: myocardial infarction, abnormal heartbeat, history of myocardial infarction, and normal heart activity. The developed model successfully detects MI and other cardiovascular conditions with an accuracy of 93.27%. This study demonstrates that deep learning-based models can provide significant support to clinicians in the early detection and prevention of heart attacks.
翻訳日:2024-09-02 17:28:49 公開日:2024-08-29
# HLogformer: ログデータを表現するための階層変換器

HLogformer: A Hierarchical Transformer for Representing Log Data ( http://arxiv.org/abs/2408.16803v1 )

ライセンス: Link先を確認
Zhichao Hou, Mina Ghashami, Mikhail Kuznetsov, MohamadAli Torkamani, (参考訳) トランスフォーマーは、多様なデータ構造を扱うための汎用性に対して、広く称賛されている。 ログデータは、その階層的な辞書のような構造によって特徴づけられ、従来のトランスフォーマーモデルを用いて処理する際、ユニークな課題を生じさせる。 従来の手法は、ログを解析するための手作業によるテンプレートに依存しており、これは労働集約的であり、一般化性に欠けるプロセスである。 さらに、標準的なトランスフォーマーによるログシーケンスの線形処理は、ログエントリ内のリッチでネストされた関係を無視し、最適以下の表現と過剰なメモリ使用につながる。 これらの問題に対処するために,ログデータに特化して設計された新しい階層型トランスフォーマーフレームワークであるHLogformerを紹介した。 HLogformerはログエントリの階層構造を活用して、メモリコストを大幅に削減し、表現学習を強化する。 ログデータをフラットなシーケンスとして扱う従来のモデルとは異なり、当社のフレームワークはログエントリを、その固有の階層的な組織を尊重する方法で処理します。 このアプローチは、きめ細かい詳細とより広い文脈関係の両方を包括的に符号化することを保証する。 まず、HLogformerは辞書のようなログデータに適した動的階層変換器を設計する最初のフレームワークです。 第2に、広範なログシーケンスの処理に伴うメモリコストを劇的に削減する。 第3に、総合的な実験では、HLogformerが階層的なコンテキスト情報をより効果的にエンコードし、合成異常検出や製品レコメンデーションといった下流タスクに非常に効果的であることを証明している。

Transformers have gained widespread acclaim for their versatility in handling diverse data structures, yet their application to log data remains underexplored. Log data, characterized by its hierarchical, dictionary-like structure, poses unique challenges when processed using conventional transformer models. Traditional methods often rely on manually crafted templates for parsing logs, a process that is labor-intensive and lacks generalizability. Additionally, the linear treatment of log sequences by standard transformers neglects the rich, nested relationships within log entries, leading to suboptimal representations and excessive memory usage. To address these issues, we introduce HLogformer, a novel hierarchical transformer framework specifically designed for log data. HLogformer leverages the hierarchical structure of log entries to significantly reduce memory costs and enhance representation learning. Unlike traditional models that treat log data as flat sequences, our framework processes log entries in a manner that respects their inherent hierarchical organization. This approach ensures comprehensive encoding of both fine-grained details and broader contextual relationships. Our contributions are threefold: First, HLogformer is the first framework to design a dynamic hierarchical transformer tailored for dictionary-like log data. Second, it dramatically reduces memory costs associated with processing extensive log sequences. Third, comprehensive experiments demonstrate that HLogformer more effectively encodes hierarchical contextual information, proving to be highly effective for downstream tasks such as synthetic anomaly detection and product recommendation.
翻訳日:2024-09-02 17:28:49 公開日:2024-08-29
# 物理インフォームドニューラルネットワークと拡張

Physics-Informed Neural Networks and Extensions ( http://arxiv.org/abs/2408.16806v1 )

ライセンス: Link先を確認
Maziar Raissi, Paris Perdikaris, Nazanin Ahmadi, George Em Karniadakis, (参考訳) 本稿では、科学機械学習の柱となった新しい物理情報ニューラルネットワーク(PINN)について概説し、近年の実践的拡張について述べるとともに、データ駆動による微分方程式の発見の具体例を示す。

In this paper, we review the new method Physics-Informed Neural Networks (PINNs) that has become the main pillar in scientific machine learning, we present recent practical extensions, and provide a specific example in data-driven discovery of governing differential equations.
翻訳日:2024-09-02 17:28:49 公開日:2024-08-29
# sterEO:テキスト・画像生成モデルによる逆ロバスト概念の排除を目指して

STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models ( http://arxiv.org/abs/2408.16807v1 )

ライセンス: Link先を確認
Koushik Srivatsan, Fahad Shamshad, Muzammal Naseer, Karthik Nandakumar, (参考訳) 大規模テキスト・画像生成モデル(T2IG)の急激な普及により、有害なコンテンツの生成における誤用が懸念されている。 T2IGモデルから望ましくない概念を消去するための多くの方法が提案されているが、これは誤ったセキュリティの感覚を与えるだけであり、最近の研究は、概念消去モデル(CEM)が敵攻撃によって消去された概念を容易に認識できることを実証している。 モデルユーティリティ(良質な概念を生成する能力)を著しく劣化させることなく、逆向きに堅牢な概念消去という問題は、特に敵がCEMにアクセス可能なホワイトボックス設定において未解決の課題である。 このギャップに対処するために,2つの異なる段階を含む STEREO という手法を提案する。 第1段階は、敵の訓練から堅牢な最適化原理を活用することで、CEMから消去された概念を再生できる強力な多様な敵のプロンプトを徹底的に探索する。 第2段階では, モデルユーティリティの劣化を最小限に抑えつつ, 目標概念を1回で頑健に消去するアンカー概念に基づく構成目的を導入する。 3つの敵攻撃下での4つの最先端概念消去手法に対して提案したSTEREOアプローチをベンチマークすることにより、実用トレードオフよりも優れたロバスト性を実現する能力を示す。 私たちのコードとモデルはhttps://github.com/koushiksrivats/robust-concept-erasing.comで利用可能です。

The rapid proliferation of large-scale text-to-image generation (T2IG) models has led to concerns about their potential misuse in generating harmful content. Though many methods have been proposed for erasing undesired concepts from T2IG models, they only provide a false sense of security, as recent works demonstrate that concept-erased models (CEMs) can be easily deceived to generate the erased concept through adversarial attacks. The problem of adversarially robust concept erasing without significant degradation to model utility (ability to generate benign concepts) remains an unresolved challenge, especially in the white-box setting where the adversary has access to the CEM. To address this gap, we propose an approach called STEREO that involves two distinct stages. The first stage searches thoroughly enough for strong and diverse adversarial prompts that can regenerate an erased concept from a CEM, by leveraging robust optimization principles from adversarial training. In the second robustly erase once stage, we introduce an anchor-concept-based compositional objective to robustly erase the target concept at one go, while attempting to minimize the degradation on model utility. By benchmarking the proposed STEREO approach against four state-of-the-art concept erasure methods under three adversarial attacks, we demonstrate its ability to achieve a better robustness vs. utility trade-off. Our code and models are available at https://github.com/koushiksrivats/robust-concept-erasing.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# See or Guess: 事実上の正規化イメージキャプション

See or Guess: Counterfactually Regularized Image Captioning ( http://arxiv.org/abs/2408.16809v1 )

ライセンス: Link先を確認
Qian Cao, Xu Chen, Ruihua Song, Xiting Wang, Xinting Huang, Yuchen Ren, (参考訳) 画像中の視覚情報の自然言語記述を生成する画像キャプションは、視覚言語研究において重要な課題である。 従来のモデルでは、既存のデータセットを統計的に適合させることで、機械の生成能力を人間の知性と整合させることで、この課題に対処してきた。 通常の画像には有効だが、画像の特定の部分が隠されたり、編集されたりする部分を記述するのに苦労するかもしれない。 幻覚や限定的な解釈可能性を含むこれらの弱点は、しばしば、変化した関連パターンを持つシナリオのパフォーマンスを妨げる。 本稿では、因果推論を用いて、既存のモデルに介入作業がより可能で、かつ、事実的に説明可能な、汎用的な画像キャプションフレームワークを提案する。 我々のアプローチには、トータル効果と自然な直接効果のどちらかを利用する2つの変種が含まれている。 トレーニングプロセスに統合することで、モデルが反現実的なシナリオを処理し、一般化可能性を高めることができる。 各種データセットに対する大規模な実験により,本手法は幻覚を効果的に低減し,画像への忠実度を向上させるとともに,小型・大規模画像・テキストモデル間の高可搬性を示す。 コードはhttps://github.com/Aman-4-Real/See-or-Guessで入手できる。

Image captioning, which generates natural language descriptions of the visual information in an image, is a crucial task in vision-language research. Previous models have typically addressed this task by aligning the generative capabilities of machines with human intelligence through statistical fitting of existing datasets. While effective for normal images, they may struggle to accurately describe those where certain parts of the image are obscured or edited, unlike humans who excel in such cases. These weaknesses they exhibit, including hallucinations and limited interpretability, often hinder performance in scenarios with shifted association patterns. In this paper, we present a generic image captioning framework that employs causal inference to make existing models more capable of interventional tasks, and counterfactually explainable. Our approach includes two variants leveraging either total effect or natural direct effect. Integrating them into the training process enables models to handle counterfactual scenarios, increasing their generalizability. Extensive experiments on various datasets show that our method effectively reduces hallucinations and improves the model's faithfulness to images, demonstrating high portability across both small-scale and large-scale image-to-text models. The code is available at https://github.com/Aman-4-Real/See-or-Guess.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# 信号処理によるブロック符号化

Block encoding by signal processing ( http://arxiv.org/abs/2408.16824v1 )

ライセンス: Link先を確認
Christopher F. Kane, Siddharth Hariprakash, Neel S. Modi, Michael Kreshchuk, Christian W Bauer, (参考訳) ブロック符号化(BE)は、量子信号処理(QSP)に依存する量子多体系をシミュレートするためのほぼ最適スケーリングを含む、多くの現代の量子アルゴリズムにおいて重要なサブルーチンである。 現在、BEを構成する主要な方法は、LCU(Linear Combination of Unitary)とスパースオラクルアプローチである。 本研究では,量子特異値変換(QSVT)や単位行列の量子固有値変換(QETU)など,QSPに基づく手法がBEの実装に有効であることを示す。 具体的には、高エネルギー物理学のシミュレーションにおいて重要な要素である格子ボソンのハミルトニアンの符号化を、QSVTとQETUアルゴリズムと組み合わせてブロックするいくつかの例を示す。 また,線形演算子 Via Exponentiation と LCU (LOVE-LCU) の正確な実装に基づくBEへの簡単なアプローチも導入する。 QSVTをBEに使用すると、サイト当たりのキュービット数で最高の漸近ゲート数スケーリングが得られるのに対し、LOVE-LCUは最大$\lesssim11$ qubitsの演算子に対して他のすべてのメソッドよりも優れており、漸近スケーリングの比較よりも具体的な回路構成の重要性を強調している。 LOVE-LCUを用いて、一般化QSPアルゴリズムを用いて格子$\varphi^4$理論の単一サイトと2サイトシステムの時間発展をシミュレートし、ゲート数をトロッターシミュレーションに必要なものと比較する。

Block Encoding (BE) is a crucial subroutine in many modern quantum algorithms, including those with near-optimal scaling for simulating quantum many-body systems, which often rely on Quantum Signal Processing (QSP). Currently, the primary methods for constructing BEs are the Linear Combination of Unitaries (LCU) and the sparse oracle approach. In this work, we demonstrate that QSP-based techniques, such as Quantum Singular Value Transformation (QSVT) and Quantum Eigenvalue Transformation for Unitary Matrices (QETU), can themselves be efficiently utilized for BE implementation. Specifically, we present several examples of using QSVT and QETU algorithms, along with their combinations, to block encode Hamiltonians for lattice bosons, an essential ingredient in simulations of high-energy physics. We also introduce a straightforward approach to BE based on the exact implementation of Linear Operators Via Exponentiation and LCU (LOVE-LCU). We find that, while using QSVT for BE results in the best asymptotic gate count scaling with the number of qubits per site, LOVE-LCU outperforms all other methods for operators acting on up to $\lesssim11$ qubits, highlighting the importance of concrete circuit constructions over mere comparisons of asymptotic scalings. Using LOVE-LCU to implement the BE, we simulate the time evolution of single-site and two-site systems in the lattice $\varphi^4$ theory using the Generalized QSP algorithm and compare the gate counts to those required for Trotter simulation.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# 自己学習リワードモデルによるフルーレント・高精度画像キャプション

Fluent and Accurate Image Captioning with a Self-Trained Reward Model ( http://arxiv.org/abs/2408.16827v1 )

ライセンス: Link先を確認
Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, (参考訳) CIDErメトリックのような手作りの報酬を伴う微調整画像キャプションモデルは、シーケンスレベルでキャプション品質を促進するための古典的な戦略である。 しかし、このアプローチは記述性や意味的豊かさを制限することで知られており、そのモデルが接尾辞文のスタイルに傾き、詳細さと特異性を失う傾向にある。 それに対して、最近のCLIPのような画像テキストモデルを報酬として採用しようとする試みは、文法的に間違って反復的なキャプションをもたらしている。 本稿では,画像との整合性に基づいてキャプションを識別できる自己生成ネガティブに基づく,学習可能な報酬モデルに基づくキャプション方式であるSelf-Capを提案する。 特に,我々の判別器は,CLIPベースの報酬を用いたトレーニングにおいて発生する異常を回避しつつ,字幕の正当性を促進するために訓練された微調整のコントラスト画像テキストモデルである。 この目的のために, 冷凍キャプションからの負のサンプルを直接取り込み, 生成したキャプションの品質と豊かさを大幅に向上させるとともに, CIDErスコアを最適化の唯一の指標として用いた場合と比較して微調整時間を短縮する。 実験により,標準的な画像キャプションデータセットとゼロショット画像キャプションデータセットの両方に対するトレーニング戦略の有効性が示された。

Fine-tuning image captioning models with hand-crafted rewards like the CIDEr metric has been a classical strategy for promoting caption quality at the sequence level. This approach, however, is known to limit descriptiveness and semantic richness and tends to drive the model towards the style of ground-truth sentences, thus losing detail and specificity. On the contrary, recent attempts to employ image-text models like CLIP as reward have led to grammatically incorrect and repetitive captions. In this paper, we propose Self-Cap, a captioning approach that relies on a learnable reward model based on self-generated negatives that can discriminate captions based on their consistency with the image. Specifically, our discriminator is a fine-tuned contrastive image-text model trained to promote caption correctness while avoiding the aberrations that typically happen when training with a CLIP-based reward. To this end, our discriminator directly incorporates negative samples from a frozen captioner, which significantly improves the quality and richness of the generated captions but also reduces the fine-tuning time in comparison to using the CIDEr score as the sole metric for optimization. Experimental results demonstrate the effectiveness of our training strategy on both standard and zero-shot image captioning datasets.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# Maven: 超新星科学のためのマルチモーダル基礎モデル

Maven: A Multimodal Foundation Model for Supernova Science ( http://arxiv.org/abs/2408.16829v1 )

ライセンス: Link先を確認
Gemma Zhang, Thomas Helfer, Alexander T. Gagliano, Siddharth Mishra-Sharma, V. Ashley Villar, (参考訳) 天文学における一般的な設定は、少数の高品質な観測が利用可能であり、より低い品質の観測または単純化されたモデルからの合成データが大きいことである。 時間領域天体物理学はこの不均衡の正準例であり、観測された超新星の数は、分光学的に観測された数を大幅に大きく上回っている。 同時に、これらの測光と分光観測を共通の文脈で理解するためのデータ駆動モデルも存在しない。 共有埋め込み空間における異なるデータモダリティの整合化に人気が高まっているコントラスト学習の目的は、これらのモダリティから情報を抽出する潜在的ソリューションを提供する。 超新星科学の最初の基盤モデルであるMavenを紹介します。 Mavenを構築するために、まず、コンストラクティブな目的を用いて0.5Mの合成超新星からの測光と分光を調整するために、我々のモデルを事前訓練した。 そして、Zwicky Transient Facilityから観測された4,702個の超新星の模型を微調整した。 Mavenは、これらのタスクに明示的に最適化されていない組み込みにもかかわらず、分類と再シフト推定の両方で最先端のパフォーマンスに達する。 アブレーション研究を通じて,合成データによる事前学習が全体の性能を向上させることを示す。 Vera C. Rubin Observatoryの次の時代には、Mavenは大きな、ラベルなし、マルチモーダルなタイムドメインデータセットを活用するためのRosetta Stoneとして機能する。

A common setting in astronomy is the availability of a small number of high-quality observations, and larger amounts of either lower-quality observations or synthetic data from simplified models. Time-domain astrophysics is a canonical example of this imbalance, with the number of supernovae observed photometrically outpacing the number observed spectroscopically by multiple orders of magnitude. At the same time, no data-driven models exist to understand these photometric and spectroscopic observables in a common context. Contrastive learning objectives, which have grown in popularity for aligning distinct data modalities in a shared embedding space, provide a potential solution to extract information from these modalities. We present Maven, the first foundation model for supernova science. To construct Maven, we first pre-train our model to align photometry and spectroscopy from 0.5M synthetic supernovae using a constrastive objective. We then fine-tune the model on 4,702 observed supernovae from the Zwicky Transient Facility. Maven reaches state-of-the-art performance on both classification and redshift estimation, despite the embeddings not being explicitly optimized for these tasks. Through ablation studies, we show that pre-training with synthetic data improves overall performance. In the upcoming era of the Vera C. Rubin Observatory, Maven serves as a Rosetta Stone for leveraging large, unlabeled and multimodal time-domain datasets.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# 産業ネットワークにおける5Gのセキュアな統合--技術の現状と課題と機会

Secure Integration of 5G in Industrial Networks: State of the Art, Challenges and Opportunities ( http://arxiv.org/abs/2408.16833v1 )

ライセンス: Link先を確認
Sotiris Michaelides, Thomas Vogt, Martin Henze, (参考訳) 産業の状況は、従来の有線フィールドバスネットワークから最先端の5Gモバイルネットワークへと大きく変化している。 この移行は、ローカルアプリケーションから企業全体への拡張と、複数のファクトリにまたがる移行であり、産業環境での低レイテンシ通信と、さまざまなデバイスに対するシームレスな接続の約束によって実現されている。 しかし、これらの大きなメリットに加えて、産業ネットワークにおける通信基盤としての5Gの統合は、産業システムのセキュリティに対する新たなリスクと脅威をもたらす。 5Gシステムの本質的な複雑さは、産業ネットワークで以前使用されていた技術よりも、セキュアな統合を保証するために、ユニークな課題を生じさせる。 最も重要なことは、リアルタイム運用、安全保証、高可用性要求といった産業ネットワークの特徴が、このタスクをさらに複雑にしていることである。 有線ネットワークからワイヤレスネットワークへの産業移行は、比較的新しい概念であるため、5Gを安全に統合するためのガイダンスや勧告の欠如により、多くの産業システムが脆弱になり、5Gに関連する脅威にさらされる。 この状況に対処するため,本稿では,研究状況の徹底的な分析に基づいて,産業ネットワークへの5Gのセキュアな統合に関する一連の勧告を述べる。 さらに、我々は5Gを利用したセキュリティをさらに強化し、残る課題を示す機会を特定し、将来の学術的可能性を見極める。

The industrial landscape is undergoing a significant transformation, moving away from traditional wired fieldbus networks to cutting-edge 5G mobile networks. This transition, extending from local applications to company-wide use and spanning multiple factories, is driven by the promise of low-latency communication and seamless connectivity for various devices in industrial settings. However, besides these tremendous benefits, the integration of 5G as the communication infrastructure in industrial networks introduces a new set of risks and threats to the security of industrial systems. The inherent complexity of 5G systems poses unique challenges for ensuring a secure integration, surpassing those encountered with any technology previously utilized in industrial networks. Most importantly, the distinct characteristics of industrial networks, such as real-time operation, required safety guarantees, and high availability requirements, further complicate this task. As the industrial transition from wired to wireless networks is a relatively new concept, a lack of guidance and recommendations on securely integrating 5G renders many industrial systems vulnerable and exposed to threats associated with 5G. To address this situation, in this paper, we summarize the state-of-the-art and derive a set of recommendations for the secure integration of 5G into industrial networks based on a thorough analysis of the research landscape. Furthermore, we identify opportunities to utilize 5G to further enhance security and indicate remaining challenges, potentially identifying future academic potential
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# チップ型量子鍵配電装置の物理的安全性

Physical Security of Chip-Based Quantum Key Distribution Devices ( http://arxiv.org/abs/2408.16835v1 )

ライセンス: Link先を確認
Friederike Jöhlinger, Henry Semenenko, Philip Sibson, Djeylan Aktas, John Rarity, Chris Erven, Siddarth Joshi, Imad Faruque, (参考訳) 量子鍵分布(QKD)プロトコルのセキュリティ証明は、物理システムの動作について一定の仮定を行う。 したがって、それらの操作がセキュリティ証明で仮定されたモデルと一致していることを保証するための適切なデバイスモデリングが必須である。 本稿では,計測デバイス独立(MDI)QKD統合フォトニックチップを用いたトロイの木馬攻撃(THA)と,オンチップコンポーネントのみを用いたセキュリティ脆弱性の回避方法について検討する。 光ダイオードの感度を考慮すれば、モニタ用フォトダイオードと十分な光分離を適切に組み合わせることで、高出力スニッフィング攻撃を検出することができることを示す。 また、後方反射成分に対する振幅変調器の配置と、その切換時間を用いて、THAを抑制できることも示している。

The security proofs of the Quantum Key Distribution (QKD) protocols make certain assumptions about the operations of physical systems. Thus, appropriate modelling of devices to ensure that their operations are consistent with the models assumed in the security proof is imperative. In this paper, we explore the Trojan horse attack (THA) using Measurement Device Independent (MDI) QKD integrated photonic chips and how to avoid some of the security vulnerabilities using only on-chip components. We show that a monitor photodiode paired appropriately with enough optical isolation, given the sensitivity of the photodiode, can detect high power sniffing attacks. We also show that the placement of amplitude modulators with respect to back reflecting components and their switching time can be used to thwart a THA.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# サイバー物理システムに対するサイバーリスクアセスメント : 評価の有効性向上のための方法論と勧告のレビュー

Cyber Risk Assessment for Cyber-Physical Systems: A Review of Methodologies and Recommendations for Improved Assessment Effectiveness ( http://arxiv.org/abs/2408.16841v1 )

ライセンス: Link先を確認
Asila AlHarmali, Saqib Ali, Waqas Aman, Omar Hussain, (参考訳) CPS(Cyber-Physical Systems)は、物理的および組み込みシステムと情報通信技術システムを統合し、人間の介入を最小限に抑えて物理的プロセスを監視し制御する。 情報通信技術への接続は、CPSをサイバーリスクに晒す。 これらのリスクを効果的に管理するためには、これらのリスクを評価することが重要です。 本稿では,CPSのサイバーリスクアセスメントに対する学術的貢献をレビューし,評価アプローチがどのように評価されたかを分析し,有効なリスクアセスメントの要件を満たす程度について検討する。 評価の有効性を制限するギャップを特定し、サイバーセキュリティインシデントからのリアルタイム学習を推奨する。 本稿は、2014年から2023年にかけて発行された28件の論文を3段階の検索に基づいて取り上げる。 以上の結果から,サイバーリスク評価手法の見直しにより,複数の要因による効果の限界が判明した。 これらの発見は、CPSにおけるサイバーリスク評価の品質に影響を与える他の要因を探求し、対処するための、さらなる研究の基盤となる。

Cyber-Physical Systems (CPS) integrate physical and embedded systems with information and communication technology systems, monitoring and controlling physical processes with minimal human intervention. The connection to information and communication technology exposes CPS to cyber risks. It is crucial to assess these risks to manage them effectively. This paper reviews scholarly contributions to cyber risk assessment for CPS, analyzing how the assessment approaches were evaluated and investigating to what extent they meet the requirements of effective risk assessment. We identify gaps limiting the effectiveness of the assessment and recommend real-time learning from cybersecurity incidents. Our review covers twenty-eight papers published between 2014 and 2023, selected based on a three-step search. Our findings show that the reviewed cyber risk assessment methodologies revealed limited effectiveness due to multiple factors. These findings provide a foundation for further research to explore and address other factors impacting the quality of cyber risk assessment in CPS.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# AdapShare: O-RANのためのRLベースの動的スペクトル共有ソリューション

AdapShare: An RL-Based Dynamic Spectrum Sharing Solution for O-RAN ( http://arxiv.org/abs/2408.16842v1 )

ライセンス: Link先を確認
Sneihil Gopal, David Griffith, Richard A. Rouil, Chunmei Liu, (参考訳) Open Radio Access Network (O-RAN)イニシアチブは、オープンインターフェースとAI/ML対応のRAN Intelligent Controller (RIC)によって特徴付けられ、RAN間の効果的なスペクトル共有を促進する。 この文脈では、インテントベースのスペクトル管理に強化学習(RL)を活用するORAN互換のソリューションであるAdapShareを導入する。 RLエージェントを採用することで、AdapShareはインテリジェントにネットワーク要求パターンを学び、リソースを割り当てる。 本稿では,LTE と NR ネットワーク間のスペクトル共有シナリオにおける AdapShare の有効性を実証し,実世界の LTE リソース利用データと合成 NR 利用データを組み合わせることで,その実用性を実証する。 様々なシナリオでシステムの性能を測定するために、平均余剰、赤字、公平度指数を使用します。 AdapShareは、長期のネットワーク需要統計に基づく準静的なリソース割り当てスキーム、特に利用可能なリソースがネットワークからの総需要より少ない場合において、性能が向上する。 最後に,RLエージェントを用いた高レベルのO-RAN互換アーキテクチャを提案する。

The Open Radio Access Network (O-RAN) initiative, characterized by open interfaces and AI/ML-capable RAN Intelligent Controller (RIC), facilitates effective spectrum sharing among RANs. In this context, we introduce AdapShare, an ORAN-compatible solution leveraging Reinforcement Learning (RL) for intent-based spectrum management, with the primary goal of minimizing resource surpluses or deficits in RANs. By employing RL agents, AdapShare intelligently learns network demand patterns and uses them to allocate resources. We demonstrate the efficacy of AdapShare in the spectrum sharing scenario between LTE and NR networks, incorporating real-world LTE resource usage data and synthetic NR usage data to demonstrate its practical use. We use the average surplus or deficit and fairness index to measure the system's performance in various scenarios. AdapShare outperforms a quasi-static resource allocation scheme based on long-term network demand statistics, particularly when available resources are scarce or exceed the aggregate demand from the networks. Lastly, we present a high-level O-RAN compatible architecture using RL agents, which demonstrates the seamless integration of AdapShare into real-world deployment scenarios.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# 連成・個別成分分析による拡散モデルにおける局所編集の実現

Enabling Local Editing in Diffusion Models by Joint and Individual Component Analysis ( http://arxiv.org/abs/2408.16845v1 )

ライセンス: Link先を確認
Theodoros Kouzelis, Manos Plitsis, Mihalis A. Nikolaou, Yannis Panagakis, (参考訳) 拡散モデル(DM)の最近の進歩は、視覚合成と編集タスクの大幅な進歩をもたらし、GAN(Generative Adversarial Networks)の強力なライバルとして確立されている。 しかし、DMsの潜伏空間はGANsほどよく理解されていない。 最近の研究は、意味的潜在空間の性質を示すことが示されている認知ネットワークのボトルネック層を活用することで、DMの潜在空間における教師なし意味発見に焦点を当てている。 しかし、これらのアプローチはグローバル属性の発見に限られている。 本稿では、DMにおける局所的な画像操作の課題に対処し、事前学習されたDMの認知ネットワークによって学習された潜在意味を分解する教師なし手法を提案する。 任意の画像と関心領域が与えられた場合、関心領域と潜在空間の対応する部分空間の関係を確立するために、認知ネットワークのヤコビアンを利用する。 さらに、これらの部分空間の接合部と個々の成分をアンタングルして、局所的な画像操作を可能にする遅延方向を識別する。 一度発見されると、これらの方向を異なる画像に適用して意味論的に一貫した編集を行うことができ、本手法は実用的な応用に適している。 種々のデータセットに対する実験結果から,本手法はより局所化され,より忠実なセマンティック編集を作成できることを示した。

Recent advances in Diffusion Models (DMs) have led to significant progress in visual synthesis and editing tasks, establishing them as a strong competitor to Generative Adversarial Networks (GANs). However, the latent space of DMs is not as well understood as that of GANs. Recent research has focused on unsupervised semantic discovery in the latent space of DMs by leveraging the bottleneck layer of the denoising network, which has been shown to exhibit properties of a semantic latent space. However, these approaches are limited to discovering global attributes. In this paper we address, the challenge of local image manipulation in DMs and introduce an unsupervised method to factorize the latent semantics learned by the denoising network of pre-trained DMs. Given an arbitrary image and defined regions of interest, we utilize the Jacobian of the denoising network to establish a relation between the regions of interest and their corresponding subspaces in the latent space. Furthermore, we disentangle the joint and individual components of these subspaces to identify latent directions that enable local image manipulation. Once discovered, these directions can be applied to different images to produce semantically consistent edits, making our method suitable for practical applications. Experimental results on various datasets demonstrate that our method can produce semantic edits that are more localized and have better fidelity compared to the state-of-the-art.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# 周期駆動量子ロータにおける異常多ギャップ位相

Anomalous multi-gap topological phases in periodically driven quantum rotors ( http://arxiv.org/abs/2408.16848v1 )

ライセンス: Link先を確認
Volker Karle, Mikhail Lemeshko, Adrien Bouhon, Robert-Jan Slager, F. Nur Ünal, (参考訳) 我々は、周期的に駆動される量子ローターが、バンドの群が非アベリアのバンド退化による位相不変量を得ることのできるマルチギャップ位相を実装するための、有望かつ広く適用可能なプラットフォームを提供することを示した。 周期的なキックをローターにアディバティカルに変化させることで、ノーダルラインブレイディングがバンドノードのトポロジカルチャージの符号フリップを引き起こし、%非アベリアパッチオイラークラスの非ゼロ値で示される消滅を防ぐことができる。 特に、量子ロータの真外平衡位相である強駆動状態に生じる異常なディラック弦相の出現について報告する。 この位相は、すべての(準エネルギー)ギャップを含むブレイディング過程から生成され、角運動量ゼロのエッジ状態で表される。 本研究は,光格子中の周期的遠方共鳴レーザーパルスや人工量子ローターによって駆動される線形分子や,新しい非アベリア位相特性の精密な修正と観察を行うような,量子ローターの最先端実験における直接的応用を明らかにした。

We demonstrate that periodically driven quantum rotors provide a promising and broadly applicable platform to implement multi-gap topological phases, where groups of bands can acquire topological invariants due to non-Abelian braiding of band degeneracies. By adiabatically varying the periodic kicks to the rotor we find nodal-line braiding, which causes sign flips of topological charges of band nodes and can prevent them from annihilating, indicated by non-zero values of the %non-Abelian patch Euler class. In particular, we report on the emergence of an anomalous Dirac string phase arising in the strongly driven regime, a truly out-of-equilibrium phase of the quantum rotor. This phase emanates from braiding processes involving all (quasienergy) gaps and manifests itself with edge states at zero angular momentum. Our results reveal direct applications in state-of-the-art experiments of quantum rotors, such as linear molecules driven by periodic far-off-resonant laser pulses or artificial quantum rotors in optical lattices, whose extensive versatility offers precise modification and observation of novel non-Abelian topological properties.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# オンライン教育への青少年の適応性に関する機械学習による研究

Machine Learning-Based Research on the Adaptability of Adolescents to Online Education ( http://arxiv.org/abs/2408.16849v1 )

ライセンス: Link先を確認
Mingwei Wang, Sitong Liu, (参考訳) インターネット技術の急速な進歩により、青少年のオンライン学習への適応性は、教育分野における関心の焦点となっている。 しかし、青年期のオンライン学習適応性予測モデルを開発するための学術コミュニティの取り組みは、さらなる洗練と拡張を必要としている。 2014年から2016年にかけて行われた「中国青年オンライン教育調査」のデータを利用して、ロジスティック回帰(logistic regression)、K-nearest neighbors(K-nearest neighbors)、ランダムフォレスト(ランダムフォレスト)、XGBoost(XGBoost)、CatBoost(キャットブース)の5つの機械学習アルゴリズムを実装し、青年オンライン学習の適応性に影響を与える要因を分析し、予測に適したモデルを決定する。 本研究は,オンライン学習環境における学生の適応性に影響を及ぼす要因として,授業期間,家族の経済的地位,年齢が重要であることを明らかにした。 さらに、年齢は生徒の適応能力に大きな影響を及ぼす。 予測モデルのうち、ランダムフォレスト、XGBoost、CatBoostアルゴリズムは優れた予測能力を示し、ランダムフォレストモデルは特に学生の適応性の特徴を捉えるのに適している。

With the rapid advancement of internet technology, the adaptability of adolescents to online learning has emerged as a focal point of interest within the educational sphere. However, the academic community's efforts to develop predictive models for adolescent online learning adaptability require further refinement and expansion. Utilizing data from the "Chinese Adolescent Online Education Survey" spanning the years 2014 to 2016, this study implements five machine learning algorithms - logistic regression, K-nearest neighbors, random forest, XGBoost, and CatBoost - to analyze the factors influencing adolescent online learning adaptability and to determine the model best suited for prediction. The research reveals that the duration of courses, the financial status of the family, and age are the primary factors affecting students' adaptability in online learning environments. Additionally, age significantly impacts students' adaptive capacities. Among the predictive models, the random forest, XGBoost, and CatBoost algorithms demonstrate superior forecasting capabilities, with the random forest model being particularly adept at capturing the characteristics of students' adaptability.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# 批判に基づく正規化学習のスター幾何学

The Star Geometry of Critic-Based Regularizer Learning ( http://arxiv.org/abs/2408.16852v1 )

ライセンス: Link先を確認
Oscar Leong, Eliza O'Reilly, Yong Sheng Soh, (参考訳) 変分正規化は、統計的推論タスクと逆問題を解決するための古典的な手法であり、現代のデータ駆動アプローチは、深いニューラルネットワークを通して正規化をパラメータ化し、印象的な経験的性能を示す。 最近の研究はタスク依存型正規化器を学習している。 これは、非教師付き、批判に基づく損失関数において、測定値と地上構造データに関する情報を統合することでなされる。 しかし、このプロセスを通して学習した正規化器の構造と、それが2つのデータ分布にどのように関係しているかについては、ほとんど理論がない。 この課題を進展させるために、星型天体のゲージ(またはミンコフスキー汎函数)という特定の正規化器の族上で正規化器を学ぶために、批判に基づく損失関数を最適化する研究を開始する。 このファミリには、一般的に使用されるレギュレータが含まれており、ディープニューラルネットワークによってパラメータ化されるレギュレータとプロパティを共有する。 本稿では,確率測度間の統計的距離の変動表現から得られた批判に基づく損失について検討する。 恒星幾何学と二重ブラン・ミンコフスキー理論のツールを利用することで、これらの損失をデータ分布に依存する二重混合体積と解釈できることを示す。 これにより、ある場合において最適な正則化器の正確な式を導出できる。 最後に、どのニューラルネットワークアーキテクチャがそのような星体ゲージを生じさせるかを特定し、いつそのような正規化器が最適化に有利な性質を持つかを明らかにする。 より広く、この研究は、恒星幾何学のツールが教師なし正規化学習の幾何学を理解するのにどのように役立つかを強調している。

Variational regularization is a classical technique to solve statistical inference tasks and inverse problems, with modern data-driven approaches parameterizing regularizers via deep neural networks showcasing impressive empirical performance. Recent works along these lines learn task-dependent regularizers. This is done by integrating information about the measurements and ground-truth data in an unsupervised, critic-based loss function, where the regularizer attributes low values to likely data and high values to unlikely data. However, there is little theory about the structure of regularizers learned via this process and how it relates to the two data distributions. To make progress on this challenge, we initiate a study of optimizing critic-based loss functions to learn regularizers over a particular family of regularizers: gauges (or Minkowski functionals) of star-shaped bodies. This family contains regularizers that are commonly employed in practice and shares properties with regularizers parameterized by deep neural networks. We specifically investigate critic-based losses derived from variational representations of statistical distances between probability measures. By leveraging tools from star geometry and dual Brunn-Minkowski theory, we illustrate how these losses can be interpreted as dual mixed volumes that depend on the data distribution. This allows us to derive exact expressions for the optimal regularizer in certain cases. Finally, we identify which neural network architectures give rise to such star body gauges and when do such regularizers have favorable properties for optimization. More broadly, this work highlights how the tools of star geometry can aid in understanding the geometry of unsupervised regularizer learning.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# TikTokにおける攻撃的コンテンツ検出のモデル化

Modeling offensive content detection for TikTok ( http://arxiv.org/abs/2408.16857v1 )

ライセンス: Link先を確認
Kasper Cools, Gideon Mailette de Buy Wenniger, Clara Maathuis, (参考訳) ソーシャルメディアの出現は、対人コミュニケーションと情報消費のプロセスを変えた。 このデジタルランドスケープは、ユーザの意図を許容し、攻撃的な言語の増加と有害な振る舞いをもたらす。 同時に、ソーシャルメディアプラットフォームは、ユーザー生成コンテンツと行動情報からなる膨大なデータセットを収集する。 これらのデータセットは、機械学習とデータ駆動戦略をデプロイするプラットフォームに役立ち、偽情報や攻撃的コンテンツといった社会的操作メカニズムに対する顧客の洞察と対策を容易にする。 それでも、そのようなデータセットは、さまざまな機械学習技術の応用とともに、研究者や実践者が特定のイベントに関する特定のソーシャルメディアプラットフォームで利用できることは限られている。 特にTikTokは、パーソナライズされたコンテンツの作成と共有のためのユニークなツールを提供しているが、既存の知識の体系は、さまざまな包括的なデータセットと関連するデータ分析ソリューションを攻撃的コンテンツ上に持つことで恩恵を受けるだろう。 ソーシャルメディアプラットフォーム、研究、実践者コミュニティの努力がこの代表として見られているが、そのようなコンテンツは今も増え続けている。 これは、データセットを公開し、対応するインテリジェントなソリューションを構築するために必要不可欠であることを意味します。 そこで本研究では,攻撃コンテンツを含むTikTokデータの収集と解析を行い,攻撃コンテンツ検出のための一連の機械学習モデルとディープラーニングモデルを構築した。 これは「TikTok上の攻撃的コンテンツを検出する一連の計算モデルをどのように開発するか?」という質問に答えることを目的としている。 この目的のために、データサイエンスの方法論的アプローチを検討し、120.423のTikTokコメントを収集し、バランスの取れたバイナリ分類アプローチにより、0.863のF1スコアパフォーマンス結果を得る。

The advent of social media transformed interpersonal communication and information consumption processes. This digital landscape accommodates user intentions, also resulting in an increase of offensive language and harmful behavior. Concurrently, social media platforms collect vast datasets comprising user-generated content and behavioral information. These datasets are instrumental for platforms deploying machine learning and data-driven strategies, facilitating customer insights and countermeasures against social manipulation mechanisms like disinformation and offensive content. Nevertheless, the availability of such datasets, along with the application of various machine learning techniques, to researchers and practitioners, for specific social media platforms regarding particular events, is limited. In particular for TikTok, which offers unique tools for personalized content creation and sharing, the existing body of knowledge would benefit from having diverse comprehensive datasets and associated data analytics solutions on offensive content. While efforts from social media platforms, research, and practitioner communities are seen on this behalf, such content continues to proliferate. This translates to an essential need to make datasets publicly available and build corresponding intelligent solutions. On this behalf, this research undertakes the collection and analysis of TikTok data containing offensive content, building a series of machine learning and deep learning models for offensive content detection. This is done aiming at answering the following research question: "How to develop a series of computational models to detect offensive content on TikTok?". To this end, a Data Science methodological approach is considered, 120.423 TikTok comments are collected, and on a balanced, binary classification approach, F1 score performance results of 0.863 is obtained.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# 乳癌分類における転写学習モデルの比較分析

Comparative Analysis of Transfer Learning Models for Breast Cancer Classification ( http://arxiv.org/abs/2408.16859v1 )

ライセンス: Link先を確認
Sania Eskandari, Ali Eslamian, Qiang Cheng, (参考訳) 病理組織像の分類は乳がんの早期かつ正確な診断に不可欠である。 本研究は, 病理組織学的スライドにおいて, 浸潤性直腸癌 (IDC) と非IDCを区別する深層学習モデルの効率について検討した。 ResNet-50, DenseNet-121, ResNeXt-50, Vision Transformer (ViT), GoogLeNet (Inception v3), EfficientNet, MobileNet, SqueezeNet。 この分析は277,524の画像パッチを用いて行った。 本研究は,各モデルの性能を総合的に評価することで,この分野に多大な貢献をしている。 特に,従来の畳み込みネットワークを超越した,93%の顕著な検証精度を達成したViTモデルにおいて,注目に基づくメカニズムの異常な有効性を強調した。 本研究は, 臨床現場における高度な機械学習アプローチの可能性を強調し, 乳がん診断における精度の向上と効率性について検討した。

The classification of histopathological images is crucial for the early and precise detection of breast cancer. This study investigates the efficiency of deep learning models in distinguishing between Invasive Ductal Carcinoma (IDC) and non-IDC in histopathology slides. We conducted a thorough comparison examination of eight sophisticated models: ResNet-50, DenseNet-121, ResNeXt-50, Vision Transformer (ViT), GoogLeNet (Inception v3), EfficientNet, MobileNet, and SqueezeNet. This analysis was carried out using a large dataset of 277,524 image patches. Our research makes a substantial contribution to the field by offering a comprehensive assessment of the performance of each model. We particularly highlight the exceptional efficacy of attention-based mechanisms in the ViT model, which achieved a remarkable validation accuracy of 93\%, surpassing conventional convolutional networks. This study highlights the promise of advanced machine learning approaches in clinical settings, offering improved precision as well as efficiency in breast cancer diagnosis.
翻訳日:2024-09-02 17:18:55 公開日:2024-08-29
# 潜在ニューラルダイナミクスのロバスト発見のための確率分解線形力学系

Probabilistic Decomposed Linear Dynamical Systems for Robust Discovery of Latent Neural Dynamics ( http://arxiv.org/abs/2408.16862v1 )

ライセンス: Link先を確認
Yenho Chen, Noga Mudrik, Kyle A. Johnsen, Sankaraleengam Alagapan, Adam S. Charles, Christopher J. Rozell, (参考訳) 時間変化線形状態空間モデルは、ニューラルネットワークの数学的解釈可能な表現を得るための強力なツールである。 例えば、スイッチングと分解されたモデルは、単純な局所線型力学に従って進化する潜在変数を用いて複雑なシステムを記述する。 しかし、遅延変数推定のための既存の手法は、雑音感受性推論手順や限定モデル定式化による動的ノイズやシステムの非線形性に対して堅牢ではない。 これは、同様の力学を持つ信号に対する矛盾した結果をもたらし、モデルが科学的洞察を与える能力を制限する。 本研究では,これらの制約に対処し,動的雑音に対するロバスト性を改善する分解モデルにおける潜在変数推定に対する確率的アプローチを提案する。 さらに,システムの非線形性に対するロバスト性を改善するために,拡張潜在力学モデルを導入する。 実験的な脳-コンピュータインタフェース実験を含む数種類の合成力学系に対するアプローチを評価し, 様々な雑音条件を持つ非線形系において, より正確な潜伏変数推論を示す。 さらに,本手法を実世界の臨床神経生理学データセットに適用し,従来のモデルでは不可能であった解釈可能な,一貫性のある構造を識別する能力を示す。

Time-varying linear state-space models are powerful tools for obtaining mathematically interpretable representations of neural signals. For example, switching and decomposed models describe complex systems using latent variables that evolve according to simple locally linear dynamics. However, existing methods for latent variable estimation are not robust to dynamical noise and system nonlinearity due to noise-sensitive inference procedures and limited model formulations. This can lead to inconsistent results on signals with similar dynamics, limiting the model's ability to provide scientific insight. In this work, we address these limitations and propose a probabilistic approach to latent variable estimation in decomposed models that improves robustness against dynamical noise. Additionally, we introduce an extended latent dynamics model to improve robustness against system nonlinearities. We evaluate our approach on several synthetic dynamical systems, including an empirically-derived brain-computer interface experiment, and demonstrate more accurate latent variable inference in nonlinear systems with diverse noise conditions. Furthermore, we apply our method to a real-world clinical neurophysiology dataset, illustrating the ability to identify interpretable and coherent structure where previous models cannot.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# データ駆動型法執行機関ランキングによる法律論争における情報非対称性の対応

Addressing Information Asymmetry in Legal Disputes through Data-Driven Law Firm Rankings ( http://arxiv.org/abs/2408.16863v1 )

ライセンス: Link先を確認
Alexandre Mojon, Robert Mahari, Sandro Claudio Lera, (参考訳) 法的な論争が高まり、訴訟費用の増大に寄与している。 これらの紛争の当事者は、代表する法律事務所を選ばなければならないが、法律事務所の公的ランク付けは評判に基づいており、実際の訴訟結果とはほとんど相関がなく、より多くの経験と内部知識を持つ当事者に有利である。 原告が情報的判断を下すために,米国民事訴訟310,876件の新たなデータセットを提示し,Bradley-Terryモデルを一般化したアルゴリズムを適用し,法律事務所の有効性を評価する。 結果に基づくランキングシステムでは,従来の評価に基づくランキングよりも将来的なパフォーマンスを考慮した方がよいことが分かりました。 さらに、法律事務所間の相互作用の数が増えるにつれて、この予測可能性はゼロに低下し、情報非対称性が低下するにつれて訴訟の勝利率が50%に近づいたかどうかという長年の議論に新たな証拠を与える。 提案手法は,実証結果の優先順位付けにより,法律事務所の質をより公平に評価し,既存の名声重視の指標に挑戦し,訴訟間の競技場をレベル付けすることを目的としている。

Legal disputes are on the rise, contributing to growing litigation costs. Parties in these disputes must select a law firm to represent them, however, public rankings of law firms are based on reputation and, we find, have little correlation with actual litigation outcomes, giving parties with more experience and inside knowledge an advantage. To enable litigants to make informed decisions, we present a novel dataset of 310,876 U.S. civil lawsuits and we apply an algorithm that generalizes the Bradley-Terry model to assess law firm effectiveness. We find that our outcome-based ranking system better accounts for future performance than traditional reputation-based rankings, which often fail to reflect future legal performance. Moreover, this predictability decays to zero as the number of interactions between law firms increases, providing new evidence to the long-standing debate about whether litigation win rates approach 50\% as information asymmetry diminishes. By prioritizing empirical results, our approach aims to provide a more equitable assessment of law firm quality, challenging existing prestige-focused metrics, and levels the playing field between litigants.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# GameIR: ゲームコンテンツによる画像復元のための大規模合成地上構造データセット

GameIR: A Large-Scale Synthesized Ground-Truth Dataset for Image Restoration over Gaming Content ( http://arxiv.org/abs/2408.16866v1 )

ライセンス: Link先を確認
Lebin Zhou, Kun Han, Nam Ling, Wei Wang, Wei Jiang, (参考訳) 超解像度や画像合成のような画像復元手法はNVIDIAのDLSSのような商用クラウドゲーム製品で成功している。 しかし、ゲームコンテンツに対する復元は一般大衆からはあまり研究されていない。 この違いは、主にテストケースにマッチする地道なゲームトレーニングデータが欠如していることに起因する。 ゲームコンテンツの特徴から,オリジナルHR画像の劣化による擬似トレーニングデータ生成の一般的な手法は,復元性能が劣る。 本研究は,2つの異なるアプリケーションを対象として,大規模コンピュータ合成地上真実データセットであるGameIRを開発し,空白を埋める。 1つは遅延レンダリングを備えた超解像度で、LR画像のみのレンダリングと転送、HR画像をクライアント側で復元するゲームソリューションをサポートする。 我々は,このタスクのために720pと1440pでレンダリングされた640本のビデオから,19200本のLR-HR対の接地木フレームを提供する。 2つ目は、新しいビュー合成(NVS)であり、マルチビューフレームの一部をレンダリングおよび転送し、クライアント側で残りのフレームを生成するマルチビューゲーミングソリューションをサポートする。 このタスクには、160シーンの960ビデオから57,600フレームのHRフレームと6つのカメラビューがある。 RGBフレームに加えて、遅延レンダリングステージ中のGBufferも提供されており、復元に役立つ。 さらに,本データセット上でのSOTAスーパーレゾリューションアルゴリズムとNeRFベースNVSアルゴリズムの評価を行い,ゲームコンテンツの復元性能向上におけるゲーミング赤外線データの有効性を実証した。 また,GBuffersを入力情報として組み込んで超解像・NVSを支援する手法についても検討した。 我々は,ゲームコンテンツ上での復元手法の研究を促進するために,データセットとモデルを一般向けに公開する。

Image restoration methods like super-resolution and image synthesis have been successfully used in commercial cloud gaming products like NVIDIA's DLSS. However, restoration over gaming content is not well studied by the general public. The discrepancy is mainly caused by the lack of ground-truth gaming training data that match the test cases. Due to the unique characteristics of gaming content, the common approach of generating pseudo training data by degrading the original HR images results in inferior restoration performance. In this work, we develop GameIR, a large-scale high-quality computer-synthesized ground-truth dataset to fill in the blanks, targeting at two different applications. The first is super-resolution with deferred rendering, to support the gaming solution of rendering and transferring LR images only and restoring HR images on the client side. We provide 19200 LR-HR paired ground-truth frames coming from 640 videos rendered at 720p and 1440p for this task. The second is novel view synthesis (NVS), to support the multiview gaming solution of rendering and transferring part of the multiview frames and generating the remaining frames on the client side. This task has 57,600 HR frames from 960 videos of 160 scenes with 6 camera views. In addition to the RGB frames, the GBuffers during the deferred rendering stage are also provided, which can be used to help restoration. Furthermore, we evaluate several SOTA super-resolution algorithms and NeRF-based NVS algorithms over our dataset, which demonstrates the effectiveness of our ground-truth GameIR data in improving restoration performance for gaming content. Also, we test the method of incorporating the GBuffers as additional input information for helping super-resolution and NVS. We release our dataset and models to the general public to facilitate research on restoration methods over gaming content.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# 転がりシャッター圧縮センシングシステムを用いた点源過渡現象のキャラクタリゼーション

Characterization of point-source transient events with a rolling-shutter compressed sensing system ( http://arxiv.org/abs/2408.16868v1 )

ライセンス: Link先を確認
Frank Qiu, Joshua Michalenko, Lilian K. Casias, Cameron J. Radosevich, Jon Slater, Eric A. Shields, (参考訳) 極端に高速かつ極小の光学イベント(PSTE)は、画像システムにいくつかの課題をもたらす。 その速度のため、そのような事象を正確に特徴づけるには、しばしば非常に高いフレームレートの検出器が必要である。 その大きさのため、そのような事象を正確に検出するには視野を拡大し、しばしばグローバルシャッターの読み出しで焦点平面アレイ(FPA)を撮像することが必要である。 これらの要件を満たす従来のイメージングシステムは、価格、サイズ、重量、消費電力、データ帯域幅の点で費用がかかる。 これらの問題に対処するため,画像システムのローリングシャッター読み出しに適応した新しい圧縮センシングアルゴリズムを開発した。 この手法により, ローリングシャッターのサンプリングレートにおけるPSTEシグネチャの再構築が可能となり, 1-2桁の時間的スピードアップとデータ帯域幅の比例的削減が可能となった。 本研究では,空間的アンサンプ化率25の計測値を用いてPSTEの精度回復を実証し,他の圧縮センシングアルゴリズムと比較して,アルゴリズムが高速かつ高品質な再構成を実現することを示す。 また,我々のアルゴリズムを特徴付ける理論的結果とシミュレーションの相関について述べる。 われわれの研究の潜在的影響は、PSTEの検出とキャラクタリゼーションのためのより高速で安価なセンサーソリューションの開発である。

Point-source transient events (PSTEs) - optical events that are both extremely fast and extremely small - pose several challenges to an imaging system. Due to their speed, accurately characterizing such events often requires detectors with very high frame rates. Due to their size, accurately detecting such events requires maintaining coverage over an extended field-of-view, often through the use of imaging focal plane arrays (FPA) with a global shutter readout. Traditional imaging systems that meet these requirements are costly in terms of price, size, weight, power consumption, and data bandwidth, and there is a need for cheaper solutions with adequate temporal and spatial coverage. To address these issues, we develop a novel compressed sensing algorithm adapted to the rolling shutter readout of an imaging system. This approach enables reconstruction of a PSTE signature at the sampling rate of the rolling shutter, offering a 1-2 order of magnitude temporal speedup and a proportional reduction in data bandwidth. We present empirical results demonstrating accurate recovery of PSTEs using measurements that are spatially undersampled by a factor of 25, and our simulations show that, relative to other compressed sensing algorithms, our algorithm is both faster and yields higher quality reconstructions. We also present theoretical results characterizing our algorithm and corroborating simulations. The potential impact of our work includes the development of much faster, cheaper sensor solutions for PSTE detection and characterization.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# プラズマ発振位相整合を用いたジョセフソントラベリング波パラメトリック増幅器

Josephson Traveling Wave Parametric Amplifiers with Plasma oscillation phase-matching ( http://arxiv.org/abs/2408.16869v1 )

ライセンス: Link先を確認
Emil Rizvanov, Samuel Kern, Pavol Neilinger, Miroslav Grajcar, (参考訳) ジョゼフソン接合の非線形性を利用した移動波パラメトリック増幅器の高利得と広帯域化は、いわゆる位相整合条件を満たすことで達成できる。 この条件は通常、導波路に沿って共鳴構造を配置したり、そのパラメータの周期的な変調によって対処され、導波路の分散のギャップが生じる。 本稿では,位相整合のための共振素子として,増幅器の中心となるジョセフソン接合を用いることを提案する。 JoSIM(およびWRspice)ソフトウェアにおける数値シミュレーションにより、ジョセフソンプラズマ振動を利用して位相整合に十分なウェーブベクターミスマッチを発生させ、ポンプエネルギーの高調波への変換を防止することができることを示す。 提案したTWPAの設計は、15dBと3.5GHzの帯域幅を持ち、最先端のTWPAと同等である。

High gain and large bandwidth of traveling-wave parametric amplifier exploiting the nonlinearity of Josephson Junctions can be achieved by fulfilling the so-called phase-matching condition. This condition is usually addressed by placing resonant structures along the waveguide or by periodic modulations of its parameters, creating gaps in the waveguide's dispersion. Here, we propose to employ the Josephson junctions, which constitute the centerline of the amplifier, as resonant elements for phase matching. By numerical simulations in JoSIM (and WRspice) software, we show that Josephson plasma oscillations can be utilized to create wavevector mismatch sufficient for phase matching as well as to prevent the conversion of the pump energy to higher harmonics. The proposed TWPA design has a gain of 15 dB and a 3.5 GHz bandwidth, which is comparable to the state-of-the-art TWPAs.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# GSTAM: 構造的アテンションマッチングによるグラフ蒸留の効率化

GSTAM: Efficient Graph Distillation with Structural Attention-Matching ( http://arxiv.org/abs/2408.16871v1 )

ライセンス: Link先を確認
Arash Rasti-Meymandi, Ahmad Sajedi, Zhaopan Xu, Konstantinos N. Plataniotis, (参考訳) グラフ蒸留は、大規模なグラフデータセットをより小さく、より管理しやすく、情報的なものに還元するソリューションとして登場した。 既存の手法は主にノード分類を対象とし、計算集約的な処理を伴い、完全なグラフデータセットの真の分布を捉えることができない。 これらの問題に対処するために,グラフ分類データセットを凝縮する新しい手法であるGSTAM(Graph Distillation with Structure Attention Matching)を導入する。 GSTAMは、GNNの注意マップを利用して、元のデータセットから合成グラフに構造情報を抽出する。 構造的注意マッチング機構は、GNNが分類に優先する入力グラフの領域を利用して、これらの情報を合成グラフに効果的に蒸留し、全体的な蒸留性能を向上させる。 総合的な実験は、GSTAMが既存の方法よりも優れていることを示し、極端な凝縮率で0.45%から6.5%向上し、グラフ分類タスクの蒸留を推し進める可能性を強調している(https://github.com/arashrasti96/GSTAMで利用可能)。

Graph distillation has emerged as a solution for reducing large graph datasets to smaller, more manageable, and informative ones. Existing methods primarily target node classification, involve computationally intensive processes, and fail to capture the true distribution of the full graph dataset. To address these issues, we introduce Graph Distillation with Structural Attention Matching (GSTAM), a novel method for condensing graph classification datasets. GSTAM leverages the attention maps of GNNs to distill structural information from the original dataset into synthetic graphs. The structural attention-matching mechanism exploits the areas of the input graph that GNNs prioritize for classification, effectively distilling such information into the synthetic graphs and improving overall distillation performance. Comprehensive experiments demonstrate GSTAM's superiority over existing methods, achieving 0.45% to 6.5% better performance in extreme condensation ratios, highlighting its potential use in advancing distillation for graph classification tasks (Code available at https://github.com/arashrasti96/GSTAM).
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# 移動ロボットによるマルチエージェント・マルチマシン・テンディングの学習

Learning Multi-agent Multi-machine Tending by Mobile Robots ( http://arxiv.org/abs/2408.16875v1 )

ライセンス: Link先を確認
Abdalwhab Abdalwhab, Giovanni Beltrame, Samira Ebrahimi Kahou, David St-Onge, (参考訳) ロボティクスは、製造業における労働者不足の増大に対処するのに役立つ。 そのため、ロボットによる協調作業は、生産性を高く向上させることができる。 それでも、そのセクターに展開されている既存のロボットシステムは、固定された単一アームのセットアップに依存している。 本研究では,MARL(Multi-agent Reinforcement Learning)技術に基づく移動ロボットによるマルチエージェント・マルチマシン・テンディング学習フレームワークを提案する。 さらに,マルチエージェント・プロキシ・ポリシー・オプティマイゼーション(MAPPO)アルゴリズムに注目に基づく符号化機構を開発し,機械学習シナリオの性能向上を図る。 我々のモデル (AB-MAPPO) は, タスク成功, 安全性, 資源利用の観点から, MAPPO よりも優れていた。 さらに, 様々な設計決定を支援するために, 広範囲にわたるアブレーション研究を行った。

Robotics can help address the growing worker shortage challenge of the manufacturing industry. As such, machine tending is a task collaborative robots can tackle that can also highly boost productivity. Nevertheless, existing robotics systems deployed in that sector rely on a fixed single-arm setup, whereas mobile robots can provide more flexibility and scalability. In this work, we introduce a multi-agent multi-machine tending learning framework by mobile robots based on Multi-agent Reinforcement Learning (MARL) techniques with the design of a suitable observation and reward. Moreover, an attention-based encoding mechanism is developed and integrated into Multi-agent Proximal Policy Optimization (MAPPO) algorithm to boost its performance for machine tending scenarios. Our model (AB-MAPPO) outperformed MAPPO in this new challenging scenario in terms of task success, safety, and resources utilization. Furthermore, we provided an extensive ablation study to support our various design decisions.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# リンクストリームの時間的モジュラリティ, モジュール性

Longitudinal Modularity, a Modularity for Link Streams ( http://arxiv.org/abs/2408.16877v1 )

ライセンス: Link先を確認
Victor Brabant, Yasaman Asgari, Pierre Borgnat, Angela Bonifati, Remy Cazabet, (参考訳) 時間ネットワークは、一般に実生活現象をモデル化するために使用される。 これらの現象が相互作用を表し、微細な時間分解能で捉えられる場合、リンクストリームとしてモデル化される。 コミュニティ検出は重要なネットワーク分析タスクである。 静的ネットワークには多くの方法があり、スナップショットのシーケンスとして表される時間的ネットワークのためにいくつかの手法が開発されているが、リンクストリームを処理できる作業はほとんどない。 本稿では、ストリームをリンクするためによく知られたモジュラリティ品質関数の最初の適応を紹介します。 既存の方法とは異なり、分析の時間スケールとは独立している。 モジュラリティの静的および動的定義と品質関数を導入した後、動的コミュニティ評価に対するその妥当性を実験的に示す。

Temporal networks are commonly used to model real-life phenomena. When these phenomena represent interactions and are captured at a fine-grained temporal resolution, they are modeled as link streams. Community detection is an essential network analysis task. Although many methods exist for static networks, and some methods have been developed for temporal networks represented as sequences of snapshots, few works can handle link streams. This article introduces the first adaptation of the well-known Modularity quality function to link streams. Unlike existing methods, it is independent of the time scale of analysis. After introducing the quality function, and its relation to existing static and dynamic definitions of Modularity, we show experimentally its relevance for dynamic community evaluation.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# MSLIQA:マルチスケール学習による画像品質評価のための学習表現の強化

MSLIQA: Enhancing Learning Representations for Image Quality Assessment through Multi-Scale Learning ( http://arxiv.org/abs/2408.16879v1 )

ライセンス: Link先を確認
Nasim Jamshidi Avanaki, Abhijay Ghildiyal, Nabajeet Barman, Saman Zadtootaghaj, (参考訳) No-Reference Image Quality Assessment (NR-IQA)は、歪みの多様性と大きな注釈付きデータセットの欠如により、依然として困難な課題である。 多くの研究は、より正確なNR-IQAモデルを開発すること、複雑で計算コストのかかるネットワークを利用すること、テストデータセットの性能を高めるために様々な歪みの間の領域ギャップを埋めることによって、これらの課題に対処しようとしている。 本研究では,新しい拡張戦略を導入し,その性能を約28%向上させることにより,汎用軽量NR-IQAモデルの性能向上を図る。 この拡張戦略により、ズームインおよびアウトにより、画像の様々な部分における異なる歪みをネットワークがよりよく識別することができる。 さらに、テスト時間の拡張はパフォーマンスをさらに向上させ、単に拡張を使うことで、私たちの軽量ネットワークの結果を現在の最先端モデルに匹敵するものにします。

No-Reference Image Quality Assessment (NR-IQA) remains a challenging task due to the diversity of distortions and the lack of large annotated datasets. Many studies have attempted to tackle these challenges by developing more accurate NR-IQA models, often employing complex and computationally expensive networks, or by bridging the domain gap between various distortions to enhance performance on test datasets. In our work, we improve the performance of a generic lightweight NR-IQA model by introducing a novel augmentation strategy that boosts its performance by almost 28\%. This augmentation strategy enables the network to better discriminate between different distortions in various parts of the image by zooming in and out. Additionally, the inclusion of test-time augmentation further enhances performance, making our lightweight network's results comparable to the current state-of-the-art models, simply through the use of augmentations.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# FineFACE: きめ細かい特徴を活用した顔属性分類

FineFACE: Fair Facial Attribute Classification Leveraging Fine-grained Features ( http://arxiv.org/abs/2408.16881v1 )

ライセンス: Link先を確認
Ayesha Manzoor, Ajita Rattani, (参考訳) 公開された研究では、自動的な顔属性分類アルゴリズムにおける人口統計バイアスの存在が強調されている。 既存のバイアス緩和技術は、一般に人口統計学的なアノテーションを必要とし、しばしば公正性と正確性、すなわちパレートの不効率の間のトレードオフを得る。 顔の特徴、例えば「シュービー」や「高い頬骨」のような一般的な特徴は、階級間類似度が高く、階級間での階級内変動は、不平等な正確さをもたらす。 これにより、局所的および微妙な手がかりを微粒な分析で区別する必要がある。 本稿では, 顔の属性を細粒度に分類することで, 顔の属性を公平に分類する手法を提案する。 提案手法は,低レベルの局所的特徴(エッジやカラーなど)と高レベルの意味的特徴(形状や構造など)を層間相互注意学習を通じて効果的に統合する。 ここでは、浅いから深いCNN層が専門家として機能し、カテゴリ予測と注意領域を提供する。 顔属性アノテートデータセットの徹底的な評価は、私たちのFineFACEモデルがSOTAバイアス軽減技術よりも精度を1.32%から1.74%、公平性を67%から83.6%改善していることを示している。 提案手法は,人口集団間の精度と公平性の間にパレート効率のバランスをとる。 さらに,本手法は人口統計学的なアノテーションを必要とせず,下流の多様な分類タスクに適用可能である。 再現性を促進するため、コードとデータセット情報はhttps://github.com/VCBSL-Fairness/FineFACEで公開されている。

Published research highlights the presence of demographic bias in automated facial attribute classification algorithms, particularly impacting women and individuals with darker skin tones. Existing bias mitigation techniques typically require demographic annotations and often obtain a trade-off between fairness and accuracy, i.e., Pareto inefficiency. Facial attributes, whether common ones like gender or others such as "chubby" or "high cheekbones", exhibit high interclass similarity and intraclass variation across demographics leading to unequal accuracy. This requires the use of local and subtle cues using fine-grained analysis for differentiation. This paper proposes a novel approach to fair facial attribute classification by framing it as a fine-grained classification problem. Our approach effectively integrates both low-level local features (like edges and color) and high-level semantic features (like shapes and structures) through cross-layer mutual attention learning. Here, shallow to deep CNN layers function as experts, offering category predictions and attention regions. An exhaustive evaluation on facial attribute annotated datasets demonstrates that our FineFACE model improves accuracy by 1.32% to 1.74% and fairness by 67% to 83.6%, over the SOTA bias mitigation techniques. Importantly, our approach obtains a Pareto-efficient balance between accuracy and fairness between demographic groups. In addition, our approach does not require demographic annotations and is applicable to diverse downstream classification tasks. To facilitate reproducibility, the code and dataset information is available at https://github.com/VCBSL-Fairness/FineFACE.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# 無線ネットワーク最適化のためのマルチ環境Q-Learningアルゴリズムのカバレッジ解析

Coverage Analysis of Multi-Environment Q-Learning Algorithms for Wireless Network Optimization ( http://arxiv.org/abs/2408.16882v1 )

ライセンス: Link先を確認
Talha Bozkus, Urbashi Mitra, (参考訳) Qラーニングは、未知のシステムダイナミクスを用いた無線ネットワークの最適化に広く用いられている。 近年の進歩として,マルチ環境ハイブリッドQ-ラーニングアルゴリズムが登場し,大規模無線ネットワークにおける精度と複雑性の観点から,構造的だが異なるマルコフ環境にまたがる複数のQ-ラーニングアルゴリズムを活用し,既存のQ-ラーニングアルゴリズムより優れている。 本稿では,これらのアルゴリズムに対して最適なデータカバレッジ条件を確保するために,包括的カバレッジ分析を行う。 当初、我々は異なるカバレッジ係数の期待値と分散値の上限を確立した。 これらのバウンダリを活用することで,これらのアルゴリズムを効率的に初期化するためのアルゴリズムを提案する。 我々は、2つの異なる現実世界の無線ネットワーク上でアルゴリズムをテストする。 数値シミュレーションにより、我々のアルゴリズムは、最先端の強化学習アルゴリズムよりも、ポリシーエラーが50%少なく、ランタイムの複雑さが%40小さいことが示される。 さらに,提案アルゴリズムは,ネットワーク設定やパラメータの変化に対して堅牢性を示す。 また、理論的結果も数値的に検証する。

Q-learning is widely used to optimize wireless networks with unknown system dynamics. Recent advancements include ensemble multi-environment hybrid Q-learning algorithms, which utilize multiple Q-learning algorithms across structurally related but distinct Markovian environments and outperform existing Q-learning algorithms in terms of accuracy and complexity in large-scale wireless networks. We herein conduct a comprehensive coverage analysis to ensure optimal data coverage conditions for these algorithms. Initially, we establish upper bounds on the expectation and variance of different coverage coefficients. Leveraging these bounds, we present an algorithm for efficient initialization of these algorithms. We test our algorithm on two distinct real-world wireless networks. Numerical simulations show that our algorithm can achieve %50 less policy error and %40 less runtime complexity than state-of-the-art reinforcement learning algorithms. Furthermore, our algorithm exhibits robustness to changes in network settings and parameters. We also numerically validate our theoretical results.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# 拡散デコーダを用いたマルチモーダルVAEの改訂

Revising Multimodal VAEs with Diffusion Decoders ( http://arxiv.org/abs/2408.16883v1 )

ライセンス: Link先を確認
Daniel Wesego, Amirmohammad Rooshenas, (参考訳) マルチモーダルなVAEは、VAEフレームワーク固有の制限を超えて、高品質なアウトプットを生成するのに苦労することが多い。 中心的な問題は、特に画像のような複雑なモジュラリティが関与する場合、潜在空間の制限された結合表現にある。 これらの複雑なモダリティに一般的に使用されるフィードフォワードデコーダは、必然的にジョイント潜在空間を制約し、他のモダリティの品質も低下させる。 近年の研究では、モダリティに特有な表現を導入することで改善が見られたが、問題は依然として顕著である。 本研究では,画像モダリティに特化してフレキシブルな拡散デコーダを組み込むことで,画像の生成品質を高めるだけでなく,フィードフォワードデコーダに依存する他のモダリティの性能にも肯定的な影響を与えることを示す。 提案手法は,従来の共同表現による制約に対処し,マルチモーダルVAEフレームワークを用いたマルチモーダル生成タスクの改善に向けた新たな可能性を開く。 我々のモデルは、異なるデータセットにおける他のマルチモーダルVAEと比較して、コヒーレンスが高く、生成したモダリティに優れた品質を持つ、最先端の結果を提供する。

Multimodal VAEs often struggle with generating high-quality outputs, a challenge that extends beyond the inherent limitations of the VAE framework. The core issue lies in the restricted joint representation of the latent space, particularly when complex modalities like images are involved. Feedforward decoders, commonly used for these intricate modalities, inadvertently constrain the joint latent space, leading to a degradation in the quality of the other modalities as well. Although recent studies have shown improvement by introducing modality-specific representations, the issue remains significant. In this work, we demonstrate that incorporating a flexible diffusion decoder specifically for the image modality not only enhances the generation quality of the images but also positively impacts the performance of the other modalities that rely on feedforward decoders. This approach addresses the limitations imposed by conventional joint representations and opens up new possibilities for improving multimodal generation tasks using the multimodal VAE framework. Our model provides state-of-the-art results compared to other multimodal VAEs in different datasets with higher coherence and superior quality in the generated modalities
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# EigenTrust-based Practical Byzantine Fault Tolerance Protocol を用いたZeroTrust Architecture Blockchainの試作モデル

A Prototype Model of Zero-Trust Architecture Blockchain with EigenTrust-Based Practical Byzantine Fault Tolerance Protocol to Manage Decentralized Clinical Trials ( http://arxiv.org/abs/2408.16885v1 )

ライセンス: Link先を確認
Ashok Kumar Peepliwall, Hari Mohan Pandey, Surya Prakash, Anand A Mahajan, Sudhinder Singh Chowhan, Vinesh Kumar, Rahul Sharma, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、患者の保持、治験の加速、データアクセシビリティの改善、バーチャルケアの実現、統合システムを通じたシームレスなコミュニケーションの容易化など、分散型臨床試験(DCT)の台頭を必要とした。 しかし、DCTsにシステムを統合することで、臨床データを潜在的なセキュリティ上の脅威に晒し、いかなる段階でも盗難を受けやすくし、プロトコルの逸脱のリスクが高く、監視上の問題が発生する。 これらの課題を軽減するため、ブロックチェーン技術はセキュアなフレームワークとして機能し、分散台帳として機能し、ゼロトラストアーキテクチャを確立して不変環境を作成する。 IoT(Internet of Things)対応のウェアラブルデバイスと組み合わせることで、ブロックチェーンは、DCT自動化と運用の間、プライベートブロックチェーン上の臨床試験データの転送を保証します。 本稿では,DCT手術管理における患者生成臨床試験データを統合するためのZero-Trust Architecture Blockchain(z-TAB)の試作モデルを提案する。 EigenTrustベースのPractical Byzantine Fault Tolerance (T-PBFT)アルゴリズムは、Hyperledger Fabricを利用したコンセンサスプロトコルとして組み込まれている。 さらに、IoT(Internet of Things)はブロックチェーンプラットフォーム内の利害関係者間でのデータ処理を合理化するために統合されている。 システムの品質を評価するために厳密な評価が行われた。

The COVID-19 pandemic necessitated the emergence of decentralized Clinical Trials (DCTs) due to patient retention, accelerate trials, improve data accessibility, enable virtual care, and facilitate seamless communication through integrated systems. However, integrating systems in DCTs exposes clinical data to potential security threats, making them susceptible to theft at any stage, a high risk of protocol deviations, and monitoring issues. To mitigate these challenges, blockchain technology serves as a secure framework, acting as a decentralized ledger, creating an immutable environment by establishing a zero-trust architecture, where data are deemed untrusted until verified. In combination with Internet of Things (IoT)-enabled wearable devices, blockchain secures the transfer of clinical trial data on private blockchains during DCT automation and operations. This paper proposes a prototype model of the Zero-Trust Architecture Blockchain (z-TAB) to integrate patient-generated clinical trial data during DCT operation management. The EigenTrust-based Practical Byzantine Fault Tolerance (T-PBFT) algorithm has been incorporated as a consensus protocol, leveraging Hyperledger Fabric. Furthermore, the Internet of Things (IoT) has been integrated to streamline data processing among stakeholders within the blockchain platforms. Rigorous evaluation has been done to evaluate the quality of the system.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# LV-UNet:医療画像セグメンテーションのための軽量バニラモデル

LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation ( http://arxiv.org/abs/2408.16886v1 )

ライセンス: Link先を確認
Juntao Jiang, Mengmeng Wang, Huizhong Tian, Lingbo Cheng, Yong Liu, (参考訳) コンピュータビジョンの大規模モデルによる進歩、最適化の課題、トランスフォーマーモデルの複雑さ、計算の制限、そして医療画像セグメンテーションのためのモデルアーキテクチャにおけるよりシンプルな設計、特にリアルタイムなパフォーマンスで軽量でデプロイ可能なモデルを必要とするモバイル医療機器への要求などである。 しかしながら、現在の軽量モデルのいくつかは、さまざまなデータセット間の堅牢性が低いため、より広範な採用を妨げている。 本稿では,事前学習したMobileNetv3-Largeモデルを利用した軽量かつバニラモデルLV-UNetを提案する。 改良された深層トレーニング戦略を使用してトレーニングが可能で、推論中にデプロイメントモードに切り替えることで、パラメータカウントと計算負荷の両方を削減することができる。 ISIC 2016、BUSI、CVC- ClinicalDB、CVC-ColonDB、Kvair-SEGデータセットで実験が行われ、最先端のモデルや古典モデルと比較してパフォーマンスが向上している。

Although the progress made by large models in computer vision, optimization challenges, the complexity of transformer models, computational limitations, and the requirements of practical applications call for simpler designs in model architecture for medical image segmentation, especially in mobile medical devices that require lightweight and deployable models with real-time performance. However, some of the current lightweight models exhibit poor robustness across different datasets, which hinders their broader adoption. This paper proposes a lightweight and vanilla model called LV-UNet, which effectively utilizes pre-trained MobileNetv3-Large models and introduces fusible modules. It can be trained using an improved deep training strategy and switched to deployment mode during inference, reducing both parameter count and computational load. Experiments are conducted on ISIC 2016, BUSI, CVC- ClinicDB, CVC-ColonDB, and Kvair-SEG datasets, achieving better performance compared to the state-of-the-art and classic models.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# LLaVA-Chef:食品レシピのマルチモーダル生成モデル

LLaVA-Chef: A Multi-modal Generative Model for Food Recipes ( http://arxiv.org/abs/2408.16889v1 )

ライセンス: Link先を確認
Fnu Mohbat, Mohammed J. Zaki, (参考訳) グローバル化された文脈におけるオンラインレシピ共有の急速な発展の中で、食品レシピの理解と生成に向けた研究が顕著に急増している。 GPT-2やLLaVAのような大規模言語モデル(LLM)の最近の進歩は、食品関連タスクの様々な側面を深く掘り下げる自然言語処理(NLP)アプローチの道を開いた。 LLMの優れた性能とマルチモーダル適応性にもかかわらず、ドメイン固有のトレーニングはその効果的な応用において最重要である。 本研究は、レシピ生成のための既存のLLMを評価し、多段階アプローチで多様なレシピプロンプトのキュレートデータセットに基づいて訓練された新しいモデルであるLLaVA-Chefを提案する。 まず,視覚食品画像の埋め込みの言語空間へのマッピングを改良する。 第2に、LLaVAを食品領域に適応させ、関連するレシピデータに基づいて微調整する。 第3に、多様なプロンプトを利用して、モデルのレシピ理解を強化する。 最後に、モデルにカスタム損失関数を付与することにより、生成したレシピの言語的品質を改善する。 LLaVA-Chefは、事前訓練されたLLMと事前の作業よりも大幅に改善されている。 詳細な質的分析により、LLaVA-Chefは、既存のアプローチと比較して、正確な食材に言及したより詳細なレシピを生成することが明らかになった。

In the rapidly evolving landscape of online recipe sharing within a globalized context, there has been a notable surge in research towards comprehending and generating food recipes. Recent advancements in large language models (LLMs) like GPT-2 and LLaVA have paved the way for Natural Language Processing (NLP) approaches to delve deeper into various facets of food-related tasks, encompassing ingredient recognition and comprehensive recipe generation. Despite impressive performance and multi-modal adaptability of LLMs, domain-specific training remains paramount for their effective application. This work evaluates existing LLMs for recipe generation and proposes LLaVA-Chef, a novel model trained on a curated dataset of diverse recipe prompts in a multi-stage approach. First, we refine the mapping of visual food image embeddings to the language space. Second, we adapt LLaVA to the food domain by fine-tuning it on relevant recipe data. Third, we utilize diverse prompts to enhance the model's recipe comprehension. Finally, we improve the linguistic quality of generated recipes by penalizing the model with a custom loss function. LLaVA-Chef demonstrates impressive improvements over pretrained LLMs and prior works. A detailed qualitative analysis reveals that LLaVA-Chef generates more detailed recipes with precise ingredient mentions, compared to existing approaches.
翻訳日:2024-09-02 17:08:59 公開日:2024-08-29
# ロボットウェアハウジングオペレーション--大規模地域探索のための学習テーマ最適化アプローチ

Robotic warehousing operations: a learn-then-optimize approach to large-scale neighborhood search ( http://arxiv.org/abs/2408.16890v1 )

ライセンス: Link先を確認
Cynthia Barnhart, Alexandre Jacquillat, Alexandria Schmid, (参考訳) ロボット技術の迅速な展開には、多数の自律エージェントを管理するための専用の最適化アルゴリズムが必要である。 本稿では,ワークステーションの注文処理,アイテムポッドの割り当て,ワークステーションでの注文処理のスケジュールを最適化することで,ウェアハウジングにおけるロボット部品対ピッカー操作を支援する。 モデルはスループットを最大化し、ワークステーションで人間のワークロードを管理し、施設内での混雑を管理する。 そこで我々は, 大規模近傍探索を用いて, サブプロブレム生成に対する学習を最適化する手法を提案する。 このアルゴリズムは、サブプロブレム機能に基づいた客観的改善を予測するためのオフライン機械学習手順と、各イテレーションで新しいサブプロブレムを生成するためのオンライン最適化モデルに依存している。 Amazon Roboticsと共同で、我々のモデルとアルゴリズムは、最先端のアプローチよりも、実用的な問題に対するより強力なソリューションを生み出していることを示す。 特に,ロボット操作者の複数項目を一度に選択するためのロボットタスクの調整や,施設内での混雑を避けるためのロボットルートの調整により,ロボットフリートの利用が促進される。

The rapid deployment of robotics technologies requires dedicated optimization algorithms to manage large fleets of autonomous agents. This paper supports robotic parts-to-picker operations in warehousing by optimizing order-workstation assignments, item-pod assignments and the schedule of order fulfillment at workstations. The model maximizes throughput, while managing human workload at the workstations and congestion in the facility. We solve it via large-scale neighborhood search, with a novel learn-then-optimize approach to subproblem generation. The algorithm relies on an offline machine learning procedure to predict objective improvements based on subproblem features, and an online optimization model to generate a new subproblem at each iteration. In collaboration with Amazon Robotics, we show that our model and algorithm generate much stronger solutions for practical problems than state-of-the-art approaches. In particular, our solution enhances the utilization of robotic fleets by coordinating robotic tasks for human operators to pick multiple items at once, and by coordinating robotic routes to avoid congestion in the facility.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# T.R.ハルドの科学キャリアの簡潔な合成

Brief Synopsis of the Scientific Career of T. R. Hurd ( http://arxiv.org/abs/2408.16891v1 )

ライセンス: Link先を確認
Matheus R. Grasselli, Lane P. Hughston, (参考訳) トーマス・ロバート・ハードの名誉を称える国際理論・応用財務ジャーナル」特集の紹介として、トム・ハードの科学的経歴と彼の科学的出版物の伝記を簡潔にまとめた。

As an introduction to a Special Issue of International Journal of Theoretical and Applied Finance in Honour of the Memory of Thomas Robert Hurd we present a brief synopsis of Tom Hurd's scientific career and a bibliography of his scientific publications.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# Tex-ViT: 汎用的でロバストなテクスチュア型デュアルブランチクロスアテンションディープフェイク検出器

Tex-ViT: A Generalizable, Robust, Texture-based dual-branch cross-attention deepfake detector ( http://arxiv.org/abs/2408.16892v1 )

ライセンス: Link先を確認
Deepak Dagar, Dinesh Kumar Vishwakarma, (参考訳) GANを使って、非常にリアルな顔修正を行うディープフェイクは、広く普及している方法と考えられている。 従来のCNNは、粗悪なメディアを識別することができたが、異なるデータセットでうまく機能するのに苦労し、堅牢性の欠如により敵の攻撃に弱い。 視覚変換器は画像分類問題の領域でポテンシャルを示したが、十分なトレーニングデータが必要である。 これらの制限により、この出版物は、ResNetとビジョントランスフォーマーを組み合わせることでCNN機能を強化するTex-ViT (Texture-Vision Transformer)を導入した。 このモデルは従来のResNet機能と、各ダウンサンプリング操作の前にResNetのセクションで並列に動作するテクスチャモジュールを組み合わせる。 その後、テクスチャモジュールは、クロスアテンション・ビジョン・トランスの二重分岐への入力として機能する。 これは特に、特徴写像相関を抽出するグローバルテクスチャモジュールの改善に焦点を当てている。 実験的な分析により、偽画像は操作の長い距離で一貫性が保たない滑らかなテクスチャを示すことが明らかとなった。 DF、f2f、FS、NTといったFF++のさまざまなカテゴリで、クロスドメインシナリオにおける他の種類のGANデータセットとともに実験が行われた。 さらに、FF++、DFDCPreview、Celeb-DFデータセットにも、ぼやけ、圧縮、ノイズなどの後処理状況が実施された。 このモデルは一般化の点で最も先進的なモデルを超え、クロスドメインシナリオにおいて98%の精度を達成した。 このことは、操作されたサンプルにおいて、共有された識別されたテクスチャ特性を学習する能力を示す。 これらの実験は、提案モデルが様々な状況に適用可能であり、多くの後処理手順に耐性があることを示す。

Deepfakes, which employ GAN to produce highly realistic facial modification, are widely regarded as the prevailing method. Traditional CNN have been able to identify bogus media, but they struggle to perform well on different datasets and are vulnerable to adversarial attacks due to their lack of robustness. Vision transformers have demonstrated potential in the realm of image classification problems, but they require enough training data. Motivated by these limitations, this publication introduces Tex-ViT (Texture-Vision Transformer), which enhances CNN features by combining ResNet with a vision transformer. The model combines traditional ResNet features with a texture module that operates in parallel on sections of ResNet before each down-sampling operation. The texture module then serves as an input to the dual branch of the cross-attention vision transformer. It specifically focuses on improving the global texture module, which extracts feature map correlation. Empirical analysis reveals that fake images exhibit smooth textures that do not remain consistent over long distances in manipulations. Experiments were performed on different categories of FF++, such as DF, f2f, FS, and NT, together with other types of GAN datasets in cross-domain scenarios. Furthermore, experiments also conducted on FF++, DFDCPreview, and Celeb-DF dataset underwent several post-processing situations, such as blurring, compression, and noise. The model surpassed the most advanced models in terms of generalization, achieving a 98% accuracy in cross-domain scenarios. This demonstrates its ability to learn the shared distinguishing textural characteristics in the manipulated samples. These experiments provide evidence that the proposed model is capable of being applied to various situations and is resistant to many post-processing procedures.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# CorefUDにおけるマルチリンガル干渉分解能向上のための多重戦略の探索

Exploring Multiple Strategies to Improve Multilingual Coreference Resolution in CorefUD ( http://arxiv.org/abs/2408.16893v1 )

ライセンス: Link先を確認
Ondřej Pražák, Miloslav Konopík, (参考訳) テキスト中の同じエンティティを参照する式を識別するタスクである参照解決は、さまざまな自然言語処理(NLP)アプリケーションにおいて重要なコンポーネントである。 本稿では,12言語にまたがる17のデータセットにまたがるCorefUD 1.1データセットを用いて,エンドツーエンドのニューラルコア参照解決システムを提案する。 まず、単言語と言語間変異を含む強力なベースラインモデルを構築し、その後、多様な言語文脈における性能向上のためのいくつかの拡張を提案する。 これらの拡張には、言語間のトレーニング、構文情報の取り込み、最適化された単語予測のためのSpan2Headモデル、高度なシングルトンモデリングが含まれる。 また,重なり合うセグメントによる単語スパン表現と長文書モデリングについても実験を行った。 提案された拡張、特にヘッドオンリーのアプローチ、シングルトンモデリング、長いドキュメント予測は、ほとんどのデータセットのパフォーマンスを大幅に改善した。 また、ゼロショット言語間実験を行い、コア参照分解における言語間移動の可能性と限界を強調した。 本研究は,マルチリンガル・コアス・リゾリューションのための堅牢でスケーラブルなコアス・システムの開発に寄与する。 最後に、CorefUD 1.1テストセットのモデルを評価し、CRAC 2023共有タスクの最良のモデルよりも大きなマージンで比較した。 我々のノーデルはGitHubで入手できる。 \url{https://github.com/ondfa/coref-multiling}

Coreference resolution, the task of identifying expressions in text that refer to the same entity, is a critical component in various natural language processing (NLP) applications. This paper presents our end-to-end neural coreference resolution system, utilizing the CorefUD 1.1 dataset, which spans 17 datasets across 12 languages. We first establish strong baseline models, including monolingual and cross-lingual variations, and then propose several extensions to enhance performance across diverse linguistic contexts. These extensions include cross-lingual training, incorporation of syntactic information, a Span2Head model for optimized headword prediction, and advanced singleton modeling. We also experiment with headword span representation and long-documents modeling through overlapping segments. The proposed extensions, particularly the heads-only approach, singleton modeling, and long document prediction significantly improve performance across most datasets. We also perform zero-shot cross-lingual experiments, highlighting the potential and limitations of cross-lingual transfer in coreference resolution. Our findings contribute to the development of robust and scalable coreference systems for multilingual coreference resolution. Finally, we evaluate our model on CorefUD 1.1 test set and surpass the best model from CRAC 2023 shared task of a comparable size by a large margin. Our nodel is available on GitHub: \url{https://github.com/ondfa/coref-multiling}
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# DLFormer:分散ラグ埋め込みを用いた多変量時系列予測における説明可能性の向上

DLFormer: Enhancing Explainability in Multivariate Time Series Forecasting using Distributed Lag Embedding ( http://arxiv.org/abs/2408.16896v1 )

ライセンス: Link先を確認
Younghwi Kim, Dohee Kim, Sunghyun Sim, (参考訳) と。 ほとんどの実世界の変数は、過去の値と説明因子に影響された多変量時系列である。 その結果,人工知能を用いた時系列データの予測が進行中である。 特に、信頼性が不可欠である医療や金融などの分野では、予測の理解可能な説明が不可欠である。 しかし、高い予測精度と直感的な説明可能性のバランスをとることは困難であることが証明されている。 注意に基づくモデルは、各変数の個々の影響を表現するのに制限があるが、これらのモデルは時系列予測における時間的依存性と個々の変数の影響の大きさに影響を与える可能性がある。 そこで本研究では,分散ラグ埋め込みと統合されたアテンションベースのアーキテクチャであるDLFormerを導入し,各変数を時間的に埋め込み,時間的影響を捉えた。 さまざまな実世界のデータセットに対する検証を通じて、DLFormerは既存の注目ベースのハイパフォーマンスモデルよりも優れたパフォーマンス向上を示した。 さらに、変数間の関係を比較することで、説明可能性の信頼性が向上した。

. Most real-world variables are multivariate time series influenced by past values and explanatory factors. Consequently, predicting these time series data using artificial intelligence is ongoing. In particular, in fields such as healthcare and finance, where reliability is crucial, having understandable explanations for predictions is essential. However, achieving a balance between high prediction accuracy and intuitive explainability has proven challenging. Although attention-based models have limitations in representing the individual influences of each variable, these models can influence the temporal dependencies in time series prediction and the magnitude of the influence of individual variables. To address this issue, this study introduced DLFormer, an attention-based architecture integrated with distributed lag embedding, to temporally embed individual variables and capture their temporal influence. Through validation against various real-world datasets, DLFormer showcased superior performance improvements compared to existing attention-based high-performance models. Furthermore, comparing the relationships between variables enhanced the reliability of explainability.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# 微分方程式の半正規化類に対する群分類の代数的方法

Algebraic method of group classification for semi-normalized classes of differential equations ( http://arxiv.org/abs/2408.16897v1 )

ライセンス: Link先を確認
Celestin Kurujyibwami, Dmytro R. Popovych, Roman O. Popovych, (参考訳) 微分方程式の系の半正規化類の概念を一般化し、そのようなクラスの性質を研究し、群分類の代数的方法を拡張する。 特に、半正規化類から系の対称性群と不変代数を分解し、非連結半正規化類の中でそのような群と代数を分解する重要な定理を証明している。 実世界の応用において発生し、発達した理論の関連性を示すクラスの非自明な具体例が提供される。 提案手法の効率を説得的に説明するために,複素数値ポテンシャルを持つ線形シュリンガー方程式のクラスと空間次元の一般値に対する群分類問題に適用する。 直法によりクラスの同値群を計算し、このクラスが解の線型重ね合わせに関して一様半正規化されていることを示す。 そのため、群分類問題は、空間次元 2 の場合に完全に実現される関連同値代数の特定の低次元部分代数の分類に還元される。 異なる分類のケースに分割することは、同値変換に関して不変な3つの整数パラメータに基づいている。 また、実数値ポテンシャルを持つ線型シュル・オーディンガー方程式に関係した結果のいくつかを除外する。

We generalize the notion of semi-normalized classes of systems of differential equations, study properties of such classes and extend the algebraic method of group classification to them. In particular, we prove the important theorems on factoring out symmetry groups and invariance algebras of systems from semi-normalized classes and on splitting such groups and algebras within disjointedly semi-normalized classes. Nontrivial particular examples of classes that arise in real-world applications and showcase the relevance of the developed theory are provided. To convincingly illustrate the efficiency of the proposed method, we apply it to the group classification problem for the class of linear Schr\"odinger equations with complex-valued potentials and the general value of the space dimension. We compute the equivalence groupoid of the class by the direct method and thus show that this class is uniformly semi-normalized with respect to the linear superposition of solutions. This is why the group classification problem reduces to the classification of specific low-dimensional subalgebras of the associated equivalence algebra, which is completely realized for the case of space dimension two. Splitting into different classification cases is based on three integer parameters that are invariant with respect to equivalence transformations. We also single out those of the obtained results that are relevant to linear Schr\"odinger equations with real-valued potentials.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# Ig3D:表情推論における3次元顔表現の統合

Ig3D: Integrating 3D Face Representations in Facial Expression Inference ( http://arxiv.org/abs/2408.16907v1 )

ライセンス: Link先を確認
Lu Dong, Xiao Wang, Srirangaraj Setlur, Venu Govindaraju, Ifeoma Nwogu, (参考訳) 顔の形状を1枚の画像から再構成することで、アニメーション、生成モデル、バーチャルリアリティーの大きな進歩を可能にした。 しかし、この3D特徴で顔を表現する能力は、顔表情推測(FEI)コミュニティによって完全には研究されていない。 そこで本研究では,これらの3次元表現をFEIタスクに組み込むことが,表情分類やVA推定に与える影響について検討する。 そこで我々はまず,FEIタスクにおける2つの3次元顔表現(どちらも3次元形態素モデルであるFLAMEに基づく)の性能を評価する。 さらに、既存の2D推論フレームワークと3D顔表現を統合するために、中間融合と後期融合という2つの融合アーキテクチャについて検討する。 提案したアーキテクチャを評価するために,対応する3D表現を抽出し,AffectNetおよびRAF-DBデータセット上で広範囲なテストを行う。 実験の結果,提案手法は最先端のAffectNet VA推定およびRAF-DB分類タスクより優れていることが示された。 さらに,本手法は,多くの感情推論タスクのパフォーマンス向上のための既存手法の補完として機能する。

Reconstructing 3D faces with facial geometry from single images has allowed for major advances in animation, generative models, and virtual reality. However, this ability to represent faces with their 3D features is not as fully explored by the facial expression inference (FEI) community. This study therefore aims to investigate the impacts of integrating such 3D representations into the FEI task, specifically for facial expression classification and face-based valence-arousal (VA) estimation. To accomplish this, we first assess the performance of two 3D face representations (both based on the 3D morphable model, FLAME) for the FEI tasks. We further explore two fusion architectures, intermediate fusion and late fusion, for integrating the 3D face representations with existing 2D inference frameworks. To evaluate our proposed architecture, we extract the corresponding 3D representations and perform extensive tests on the AffectNet and RAF-DB datasets. Our experimental results demonstrate that our proposed method outperforms the state-of-the-art AffectNet VA estimation and RAF-DB classification tasks. Moreover, our method can act as a complement to other existing methods to boost performance in many emotion inference tasks.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# 機械学習における勾配による推論プライバシリスクの分析

Analyzing Inference Privacy Risks Through Gradients in Machine Learning ( http://arxiv.org/abs/2408.16913v1 )

ライセンス: Link先を確認
Zhuohang Li, Andrew Lowy, Jing Liu, Toshiaki Koike-Akino, Kieran Parsons, Bradley Malin, Ye Wang, (参考訳) 分散学習設定では、モデルは、潜在的に敏感なユーザデータから計算された共有勾配で反復的に更新される。 これまでの研究では,共有勾配のプライバシーリスクについて検討してきたが,本論文は,勾配から個人情報漏洩を分析するための体系的なアプローチを提供することを目的としている。 本稿では,属性,プロパティ,配布,ユーザ開示など幅広い攻撃を対象とするゲームベースの統合フレームワークを提案する。 本研究では,様々なデータモダリティにまたがる5つのデータセットに対する広範囲な実験を通じて,逆数の不確かさが推論能力にどのように影響するかを検討する。 本結果は,分散学習における推論攻撃に対するプライバシを実現するために,データ集約のみを頼りにすることの有効性を示した。 さらに,静的および適応的双方の敵設定の下で,勾配プルーニング,符号付き勾配降下,敵対的摂動,変動情報ボトルネック,差分プライバシーの5種類の防衛効果を評価した。 勾配からの推測に対するこれらの防御の有効性を分析するための情報理論的視点を提供する。 最後に,属性推定プライバシの監査手法を導入し,逆カナリアレコードの作成による最悪のプライバシの実証的推定を改善する。

In distributed learning settings, models are iteratively updated with shared gradients computed from potentially sensitive user data. While previous work has studied various privacy risks of sharing gradients, our paper aims to provide a systematic approach to analyze private information leakage from gradients. We present a unified game-based framework that encompasses a broad range of attacks including attribute, property, distributional, and user disclosures. We investigate how different uncertainties of the adversary affect their inferential power via extensive experiments on five datasets across various data modalities. Our results demonstrate the inefficacy of solely relying on data aggregation to achieve privacy against inference attacks in distributed learning. We further evaluate five types of defenses, namely, gradient pruning, signed gradient descent, adversarial perturbations, variational information bottleneck, and differential privacy, under both static and adaptive adversary settings. We provide an information-theoretic view for analyzing the effectiveness of these defenses against inference from gradients. Finally, we introduce a method for auditing attribute inference privacy, improving the empirical estimation of worst-case privacy through crafting adversarial canary records.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# 量子シャドウ列挙子の実験的測定と物理解釈

Experimental measurement and a physical interpretation of quantum shadow enumerators ( http://arxiv.org/abs/2408.16914v1 )

ライセンス: Link先を確認
Daniel Miller, Kyano Levi, Lukas Postler, Alex Steiner, Lennart Bittel, Gregory A. L. White, Yifan Tang, Eric J. Kuehnke, Antonio A. Mele, Sumeet Khatri, Lorenzo Leone, Jose Carrasco, Christian D. Marciniak, Ivan Pogorelov, Milena Guevara-Bertsch, Robert Freund, Rainer Blatt, Philipp Schindler, Thomas Monz, Martin Ringbauer, Jens Eisert, (参考訳) その歴史を通じて、量子誤差補正の理論は古典的な概念を量子環境に翻訳することで大きな恩恵を受けている。 特に、誤り訂正符号のパフォーマンスに関連する古典的なウェイト列挙子の概念と、列挙子を計算するのに役立つMacWilliamsのアイデンティティが量子ケースに一般化されている。 本研究では, 量子量列挙器の理論機械と, 一見無関係な物理実験との間には, 強力な数学的ツールであるRainsの量子影列挙器が, ベル実験において一定数の三重項を観測する確率として生じることを証明した。 この知見により、量子量列挙器の直接測定のための厳密な枠組みが開発され、量子誤り訂正符号や研究中の状態の絡み合い構造に関する実験的および理論的研究が可能になる。 それに加えて、具体的なサンプルの複雑さ境界と物理的に動機づけられたロバスト性は、避けられない実験上の欠陥に対して保証される。 最後に,重み付き量子コンピュータ上での重み付き列挙器の直接測定の可能性について実験的に検証した。 実験の結果は理論予測とよく一致し, 量子量列挙器の理論機械とベルのサンプリング実験が組み合わされば, 絡み合い理論と量子誤差補正が相互に交配するかどうかを照らしている。

Throughout its history, the theory of quantum error correction has heavily benefited from translating classical concepts into the quantum setting. In particular, classical notions of weight enumerators, which relate to the performance of an error-correcting code, and MacWilliams' identity, which helps to compute enumerators, have been generalized to the quantum case. In this work, we establish a distinct relationship between the theoretical machinery of quantum weight enumerators and a seemingly unrelated physics experiment: we prove that Rains' quantum shadow enumerators - a powerful mathematical tool - arise as probabilities of observing fixed numbers of triplets in a Bell sampling experiment. This insight allows us to develop here a rigorous framework for the direct measurement of quantum weight enumerators, thus enabling experimental and theoretical studies of the entanglement structure of any quantum error-correcting code or state under investigation. On top of that, we derive concrete sample complexity bounds and physically-motivated robustness guarantees against unavoidable experimental imperfections. Finally, we experimentally demonstrate the possibility of directly measuring weight enumerators on a trapped-ion quantum computer. Our experimental findings are in good agreement with theoretical predictions and illuminate how entanglement theory and quantum error correction can cross-fertilize each other once Bell sampling experiments are combined with the theoretical machinery of quantum weight enumerators.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# 人間の脳における色覚の創発をモデル化するための計算フレームワーク

A Computational Framework for Modeling Emergence of Color Vision in the Human Brain ( http://arxiv.org/abs/2408.16916v1 )

ライセンス: Link先を確認
Atsunobu Kotani, Ren Ng, (参考訳) 脳がどのようにして色覚を受信した視神経信号から純粋な色覚をデコードするかは謎であり、眼の未知の符号化特性から、内部の知覚を正しい色次元とどのように切り離すかが中心的な課題である。 本稿では、眼と大脳皮質の両方をシミュレートすることで、人間の色覚の出現をモデル化するための計算フレームワークを提案する。 既存の研究では、視覚野が色覚を発達させるか、あるいは色空間を内在的に表現するかを、色次元が優先的であると仮定して見落としていることが多いが、視覚野には視神経信号のゆらぎから純粋に色次元を推定する能力と課題がある。 本理論を検証するために,確立された視覚科学に基づく生体眼シミュレーションエンジンを導入し,自然画像から得られる視神経信号を生成する。 さらに、自己指導原理に基づく皮質学習モデルを提案し、このモデルが知覚信号から網膜不変量を引き離して色覚を生成することを自然に学習していることを示す。 網膜にN種類のカラー受光体が含まれている場合,N次元色覚が自然に出現し,形式的色度測定によって検証されることを示す。 この枠組みを用いて、リスサルの遺伝子治療で観察されるように、色次元を向上する最初のシミュレーション研究を行い、3Dから4Dへの人間の色覚向上の可能性を示す。

It is a mystery how the brain decodes color vision purely from the optic nerve signals it receives, with a core inferential challenge being how it disentangles internal perception with the correct color dimensionality from the unknown encoding properties of the eye. In this paper, we introduce a computational framework for modeling this emergence of human color vision by simulating both the eye and the cortex. Existing research often overlooks how the cortex develops color vision or represents color space internally, assuming that the color dimensionality is known a priori; however, we argue that the visual cortex has the capability and the challenge of inferring the color dimensionality purely from fluctuations in the optic nerve signals. To validate our theory, we introduce a simulation engine for biological eyes based on established vision science and generate optic nerve signals resulting from looking at natural images. Further, we propose a model of cortical learning based on self-supervised principle and show that this model naturally learns to generate color vision by disentangling retinal invariants from the sensory signals. When the retina contains N types of color photoreceptors, our simulation shows that N-dimensional color vision naturally emerges, verified through formal colorimetry. Using this framework, we also present the first simulation work that successfully boosts the color dimensionality, as observed in gene therapy on squirrel monkeys, and demonstrates the possibility of enhancing human color vision from 3D to 4D.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# 上バンドギャップ光励起によるダイヤモンド中の窒素・シリコン空孔中心の迅速・その場中和

Rapid, in-situ neutralization of nitrogen- and silicon-vacancy centers in diamond using above-band-gap optical excitation ( http://arxiv.org/abs/2408.16921v1 )

ライセンス: Link先を確認
Christian Pederson, Nicholas S. Yama, Lane Beale, Matthew L. Markham, Kai-Mei C. Fu, (参考訳) 固体ホストにおける量子点欠陥の電荷状態は、その光学的およびスピン的特性を強く決定する。 したがって、量子ネットワークやセンシングといった技術を実現するためには、電荷状態を制御する技術が必要である。 本研究では、窒素(NV)とシリコン空孔(SiV)中心を動的に中和するために、深紫外(DUV)放射を用いることを実証する。 まず,NV中心の人口の99%以上が中性帯電状態に初期化可能であることを示すため,各スペクトルの変動を相関させて中性帯電NV状態と負性帯電NV状態の変換を検討した。 次に、負電荷のSiV$^-$中心の漂白と再充電の時間ダイナミクスを調べ、単一100-\mu$s DUVパルス内でSiV$^-$発光の80%低減を観察する。 最後に、DUVにより誘導されるSiV$^-$の漂白は、中性SiV$^0$の集団の劇的な増加を伴い、SiV$^0$は非平衡状態であるにもかかわらず、近赤外励起の延長期間に頑健であることを示す。 したがって、DUV励起は、平衡フェルミ工学だけでは得られない量子ネットワークアプリケーションにとって望ましい電荷状態であるSiV$^0$を生成する信頼性の高い方法を示す。 技術的に関係した温度で2つの異なる色中心の観測結果から,需要に応じて量子点欠陥の中立電荷状態を生成する普遍的な方法として,バンドギャップ励起の可能性が示唆された。

The charge state of a quantum point defect in a solid state host strongly determines its optical and spin characteristics. Consequently, techniques for controlling the charge state are required to realize technologies such as quantum networking and sensing. In this work we demonstrate the use of deep-ultraviolet (DUV) radiation to dynamically neutralize nitrogen- (NV) and silicon-vacancy (SiV) centers. We first examine the conversion between the neutral and negatively charged NV states by correlating the variation of their respective spectra, indicating that more than 99% of the population of NV centers can be initialized into the neutral charge state. We then examine the time dynamics of bleaching and recharging of negatively charged SiV$^-$ centers and observe an 80% reduction in SiV$^-$ photoluminescence within a single 100-$\mu$s DUV pulse. Finally we demonstrate that the bleaching of SiV$^-$ induced by the DUV is accompanied by a dramatic increase in the neutral SiV$^0$ population; SiV$^0$ remains robust to extended periods of near-infrared excitation despite being a non-equilibrium state. DUV excitation thus presents a reliable method of generating SiV$^0$, a desirable charge state for quantum network applications that is challenging to obtain by equilibrium Fermi engineering alone. Our results on two separate color centers at technologically relevant temperatures indicate a potential for above-band-gap excitation as a universal means of generating the neutral charge states of quantum point defects on demand.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# 親型ダイズブロックプレープロトコルと注意強化GCN-xLSTMハイブリッドディープラーニングフレームワークによる自閉症スペクトラム障害の早期検出

Enhancing Autism Spectrum Disorder Early Detection with the Parent-Child Dyads Block-Play Protocol and an Attention-enhanced GCN-xLSTM Hybrid Deep Learning Framework ( http://arxiv.org/abs/2408.16924v1 )

ライセンス: Link先を確認
Xiang Li, Lizhou Fan, Hanbo Wu, Kunping Chen, Xiaoxiao Yu, Chao Che, Zhifeng Cai, Xiuhong Niu, Aihua Cao, Xin Ma, (参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、急速に進行する神経発達障害である。 タイムリーな介入を行うことは、ASDを持つ幼児の成長に不可欠であるが、従来の臨床検査法には客観性が欠如している。 本研究では, ASD の早期検出に革新的なアプローチを導入する。 コントリビューションは3倍です。 まず, ASD と通常発達する(TD)幼児を区別する行動パターンを識別するために, キネシロジーおよび神経科学的研究を基盤とした新しい親子ダイズブロックプレイ(PCB)プロトコルを提案する。 第2に、親とのブロックプレイに携わる40人のASDと89人のTD幼児を対象とする、実質的なビデオデータセットを収集した。 このデータセットは、参加者の規模と個々のセッションの長さの両方に関する以前の取り組みを上回る。 第3に,ビデオにおけるアクション分析へのアプローチは,2ストリームグラフ畳み込みネットワークと注目強化xLSTM(2sGCN-AxLSTM)を統合したハイブリッドディープラーニングフレームワークを用いている。 この枠組みは, 幼児と両親の動的相互作用を, 上半身と頭部運動に相関した空間的特徴を抽出し, 時間とともに行動系列のグローバルな文脈情報に焦点をあてることによって捉えることができる。 我々の2sGCN-AxLSTMは,これらのグローバルな特徴を時空間相関で学習することにより,動的人間の行動パターンを効果的に解析し,早期のSD検出において89.6\%の精度を示す。 本手法は, 親子間相互作用を正確に解析し, 早期のASD診断を向上する可能性を示し, タイムリーかつインフォームドな臨床的意思決定を支援する重要なツールを提供する。

Autism Spectrum Disorder (ASD) is a rapidly growing neurodevelopmental disorder. Performing a timely intervention is crucial for the growth of young children with ASD, but traditional clinical screening methods lack objectivity. This study introduces an innovative approach to early detection of ASD. The contributions are threefold. First, this work proposes a novel Parent-Child Dyads Block-Play (PCB) protocol, grounded in kinesiological and neuroscientific research, to identify behavioral patterns distinguishing ASD from typically developing (TD) toddlers. Second, we have compiled a substantial video dataset, featuring 40 ASD and 89 TD toddlers engaged in block play with parents. This dataset exceeds previous efforts on both the scale of participants and the length of individual sessions. Third, our approach to action analysis in videos employs a hybrid deep learning framework, integrating a two-stream graph convolution network with attention-enhanced xLSTM (2sGCN-AxLSTM). This framework is adept at capturing dynamic interactions between toddlers and parents by extracting spatial features correlated with upper body and head movements and focusing on global contextual information of action sequences over time. By learning these global features with spatio-temporal correlations, our 2sGCN-AxLSTM effectively analyzes dynamic human behavior patterns and demonstrates an unprecedented accuracy of 89.6\% in early detection of ASD. Our approach shows strong potential for enhancing early ASD diagnosis by accurately analyzing parent-child interactions, providing a critical tool to support timely and informed clinical decision-making.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# ACE-2005-PT:ポルトガル語におけるイベント抽出コーパス

ACE-2005-PT: Corpus for Event Extraction in Portuguese ( http://arxiv.org/abs/2408.16928v1 )

ライセンス: Link先を確認
Luís Filipe Cunha, Purificação Silvano, Ricardo Campos, Alípio Jorge, (参考訳) イベント抽出はNLPタスクであり、一般的には、イベントの中央単語(トリガー)とその関連する引数をテキストで識別する。 ACE-2005はこの分野で標準コーパスとして広く認識されている。 PropBankのような他のコーポラは、主に述語構文の注釈付けに重点を置いているが、ACE-2005はイベント構造とセマンティクス全体に関する包括的な情報を提供している。 しかし、言語の範囲が限られているため、ユーザビリティが制限される。 本稿では,ACE-2005をポルトガル語に翻訳したコーパスであるACE-2005-PTについて紹介する。 ACE-2005-PTの取得過程を高速化するため,自動翻訳装置に頼っている。 しかし、これは原文および対応する翻訳文における多語アノテーション間の正しいアライメントを自動的に識別することに関連するいくつかの課題を提起する。 そこで我々は, 補間, ファジィマッチング, 同義語マッチング, 複数翻訳, BERTベースの単語整合器など, 複数のアライメント手法を組み込んだアライメントパイプラインを開発した。 アライメントの有効性を測定するため、ACE-2005-PTコーパスからのアノテーションのサブセットを言語学者によって手動で調整した。 このサブセットをパイプラインの結果と比較し、それぞれ70.55\%と87.55\%の正確なスコアと緩和されたマッチスコアを得た。 その結果, ACE-2005コーパスのポルトガル語版の作成に成功した。

Event extraction is an NLP task that commonly involves identifying the central word (trigger) for an event and its associated arguments in text. ACE-2005 is widely recognised as the standard corpus in this field. While other corpora, like PropBank, primarily focus on annotating predicate-argument structure, ACE-2005 provides comprehensive information about the overall event structure and semantics. However, its limited language coverage restricts its usability. This paper introduces ACE-2005-PT, a corpus created by translating ACE-2005 into Portuguese, with European and Brazilian variants. To speed up the process of obtaining ACE-2005-PT, we rely on automatic translators. This, however, poses some challenges related to automatically identifying the correct alignments between multi-word annotations in the original text and in the corresponding translated sentence. To achieve this, we developed an alignment pipeline that incorporates several alignment techniques: lemmatization, fuzzy matching, synonym matching, multiple translations and a BERT-based word aligner. To measure the alignment effectiveness, a subset of annotations from the ACE-2005-PT corpus was manually aligned by a linguist expert. This subset was then compared against our pipeline results which achieved exact and relaxed match scores of 70.55\% and 87.55\% respectively. As a result, we successfully generated a Portuguese version of the ACE-2005 corpus, which has been accepted for publication by LDC.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# QMLモデルのAI駆動リバースエンジニアリング

AI-driven Reverse Engineering of QML Models ( http://arxiv.org/abs/2408.16929v1 )

ライセンス: Link先を確認
Archisman Ghosh, Swaroop Ghosh, (参考訳) 量子機械学習(QML)は、ノイズ中間スケール量子(NISQ)デバイスによって駆動される、急速に発展する研究分野である。 QMLモデルの研究の進展に伴い、リソース需要の増加に対応するために、サードパーティの量子クラウドサービスが増加している。 新たなセキュリティ問題、特に信頼できないサービスプロバイダから知的財産権(IP)を保護すること。 最も差し迫ったリスクの1つは、トレーニングされたパラメータやQMLアーキテクチャといった独自の量子IPを盗み、それらを修正して追加の透かしやシグネチャを取り除き、他の量子ハードウェアに再送する悪意のあるアクターによるリバースエンジニアリング(RE)の可能性である。 以前の作業では、指数的な時間オーバーヘッドを必要とするQMLパラメータに対して、ブルートフォースアプローチが提案されている。 本稿では,信頼できないサードパーティベンダにデプロイされたQMLモデルから,自動エンコーダに基づくパラメータ抽出手法を提案する。 マルチキュービット分類器について実験し、10^-1の平均誤差で制限条件下でリバースエンジニアリングできることに注意する。 データセットの作成に要する時間と、QML回路を10^3秒(4重4ビット分類器の報告値より10^2倍高い)でリバースエンジニアリングするためにモデルを訓練する時間は、REの脅威を非常に強力にし、効果的な防御の継続的な開発の必要性を裏付けるものである。

Quantum machine learning (QML) is a rapidly emerging area of research, driven by the capabilities of Noisy Intermediate-Scale Quantum (NISQ) devices. With the progress in the research of QML models, there is a rise in third-party quantum cloud services to cater to the increasing demand for resources. New security concerns surface, specifically regarding the protection of intellectual property (IP) from untrustworthy service providers. One of the most pressing risks is the potential for reverse engineering (RE) by malicious actors who may steal proprietary quantum IPs such as trained parameters and QML architecture, modify them to remove additional watermarks or signatures and re-transpile them for other quantum hardware. Prior work presents a brute force approach to RE the QML parameters which takes exponential time overhead. In this paper, we introduce an autoencoder-based approach to extract the parameters from transpiled QML models deployed on untrusted third-party vendors. We experiment on multi-qubit classifiers and note that they can be reverse-engineered under restricted conditions with a mean error of order 10^-1. The amount of time taken to prepare the dataset and train the model to reverse engineer the QML circuit being of the order 10^3 seconds (which is 10^2x better than the previously reported value for 4-layered 4-qubit classifiers) makes the threat of RE highly potent, underscoring the need for continued development of effective defenses.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# VLM-KD:長期視覚認識のためのVLMからの知識蒸留

VLM-KD: Knowledge Distillation from VLM for Long-Tail Visual Recognition ( http://arxiv.org/abs/2408.16930v1 )

ライセンス: Link先を確認
Zaiwei Zhang, Gregory P. Meyer, Zhichao Lu, Ashish Shrivastava, Avinash Ravichandran, Eric M. Wolff, (参考訳) 視覚的認識においては、知識の蒸留は通常、大きく訓練された教師モデルからより小さな学生モデルへ知識を伝達する。 本稿では,市販の視覚言語モデル(VLM)から知識を抽出する有効な手法を提案する。 我々の重要な技術的貢献は、新しいテキスト管理を作成し、自由形式のテキストを視覚エンコーダに蒸留するフレームワークの開発である。 我々は,VLM-KDと呼ばれるアプローチの有効性を,様々なベンチマークデータセットで示し,最先端のロングテール視覚分類器を超越していることを示す。 我々の知る限り、本研究は、市販のVLMによるテキスト管理による知識蒸留を初めて活用し、ランダムに初期化された視覚エンコーダに適用するものである。

For visual recognition, knowledge distillation typically involves transferring knowledge from a large, well-trained teacher model to a smaller student model. In this paper, we introduce an effective method to distill knowledge from an off-the-shelf vision-language model (VLM), demonstrating that it provides novel supervision in addition to those from a conventional vision-only teacher model. Our key technical contribution is the development of a framework that generates novel text supervision and distills free-form text into a vision encoder. We showcase the effectiveness of our approach, termed VLM-KD, across various benchmark datasets, showing that it surpasses several state-of-the-art long-tail visual classifiers. To our knowledge, this work is the first to utilize knowledge distillation with text supervision generated by an off-the-shelf VLM and apply it to vanilla randomly initialized vision encoders.
翻訳日:2024-09-02 16:58:54 公開日:2024-08-29
# ポルトガル語のイベント抽出:ACE-2005を用いたQA駆動アプローチ

Event Extraction for Portuguese: A QA-driven Approach using ACE-2005 ( http://arxiv.org/abs/2408.16932v1 )

ライセンス: Link先を確認
Luís Filipe Cunha, Ricardo Campos, Alípio Jorge, (参考訳) イベント抽出は、一般的にイベントの中心単語(トリガー)とイベントの引数を識別する情報検索タスクである。 この課題は英語では広く研究されてきたが、ポルトガル語では遅れが遅れている。 本稿では,ポルトガルの文書中の事象を識別・分類するために,分離されたBERTベースの2つのモデルを微調整した枠組みを提案する。 このタスクを2つのサブタスクに分解する。 まず、トークン分類モデルを用いてイベントトリガを検出する。 イベント引数を抽出するために、イベント引数の役割についてトリガを問い合わせる質問回答モデルを訓練する。 ポルトガル語におけるイベントアノテートコーパスの欠如を踏まえ,ACE-2005データセットの原版(フィールドでの参照)をポルトガル語に翻訳し,ポルトガル語イベント抽出のための新しいコーパスを作成した。 そこで我々は,自動翻訳パイプラインを開発した。 提案手法では,64.4のF1マークをトリガー分類用,46.7の引数分類用とすることで,ポルトガル語におけるこれらのタスクに対する新たな最先端参照を実現する。

Event extraction is an Information Retrieval task that commonly consists of identifying the central word for the event (trigger) and the event's arguments. This task has been extensively studied for English but lags behind for Portuguese, partly due to the lack of task-specific annotated corpora. This paper proposes a framework in which two separated BERT-based models were fine-tuned to identify and classify events in Portuguese documents. We decompose this task into two sub-tasks. Firstly, we use a token classification model to detect event triggers. To extract event arguments, we train a Question Answering model that queries the triggers about their corresponding event argument roles. Given the lack of event annotated corpora in Portuguese, we translated the original version of the ACE-2005 dataset (a reference in the field) into Portuguese, producing a new corpus for Portuguese event extraction. To accomplish this, we developed an automatic translation pipeline. Our framework obtains F1 marks of 64.4 for trigger classification and 46.7 for argument classification setting, thus a new state-of-the-art reference for these tasks in Portuguese.
翻訳日:2024-09-02 16:49:05 公開日:2024-08-29
# クリッド錯体のベッチ数推定のための量子および古典モンテカルロアルゴリズムの比較

Comparing quantum and classical Monte Carlo algorithms for estimating Betti numbers of clique complexes ( http://arxiv.org/abs/2408.16934v1 )

ライセンス: Link先を確認
Ismail Yunus Akhalwaya, Ahmed Bhayat, Adam Connolly, Steven Herbert, Lior Horesh, Julien Sorci, Shashanka Ubaru, (参考訳) クリプト錯体上のベッチ数推定(BNE)のためのいくつかの量子および古典モンテカルロアルゴリズムが最近提案されているが、それらの性能がどう比較されるかは定かではない。 我々はこれらのアルゴリズムをレビューし、新しいモジュラーフレームワーク内で共通のモンテカルロ構造を強調した。 このフレームワークにより、収束に必要なサンプルの最小値の上限を計算することで、これらのアルゴリズムを直接比較することができる。 異なるモジュールを再結合することにより、サンプルの複雑さに指数関数的に改善された依存を持つ新しい量子アルゴリズムを作成する。 古典的なシミュレーションを行ない、理論的境界内の収束を検証し、予測された指数的分離を観察する。

Several quantum and classical Monte Carlo algorithms for Betti Number Estimation (BNE) on clique complexes have recently been proposed, though it is unclear how their performances compare. We review these algorithms, emphasising their common Monte Carlo structure within a new modular framework. This framework allows us to directly compare these algorithms by calculating upper bounds on the minimum number of samples needed for convergence. By recombining the different modules, we create a new quantum algorithm with an exponentially-improved dependence in the sample complexity. We run classical simulations to verify convergence within the theoretical bounds and observe the predicted exponential separation, even though empirical convergence occurs substantially earlier than the conservative theoretical bounds.
翻訳日:2024-09-02 16:49:05 公開日:2024-08-29
# Plausible-Parrots @ MSP2023: エンティティとイベント知識を用いた意味的可塑性モデリングの強化

Plausible-Parrots @ MSP2023: Enhancing Semantic Plausibility Modeling using Entity and Event Knowledge ( http://arxiv.org/abs/2408.16937v1 )

ライセンス: Link先を確認
Chong Shen, Chenyue Zhou, (参考訳) 本研究では,大規模言語モデル(LLM)に外部知識を注入し,単純な事象の意味的妥当性を同定する効果について検討する。 具体的には、外部知識ベースから抽出した詳細なエンティティタイプ、イベントタイプ、およびそれらの定義を用いてLLMを強化する。 これらの知識は、設計テンプレートを介してシステムに注入されます。 また、ラベル分布のバランスを保ち、イベント参照が自然言語文として表現される現実世界のシナリオにタスク設定を適用するために、データを増強する。 実験結果から,事象の意味的妥当性のモデル化におけるインジェクト知識の有効性が示された。 エラー解析は、非自明なエンティティとイベントタイプを特定することの重要性をさらに強調する。

In this work, we investigate the effectiveness of injecting external knowledge to a large language model (LLM) to identify semantic plausibility of simple events. Specifically, we enhance the LLM with fine-grained entity types, event types and their definitions extracted from an external knowledge base. These knowledge are injected into our system via designed templates. We also augment the data to balance the label distribution and adapt the task setting to real world scenarios in which event mentions are expressed as natural language sentences. The experimental results show the effectiveness of the injected knowledge on modeling semantic plausibility of events. An error analysis further emphasizes the importance of identifying non-trivial entity and event types.
翻訳日:2024-09-02 16:49:05 公開日:2024-08-29
# マルチタスク・リプレイ型連続学習における過度パラメータモデルに関する理論的考察

Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning ( http://arxiv.org/abs/2408.16939v1 )

ライセンス: Link先を確認
Mohammadamin Banayeeanzade, Mahdi Soltanolkotabi, Mohammad Rostami, (参考訳) MTL(Multi-task Learning)は、機械学習のパラダイムであり、これらのタスクを同時にトレーニングすることで、複数のタスクにおけるモデルの一般化性能を改善することを目的としている。 モデルがすべてのタスクのトレーニングデータに即時にアクセスできるMTLとは異なり、継続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しいシーケンシャルに到着するタスクに適応する。 CLとMLLの広範な実践的採用と両領域の広範な文献にもかかわらず、ディープニューラルネットワークのような過度にパラメータ化されたモデルを使用する場合、これらの手法の理論的理解には差がある。 本稿では、より複雑なモデルのプロキシとして、過パラメータ化線形モデルを考察する。 MTL設定におけるモデルの性能に対する様々なシステムパラメータの影響を理論的に記述する。 具体的には,モデルサイズ,データセットサイズ,タスク類似度が一般化誤差および知識伝達に与える影響について検討する。 さらに,リプレイ型CLモデルの性能を特徴付ける理論的結果を示す。 その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。 最後に、広範囲な経験的評価を通じて、我々の理論的発見が深層ニューラルネットワークにも適用可能であることを示し、実際にMLLおよびCLモデルを設計するための貴重なガイダンスを提供する。

Multi-task learning (MTL) is a machine learning paradigm that aims to improve the generalization performance of a model on multiple related tasks by training it simultaneously on those tasks. Unlike MTL, where the model has instant access to the training data of all tasks, continual learning (CL) involves adapting to new sequentially arriving tasks over time without forgetting the previously acquired knowledge. Despite the wide practical adoption of CL and MTL and extensive literature on both areas, there remains a gap in the theoretical understanding of these methods when used with overparameterized models such as deep neural networks. This paper studies the overparameterized linear models as a proxy for more complex models. We develop theoretical results describing the effect of various system parameters on the model's performance in an MTL setup. Specifically, we study the impact of model size, dataset size, and task similarity on the generalization error and knowledge transfer. Additionally, we present theoretical results to characterize the performance of replay-based CL models. Our results reveal the impact of buffer size and model capacity on the forgetting rate in a CL setup and help shed light on some of the state-of-the-art CL methods. Finally, through extensive empirical evaluations, we demonstrate that our theoretical findings are also applicable to deep neural networks, offering valuable guidance for designing MTL and CL models in practice.
翻訳日:2024-09-02 16:49:05 公開日:2024-08-29
# トポロジポリシのためのOpenFlow Link Discovery Packetのフォワード操作

Manipulating OpenFlow Link Discovery Packet Forwarding for Topology Poisoning ( http://arxiv.org/abs/2408.16940v1 )

ライセンス: Link先を確認
Mingming Chen, Thomas La Porta, Teryl Taylor, Frederico Araujo, Trent Jaeger, (参考訳) Software-Defined Network (SDN) は、柔軟なトラフィック制御とスケーラビリティを実現する集中型、動的、プログラム可能なネットワーク管理技術である。 SDNは、基盤となる物理的トポロジの集中的なビューを通じて、ネットワーク管理を促進する。 この問題を明らかにするために,OpenFlowリンク発見パケット転送を操作してトポロジ情報を変更する新しいトポロジ中毒手法であるMarionetteを紹介する。 我々のアプローチは、見落とされながら広く使われている攻撃ベクトルを公開し、データプレーンで発見パケットを改ざん、スプーフ、リレーする従来のリンク作成攻撃と区別する。 従来の手法と異なり,制御特権を利用したグローバルなトポロジ中毒攻撃が提案されている。 Marionetteは、有毒なトポロジーターゲットを計算するために強化学習アルゴリズムを実装し、フローエントリを注入して長期間のステルス攻撃を実現する。 評価の結果,Marionetteは5つのオープンソースコントローラと9つのOpenFlowベースのディスカバリプロトコルを攻撃した。 Marionetteは、最先端のトポロジー中毒防御を克服し、コントロールプレーンで開始する新しい種類のトポロジー中毒を示す。 この脆弱性はOpenDaylightに倫理的に開示され、CVE-2024-37018が割り当てられた。

Software-defined networking (SDN) is a centralized, dynamic, and programmable network management technology that enables flexible traffic control and scalability. SDN facilitates network administration through a centralized view of the underlying physical topology; tampering with this topology view can result in catastrophic damage to network management and security. To underscore this issue, we introduce Marionette, a new topology poisoning technique that manipulates OpenFlow link discovery packet forwarding to alter topology information. Our approach exposes an overlooked yet widespread attack vector, distinguishing itself from traditional link fabrication attacks that tamper, spoof, or relay discovery packets at the data plane. Unlike localized attacks observed in existing methods, our technique introduces a globalized topology poisoning attack that leverages control privileges. Marionette implements a reinforcement learning algorithm to compute a poisoned topology target, and injects flow entries to achieve a long-lived stealthy attack. Our evaluation shows that Marionette successfully attacks five open-source controllers and nine OpenFlow-based discovery protocols. Marionette overcomes the state-of-the-art topology poisoning defenses, showcasing a new class of topology poisoning that initiates on the control plane. This security vulnerability was ethically disclosed to OpenDaylight, and CVE-2024-37018 has been assigned.
翻訳日:2024-09-02 16:49:05 公開日:2024-08-29
# 最適スパース多入力多項式関数を用いた高効率超音速エアロ弾性モデル削減

Efficient Transonic Aeroelastic Model Reduction Using Optimized Sparse Multi-Input Polynomial Functionals ( http://arxiv.org/abs/2408.16941v1 )

ライセンス: Link先を確認
Michael Candon, Maciej Balajewicz, Arturo Delgado-Gutierrez, Pier Marzocca, Earl H. Dowell, (参考訳) 機械学習や人工知能アルゴリズムに基づく非線形エアロ弾性減階モデル(ROM)は、訓練に複雑で計算的に要求されるため、実用的なエアロ弾性応用においては、線形化の保守的な性質が好まれることが多い。 そのため, 精度が高く, 簡便で, かつ, より効率的に生成できる新しい非線形エアロ弾性モデル削減手法が求められている。 本稿では,非定常空力訓練データから最適にスパースな非線形多入力ROM係数の集合を得るためにオルソゴンマッチング法を用いて,コンパクトな多入力Volterra系列の同定のための新しい定式化を提案する。 このフレームワークは、Benchmark Super critical Wingを使って、強制応答、フラッター、リミットサイクルの発振を考慮して例示されている。 単純で効率的なマルチ入力ROM(OSM-ROM)フレームワークは、フルオーダーのエアロ弾性モデルと比較して高い精度で動作し、多入力項の数十分の1しか識別できず、トレーニングサンプルの数を96%削減できる。

Nonlinear aeroelastic reduced-order models (ROMs) based on machine learning or artificial intelligence algorithms can be complex and computationally demanding to train, meaning that for practical aeroelastic applications, the conservative nature of linearization is often favored. Therefore, there is a requirement for novel nonlinear aeroelastic model reduction approaches that are accurate, simple and, most importantly, efficient to generate. This paper proposes a novel formulation for the identification of a compact multi-input Volterra series, where Orthogonal Matching Pursuit is used to obtain a set of optimally sparse nonlinear multi-input ROM coefficients from unsteady aerodynamic training data. The framework is exemplified using the Benchmark Supercritical Wing, considering; forced response, flutter and limit cycle oscillation. The simple and efficient Optimal Sparsity Multi-Input ROM (OSM-ROM) framework performs with high accuracy compared to the full-order aeroelastic model, requiring only a fraction of the tens-of-thousands of possible multi-input terms to be identified and allowing a 96% reduction in the number of training samples.
翻訳日:2024-09-02 16:49:05 公開日:2024-08-29
# 大規模言語モデルを用いたCOVID-19中におけるサイノフォビアの経時的感情分析

A longitudinal sentiment analysis of Sinophobia during COVID-19 using large language models ( http://arxiv.org/abs/2408.16942v1 )

ライセンス: Link先を確認
Chen Wang, Rohitash Chandra, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、キセノフォビア、特にシナフォビアが悪化し、中国系個人に対する差別が広まりつつある。 LLM(Large Language Model)は、自然言語処理(NLP)タスクに使用されるディープラーニングモデルである。 LLMが人間のようなテキストを理解して生成する能力は、ソーシャルメディアデータを分析して感情を検出し評価するのに特に有用である。 新型コロナウイルスのパンデミック時にX(Twitter)で表現されたSinophobic sentimentsの縦断的感情分析にLLMを用いた感情分析フレームワークを提案する。 その結果, SinophobicTweets, Sinophobic sentiments, surges in COVID-19 case, it is a significant correlation between the spikes in Sinophobic tweetss, Sinophobic sentiments and surges in COVID-19 case, showed that the evolution of the spread of public sentiment and the prevalence of Sinophobic discourse。 さらに、感情分析は、政治的物語や、世論を形作る誤情報の影響を浮き彫りにする、不快感や否定などの否定的な感情の主観的存在を明らかにした。 新型コロナウイルスに関する過去の研究で見られた共感的感情の欠如は、メディアの政治的物語がパンデミックをどう見ているか、そしてそれがいかに中国社会を非難したかを浮き彫りにした。 本研究は,世界的危機における異所性感情の緩和における透過的コミュニケーションの重要性を強調した。

The COVID-19 pandemic has exacerbated xenophobia, particularly Sinophobia, leading to widespread discrimination against individuals of Chinese descent. Large language models (LLMs) are pre-trained deep learning models used for natural language processing (NLP) tasks. The ability of LLMs to understand and generate human-like text makes them particularly useful for analysing social media data to detect and evaluate sentiments. We present a sentiment analysis framework utilising LLMs for longitudinal sentiment analysis of the Sinophobic sentiments expressed in X (Twitter) during the COVID-19 pandemic. The results show a significant correlation between the spikes in Sinophobic tweets, Sinophobic sentiments and surges in COVID-19 cases, revealing that the evolution of the pandemic influenced public sentiment and the prevalence of Sinophobic discourse. Furthermore, the sentiment analysis revealed a predominant presence of negative sentiments, such as annoyance and denial, which underscores the impact of political narratives and misinformation shaping public opinion. The lack of empathetic sentiment which was present in previous studies related to COVID-19 highlights the way the political narratives in media viewed the pandemic and how it blamed the Chinese community. Our study highlights the importance of transparent communication in mitigating xenophobic sentiments during global crises.
翻訳日:2024-09-02 16:49:05 公開日:2024-08-29
# FlowRetrieval:Few-Shot Imitation LearningのためのFlow-Guided Data Retrieval

FlowRetrieval: Flow-Guided Data Retrieval for Few-Shot Imitation Learning ( http://arxiv.org/abs/2408.16944v1 )

ライセンス: Link先を確認
Li-Heng Lin, Yuchen Cui, Amber Xie, Tianyu Hua, Dorsa Sadigh, (参考訳) 擬似学習は、与えられた下流タスクに対するポリシーを効率的に適応するために、少数のタスク固有のデモンストレーションにのみ依存する。 検索ベースのメソッドには,関連する過去の経験を検索して,ポリシ学習時に対象データを拡張する,という約束がある。 しかし、既存のデータ検索手法は2つの極端に該当する。それらは、前提に適さない事前データにおいて視覚的に類似したシーンを持つ正確な行動の存在に依存するか、あるいはタスクの高レベルの言語記述のセマンティックな類似性に基づいて検索する。 本研究では,多量のタスクデータにおける動きの類似性を利用して,目的タスクの少数の模倣学習を改善する方法について検討する。 私たちのキーとなる洞察は、モーション類似データには、アクションとオブジェクトの相互作用の影響についての豊富な情報があり、それは、数発の適応で活用できるということだ。 本稿では,従来のデータから類似した動作を抽出すると同時に,そのようなデータから最大限の利益を得ることのできるポリシの学習を指導するために,光フロー表現を利用したFlowRetrievalを提案する。 その結果、FlowRetrievalは、シミュレーションや実世界のドメイン間で先行手法よりも優れており、最高の検索ベースの先行手法よりも平均27%高い成功率を実現していることがわかった。 実のFranka EmikaロボットによるPen-in-Cupタスクにおいて、FlowRetrievalは、すべての事前および対象データから学習するベースライン模倣学習技術の性能を3.7倍に向上させる。 Webサイト: https://flow-retrieval.github.io

Few-shot imitation learning relies on only a small amount of task-specific demonstrations to efficiently adapt a policy for a given downstream tasks. Retrieval-based methods come with a promise of retrieving relevant past experiences to augment this target data when learning policies. However, existing data retrieval methods fall under two extremes: they either rely on the existence of exact behaviors with visually similar scenes in the prior data, which is impractical to assume; or they retrieve based on semantic similarity of high-level language descriptions of the task, which might not be that informative about the shared low-level behaviors or motions across tasks that is often a more important factor for retrieving relevant data for policy learning. In this work, we investigate how we can leverage motion similarity in the vast amount of cross-task data to improve few-shot imitation learning of the target task. Our key insight is that motion-similar data carries rich information about the effects of actions and object interactions that can be leveraged during few-shot adaptation. We propose FlowRetrieval, an approach that leverages optical flow representations for both extracting similar motions to target tasks from prior data, and for guiding learning of a policy that can maximally benefit from such data. Our results show FlowRetrieval significantly outperforms prior methods across simulated and real-world domains, achieving on average 27% higher success rate than the best retrieval-based prior method. In the Pen-in-Cup task with a real Franka Emika robot, FlowRetrieval achieves 3.7x the performance of the baseline imitation learning technique that learns from all prior and target data. Website: https://flow-retrieval.github.io
翻訳日:2024-09-02 16:49:05 公開日:2024-08-29
# 異なるVictims、同じLayout: 強化されたEメール保護のためのEメールの視覚的類似性検出

Different Victims, Same Layout: Email Visual Similarity Detection for Enhanced Email Protection ( http://arxiv.org/abs/2408.16945v1 )

ライセンス: Link先を確認
Sachin Shukla, Omid Mirzaei, (参考訳) 効果的なスパム検出システムの追求において、しばしば、ルールベースの検出システムまたは機械学習(ML)ソリューションを通じて既知のスパムパターンを特定することに焦点が当てられている。 しかし、どちらのシステムも、低コストで達成できる回避技術やゼロデイ攻撃の影響を受けやすい。 そのため、ルールが更新されたり、MLモデルが再トレーニングされたりしても、防衛システムをバイパスした電子メールは、翌日に再びそれを行うことができる。 以前検出されなかったスパムに類似したレイアウトを示すメールを検知できないことは、顧客にとって問題であり、企業の信頼を損なう可能性がある。 我々の観察では、脅威アクターがメールキットを広範囲に再利用し、例えばメールの内容を変更するなど、ほとんど努力せずに検出を回避できることが示されている。 本研究では,電子メール脅威防御システムの検知能力を向上させるため,Pisco という電子メール視覚類似性検出手法を提案する。 我々は,異なる情報源から得られた実世界のサンプルに概念実証を適用した。 以上の結果から,Eメールキットは広範囲に再利用され,視覚的に類似したメールが,さまざまな時間間隔で当社の顧客に送信されていることが明らかとなった。 したがって,この手法は,文脈情報やキーワードに依存した検出機能がバイパスされる状況において非常に有用であり,観測結果が頻繁に発生する。

In the pursuit of an effective spam detection system, the focus has often been on identifying known spam patterns either through rule-based detection systems or machine learning (ML) solutions. However, both systems are susceptible to evasion techniques and zero-day attacks that can be achieved at low cost. Therefore, an email that bypassed the defense system once can do it again in the following days, even though rules are updated or the ML models are retrained. The recurrence of failures to detect emails that exhibit layout similarities to previously undetected spam is concerning for customers and can erode their trust in a company. Our observations show that threat actors reuse email kits extensively and can bypass detection with little effort, for example, by making changes to the content of emails. In this work, we propose an email visual similarity detection approach, named Pisco, to improve the detection capabilities of an email threat defense system. We apply our proof of concept to some real-world samples received from different sources. Our results show that email kits are being reused extensively and visually similar emails are sent to our customers at various time intervals. Therefore, this method could be very helpful in situations where detection features that rely on contextual information and keywords are bypassed, an occurrence our observations show happens frequently.
翻訳日:2024-09-02 16:49:05 公開日:2024-08-29
# グローバルなAIコミュニティは言語多様性のパブリッシングを必要としている

A global AI community requires language-diverse publishing ( http://arxiv.org/abs/2408.14772v2 )

ライセンス: Link先を確認
Haley Lepp, Parth Sarin, (参考訳) この挑発の中で、我々は、AI研究コミュニティにおける英語の優位性について議論し、英語出版の要件は、AIにおけるより広範な抽出の体制を保ち、強化する、と主張した。 大きな言語モデルと機械翻訳は障壁を断ち切る手段として祝われてきたが、我々はそれらの使用を科学者や潜在的な読者の言語的排除の徴候と見なしている。 開催する国の言語で会議を運営し、論文の言語的適切性を判断しないようピアレビュアーに指示し、複数の言語で公開・提示する機会を提供する。 私たちはこの作品の新しい翻訳を歓迎します。 寄稿したい場合は著者に連絡してください。

In this provocation, we discuss the English dominance of the AI research community, arguing that the requirement for English language publishing upholds and reinforces broader regimes of extraction in AI. While large language models and machine translation have been celebrated as a way to break down barriers, we regard their use as a symptom of linguistic exclusion of scientists and potential readers. We propose alternative futures for a healthier publishing culture, organized around three themes: administering conferences in the languages of the country in which they are held, instructing peer reviewers not to adjudicate the language appropriateness of papers, and offering opportunities to publish and present in multiple languages. We welcome new translations of this piece. Please contact the authors if you would like to contribute one.
翻訳日:2024-09-02 10:56:31 公開日:2024-08-29
# シリコンオン絶縁体上のNbTiN超伝導ナノワイヤ単光子検出器の中間赤外特性評価

Mid-infrared characterization of NbTiN superconducting nanowire single-photon detectors on silicon-on-insulator ( http://arxiv.org/abs/2408.15959v2 )

ライセンス: Link先を確認
Adan Azem, Dmitry V. Morozov, Daniel Kuznesof, Ciro Bruscino, Robert H. Hadfield, Lukas Chrostowski, Jeff F. Young, (参考訳) 超伝導ナノワイヤ単光子検出器は、紫外線から近赤外域までの様々な波長で個々の光子を検出するために広く用いられている。 近年、量子通信、分光、天体物理学の応用により、中赤外スペクトルにおける単一光子に対する感度を高めることへの関心が高まっている。 本稿では、シリコンオン絶縁体基板上に2線構成で作製した、U字型NbTiN系超伝導ナノワイヤ単光子検出器のスペクトル検出能力を、中赤外域に拡張する取り組みについて述べる。 5nmの厚みと50nmの広帯域NbTiNナノワイヤの波長3.5 {\mu}mまでの飽和内部検出効率を0.9Kで10秒未満で高速回復時間4.3nsで実証した。 検出器は、小型でマルチチャネルデバイスアプリケーションのためのシリコンオン絶縁体プラットフォームにおける導波路の統合のために設計されている。

Superconducting nanowire single-photon detectors are widely used for detecting individual photons across various wavelengths from ultraviolet to near-infrared range. Recently, there has been increasing interest in enhancing their sensitivity to single photons in the mid-infrared spectrum, driven by applications in quantum communication, spectroscopy and astrophysics. Here, we present our efforts to expand the spectral detection capabilities of U-shaped NbTiN-based superconducting nanowire single-photon detectors, fabricated in a 2-wire configuration on a silicon-on-insulator substrate, into the mid-infrared range. We demonstrate saturated internal detection efficiency extending up to a wavelength of 3.5 {\mu}m for a 5 nm thick and 50 nm wide NbTiN nanowire with a dark count rate less than 10 counts per second at 0.9 K and a rapid recovery time of 4.3 ns. The detectors are engineered for integration on waveguides in a silicon-on-insulator platform for compact, multi-channel device applications.
翻訳日:2024-09-02 10:49:44 公開日:2024-08-29
# XCSP3: Combinatorの制約された問題をベンチマークするための統合フォーマット

XCSP3: An Integrated Format for Benchmarking Combinatorial Constrained Problems ( http://arxiv.org/abs/1611.03398v5 )

ライセンス: Link先を確認
Frederic Boussemart, Christophe Lecoutre, Gilles Audemard, Cédric Piette, (参考訳) 組合せ制約問題の統合表現を構築するために,XCSP2.1 フォーマット XCSP3 の大規模な改訂を提案する。 この新しいフォーマットは、モノ/マルチ最適化、多くの種類の変数、コスト関数、リフィケーション、ビュー、アノテーション、変数定量化、分散、確率的および定性的推論を扱うことができる。 新しいフォーマットはコンパクトで、可読性が高く、パースも比較的容易である。 興味深いことに、変数の配列を宣言し、制約の構文的および意味的グループを特定する可能性を通じて、問題モデルの構造をキャプチャする。 制約の数は、制限された基本的な制約形式を導入し、リフト、制限、スライディング、論理結合、緩和機構を通じて、ほぼ自動的にそのバリエーションを発生させることによって制御される。 結果として、XCSP3はCPコミュニティによって開発された主要な制約解決器に見られるような、事実上全ての制約を包含する。 フォーマットと組み合わせて開発されたWebサイトには、多くのモデルと一連のインスタンスが含まれている。 ユーザは、非常に正確な基準からインスタンスを選択するための洗練されたクエリを作成できる。 XCSP3の目的は、組合せ制約のあるインスタンスの共通テストベッドを提供することで、異なるアルゴリズムのテストと比較に必要な労力を緩和することである。

We propose a major revision of the format XCSP 2.1, called XCSP3, to build integrated representations of combinatorial constrained problems. This new format is able to deal with mono/multi optimization, many types of variables, cost functions, reification, views, annotations, variable quantification, distributed, probabilistic and qualitative reasoning. The new format is made compact, highly readable, and rather easy to parse. Interestingly, it captures the structure of the problem models, through the possibilities of declaring arrays of variables, and identifying syntactic and semantic groups of constraints. The number of constraints is kept under control by introducing a limited set of basic constraint forms, and producing almost automatically some of their variations through lifting, restriction, sliding, logical combination and relaxation mechanisms. As a result, XCSP3 encompasses practically all constraints that can be found in major constraint solvers developed by the CP community. A website, which is developed conjointly with the format, contains many models and series of instances. The user can make sophisticated queries for selecting instances from very precise criteria. The objective of XCSP3 is to ease the effort required to test and compare different algorithms by providing a common test-bed of combinatorial constrained instances.
翻訳日:2024-09-01 17:15:41 公開日:2024-08-29
# 機械学習の落とし穴を避ける--研究者のためのガイド

How to avoid machine learning pitfalls: a guide for academic researchers ( http://arxiv.org/abs/2108.02497v5 )

ライセンス: Link先を確認
Michael A. Lones, (参考訳) 機械学習の実践におけるミスは一般的な場所であり、機械学習の発見や製品に対する信頼を失う可能性がある。 このガイドでは、マシンラーニングの使用時に発生する一般的なミスと、それを避けるためにできることを概説する。 機械学習技術に関する基本的な知識を持つ人なら誰でもアクセスできるはずであるが、厳密な比較や有効な結論に達する必要性など、学術研究で特に懸念される問題に焦点を当てている。 モデル構築前に何をすべきか、モデルを確実に構築する方法、モデルを堅牢に評価する方法、モデルを公平に比較する方法、結果を報告する方法である。

Mistakes in machine learning practice are commonplace, and can result in a loss of confidence in the findings and products of machine learning. This guide outlines common mistakes that occur when using machine learning, and what can be done to avoid them. Whilst it should be accessible to anyone with a basic understanding of machine learning techniques, it focuses on issues that are of particular concern within academic research, such as the need to do rigorous comparisons and reach valid conclusions. It covers five stages of the machine learning process: what to do before model building, how to reliably build models, how to robustly evaluate models, how to compare models fairly, and how to report results.
翻訳日:2024-09-01 17:12:14 公開日:2024-08-29
# PyCSP3: Pythonの組合せ制約問題モデリング

PyCSP3: Modeling Combinatorial Constrained Problems in Python ( http://arxiv.org/abs/2009.00326v6 )

ライセンス: Link先を確認
Christophe Lecoutre, Nicolas Szczepanski, (参考訳) この文書では、PythonライブラリであるPyCSP$3$を紹介します。 現在、PyCSP$3$では、制約満足度と最適化問題のモデルを記述することができる。 より具体的には、CSP(Constraint Satisfaction Problem)とCOP(Constraint Optimization Problem)モデルを構築することができる。 重要なのは、モデルを書き、XCSP$3$のインスタンス(ファイル)を生成するために(いくつかのデータを提供しながら)それをコンパイルし、制約解決器を使ってその問題を解くことです。 また、PyCSP$3$で解決手順を直接パイロットして、インクリメンタルな解決戦略を実行することもできる。 このドキュメントでは、50以上のイラストレーションモデルを持つPyCSP$3$について知っておく必要があるすべてのものを見つけることができます。

In this document, we introduce PyCSP$3$, a Python library that allows us to write models of combinatorial constrained problems in a declarative manner. Currently, with PyCSP$3$, you can write models of constraint satisfaction and optimization problems. More specifically, you can build CSP (Constraint Satisfaction Problem) and COP (Constraint Optimization Problem) models. Importantly, there is a complete separation between the modeling and solving phases: you write a model, you compile it (while providing some data) in order to generate an XCSP$3$ instance (file), and you solve that problem instance by means of a constraint solver. You can also directly pilot the solving procedure in PyCSP$3$, possibly conducting an incremental solving strategy. In this document, you will find all that you need to know about PyCSP$3$, with more than 50 illustrative models.
翻訳日:2024-08-30 19:54:50 公開日:2024-08-29
# XCSP3コア:制約満足度/最適化問題を表現するためのフォーマット

XCSP3-core: A Format for Representing Constraint Satisfaction/Optimization Problems ( http://arxiv.org/abs/2009.00514v4 )

ライセンス: Link先を確認
Frédéric Boussemart, Christophe Lecoutre, Gilles Audemard, Cédric Piette, (参考訳) 本稿では、制約満足度/最適化問題を表現できるXCSP3のサブセットであるXCSP3-coreを紹介する。 XCSP3-core の関心は次の通りである。 (i)最も人気のあるフレームワーク(CSPとCOP)と制約に焦点を当てる。 (ii) JavaとC++で書かれた専用のXCSP3コアパーサ(コールバック関数を使用する)を使用して、解析プロセスを容易にする。 (iii)制約解決器の比較(競合)のコアフォーマットを定義した。

In this document, we introduce XCSP3-core, a subset of XCSP3 that allows us to represent constraint satisfaction/optimization problems. The interest of XCSP3-core is multiple: (i) focusing on the most popular frameworks (CSP and COP) and constraints, (ii) facilitating the parsing process by means of dedicated XCSP3-core parsers written in Java and C++ (using callback functions), (iii) and defining a core format for comparisons (competitions) of constraint solvers.
翻訳日:2024-08-30 19:54:50 公開日:2024-08-29
# 予測サンプリングによる非定常帯域学習

Non-Stationary Bandit Learning via Predictive Sampling ( http://arxiv.org/abs/2205.01970v7 )

ライセンス: Link先を確認
Yueyang Liu, Xu Kuang, Benjamin Van Roy, (参考訳) トンプソンサンプリングは、様々な定常帯状環境において有効であることが証明されている。 しかし,本論文で示すように,非定常環境に適用しても性能は低下する。 このような失敗は、探索時に、取得した情報が非定常性によってその有用性を失う速さに基づいて、アルゴリズムが動作を区別しないという事実に起因している。 この知見に基づいて,情報取得を優先的に行うアルゴリズムである予測サンプリングを提案する。 ベイズ後悔境界によって予測サンプリングの性能に関する理論的保証が確立される。 そこで本研究では,計算を実利的な複雑な帯域環境に拡張可能な予測サンプリング方式を提案する。 数値シミュレーションにより,非定常環境において,予測サンプリングがトンプソンサンプリングより優れていることを示す。

Thompson sampling has proven effective across a wide range of stationary bandit environments. However, as we demonstrate in this paper, it can perform poorly when applied to non-stationary environments. We attribute such failures to the fact that, when exploring, the algorithm does not differentiate actions based on how quickly the information acquired loses its usefulness due to non-stationarity. Building upon this insight, we propose predictive sampling, an algorithm that deprioritizes acquiring information that quickly loses usefulness. A theoretical guarantee on the performance of predictive sampling is established through a Bayesian regret bound. We provide versions of predictive sampling for which computations tractably scale to complex bandit environments of practical interest. Through numerical simulations, we demonstrate that predictive sampling outperforms Thompson sampling in all non-stationary environments examined.
翻訳日:2024-08-30 19:54:50 公開日:2024-08-29
# フォローアップ注意: 開発者とニューラルモデルコードの探索に関する実証的研究

Follow-up Attention: An Empirical Study of Developer and Neural Model Code Exploration ( http://arxiv.org/abs/2210.05506v2 )

ライセンス: Link先を確認
Matteo Paltenghi, Rahul Pandita, Austin Z. Henley, Albert Ziegler, (参考訳) OpenAI CodexやAlphaCodeといった最近のコードニューラルモデルは、その基盤となる注意機構によって、コード生成に顕著な習熟性を示している。 しかしながら、モデルが実際にどのようにコードを処理しているか、その理由や注意機構がどのようにコードをスキャンするかが開発者のパターンとどのように一致しているかは、よくわからない。 モデル推論プロセスの理解が不十分なため、現在のニューラルモデルの利用方法が制限されている。 このギャップを埋めるために、この研究は、CodeGen、InCoder、GPT-Jの3つのオープンな言語モデルの処理された注意信号が、開発者がコードについて同じ意味のある疑問に答えるときに、どのようにコードを見て探索するかにどのように一致するかを研究する。 さらに,センスメイキングタスクに従事する25人の開発者を対象に,92のセッションを手作業でラベル付けした,オープンソースのアイトラッキングデータセットを寄贈した。 我々は,CodeGenの注意信号に注意を使わない5つのヒューリスティックと10の注意に基づくポストプロセッシングアプローチを経験的に評価した。 私たちのフォローアップアテンション手法は、開発者が次に見る行を47%の精度で予測できます。 これは42.3%のベースライン予測精度を上回り、他の開発者のセッション履歴を使って次の行を推奨する。 これらの結果は、訓練済みモデルの注意信号を利用して効果的なコード探索を行う可能性を示している。

Recent neural models of code, such as OpenAI Codex and AlphaCode, have demonstrated remarkable proficiency at code generation due to the underlying attention mechanism. However, it often remains unclear how the models actually process code, and to what extent their reasoning and the way their attention mechanism scans the code matches the patterns of developers. A poor understanding of the model reasoning process limits the way in which current neural models are leveraged today, so far mostly for their raw prediction. To fill this gap, this work studies how the processed attention signal of three open large language models - CodeGen, InCoder and GPT-J - agrees with how developers look at and explore code when each answers the same sensemaking questions about code. Furthermore, we contribute an open-source eye-tracking dataset comprising 92 manually-labeled sessions from 25 developers engaged in sensemaking tasks. We empirically evaluate five heuristics that do not use the attention and ten attention-based post-processing approaches of the attention signal of CodeGen against our ground truth of developers exploring code, including the novel concept of follow-up attention which exhibits the highest agreement between model and human attention. Our follow-up attention method can predict the next line a developer will look at with 47% accuracy. This outperforms the baseline prediction accuracy of 42.3%, which uses the session history of other developers to recommend the next line. These results demonstrate the potential of leveraging the attention signal of pre-trained models for effective code exploration.
翻訳日:2024-08-30 19:54:50 公開日:2024-08-29
# 連続可変量子電池におけるマルチモードの利点

Multimode advantage in continuous variable quantum battery ( http://arxiv.org/abs/2210.16528v2 )

ライセンス: Link先を確認
Tanoy Kanti Konar, Ayan Patra, Rivu Gupta, Srijon Ghosh, Aditi Sen De, (参考訳) 連続可変(CV)システムの枠組みに基づくマルチモード量子電池(QB)のアーキテクチャを提供する。 本稿では,多モード初期状態の汎用クラスを用いて,分離可能な状態と絡み合った状態を生成するためのパラメータを調整し,ガウス的ユニタリ演算により局所的かつグローバル的に充電することができる電池の性能について検討する。 解析計算により、エネルギー変化の2番目の瞬間として、相分離状態が2モードと3モードの電池で絡み合ったものと等しく有利であることが示された。 任意のモード数からなる安定な量子電池を生成するために、エネルギーゆらぎのコンパクトな解析形式を導出し、マルチモード分離可能なガウス初期状態の場合、モード数が増加するにつれてゆらぎが減少し、スケール解析を得る。 さらに, 帯電器としての局所変位は, スクイーズ・ユニタリ動作よりもエネルギーの変動を最小限に抑えることができることを示した。

We provide an architecture for a multimode quantum battery (QB) based on the framework of continuous variable (CV) systems. We examine the performance of the battery by using a generic class of multimode initial states whose parameters can be tuned to produce separable as well as entangled states and that can be charged locally as well as globally by Gaussian unitary operations. Analytical calculations show that a separable state is equally advantageous to an entangled one for two- and three-mode batteries when taking the figures of merit as the second moments of the change in energy. In order to produce a stable quantum battery consisting of an arbitrary number of modes, we derive compact analytical forms of the energy fluctuations and prove that for a multimode separable Gaussian initial state, fluctuations decrease as the number of modes increases, thereby obtaining a scaling analysis. Moreover, we demonstrate that local displacement as a charger is better for minimizing the fluctuations in energy than that involving the squeezing unitary operation.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# 条件付き独立グラフの復元方法:調査

Methods for Recovering Conditional Independence Graphs: A Survey ( http://arxiv.org/abs/2211.06829v3 )

ライセンス: Link先を確認
Harsh Shrivastava, Urszula Chajewska, (参考訳) 条件付き独立グラフ(CIグラフ)は、主に特徴関係についての洞察を得るために使用される確率的グラフィカルモデルの一種である。 各エッジは、直接依存に関する情報を提供する接続された特徴間の部分的相関を表す。 本調査では,CIグラフを復元する技術について,さまざまな手法をリストアップし,その進歩について検討する。 従来の最適化手法に加えて,最近開発されたディープラーニングアーキテクチャや推奨実装についても取り上げる。 より広範な採用を容易にするために、関連する操作を集約するプリミナリ、例えば混合データ型のための共分散行列を得る技術を含める。

Conditional Independence (CI) graphs are a type of probabilistic graphical models that are primarily used to gain insights about feature relationships. Each edge represents the partial correlation between the connected features which gives information about their direct dependence. In this survey, we list out different methods and study the advances in techniques developed to recover CI graphs. We cover traditional optimization methods as well as recently developed deep learning architectures along with their recommended implementations. To facilitate wider adoption, we include preliminaries that consolidate associated operations, for example techniques to obtain covariance matrix for mixed datatypes.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# オープン語彙オブジェクト検出のための検出とセグメントの学習

Learning to Detect and Segment for Open Vocabulary Object Detection ( http://arxiv.org/abs/2212.12130v6 )

ライセンス: Link先を確認
Tao Wang, Nan Li, (参考訳) オープンボキャブラリオブジェクト検出は,近年の視覚言語事前学習モデルの開発によって大きく進歩している。 先行研究は、主にオブジェクト提案分類への知識伝達に焦点をあて、クラスに依存しないボックスとマスク予測を採用する。 本研究では,オープン語彙設定のためのボックス回帰とマスクセグメンテーションをより一般化する,原理的動的ネットワーク設計であるCondHeadを提案する。 中心となる考え方は、セマンティック埋め込みに基づいてネットワークヘッドを条件付きパラメータ化することで、新しいカテゴリをよりよく検出するために、クラス固有の知識でモデルが導かれることである。 具体的には、CondHeadは2つのネットワークヘッド、動的に集約されたヘッドと動的に生成されたヘッドで構成されている。 前者は条件付き集約された静的なヘッドでインスタンス化され、これらのヘッドはエキスパートとして最適化され、洗練された予測を学ぶことが期待されている。 後者は動的に生成されたパラメータでインスタンス化され、一般的なクラス固有の情報をエンコードする。 このような条件付き設計により、検出モデルはセマンティック埋め込みによってブリッジされ、強力な一般化可能なクラスワイドボックスとマスク予測を提供する。 提案手法は,最先端のオープン語彙オブジェクト検出手法に非常に小さなオーバーヘッドで大幅な改善をもたらす。例えば,新しいカテゴリのAPを3.0で検出することでRereaClipモデルを超え,計算量はわずか1.1%に留まる。

Open vocabulary object detection has been greatly advanced by the recent development of vision-language pretrained model, which helps recognize novel objects with only semantic categories. The prior works mainly focus on knowledge transferring to the object proposal classification and employ class-agnostic box and mask prediction. In this work, we propose CondHead, a principled dynamic network design to better generalize the box regression and mask segmentation for open vocabulary setting. The core idea is to conditionally parameterize the network heads on semantic embedding and thus the model is guided with class-specific knowledge to better detect novel categories. Specifically, CondHead is composed of two streams of network heads, the dynamically aggregated head and the dynamically generated head. The former is instantiated with a set of static heads that are conditionally aggregated, these heads are optimized as experts and are expected to learn sophisticated prediction. The latter is instantiated with dynamically generated parameters and encodes general class-specific information. With such a conditional design, the detection model is bridged by the semantic embedding to offer strongly generalizable class-wise box and mask prediction. Our method brings significant improvement to the state-of-the-art open vocabulary object detection methods with very minor overhead, e.g., it surpasses a RegionClip model by 3.0 detection AP on novel categories, with only 1.1% more computation.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# FilFL:フェデレートラーニングにおけるクライアント参加最適化のためのクライアントフィルタリング

FilFL: Client Filtering for Optimized Client Participation in Federated Learning ( http://arxiv.org/abs/2302.06599v3 )

ライセンス: Link先を確認
Fares Fourati, Salma Kharrat, Vaneet Aggarwal, Mohamed-Slim Alouini, Marco Canini, (参考訳) フェデレートラーニング(Federated Learning)は、新たな機械学習パラダイムであり、クライアントがローカルデータを交換することなく、モデルを協調的にトレーニングすることを可能にする。 トレーニングプロセスに参加するクライアントは、収束率、学習効率、モデル一般化に大きな影響を与えます。 本稿では,モデル一般化を改善し,クライアント参加とトレーニングを最適化する新しい手法であるクライアントフィルタリングを提案する。 提案手法は,効率の良いグリーディフィルタリングアルゴリズムを用いて,組合せ目的関数を最大化するサブセットを特定するために,利用可能なクライアントを定期的にフィルタリングする。 したがって、クライアントは個別にではなく、組み合わせとして評価される。 我々は,異種環境下でのクライアントフィルタリングによるフェデレート学習の収束を理論的に分析し,その性能を様々な視覚・言語タスクにわたって評価する。 実験の結果,学習効率の向上,収束の高速化,クライアントフィルタリングなしでのトレーニングよりも10%高いテスト精度が得られた。

Federated learning, an emerging machine learning paradigm, enables clients to collaboratively train a model without exchanging local data. Clients participating in the training process significantly impact the convergence rate, learning efficiency, and model generalization. We propose a novel approach, client filtering, to improve model generalization and optimize client participation and training. The proposed method periodically filters available clients to identify a subset that maximizes a combinatorial objective function with an efficient greedy filtering algorithm. Thus, the clients are assessed as a combination rather than individually. We theoretically analyze the convergence of federated learning with client filtering in heterogeneous settings and evaluate its performance across diverse vision and language tasks, including realistic scenarios with time-varying client availability. Our empirical results demonstrate several benefits of our approach, including improved learning efficiency, faster convergence, and up to 10% higher test accuracy than training without client filtering.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# 確率および分散誘導立方体ニュートン法の統一収束理論

Unified Convergence Theory of Stochastic and Variance-Reduced Cubic Newton Methods ( http://arxiv.org/abs/2302.11962v3 )

ライセンス: Link先を確認
El Mahdi Chayti, Nikita Doikov, Martin Jaggi, (参考訳) 一般の非凸最小化問題を解くための確率的立方ニュートン法について検討する。 我々は,大域的な複雑性保証を備えた確率的・分散還元2次アルゴリズムの統一的なビューを提供するヘルパフレームワークを,ヘルパフレームワークと呼ぶ新しいフレームワークを提案する。 補助情報による学習にも応用できる。 我々のヘルパーフレームワークは、確率的キュービックニュートン法の構築と解析に高い柔軟性を提供し、任意の大きさのバッチを可能にし、勾配とヘッセンの雑音や偏りのある推定値を使用することで、分散の低減と遅延ヘッセンの更新の両方を取り入れている。 我々は雑音の弱い仮定の下で確率的および分散還元されたキュービックニュートンの最もよく知られた複雑さを回復する。 我々の理論の直接の結果は、大きな次元問題に対する算術的複雑性を大幅に改善する新しい遅延確率的二階法である。 また、凸問題や強凸問題を含む勾配支配対象のクラスに対する複雑性境界も確立する。 Auxiliary Learningでは、与えられた類似度が小さい場合、ヘルパー(補助関数)を使用することで、単独でのトレーニングより優れることを示す。

We study stochastic Cubic Newton methods for solving general possibly non-convex minimization problems. We propose a new framework, which we call the helper framework, that provides a unified view of the stochastic and variance-reduced second-order algorithms equipped with global complexity guarantees. It can also be applied to learning with auxiliary information. Our helper framework offers the algorithm designer high flexibility for constructing and analyzing the stochastic Cubic Newton methods, allowing arbitrary size batches, and the use of noisy and possibly biased estimates of the gradients and Hessians, incorporating both the variance reduction and the lazy Hessian updates. We recover the best-known complexities for the stochastic and variance-reduced Cubic Newton, under weak assumptions on the noise. A direct consequence of our theory is the new lazy stochastic second-order method, which significantly improves the arithmetic complexity for large dimension problems. We also establish complexity bounds for the classes of gradient-dominated objectives, that include convex and strongly convex problems. For Auxiliary Learning, we show that using a helper (auxiliary function) can outperform training alone if a given similarity measure is small.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# SPD行列学習のための適応的対数ユークリッド計量

Adaptive Log-Euclidean Metrics for SPD Matrix Learning ( http://arxiv.org/abs/2303.15477v5 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Tianyang Xu, Zhiwu Huang, Xiao-Jun Wu, Nicu Sebe, (参考訳) 対称正定値行列(SPD)は、データの構造的相関を符号化する固有の能力のため、機械学習において広く注目を集めている。 多くの成功したリーマン計量は、SPD多様体の非ユークリッド幾何学を反映するために提案されている。 しかし、既存の計量テンソルのほとんどは固定されており、特に深いSPDニューラルネットワークにおいて、SPD行列学習の準最適性能をもたらす可能性がある。 この制限を緩和するために、よく遭遇する引き戻し手法を活用し、広く使われているログユークリッド計量(LEM)を拡張した適応ログユークリッド計量(ALEM)を提案する。 従来のリーマン測度と比較すると、我々の測度は学習可能なパラメータを含み、小さな余分な計算を伴うリーマンニューラルネットワークの複雑な力学に適応できる。 また、代数的およびリーマン的性質を含むALEMをサポートするための完全な理論解析も提示する。 実験および理論的結果から,SPDニューラルネットワークの性能向上における提案手法の有効性が示された。 このメトリクスの有効性は、リーマン的バッチ正規化、リーマン的残留ブロック、リーマン的分類器を含む、最近開発されたリーマン的構成ブロックの集合でさらに示される。

Symmetric Positive Definite (SPD) matrices have received wide attention in machine learning due to their intrinsic capacity to encode underlying structural correlation in data. Many successful Riemannian metrics have been proposed to reflect the non-Euclidean geometry of SPD manifolds. However, most existing metric tensors are fixed, which might lead to sub-optimal performance for SPD matrix learning, especially for deep SPD neural networks. To remedy this limitation, we leverage the commonly encountered pullback techniques and propose Adaptive Log-Euclidean Metrics (ALEMs), which extend the widely used Log-Euclidean Metric (LEM). Compared with the previous Riemannian metrics, our metrics contain learnable parameters, which can better adapt to the complex dynamics of Riemannian neural networks with minor extra computations. We also present a complete theoretical analysis to support our ALEMs, including algebraic and Riemannian properties. The experimental and theoretical results demonstrate the merit of the proposed metrics in improving the performance of SPD neural networks. The efficacy of our metrics is further showcased on a set of recently developed Riemannian building blocks, including Riemannian batch normalization, Riemannian Residual blocks, and Riemannian classifiers.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# KeyMatchNet: 一般化キーポイントマッチングによる3次元点雲のゼロショットポス推定

KeyMatchNet: Zero-Shot Pose Estimation in 3D Point Clouds by Generalized Keypoint Matching ( http://arxiv.org/abs/2303.16102v3 )

ライセンス: Link先を確認
Frederik Hagelskjær, Rasmus Laurvig Haugaard, (参考訳) 本稿では,3次元点雲におけるゼロショットポーズ推定のための新しいネットワークであるKeyMatchNetを提案する。 本手法は深度情報のみを用いており,色情報はほとんど利用できないため,多くの産業用途に適用可能である。 このネットワークはオブジェクトとシーンの特徴を計算するための2つの並列コンポーネントで構成されている。 それらの機能は組み合わせて、ポーズ推定に使用されるマッチを生成する。 並列構造は個々の部品の事前処理を可能にし、実行時間を短縮する。 ゼロショットネットワークを使用することで、新しいオブジェクトのモデルをトレーニングする必要がなくなるため、非常に短いセットアップ時間が可能になる。 しかし、ネットワークは特定の対象に対して訓練されていないため、ゼロショットポーズ推定法は従来の手法に比べて精度が低いのが一般的である。 これを解決するために、トレーニング中のシナリオ情報を含めることで、タスクの複雑さを低減する。 これは通常、新しいタスクの実際のデータ収集がコストを大幅に増加させるため、実現不可能である。 しかし、ゼロショットポーズ推定では、新しいオブジェクトのトレーニングは必要ないため、高価なデータ収集は一度だけ行うことができる。 我々の手法は1500個のオブジェクトで訓練され、未確認オブジェクトでのみテストされる。 トレーニングされたネットワークは、新しいオブジェクトのポーズを正確に推定するだけでなく、トレーニングされたクラス以外のオブジェクト上でのネットワークの能力も示すことができる。 実際のデータにもテスト結果が表示される。 提案手法は多くの実世界のシナリオに有用であると考えている。 keymatchnet.github.io のプロジェクトページ

In this paper, we present KeyMatchNet, a novel network for zero-shot pose estimation in 3D point clouds. Our method uses only depth information, making it more applicable for many industrial use cases, as color information is seldom available. The network is composed of two parallel components for computing object and scene features. The features are then combined to create matches used for pose estimation. The parallel structure allows for pre-processing of the individual parts, which decreases the run-time. Using a zero-shot network allows for a very short set-up time, as it is not necessary to train models for new objects. However, as the network is not trained for the specific object, zero-shot pose estimation methods generally have lower accuracy compared with conventional methods. To address this, we reduce the complexity of the task by including the scenario information during training. This is typically not feasible as collecting real data for new tasks drastically increases the cost. However, for zero-shot pose estimation, training for new objects is not necessary and the expensive data collection can thus be performed only once. Our method is trained on 1,500 objects and is only tested on unseen objects. We demonstrate that the trained network can not only accurately estimate poses for novel objects, but also demonstrate the ability of the network on objects outside of the trained class. Test results are also shown on real data. We believe that the presented method is valuable for many real-world scenarios. Project page available at keymatchnet.github.io
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# 長期制約付き拘束型MDPのためのBest-of-Both-Worldsアルゴリズム

A Best-of-Both-Worlds Algorithm for Constrained MDPs with Long-Term Constraints ( http://arxiv.org/abs/2304.14326v2 )

ライセンス: Link先を確認
Jacopo Germano, Francesco Emanuele Stradi, Gianmarco Genalti, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti, (参考訳) そこでは,学習者が学習過程の長期的制約を満足しつつ,エピソードを通じてできるだけ多くの報酬を集めることを目的として,エピソード制約付きマルコフ決定プロセス(CMDP)を用いてオンライン学習を研究する。 リワードと制約は確率的にも逆的にも選択でき、遷移関数は学習者には知られない。 古典的(制約なし)のMDPにおけるオンライン学習は、ここ数年でかなりの注目を集めてきたが、CMDPの設定はいまだに明らかにされていない。 例えば、自動運転、自動入札、レコメンデーションシステムといった現実世界のアプリケーションでは、学習プロセス中にエージェントが従わなければならない追加の制約や仕様が存在します。 本稿では,Balseiro et al (2023) のフレーバーを用いて,長期的制約のあるCMDPのベスト・オブ・ボス・ワールドス・アルゴリズムを提案する。 提案アルゴリズムは,提案手法の知識を必要とせず,確率的にも逆的にも報酬や制約が選択されるような設定を処理可能である。 さらに,本アルゴリズムは,制約が確率的に選択された設定に対して,現状の後悔と制約違反境界とをマッチングする。

We study online learning in episodic constrained Markov decision processes (CMDPs), where the learner aims at collecting as much reward as possible over the episodes, while satisfying some long-term constraints during the learning process. Rewards and constraints can be selected either stochastically or adversarially, and the transition function is not known to the learner. While online learning in classical (unconstrained) MDPs has received considerable attention over the last years, the setting of CMDPs is still largely unexplored. This is surprising, since in real-world applications, such as, e.g., autonomous driving, automated bidding, and recommender systems, there are usually additional constraints and specifications that an agent has to obey during the learning process. In this paper, we provide the first best-of-both-worlds algorithm for CMDPs with long-term constraints, in the flavor of Balseiro et al. (2023). Our algorithm is capable of handling settings in which rewards and constraints are selected either stochastically or adversarially, without requiring any knowledge of the underling process. Moreover, our algorithm matches state-of-the-art regret and constraint violation bounds for settings in which constraints are selected stochastically, while it is the first to provide guarantees in the case in which they are chosen adversarially.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# 補助学習対象符号化による深層表現学習の改善

Improving Deep Representation Learning via Auxiliary Learnable Target Coding ( http://arxiv.org/abs/2305.18680v2 )

ライセンス: Link先を確認
Kangjun Liu, Ke Chen, Kui Jia, Yaowei Wang, (参考訳) ディープ表現学習(Deep representation learning)は、ディープラーニングのサブフィールドであり、ディープニューラルネットワークを通じてデータの意味のある有用な表現を学習することに焦点を当てている。 しかし、既存の意味分類法では、1ホットやアダマール符号のような定義済みの目標符号を用いるのが一般的であり、これはクラス間の相関をモデル化するのに失敗するか、より柔軟でない。 そこで本研究では,クラス間の遅延依存性を組み込むだけでなく,対象コードの幾何学的特性を表現空間に付与する,深層表現学習の補助的正規化として,学習可能な新たなターゲットコーディングを提案する。 具体的には、表現空間におけるクラス間のマージンの拡大と、学習可能なターゲットコードの等しく意味的相関性により、より差別的な表現を促進するために、マージンベースの三重項損失と、提案したターゲットコードに対する相関一貫性損失を設計する。 いくつかの人気のある視覚分類・検索ベンチマークの実験結果から,表現学習,特に不均衡なデータに対して,提案手法の有効性が示された。 ソースコードは \href{https://github.com/AkonLau/LTC}{https://github.com/AkonLau/LTC} で公開されている。

Deep representation learning is a subfield of machine learning that focuses on learning meaningful and useful representations of data through deep neural networks. However, existing methods for semantic classification typically employ pre-defined target codes such as the one-hot and the Hadamard codes, which can either fail or be less flexible to model inter-class correlation. In light of this, this paper introduces a novel learnable target coding as an auxiliary regularization of deep representation learning, which can not only incorporate latent dependency across classes but also impose geometric properties of target codes into representation space. Specifically, a margin-based triplet loss and a correlation consistency loss on the proposed target codes are designed to encourage more discriminative representations owing to enlarging between-class margins in representation space and favoring equal semantic correlation of learnable target codes respectively. Experimental results on several popular visual classification and retrieval benchmarks can demonstrate the effectiveness of our method on improving representation learning, especially for imbalanced data. Source codes are made publicly available at \href{https://github.com/AkonLau/LTC}{https://github.com/AkonLau/LTC}.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# 次元減少下における恒常化ボトルネック距離の持続図とホモロジー保存

A Normalized Bottleneck Distance on Persistence Diagrams and Homology Preservation under Dimension Reduction ( http://arxiv.org/abs/2306.06727v2 )

ライセンス: Link先を確認
Nathan H. May, Bala Krishnamoorthy, Patrick Gambill, (参考訳) パーシステンスダイアグラム(PD)は、ポイントクラウドデータのシグネチャとして使用される。 PD間のボトルネック距離d_Bを用いて2つの点の雲を比較することができる。 このパイプラインの潜在的な欠点は、トポロジカルに類似した多様体からサンプリングされた点雲は、その間に大きなスケーリングがあるときに任意に大きいd_Bを持つことができることである。 この状況は次元削減フレームワークで典型的である。 我々は、PD間の新しいスケール不変距離を正規化ボトルネック距離(d_N)と定義し、研究する。 d_N の定義において、等濃度の有限距離空間と単射とを比較するための計量分解と呼ばれるより広範なフレームワークを開発する。 我々は,d_N の安定度を,単射写像の歪みに明示的な境界を導出することにより,計量分解を用いて証明する。 次に、Johnson-Lindenstrauss(JL)プロジェクションとメートル法多次元スケーリング(MDS)という2つの一般的な次元削減手法と、一般的なビリプシッツ写像の第3級について研究する。 我々は、これらの次元還元技術が d_N に関してホモロジーをいかに保存するかの新しい境界を提供する。 入力 X を f(X) に変換する JL 写像 f に対し、d_N(dgm(X),dgm(f(X))) < e, ここで dgm(X) は X のヴィエトリス・リップ PD であり、対距離は f < \epsilon < 1 まで f で保存される。 mMDS に対して、X の PD とその射影の間の d_B と d_N の新たな境界を共分散行列の固有値の観点から提示する。 また、k-biLipschitz写像に対して、d_N は (k^2-1)/k の積と X と f(X) の直径の比で有界であることを示す。 最後に, 異なる形状から採取した点雲のクラスタリング集合に対して, 正規化ボトルネック距離を用いた計算実験を行った。

Persistence diagrams (PDs) are used as signatures of point cloud data. Two clouds of points can be compared using the bottleneck distance d_B between their PDs. A potential drawback of this pipeline is that point clouds sampled from topologically similar manifolds can have arbitrarily large d_B when there is a large scaling between them. This situation is typical in dimension reduction frameworks. We define, and study properties of, a new scale-invariant distance between PDs termed normalized bottleneck distance, d_N. In defining d_N, we develop a broader framework called metric decomposition for comparing finite metric spaces of equal cardinality with a bijection. We utilize metric decomposition to prove a stability result for d_N by deriving an explicit bound on the distortion of the bijective map. We then study two popular dimension reduction techniques, Johnson-Lindenstrauss (JL) projections and metric multidimensional scaling (mMDS), and a third class of general biLipschitz mappings. We provide new bounds on how well these dimension reduction techniques preserve homology with respect to d_N. For a JL map f that transforms input X to f(X), we show that d_N(dgm(X),dgm(f(X))) < e, where dgm(X) is the Vietoris-Rips PD of X, and pairwise distances are preserved by f up to the tolerance 0 < \epsilon < 1. For mMDS, we present new bounds for d_B and d_N between PDs of X and its projection in terms of the eigenvalues of the covariance matrix. And for k-biLipschitz maps, we show that d_N is bounded by the product of (k^2-1)/k and the ratio of diameters of X and f(X). Finally, we use computational experiments to demonstrate the increased effectiveness of using the normalized bottleneck distance for clustering sets of point clouds sampled from different shapes.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# 正規化相互情報は、分類とコミュニティ検出のための偏りのある尺度である

Normalized mutual information is a biased measure for classification and community detection ( http://arxiv.org/abs/2307.01282v2 )

ライセンス: Link先を確認
Maximilian Jerdee, Alec Kirkley, M. E. J. Newman, (参考訳) 正規化相互情報はクラスタリングと分類アルゴリズムの性能を評価するための類似度尺度として広く利用されている。 本稿では,正規化された相互情報によって返される結果が,一致表の情報内容を無視していること,対称正規化がアルゴリズムの出力に急激な依存をもたらすこと,の2つの理由から偏りがあることを論じる。 両欠点を修復する改良版相互情報の紹介を行う。 偏りのない尺度を用いることの重要性を実証するため,ネットワークコミュニティ検出のための人気アルゴリズムのバスケット上で広範囲に数値実験を行い,従来の相互情報のバイアスの影響が,どのアルゴリズムが最適かという結論に大きく影響していることを示す。

Normalized mutual information is widely used as a similarity measure for evaluating the performance of clustering and classification algorithms. In this paper, we argue that results returned by the normalized mutual information are biased for two reasons: first, because they ignore the information content of the contingency table and, second, because their symmetric normalization introduces spurious dependence on algorithm output. We introduce a modified version of the mutual information that remedies both of these shortcomings. As a practical demonstration of the importance of using an unbiased measure, we perform extensive numerical tests on a basket of popular algorithms for network community detection and show that one's conclusions about which algorithm is best are significantly affected by the biases in the traditional mutual information.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# 異種性から学ぶ:ハイパーグラフのための動的学習フレームワーク

Learning from Heterogeneity: A Dynamic Learning Framework for Hypergraphs ( http://arxiv.org/abs/2307.03411v2 )

ライセンス: Link先を確認
Tiehua Zhang, Yuze Liu, Zhishu Shen, Xingjun Ma, Peng Qi, Zhijun Ding, Jiong Jin, (参考訳) グラフニューラルネットワーク(GNN)は、複雑なグラフ構造データのモデリング能力と柔軟性のため、近年人気が高まっている。 すべてのグラフ学習手法の中で、ハイパーグラフ学習はグラフの埋め込み空間を訓練する際、暗黙の高次相関を探索する手法である。 本稿では,グラフの不均一性特性を利用した動的ハイパーエッジ構築と注意深い埋め込み更新が可能なLFHというハイパーグラフ学習フレームワークを提案する。 特に,本フレームワークでは,初期ノードの埋め込みを生成する際に,明示的なグラフ構造情報を利用する相互融合戦略を用いて,高品質な特徴を最初に生成する。 その後、暗黙のハイパーエッジの動的グループ化によってハイパーグラフが構築され、次いでタイプ固有のハイパーグラフ学習プロセスが続く。 提案手法の有効性を評価するため,ノード分類とリンク予測タスクにおいて,11種類の最先端モデルを用いて,同質なペアワイドグラフ学習,異質なペアワイドグラフ学習,ハイパーグラフ学習のカテゴリに分類される,いくつかの一般的なデータセットを対象とした総合的な実験を行った。 実験の結果,最近の最先端手法と比較して,ノード分類では平均12.5%,リンク予測では13.3%の大幅な性能向上を示した。

Graph neural network (GNN) has gained increasing popularity in recent years owing to its capability and flexibility in modeling complex graph structure data. Among all graph learning methods, hypergraph learning is a technique for exploring the implicit higher-order correlations when training the embedding space of the graph. In this paper, we propose a hypergraph learning framework named LFH that is capable of dynamic hyperedge construction and attentive embedding update utilizing the heterogeneity attributes of the graph. Specifically, in our framework, the high-quality features are first generated by the pairwise fusion strategy that utilizes explicit graph structure information when generating initial node embedding. Afterwards, a hypergraph is constructed through the dynamic grouping of implicit hyperedges, followed by the type-specific hypergraph learning process. To evaluate the effectiveness of our proposed framework, we conduct comprehensive experiments on several popular datasets with eleven state-of-the-art models on both node classification and link prediction tasks, which fall into categories of homogeneous pairwise graph learning, heterogeneous pairwise graph learning, and hypergraph learning. The experiment results demonstrate a significant performance gain (average 12.5% in node classification and 13.3% in link prediction) compared with recent state-of-the-art methods.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# ランダム化半量子行列処理

Randomized semi-quantum matrix processing ( http://arxiv.org/abs/2307.11824v3 )

ライセンス: Link先を確認
Allan Tosta, Thais de Lima Silva, Giancarlo Camilo, Leandro Aolita, (参考訳) 本稿では,一般的な量子特異値変換よりも早期フォールトトレラントな量子ハードウェアに対して,ジェネリック行列関数をシミュレートするハイブリッド量子古典的フレームワークを提案する。 この方法は、行列オラクル量子を保ちながら、ターゲット関数のチェビシェフ近似上のランダム化に基づいており、選択後の必要性を取り除くアダマールテストの変種に助けられている。 結果として生じる統計的オーバーヘッドは完全量子の場合と似ており、回路深さの劣化は生じない。 反対に、平均回路深さは小さくなり、ノイズやコヒーレントエラーを除極するために明らかに示されるように、ノイズ感度は同等に低下する。 本稿では,分割関数推定,線形系解法,基底状態エネルギー推定に適用する。 これらの場合、コストのかかるパラメータの2次高速化や近似誤差依存の除去など、平均深度に対する利点を実証する。

We present a hybrid quantum-classical framework for simulating generic matrix functions more amenable to early fault-tolerant quantum hardware than standard quantum singular-value transformations. The method is based on randomization over the Chebyshev approximation of the target function while keeping the matrix oracle quantum, and is assisted by a variant of the Hadamard test that removes the need for post-selection. The resulting statistical overhead is similar to the fully quantum case and does not incur any circuit depth degradation. On the contrary, the average circuit depth is shown to get smaller, yielding equivalent reductions in noise sensitivity, as explicitly shown for depolarizing noise and coherent errors. We apply our technique to partition-function estimation, linear system solvers, and ground-state energy estimation. For these cases, we prove advantages on average depths, including quadratic speed-ups on costly parameters and even the removal of the approximation-error dependence.
翻訳日:2024-08-30 19:48:14 公開日:2024-08-29
# 要約, ハイライト, アクション項目:LCMを利用した会議リキャップシステムの設計, 実装, 評価

Summaries, Highlights, and Action items: Design, implementation and evaluation of an LLM-powered meeting recap system ( http://arxiv.org/abs/2307.15793v2 )

ライセンス: Link先を確認
Sumit Asthana, Sagih Hilleli, Pengcheng He, Aaron Halfaker, (参考訳) 会議は作業の調整において重要なインフラ的役割を担います。 近年、ハイブリッドワークやリモートワークへの移行により、オンラインのComputer Mediated Spacesに多くのミーティングが移行している。 これは、新しい問題(例えば、より活発なミーティングに費やされた時間の増加)と新しい機会(例えば、自動書き起こし/カプセル化と再カプセル化のサポート)につながった。 対話要約のための大規模言語モデル(LLM)の最近の進歩は、個人の会議負荷を減らし、ミーティングアウトプットの明確化と整合性を高めることにより、ミーティングの経験を改善する可能性がある。 この可能性にもかかわらず、長い書き起こしと、ユーザのコンテキストに基づいて多様なリキャップニーズをキャプチャできないため、技術的な制限に直面している。 これらのギャップに対処するため、ミーティング・リキャップシステムの設計、実装、評価を行う。 まず、重要なハイライトと構造化された階層的な数分のビューという、2つの優れたrecap表現を概念化します。 本研究では,対話要約による表現をビルディングブロックとして運用するシステムを開発した。 最後に,作業会議のコンテキストにおいて,7人のユーザによるシステムの有効性を評価する。 以上の結果から,LLMを用いた対話要約による会議の要約と,異なる文脈での両表現の必要性が示唆された。 しかし, LLM をベースとしたリキャップには, 参加者の個人的関係を理解していないこと, 重要な詳細を見逃しかねないこと, グループダイナミクスに有害な誤帰があることが判明した。 高品質なリキャップを可能にする共有リキャップドキュメントのようなコラボレーションの機会を特定します。 本稿では,人間関係や要約品質に関する制約を克服するために,AIシステムの設計とユーザとの連携によって,自然なインタラクションから学び,改善することの重要性について報告する。

Meetings play a critical infrastructural role in the coordination of work. In recent years, due to shift to hybrid and remote work, more meetings are moving to online Computer Mediated Spaces. This has led to new problems (e.g. more time spent in less engaging meetings) and new opportunities (e.g. automated transcription/captioning and recap support). Recent advances in large language models (LLMs) for dialog summarization have the potential to improve the experience of meetings by reducing individuals' meeting load and increasing the clarity and alignment of meeting outputs. Despite this potential, they face technological limitation due to long transcripts and inability to capture diverse recap needs based on user's context. To address these gaps, we design, implement and evaluate in-context a meeting recap system. We first conceptualize two salient recap representations -- important highlights, and a structured, hierarchical minutes view. We develop a system to operationalize the representations with dialogue summarization as its building blocks. Finally, we evaluate the effectiveness of the system with seven users in the context of their work meetings. Our findings show promise in using LLM-based dialogue summarization for meeting recap and the need for both representations in different contexts. However, we find that LLM-based recap still lacks an understanding of whats personally relevant to participants, can miss important details, and mis-attributions can be detrimental to group dynamics. We identify collaboration opportunities such as a shared recap document that a high quality recap enables. We report on implications for designing AI systems to partner with users to learn and improve from natural interactions to overcome the limitations related to personal relevance and summarization quality.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# Java開発者は、GitHubプロジェクトでStackOverflowの回答をどのように再利用するか?

How Do Java Developers Reuse StackOverflow Answers in Their GitHub Projects? ( http://arxiv.org/abs/2308.09573v2 )

ライセンス: Link先を確認
Juntong Chen, Yan Zhao, Na Meng, (参考訳) StackOverflow (SO)は、ソフトウェア開発者およびコンピュータ科学者のための広く使われているQ&A(Q&A)ウェブサイトである。 GitHubは、ソフトウェアプロジェクトの保存、追跡、コラボレーションに使用されるオンライン開発プラットフォームである。 以前の作業は、ユーザアカウントをリンクしたり、プラットフォーム間での開発者のアクティビティを比較するために、両方のプラットフォームから掘り出された情報に関するものだった。 しかし、GitHubプロジェクトで再利用されているSOの回答を特徴づける作業はあまり行われていない。 本稿では、GitHubで利用可能なJavaプロジェクトで再利用されたSOの回答をマイニングして、実証的研究を行った。 我々は、開発者が実際に活用している回答を識別するために、クローン検出、キーワードベースの検索、手動検査のハイブリッドアプローチを作成しました。 特定された回答に基づいて、議論スレッドのトピック、回答の特徴(例えば、スコア、年齢、コードの長さ、テキストの長さ)、開発者の再利用プラクティスについてさらに研究した。 再利用された回答のほとんどは、特定のコーディングタスクを実装するプログラムを提供する。 分析されたSOの議論スレッドの中で、再利用された回答は、比較的高いスコア、古い年齢、長いコード、未使用の回答よりも長いテキストを持つことが多い。 わずか9%のシナリオ(40/430)で、開発者は再利用のための回答コードを完全にコピーした。 残りのシナリオでは、部分的なコードを再利用するか、スクラッチからまったく新しいコードを作成しました。 調査では,357のGitHubプロジェクトでJava開発者が参照した130SOの議論スレッドを特徴とした。 我々の経験的発見は、SO回答者により良い回答を提供するよう誘導し、SOとGitHubに関する将来の研究に光を当てることができます。

StackOverflow (SO) is a widely used question-and-answer (Q\&A) website for software developers and computer scientists. GitHub is an online development platform used for storing, tracking, and collaborating on software projects. Prior work relates the information mined from both platforms to link user accounts or compare developers' activities across platforms. However, not much work is done to characterize the SO answers reused by GitHub projects. For this paper, we did an empirical study by mining the SO answers reused by Java projects available on GitHub. We created a hybrid approach of clone detection, keyword-based search, and manual inspection, to identify the answer(s) actually leveraged by developers. Based on the identified answers, we further studied topics of the discussion threads, answer characteristics (e.g., scores, ages, code lengths, and text lengths), and developers' reuse practices. We observed that most reused answers offer programs to implement specific coding tasks. Among all analyzed SO discussion threads, the reused answers often have relatively higher scores, older ages, longer code, and longer text than unused answers. In only 9% of scenarios (40/430), developers fully copied answer code for reuse. In the remaining scenarios, they reused partial code or created brand new code from scratch. Our study characterized 130 SO discussion threads referred to by Java developers in 357 GitHub projects. Our empirical findings can guide SO answerers to provide better answers, and shed lights on future research related to SO and GitHub.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# 継続的リスクスコアの標準化された解釈公正度対策

Standardized Interpretable Fairness Measures for Continuous Risk Scores ( http://arxiv.org/abs/2308.11375v2 )

ライセンス: Link先を確認
Ann-Kristin Becker, Oana Dumitrasc, Klaus Broelemann, (参考訳) 本稿では、ワッサーシュタイン距離に基づく合理的な解釈による連続的なスコアに対する公正度尺度の標準化版を提案する。 我々の測度は計算が容易で、グループ格差の強さを定量化し、解釈するのにも適しており、異なるモデル、データセット、タイムポイントのバイアスを比較するのにも適しています。 本研究は,既存のスコアの公平度尺度の家族間関係を導出し,ROCに基づく公正度尺度がより明確であり,ROCに基づく公正度尺度が欠落する有意なバイアスを定量化できるため,ROCに基づく公正度尺度よりも優れていることを示す。

We propose a standardized version of fairness measures for continuous scores with a reasonable interpretation based on the Wasserstein distance. Our measures are easily computable and well suited for quantifying and interpreting the strength of group disparities as well as for comparing biases across different models, datasets, or time points. We derive a link between the different families of existing fairness measures for scores and show that the proposed standardized fairness measures outperform ROC-based fairness measures because they are more explicit and can quantify significant biases that ROC-based fairness measures miss.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# κ$変形時空における絡み合いダイナミクス

Entanglement dynamics in $κ$-deformed spacetime ( http://arxiv.org/abs/2309.08135v2 )

ライセンス: Link先を確認
Xiaobao Liu, Zehua Tian, Jiliang Jing, (参考訳) 量子場に結合した2つの同一かつ互いに独立な2レベル原子をオープン量子系として扱う。 その進化を支配するマスター方程式は、場の自由度を辿ることによって導かれる。 これを用いて、$\kappa$-deformed と Minkowski の時空で異なる軌道で移動する2つの原子の絡み合いのダイナミクスを比較する。 特に、環境誘起原子間相互作用が存在しない場合、時空変形パラメータ$\kappa$が理論的に予測されるほど大きい場合、$\kappa$変形時空の2つの静的原子の絡み合いのダイナミクスはミンコフスキー時空のそれに還元される。 しかし、慣性か非慣性かにかかわらず、原子が相対論的運動を行う場合、そのエンタングルメントダイナミクスは$\kappa$-変形した時空において、$\kappa$が大きければミンコフスキー時空と異なる振る舞いをする。 本研究では, 崩壊や生成などの絡み合いの挙動について検討し, 直線における一様運動や円運動など, 異なる相対論的運動が, 時空の場合, 約$\kappa$-deformed と Minkowski の絡み合いのダイナミクスの違いを増幅する方法について考察する。 また, 環境が引き起こす原子間相互作用を考慮すると, この2つの時空間の絡み合いのダイナミクスの違いを増大させる可能性がある。 したがって、原理的には、ある状況下で2つの原子間の絡み合いの挙動をチェックすることによって、彼女/彼が$\kappa$-deformedかミンコフスキー時空にあるかを知ることができる。

We treat two identical and mutually independent two-level atoms that are coupled to a quantum field as an open quantum system. The master equation that governs their evolution is derived by tracing over the degree of freedom of the field. With this, we compare the entanglement dynamics of the two atoms moving with different trajectories in $\kappa$-deformed and Minkowski spacetimes. Notably, when the environment-induced interatomic interaction does not exist, the entanglement dynamics of two static atoms in $\kappa$-deformed spacetime are reduced to that in Minkowski spacetime in the case that the spacetime deformation parameter $\kappa$ is sufficiently large as theoretically predicted. However, if the atoms undergo relativistic motion, regardless of whether inertial or non-inertial, their entanglement dynamics in $\kappa$-deformed spacetime behave differently from that in Minkowski spacetime even when $\kappa$ is large. We investigate various types of entanglement behavior, such as decay and generation, and discuss how different relativistic motions, such as uniform motion in a straight line and circular motion, amplify the differences in the entanglement dynamics between the $\kappa$-deformed and Minkowski spacetime cases. In addition, when the environment-induced interatomic interaction is considered, we find that it may also enhance the differences in the entanglement dynamics between these two spacetimes. Thus, in principle, one can tell whether she/he is in $\kappa$-deformed or Minkowski spacetime by checking the entanglement behavior between two atoms in certain circumstances.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# 軌道予測のための合成運転データの事前学習

Pre-training on Synthetic Driving Data for Trajectory Prediction ( http://arxiv.org/abs/2309.10121v3 )

ライセンス: Link先を確認
Yiheng Li, Seth Z. Zhao, Chenfeng Xu, Chen Tang, Chenran Li, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan, (参考訳) 大量の実世界の運転データを蓄積することは、自律運転のための軌道予測の領域において重要な意味を持つ。 データ駆動型手法による現在の軌道予測モデルに大きく依存していることを踏まえ、データ可用性の限界の下で一般的な軌道予測表現を学習することの課題に取り組むことを目的とする。 軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。 まず、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。 具体的には、ベクトル変換を適用して地図を再構成し、その後ルールベースモデルを用いて、オリジナルシーンと拡張シーンの両方の軌跡を生成する。 この拡張データセット内の一般的な表現の学習を促進するため、軌道予測のためのMasked AutoEncoder(MAE)の概念の拡張など、さまざまな事前学習戦略を網羅的に検討する。 我々は,データ拡張と事前学習戦略の有効性を実証する広範な実験を行い,MR_6$,$minADE_6$,$minADE_6$,$minFDE_6$といった大きなマージンでベースライン予測モデルを上回った。 事前トレーニングデータセットと事前トレーニングと微調整のためのコードは、https://github.com/yhli123/Pretraining_on_Synthetic_Driving_Data_for_Trajectory_Predictionでリリースされている。

Accumulating substantial volumes of real-world driving data proves pivotal in the realm of trajectory forecasting for autonomous driving. Given the heavy reliance of current trajectory forecasting models on data-driven methodologies, we aim to tackle the challenge of learning general trajectory forecasting representations under limited data availability. We propose a pipeline-level solution to mitigate the issue of data scarcity in trajectory forecasting. The solution is composed of two parts: firstly, we adopt HD map augmentation and trajectory synthesis for generating driving data, and then we learn representations by pre-training on them. Specifically, we apply vector transformations to reshape the maps, and then employ a rule-based model to generate trajectories on both original and augmented scenes; thus enlarging the driving data without collecting additional real ones. To foster the learning of general representations within this augmented dataset, we comprehensively explore the different pre-training strategies, including extending the concept of a Masked AutoEncoder (MAE) for trajectory forecasting. Without bells and whistles, our proposed pipeline-level solution is general, simple, yet effective: we conduct extensive experiments to demonstrate the effectiveness of our data expansion and pre-training strategies, which outperform the baseline prediction model by large margins, e.g. 5.04%, 3.84% and 8.30% in terms of $MR_6$, $minADE_6$ and $minFDE_6$. The pre-training dataset and the codes for pre-training and fine-tuning are released at https://github.com/yhli123/Pretraining_on_Synthetic_Driving_Data_for_Trajectory_Prediction.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# InstructERC:マルチタスク検索型大規模言語モデルとの対話における感情認識の改革

InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2309.11911v6 )

ライセンス: Link先を確認
Shanglin Lei, Guanting Dong, Xiaoping Wang, Keheng Wang, Runqi Qiao, Sirui Wang, (参考訳) 会話の感情認識(ERC)の分野は、文の特徴的エンコーディングと文脈モデリングを分離することに注力し、統一設計に基づく生成パラダイムの探索を欠いている。 本研究では,差別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,ERCタスクを再構築するための新しい手法であるインストラクタCを提案する。 InstructERCは、3つの重要な貢献をしている: 1) 単純だが効果的なテンプレートモジュールを導入し、モデルが多言語対話の監督情報を明示的に統合するのに役立つ。 2)会話における対話の役割関係と将来の感情傾向を暗黙的にモデル化するために,話者識別と感情予測という2つの追加的な感情アライメントタスクを導入する。 (3) ピアリング的に、実際のアプリケーションシナリオに合うように、フィールホイールを通じて、ベンチマーク全体で感情ラベルを統一します。 InstructERCは、この統合データセット上でも素晴らしいパフォーマンスを保っています。 LLMベースのプラグインフレームワークは,従来のすべてのモデルより大幅に優れており,一般的に使用されている3つのERCデータセットに対して包括的なSOTAを実現する。 パラメータ効率およびデータスケーリング実験の大規模解析は、実践シナリオに適用するための実証的なガイダンスを提供する。

The field of emotion recognition of conversation (ERC) has been focusing on separating sentence feature encoding and context modeling, lacking exploration in generative paradigms based on unified designs. In this study, we propose a novel approach, InstructERC, to reformulate the ERC task from a discriminative framework to a generative framework based on Large Language Models (LLMs). InstructERC makes three significant contributions: (1) it introduces a simple yet effective retrieval template module, which helps the model explicitly integrate multi-granularity dialogue supervision information. (2) We introduce two additional emotion alignment tasks, namely speaker identification and emotion prediction tasks, to implicitly model the dialogue role relationships and future emotional tendencies in conversations. (3) Pioneeringly, we unify emotion labels across benchmarks through the feeling wheel to fit real application scenarios. InstructERC still perform impressively on this unified dataset. Our LLM-based plugin framework significantly outperforms all previous models and achieves comprehensive SOTA on three commonly used ERC datasets. Extensive analysis of parameter-efficient and data-scaling experiments provides empirical guidance for applying it in practical scenarios.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# ビジョンランゲージモデルのためのドメインのプロンプト

Learning to Prompt Your Domain for Vision-Language Models ( http://arxiv.org/abs/2310.03103v5 )

ライセンス: Link先を確認
Guoyizhe Wei, Feng Wang, Anshul Shah, Rama Chellappa, (参考訳) プロンプト学習は、最近、CLIP(Contrastive Language Image Pretraining)モデルの非常に効率的なトランスファー学習パラダイムとなっている。 エンコーダ全体の微調整と比較すると,少数のパラメータのみを最適化することで,迅速な学習は高い競争力を得ることができ,コミュニケーション効率を優先するフェデレーション学習アプリケーションに極めてエキサイティングなメリットをもたらす。 しかし,本研究では,学習手法を直接フェデレート学習に移行しても,モデルが異なるクライアント間のドメインギャップに悩まされることがしばしばあるため,良好な結果が得られない。 そこで本研究では,ドメイン内とドメイン間の両方のプロンプトを容易にする新しいドメイン認識型プロンプト学習手法であるADAPTを提案する。 ADAPTの基本的な考え方は、入力されたCLIPが入力画像のドメイン対応を検出し、カテゴリの予測を行う前に検出する、というものである。 ADAPTの大規模な実験は、連合学習におけるその顕著な効率性と有効性を示す。 例えば、わずか0.08Mパラメータの学習と共有によって、私たちのADAPTは、DomainNetデータセットの6つのドメインの平均精度68.4%に達し、オリジナルのCLIPを14.8%改善しました。

Prompt learning has recently become a very efficient transfer learning paradigm for Contrastive Language Image Pretraining (CLIP) models. Compared with fine-tuning the entire encoder, prompt learning can obtain highly competitive results by optimizing only a small number of parameters, which presents considerably exciting benefits for federated learning applications that prioritizes communication efficiency. However, in this work, we identify that directly transferring prompt learning approaches into federated learning does not yield favorable results since the model often suffers from considerable domain gaps across different clients. To address this issue, we propose ADAPT, a novel domain-aware prompt learning approach that facilitates both intra- and inter-domain prompts across federated participants. The basic idea of ADAPT is that the prompted CLIP should detect the input image's domain correspondence and before making the prediction of its category. Extensive experiments of ADAPT demonstrate its significant efficiency and effectiveness in federated learning. For example, by learning and sharing only 0.08M parameters, our ADAPT attains a 68.4% average accuracy over six domains in the DomainNet dataset, which improves the original CLIP by a large margin of 14.8%.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# CAST: 信頼性によるタブラルデータに対するクラスタ対応の自己評価

CAST: Cluster-Aware Self-Training for Tabular Data via Reliable Confidence ( http://arxiv.org/abs/2310.06380v3 )

ライセンス: Link先を確認
Minwook Kim, Juseong Kim, Ki Beom Kim, Giltae Song, (参考訳) タブラルデータは最も広く使われているデータモダリティの1つであり、大量のラベルなしデータを含む多数のデータセットを含んでいる。 このような傾向にもかかわらず、グラフ領域でラベルのないデータを利用するための単純で汎用的な手法が欠如しており、勾配決定木とニューラルネットワークの両方が使われている。 この文脈では、単純さと汎用性から自己学習が注目されているが、誤った自信によって引き起こされる偽のラベルに弱い。 この問題に対処するためにいくつかの解が提案されているが、それらはしばしば自己学習の固有の利点を損なうため、表領域では適用性に制限がある。 この問題に対処するために,我々は,自己学習の文脈における信頼感の新たな方向性を探求し,疑似ラベルの値を表す信頼度がクラスタの仮定に一致するようにすることで,自己学習を改善することができると結論づける。 そこで本研究では,既存の自己学習アルゴリズムを簡易性と汎用性を維持しつつ,無視できるコストで拡張する,表型データのためのクラスタアウェア自己学習(CAST)を提案する。 具体的には、ラベル付きトレーニングデータにおいて、各クラス毎の局所密度に基づいて分類器の信頼度を正則化し、低密度領域における擬似ラベルに対する信頼度を低下させることにより、CASTは信頼性を校正する。 最大21の実世界のデータセットに対する大規模な実験的評価は、CASTの優れた性能だけでなく、自己学習コンテキストにおける様々な設定における堅牢性も確認する。

Tabular data is one of the most widely used data modalities, encompassing numerous datasets with substantial amounts of unlabeled data. Despite this prevalence, there is a notable lack of simple and versatile methods for utilizing unlabeled data in the tabular domain, where both gradient-boosting decision trees and neural networks are employed. In this context, self-training has gained attraction due to its simplicity and versatility, yet it is vulnerable to noisy pseudo-labels caused by erroneous confidence. Several solutions have been proposed to handle this problem, but they often compromise the inherent advantages of self-training, resulting in limited applicability in the tabular domain. To address this issue, we explore a novel direction of reliable confidence in self-training contexts and conclude that self-training can be improved by making that the confidence, which represents the value of the pseudo-label, aligns with the cluster assumption. In this regard, we propose Cluster-Aware Self-Training (CAST) for tabular data, which enhances existing self-training algorithms at a negligible cost while maintaining simplicity and versatility. Concretely, CAST calibrates confidence by regularizing the classifier's confidence based on local density for each class in the labeled training data, resulting in lower confidence for pseudo-labels in low-density regions. Extensive empirical evaluations on up to 21 real-world datasets confirm not only the superior performance of CAST but also its robustness in various setups in self-training contexts.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# 潜時ガウス過程モデルに対するVecchia-Laplace近似の反復的手法

Iterative Methods for Vecchia-Laplace Approximations for Latent Gaussian Process Models ( http://arxiv.org/abs/2310.12000v2 )

ライセンス: Link先を確認
Pascal Kündig, Fabio Sigrist, (参考訳) 潜在ガウス過程(GP)モデルは柔軟な確率的非パラメトリック関数モデルである。 ヴェッキア近似はGPが大規模データの計算ボトルネックを克服する正確な近似であり、ラプラス近似は漸近収束性を保証する高速な手法であり、非ガウス的確率に対する近縁確率と後続予測分布を保証している。 残念ながら、コレスキー分解のような直接解法と組み合わせて使う場合、Vecchia-Laplace近似の組み合わせの計算複雑性はサンプルサイズにおいて線形よりも速く増大する。 従って、Vecchia-Laplace近似による計算は、大容量データセット上での近似が通常最も正確な場合、完全に遅くなる。 本稿では,この欠点を克服するための反復的手法を提案する。 そこで我々は,いくつかのプレコンディショナーを導入,解析し,新しい収束結果の導出を行い,予測分散を正確に近似する新しい手法を提案する。 提案手法をシミュレーションおよび実世界のデータを用いて理論的および実験的に解析する。 特に,Coleskyによる計算に比べて桁違いの高速化と連続的なランク付け確率スコアの3倍の予測精度の増大を,大規模な衛星データセット上での最先端手法と比較した。 すべてのメソッドは、ハイレベルなPythonとRパッケージを備えたフリーのC++ソフトウェアライブラリで実装されている。

Latent Gaussian process (GP) models are flexible probabilistic non-parametric function models. Vecchia approximations are accurate approximations for GPs to overcome computational bottlenecks for large data, and the Laplace approximation is a fast method with asymptotic convergence guarantees to approximate marginal likelihoods and posterior predictive distributions for non-Gaussian likelihoods. Unfortunately, the computational complexity of combined Vecchia-Laplace approximations grows faster than linearly in the sample size when used in combination with direct solver methods such as the Cholesky decomposition. Computations with Vecchia-Laplace approximations can thus become prohibitively slow precisely when the approximations are usually the most accurate, i.e., on large data sets. In this article, we present iterative methods to overcome this drawback. Among other things, we introduce and analyze several preconditioners, derive new convergence results, and propose novel methods for accurately approximating predictive variances. We analyze our proposed methods theoretically and in experiments with simulated and real-world data. In particular, we obtain a speed-up of an order of magnitude compared to Cholesky-based calculations and a threefold increase in prediction accuracy in terms of the continuous ranked probability score compared to a state-of-the-art method on a large satellite data set. All methods are implemented in a free C++ software library with high-level Python and R packages.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# 高周波関数とモジュラー算術を学習するグラディエントDescent Fails

Gradient Descent Fails to Learn High-frequency Functions and Modular Arithmetic ( http://arxiv.org/abs/2310.12660v2 )

ライセンス: Link先を確認
Rustem Takhanov, Maxat Tezekbayev, Artur Pak, Arman Bolatov, Zhenisbek Assylbekov, (参考訳) 近似直交要素を多数含む対象関数のクラスは、統計的クエリーアルゴリズムによって学習することが難しいことが知られている。 この古典的な事実は、ニューラルネットワークの勾配に基づく最適化の理論に再燃した。 新たな枠組みでは、クラスの硬さは、通常、対象関数のランダムな選択に対する勾配の分散によって定量化される。 x\to ax \bmod p$($a$は${\mathbb Z}_p$から取られる)という形の関数の集合は、最近ディープラーニング理論家や暗号学者から注目を集めている。 このクラスは${\mathbb Z}$上の$p$-周期関数の部分集合として理解することができ、実数直線上の高周波周期関数のクラスと密接に結びついている。 本稿では、勾配に基づく学習技術を用いて高頻度周期関数やモジュラ乗法を例から学習する際の限界と課題を数学的に解析する。 我々は、周波数または素基底$p$が大きい場合、両方の場合において勾配のばらつきが無視できるほど小さいことを強調する。 これにより、そのような学習アルゴリズムが成功するのを防ぐことができる。

Classes of target functions containing a large number of approximately orthogonal elements are known to be hard to learn by the Statistical Query algorithms. Recently this classical fact re-emerged in a theory of gradient-based optimization of neural networks. In the novel framework, the hardness of a class is usually quantified by the variance of the gradient with respect to a random choice of a target function. A set of functions of the form $x\to ax \bmod p$, where $a$ is taken from ${\mathbb Z}_p$, has attracted some attention from deep learning theorists and cryptographers recently. This class can be understood as a subset of $p$-periodic functions on ${\mathbb Z}$ and is tightly connected with a class of high-frequency periodic functions on the real line. We present a mathematical analysis of limitations and challenges associated with using gradient-based learning techniques to train a high-frequency periodic function or modular multiplication from examples. We highlight that the variance of the gradient is negligibly small in both cases when either a frequency or the prime base $p$ is large. This in turn prevents such a learning algorithm from being successful.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# 完全量子プロトラクタ

Perfect quantum protractors ( http://arxiv.org/abs/2310.13045v2 )

ライセンス: Link先を確認
Michał Piotrak, Marek Kopciuch, Arash Dezhang Fard, Magdalena Smolis, Szymon Pustelny, Kamil Korzekwa, (参考訳) 本稿では、3つの垂直軸の回転の下で3つの直交基底を生成できる完全量子プロトラクタ(純量子状態 $|\psi\rangle\in\mathcal{H}$)の概念を紹介し,検討する。 そのような状態は、角運動量作用素の3つの成分に関して極大不確実性の純粋な状態として理解することができ、そのような不確実性の様々なエントロピーおよび分散に基づく測度を最大化することを示す。 完全量子プロトラクタは、十分に定義された全角運動量$j$の系にしか存在せず、これらは$j\in\{1/2,2,5/2\}$には存在しないが、$j\in\{1,3/2,3\}$には存在することを証明している。 また、完全量子プロトラクタは、軸が$\textit{a priori}$ でないとき、3つの垂直軸のうちの1つで回転の角度(または磁場の強度)を推定するメロジカルなタスクに最適な資源を形成する。 最後に、ルビジウム-87の温水蒸気を用いた実験を行い、スピン-1系のための完璧な量子プロトラクタを作成し、約$x$、$y$、または$z$軸で計算し、その回転角を最適に推定する。

In this paper we introduce and investigate the concept of a perfect quantum protractor, a pure quantum state $|\psi\rangle\in\mathcal{H}$ that generates three different orthogonal bases of $\mathcal{H}$ under rotations around each of the three perpendicular axes. Such states can be understood as pure states of maximal uncertainty with regards to the three components of the angular momentum operator, as we prove that they maximise various entropic and variance-based measures of such uncertainty. We argue that perfect quantum protractors can only exist for systems with a well-defined total angular momentum $j$, and we prove that they do not exist for $j\in\{1/2,2,5/2\}$, but they do exist for $j\in\{1,3/2,3\}$ (with numerical evidence for their existence when $j=7/2$). We also explain that perfect quantum protractors form an optimal resource for a metrological task of estimating the angle of rotation around (or the strength of magnetic field along) one of the three perpendicular axes, when the axis is not $\textit{a priori}$ known. Finally, we demonstrate this metrological utility by performing an experiment with warm atomic vapours of rubidium-87, where we prepare a perfect quantum protractor for a spin-1 system, let it precess around $x$, $y$ or $z$ axis, and then employ it to optimally estimate the rotation angle.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# 1 ユニバーサルAGIアーキテクチャの課題から異種AGIへの体系的アプローチへ--アライメント・エネルギー・AGIグランドチャレンジへの取り組み-

1 From the Pursuit of Universal AGI Architecture to Systematic Approach to Heterogenous AGI: Addressing Alignment, Energy, & AGI Grand Challenges ( http://arxiv.org/abs/2310.15274v2 )

ライセンス: Link先を確認
Eren Kurshan, (参考訳) AIは、エナジーウォール、アライメント問題、ナローAIからAGIへの移行という三大課題に直面している。 現代のAIソリューションは、モデルトレーニングと日々の運用の間、持続不可能な量のエネルギーを消費する。 さらに悪いことに、2020年以降、新しいAIモデルをトレーニングするために必要な計算量は、前例のないエネルギー消費の増加に直結して、倍増している。 AIからAGIへの飛躍は、システムアーキテクチャを必要とするバランスの取れた方法で運用される複数の機能サブシステムを必要とする。 しかし、現在の人工知能のアプローチはシステム設計に欠けており、システムの特徴は人間の脳において重要な役割を担っている。 システム設計はアライメントの鍵であり、AIにおける最も困難な目標の1つです。 この難しさは、人間の道徳体系の複雑さが、同様に高度なアライメントシステムを必要とするという事実に起因している。 これらの中核的な道徳的サブシステムやシステムの複雑さを正確に反映しなければ、AIと人間の価値の整合性はさらに難しくなります。 本稿では,システム設計が大きな課題を克服する上で欠落している部分であると仮定する。 本稿では,AGIにシステム設計原則を適用し,エネルギー壁とアライメントの課題を克服する手段を提供する。 本稿では,AGIアーキテクチャを一意的に構築するのではなく,設計固有の経路を多元的に組み合わせることで,人工知能が実現可能であることを主張する。 AGIシステムは、意図されたユースケースに従って、様々なアーキテクチャ構成と能力を示すことができる。 汎用的なAGIアーキテクチャにのみ集中するのではなく、システム設計原則を指針フレームワークとして採用することに重点を置いている。

AI faces a trifecta of grand challenges: the Energy Wall, the Alignment Problem and the Leap from Narrow AI to AGI. Contemporary AI solutions consume unsustainable amounts of energy during model training and daily operations. Making things worse, the amount of computation required to train each new AI model has been doubling every 2 months since 2020, directly translating to unprecedented increases in energy consumption. The leap from AI to AGI requires multiple functional subsystems operating in a balanced manner, which requires a system architecture. However, the current approach to artificial intelligence lacks system design; even though system characteristics play a key role in the human brain; from the way it processes information to how it makes decisions. System design is the key to alignment, one of the most challenging goals in AI. This difficulty stems from the fact that the complexity of human moral system requires a similarly sophisticated system for alignment. Without accurately reflecting the complexity of these core moral subsystems and systems, aligning AI with human values becomes significantly more challenging. In this paper, we posit that system design is the missing piece in overcoming the grand challenges. We present a Systematic Approach to AGI that utilizes system design principles to AGI, while providing ways to overcome the energy wall and the alignment challenges. This paper asserts that artificial intelligence can be realized through a multiplicity of design-specific pathways, rather than a singular, overarching AGI architecture. AGI systems may exhibit diverse architectural configurations and capabilities, contingent upon their intended use cases. It advocates for a focus on employing system design principles as a guiding framework, rather than solely concentrating on a universal AGI architecture.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# 記事中のサブテキストブロックのコンテンツ価値分布と記事組織化評価への応用

Content Significance Distribution of Sub-Text Blocks in Articles and Its Application to Article-Organization Assessment ( http://arxiv.org/abs/2311.01673v2 )

ライセンス: Link先を確認
You Zhou, Jie Wang, (参考訳) 記事中のサブテキストブロックの意義と、テキストマイニングタスクにどのように使われるかを検討する。 サブテキストブロックは記事中の文のサブシーケンスである。 サブテキストブロックのコンテンツ重要度分布(CSD)の概念を定式化し、CSD-1 で表される第1種類の CSD を定式化する。 特に,Hugging FaceのSentenceTransformerを利用してコンテキスト文の埋め込みを生成し,テキスト埋め込み上でMoverScoreを使用してサブテキストブロックがテキスト全体とどの程度類似しているかを測定する。 サブテキストブロック数の指数関数的爆発を克服するため,近似アルゴリズムを提案し,近似されたCSD-1が正確なCSD-1とほぼ同一であることを示す。 この近似では,ニュース,学術研究,論議,物語記事の平均的,中央値のCSD-1が,同じパターンを共有していることを示す。 また、ある線形変換の下では、ベータ分布の累積分布関数を、ある値 $\alpha$ と $\beta$ が CSD-1 曲線に類似していることが示される。 次に, CSD-1を用いて言語的特徴を抽出し, SVC分類器を訓練し, 記事の整理精度を評価する。 実験により,本手法は学生エッセイ評価の精度が高いことを示す。 さらに,第2種の文章位置のCSDをCSD-2で表し,各種類の記事の平均CSD-2が特徴的パターンを持つことを示す。

We explore how to capture the significance of a sub-text block in an article and how it may be used for text mining tasks. A sub-text block is a sub-sequence of sentences in the article. We formulate the notion of content significance distribution (CSD) of sub-text blocks, referred to as CSD of the first kind and denoted by CSD-1. In particular, we leverage Hugging Face's SentenceTransformer to generate contextual sentence embeddings, and use MoverScore over text embeddings to measure how similar a sub-text block is to the entire text. To overcome the exponential blowup on the number of sub-text blocks, we present an approximation algorithm and show that the approximated CSD-1 is almost identical to the exact CSD-1. Under this approximation, we show that the average and median CSD-1's for news, scholarly research, argument, and narrative articles share the same pattern. We also show that under a certain linear transformation, the complement of the cumulative distribution function of the beta distribution with certain values of $\alpha$ and $\beta$ resembles a CSD-1 curve. We then use CSD-1's to extract linguistic features to train an SVC classifier for assessing how well an article is organized. Through experiments, we show that this method achieves high accuracy for assessing student essays. Moreover, we study CSD of sentence locations, referred to as CSD of the second kind and denoted by CSD-2, and show that average CSD-2's for different types of articles possess distinctive patterns, which either conform common perceptions of article structures or provide rectification with minor deviation.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# SegVol:Universal and Interactive Volumetric Medical Image Segmentation

SegVol: Universal and Interactive Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2311.13385v4 )

ライセンス: Link先を確認
Yuxin Du, Fan Bai, Tiejun Huang, Bo Zhao, (参考訳) 精密画像分割は、臨床研究にインストラクティブ情報を提供する。 医用画像のセグメンテーションにおける顕著な進歩にもかかわらず、ユーザインタラクションが容易な幅広い解剖学的カテゴリをセグメンテーションできる3D基盤セグメンテーションモデルがいまだに存在しない。 本稿では,汎用的でインタラクティブな医用画像分割を支援する3D基盤セグメンテーションモデルであるSegVolを提案する。 トレーニングデータを90Kの未ラベルCTボリュームと6Kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは意味的および空間的プロンプトを用いて200以上の解剖学的カテゴリのセグメンテーションをサポートする。 ボリューム画像の高速かつ正確な推測を容易にするため,ズームアウトズームイン機構を設計する。 22の解剖学的セグメンテーションタスクに関する大規模な実験では、SegVolは19のタスクで競合より優れており、ランナアップ手法と比較して37.24%改善している。 アブレーション研究により, 具体的な設計の有効性と重要性を実証した。 この基盤モデルは,ボリューム医療画像解析の発展を促進することを期待する。 モデルとコードは、https://github.com/BAAI-DCAI/SegVol.comで公開されている。

Precise image segmentation provides clinical study with instructive information. Despite the remarkable progress achieved in medical image segmentation, there is still an absence of a 3D foundation segmentation model that can segment a wide range of anatomical categories with easy user interaction. In this paper, we propose a 3D foundation segmentation model, named SegVol, supporting universal and interactive volumetric medical image segmentation. By scaling up training data to 90K unlabeled Computed Tomography (CT) volumes and 6K labeled CT volumes, this foundation model supports the segmentation of over 200 anatomical categories using semantic and spatial prompts. To facilitate efficient and precise inference on volumetric images, we design a zoom-out-zoom-in mechanism. Extensive experiments on 22 anatomical segmentation tasks verify that SegVol outperforms the competitors in 19 tasks, with improvements up to 37.24% compared to the runner-up methods. We demonstrate the effectiveness and importance of specific designs by ablation study. We expect this foundation model can promote the development of volumetric medical image analysis. The model and code are publicly available at: https://github.com/BAAI-DCAI/SegVol.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# 量子ゲートにおける忠実度-散逸関係

Fidelity-dissipation relations in quantum gates ( http://arxiv.org/abs/2311.15762v2 )

ライセンス: Link先を確認
Tan Van Vu, Tomotaka Kuwahara, Keiji Saito, (参考訳) 正確な量子コンピューティングは、量子ゲートの精度に依存する。 しかし、実際の量子ゲートは一般的に散逸環境の影響を受け、その忠実度は著しく低下する。 本研究では,ジェネリック量子ゲートの平均忠実度と計算過程中に発生する散逸の基本的な関係を解明する。 量子ゲートがマルコフ環境に従属するシナリオを考えると、任意の操作時間を保持する忠実解離関係を厳格に導出する。 興味深いことに、量子ゲートが熱緩和を受けると、その結果は、散逸構造に関する詳細な知識を必要とせず、実験的に測定可能な忠実度を通じて散逸を推定するための貴重なツールとして用いられる。 任意の環境の場合、平均忠実度とエネルギー散逸のトレードオフ関係が明らかとなり、これらの量は同時に大きくならないことが示唆された。 その結果、熱力学と量子コンピューティングの深い関係に光を当て、熱力学によって課される計算上の制限を明らかにした。

Accurate quantum computing relies on the precision of quantum gates. However, quantum gates in practice are generally affected by dissipative environments, which can significantly reduce their fidelity. In this study, we elucidate fundamental relations between the average fidelity of generic quantum gates and the dissipation that occurs during the computing processes. Considering scenarios in which a quantum gate is subject to Markovian environments, we rigorously derive fidelity-dissipation relations that hold for arbitrary operational times. Intriguingly, when the quantum gate undergoes thermal relaxation, the result can be used as a valuable tool for estimating dissipation through experimentally measurable fidelity, without requiring detailed knowledge of the dissipative structure. For the case of arbitrary environments, we uncover a trade-off relation between the average fidelity and energy dissipation, implying that these quantities cannot be large simultaneously. Our results unveil the computational limitations imposed by thermodynamics, shedding light on the profound connection between thermodynamics and quantum computing.
翻訳日:2024-08-30 19:38:30 公開日:2024-08-29
# フィードバック誘発皮膚効果による動的遷移

Dynamical Transition due to Feedback-induced Skin Effect ( http://arxiv.org/abs/2311.16541v3 )

ライセンス: Link先を確認
Ze-Chuan Liu, Kai Li, Yong Xu, (参考訳) 伝統的な動的位相遷移は、観測可能な状態における特異点の出現を、深夜状態に対する制御パラメータや、時間に関するロシミットエコーの速度関数における特異点を指す。 本稿では,開境界条件下での条件フィードバックを伴う連続監視自由フェルミオン系における多体ダイナミクスについて検討する。 時間が進むにつれて、絡み合いのエントロピーの対数的スケーリングから領域法則スケーリングへの新たな動的移行が予想される。 従来の動的相転移と著しく異なる遷移は、バルクダイナミクスと境界皮膚効果の競合から生じる。 さらに, 周期的境界条件下での力学の定常状態に対するエンタングルメント遷移とよく一致する, 時間進化における最大エンタングルメントエントロピーの遷移が生じる。

The traditional dynamical phase transition refers to the appearance of singularities in an observable with respect to a control parameter for a late-time state or singularities in the rate function of the Loschmidt echo with respect to time. Here, we study the many-body dynamics in a continuously monitored free fermion system with conditional feedback under open boundary conditions. We surprisingly find a novel dynamical transition from a logarithmic scaling of the entanglement entropy to an area-law scaling as time evolves. The transition, which is noticeably different from the conventional dynamical phase transition, arises from the competition between the bulk dynamics and boundary skin effects. In addition, we find that while quasidisorder or disorder cannot drive a transition for the steady state, a transition occurs for the maximum entanglement entropy during the time evolution, which agrees well with the entanglement transition for the steady state of the dynamics under periodic boundary conditions.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# DiffiT:画像生成のための拡散ビジョン変換器

DiffiT: Diffusion Vision Transformers for Image Generation ( http://arxiv.org/abs/2312.02139v3 )

ライセンス: Link先を確認
Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat, (参考訳) 高い発現率と高い試料品質を持つ拡散モデルにより, 生成領域における状態-Of-The-Art (SOTA) の性能が向上した。 ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。 本稿では,拡散型生成学習におけるViTの有効性について検討し,拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。 具体的には,認知過程のきめ細かい制御手法を提案し,時間依存型マルチヘッド自己注意(TMSA)機構を導入する。 DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。 また,遅延および画像空間DiffiTモデルを提案し,様々なクラス条件および非条件合成タスクに対して,異なる解像度でSOTA性能を示す。 Latent DiffiTモデルでは、ImageNet256データセットで新しいSOTA FIDスコアが1.73で、MDTやDiTのような他のトランスフォーマーベースの拡散モデルよりも19.85%、16.88%少ないパラメータを持つ。 コード:https://github.com/NVlabs/DiffiT

Diffusion models with their powerful expressivity and high sample quality have achieved State-Of-The-Art (SOTA) performance in the generative domain. The pioneering Vision Transformer (ViT) has also demonstrated strong modeling capabilities and scalability, especially for recognition tasks. In this paper, we study the effectiveness of ViTs in diffusion-based generative learning and propose a new model denoted as Diffusion Vision Transformers (DiffiT). Specifically, we propose a methodology for finegrained control of the denoising process and introduce the Time-dependant Multihead Self Attention (TMSA) mechanism. DiffiT is surprisingly effective in generating high-fidelity images with significantly better parameter efficiency. We also propose latent and image space DiffiT models and show SOTA performance on a variety of class-conditional and unconditional synthesis tasks at different resolutions. The Latent DiffiT model achieves a new SOTA FID score of 1.73 on ImageNet256 dataset while having 19.85%, 16.88% less parameters than other Transformer-based diffusion models such as MDT and DiT,respectively. Code: https://github.com/NVlabs/DiffiT
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# 不確実性に基づく公正度対策

Uncertainty-based Fairness Measures ( http://arxiv.org/abs/2312.11299v2 )

ライセンス: Link先を確認
Selim Kuzucu, Jiaee Cheong, Hatice Gunes, Sinan Kalkan, (参考訳) 機械学習(ML)モデルの異常予測は、現実の環境で広く受け入れられることを妨げる。 この困難な課題に対処するには、まずMLモデルが公正であることの意味を定義する必要がある。 これは、MLモデルの予測結果、グループレベルまたは個人レベルでの予測結果に依存する様々な公平性の尺度によって、MLコミュニティによって対処されてきた。 これらの公正度対策は、点予測を利用し、分散や不確実性を無視し、ノイズ、欠落、データのシフトに影響を受けやすいという点で制限されている。 本稿では,MLモデルが既存の点ベース公正度尺度と同等であるように見えるが,予測の不確実性の観点からは人口集団に偏っていることを示す。 そこで本研究では,アレータティック不確実性とてんかん不確実性という,異なるタイプの不確実性に基づく新たな公正度対策を導入する。 私たちは多くのデータセットを実演します (i)我々の不確実性に基づく措置は、既存の公正度対策と相補的であり、 (ii) バイアスにつながる根底にある問題について、より深い洞察を提供する。

Unfair predictions of machine learning (ML) models impede their broad acceptance in real-world settings. Tackling this arduous challenge first necessitates defining what it means for an ML model to be fair. This has been addressed by the ML community with various measures of fairness that depend on the prediction outcomes of the ML models, either at the group level or the individual level. These fairness measures are limited in that they utilize point predictions, neglecting their variances, or uncertainties, making them susceptible to noise, missingness and shifts in data. In this paper, we first show that an ML model may appear to be fair with existing point-based fairness measures but biased against a demographic group in terms of prediction uncertainties. Then, we introduce new fairness measures based on different types of uncertainties, namely, aleatoric uncertainty and epistemic uncertainty. We demonstrate on many datasets that (i) our uncertainty-based measures are complementary to existing measures of fairness, and (ii) they provide more insights about the underlying issues leading to bias.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# 直交平面交絡と多視点幾何整合知覚による360レイアウト推定

360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception ( http://arxiv.org/abs/2312.16268v2 )

ライセンス: Link先を確認
Zhijie Shen, Chunyu Lin, Junsong Zhang, Lang Nie, Kang Liao, Yao Zhao, (参考訳) 既存のパノラマ配置推定ソリューションは、垂直に圧縮されたシーケンスから部屋の境界を復元する傾向があり、圧縮過程が様々な平面間のセマンティクスを混乱させるため、不正確な結果をもたらす。 さらに、これらのデータ駆動アプローチは、膨大なデータアノテーションを緊急に要求する。 まず,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。 DOPNetは、歪みのないセマンティックスクリーンな表現を提供するために統合された3つのモジュールで構成される。 2つ目の問題として、水平深度と比表現に適した教師なし適応手法を提案する。 具体的には,複数視点にまたがる幾何的整合性を完全に活用するために,決定レベルレイアウト解析のための最適化戦略と特徴レベル多視点集約のための1次元コストボリューム構築手法を導入する。 このオプティマイザは、ネットワークトレーニングのための信頼性の高い擬似ラベルセットを提供する一方、1Dコストボリュームは他の視点から派生した総合的なシーン情報で各ビューを豊かにする。 大規模実験により,本手法は単分子配置推定と多視点レイアウト推定の両方において,他のSoTAモデルよりも優れていることが示された。 Cobeはhttps://github.com/zhijieshen-bjtu/MV-DOPNet.comで入手できる。

Existing panoramic layout estimation solutions tend to recover room boundaries from a vertically compressed sequence, yielding imprecise results as the compression process often muddles the semantics between various planes. Besides, these data-driven approaches impose an urgent demand for massive data annotations, which are laborious and time-consuming. For the first problem, we propose an orthogonal plane disentanglement network (termed DOPNet) to distinguish ambiguous semantics. DOPNet consists of three modules that are integrated to deliver distortion-free, semantics-clean, and detail-sharp disentangled representations, which benefit the subsequent layout recovery. For the second problem, we present an unsupervised adaptation technique tailored for horizon-depth and ratio representations. Concretely, we introduce an optimization strategy for decision-level layout analysis and a 1D cost volume construction method for feature-level multi-view aggregation, both of which are designed to fully exploit the geometric consistency across multiple perspectives. The optimizer provides a reliable set of pseudo-labels for network training, while the 1D cost volume enriches each view with comprehensive scene information derived from other perspectives. Extensive experiments demonstrate that our solution outperforms other SoTA models on both monocular layout estimation and multi-view layout estimation tasks. Cobe can be available at https://github.com/zhijieshen-bjtu/MV-DOPNet.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# Lift-Connected Surface Codes

Lift-Connected Surface Codes ( http://arxiv.org/abs/2401.02911v2 )

ライセンス: Link先を確認
Josias Old, Manuel Rispler, Markus Müller, (参考訳) 我々は最近導入されたリフト製品を使用して、量子低密度パリティチェックコード(QLDPCコード)のファミリーを構築します。 私たちが取得したコードは、相互接続された表面コードのスタックと見なすことができ、リフト接続された表面コード (LCS) という名前に繋がる。 LCSコードは幅広いパラメータを提供しますが、特に注目すべき特徴は、標準的なサーフェスコードと比較して、興味深い特性を示すことです。 例えば、テンソルの順序で既に適度な物理量子ビット数において、同じ大きさのLCS符号は論理的誤り率が低いか、または同様に、固定されたターゲット論理的誤り率に対してより少ない量子ビットを必要とする。 本稿では,コードキャパシティと現象ノイズを考慮した論理誤差率の数値シミュレーションを行い,その構成と解析を行った。 これらの結果から、LCS符号は対応する(非連結)曲面符号のコピーに匹敵する閾値に達し、論理誤差率は、同じパラメータを持つ代表者であっても桁違いに小さくなることが示された。 これは、既に小さなキュービット数で近代的な製品構築の可能性を示すコードファミリを提供する。 その3Dローカル接続性は、特に短期的な実装に関係している。

We use the recently introduced lifted product to construct a family of Quantum Low Density Parity Check Codes (QLDPC codes). The codes we obtain can be viewed as stacks of surface codes that are interconnected, leading to the name lift-connected surface (LCS) codes. LCS codes offer a wide range of parameters - a particularly striking feature is that they show interesting properties that are favorable compared to the standard surface code. For example, already at moderate numbers of physical qubits in the order of tens, LCS codes of equal size have lower logical error rate or similarly, require fewer qubits for a fixed target logical error rate. We present and analyze the construction and provide numerical simulation results for the logical error rate under code capacity and phenomenological noise. These results show that LCS codes attain thresholds that are comparable to corresponding (non-connected) copies of surface codes, while the logical error rate can be orders of magnitude lower, even for representatives with the same parameters. This provides a code family showing the potential of modern product constructions at already small qubit numbers. Their amenability to 3D-local connectivity renders them particularly relevant for near-term implementations.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# サーベイランスビデオのための飛行鳥物体検出法

A Flying Bird Object Detection Method for Surveillance Video ( http://arxiv.org/abs/2401.03749v3 )

ライセンス: Link先を確認
Ziwei Sun, Zexi Hua, Hengchao Li, Yan Li, (参考訳) 本報告では, 監視映像における空飛ぶ鳥の物体の特異な特徴, 単一フレーム画像の特徴, ほとんどの場合の小型化, 非対称な形状などに着目し, 監視映像を対象としたFBOD-SV(Flying Bird Object Detection method for Surveillance Video)を提案する。 まず,複数の画像の連続的なフレーム上での鳥物体の相関に基づいて,飛来する鳥物体の特徴を集約するために,新たな特徴集約モジュールである相関注意特徴集合(Co-Attention-FA)モジュールを設計した。 次に,Flying Bird Object Detection Network (FBOD-Net) のダウンサンプリングとアップサンプリングを併用して設計した。 最後に,SimOTA動的ラベルアロケーション手法をワンカテゴリオブジェクト検出に適用し,不規則飛行鳥によるラベルアロケーションの難しさを解決するため,SimOTA動的ラベル戦略を提案する。 本稿では,FBOD-SVの性能を,トラクション・サブステーション監視ビデオにおけるフライング・バード・オブジェクトのデータセットを用いて検証した。 実験結果から,FBOD-SVは監視ビデオにおいて飛来する鳥の物体の検出性能を効果的に向上することが示された。

Aiming at the specific characteristics of flying bird objects in surveillance video, such as the typically non-obvious features in single-frame images, small size in most instances, and asymmetric shapes, this paper proposes a Flying Bird Object Detection method for Surveillance Video (FBOD-SV). Firstly, a new feature aggregation module, the Correlation Attention Feature Aggregation (Co-Attention-FA) module, is designed to aggregate the features of the flying bird object according to the bird object's correlation on multiple consecutive frames of images. Secondly, a Flying Bird Object Detection Network (FBOD-Net) with down-sampling followed by up-sampling is designed, which utilizes a large feature layer that fuses fine spatial information and large receptive field information to detect special multi-scale (mostly small-scale) bird objects. Finally, the SimOTA dynamic label allocation method is applied to One-Category object detection, and the SimOTA-OC dynamic label strategy is proposed to solve the difficult problem of label allocation caused by irregular flying bird objects. In this paper, the performance of the FBOD-SV is validated using experimental datasets of flying bird objects in traction substation surveillance videos. The experimental results show that the FBOD-SV effectively improves the detection performance of flying bird objects in surveillance video.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# 行動予測のためのテキスト入力モーダリティの有効性について

On the Efficacy of Text-Based Input Modalities for Action Anticipation ( http://arxiv.org/abs/2401.12972v3 )

ライセンス: Link先を確認
Apoorva Beedu, Harish Haresamudram, Karan Samel, Irfan Essa, (参考訳) 将来の行動を予測することは、潜在的な将来の行動の多様性と規模のために非常に難しい課題である。 各モダリティは、モデルから学ぶための多様かつしばしば相補的なコンテキストを提供することができる。 従来のマルチモーダル手法では,映像や音声などのモダリティからの情報を活用するが,アクションやオブジェクトのテキスト記述が,環境とその内容に関する追加の文脈的手がかりを提供することによって,より正確なアクション予測に結びつくかを検討する。 本稿ではマルチモーダル・コントラスト・予測変換器(M-CAT)を提案する。 まず、モデルがビデオクリップを将来のアクションの説明に合わせることを学習し、その後、将来のアクションを予測するために微調整する。 既存の手法と比較して、M-CATは2種類のテキスト入力から追加のコンテキストを学習する利点がある。 実験により,EpicKitchensデータセットの従来の手法よりも優れていることを示すとともに,アクションやオブジェクトの簡単なテキスト記述を用いることで,より効果的なアクション予測が可能になることを示す。 さらに,テキストから得られた対象情報と行動情報の影響について検討し,広範囲にわたる改善を行う。

Anticipating future actions is a highly challenging task due to the diversity and scale of potential future actions; yet, information from different modalities help narrow down plausible action choices. Each modality can provide diverse and often complementary context for the model to learn from. While previous multi-modal methods leverage information from modalities such as video and audio, we primarily explore how text descriptions of actions and objects can also lead to more accurate action anticipation by providing additional contextual cues, e.g., about the environment and its contents. We propose a Multi-modal Contrastive Anticipative Transformer (M-CAT), a video transformer architecture that jointly learns from multi-modal features and text descriptions of actions and objects. We train our model in two stages, where the model first learns to align video clips with descriptions of future actions, and is subsequently fine-tuned to predict future actions. Compared to existing methods, M-CAT has the advantage of learning additional context from two types of text inputs: rich descriptions of future actions during pre-training, and, text descriptions for detected objects and actions during modality feature fusion. Through extensive experimental evaluation, we demonstrate that our model outperforms previous methods on the EpicKitchens datasets, and show that using simple text descriptions of actions and objects aid in more effective action anticipation. In addition, we examine the impact of object and action information obtained via text, and perform extensive ablations.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# 超伝導多軌道モデルにおける混合高次トポロジーとノードレスフラットバンドトポロジー相

Mixed higher-order topology and nodal and nodeless flat band topological phases in a superconducting multiorbital model ( http://arxiv.org/abs/2402.00556v2 )

ライセンス: Link先を確認
Rodrigo Arouca, Tanay Nag, Annica M. Black-Schaffer, (参考訳) 従来のスピンシングレット$s$-wave超伝導の存在下でのBenalcazar-Bernevig-Hughesモデル(BBH)の軌道バージョンに現れる位相位相について検討し,平面内磁場のチューニングの可能性を検討した。 我々は、異なる境界条件を考慮し、各位相の位相をワニエスペクトルとエンタングルメントスペクトルとマヨラナ偏光の両方を考慮し、位相図をチャート化する。 磁場と超伝導ペアリング振幅の弱い値に対して、8つのゼロエネルギーコーナーモードを持つ2階のトポロジカル超伝導相を求める。 さらに拡大する場やペアリングにより、コーナー状態の半分はゼロエネルギーのエッジ局所化モードに変換され、それによってハイブリッド秩序相が形成される。 すると、2つの異なる一階位相位相位相位相、ノルダール位相とノードレス位相が、ミラー対称開辺に沿って局在するゼロエネルギーフラットバンドを持つ。 結節位相では、フラットバンドは相互空間のノード間で局所化されるが、ノードレス位相では、その完全なバルクギャップを持ち、ゼロエネルギー境界フラットバンドはブリルアンゾーン全体にまたがる。

We investigate the topological phases that appear in an orbital version of the Benalcazar-Bernevig-Hughes (BBH) model in the presence of conventional spin-singlet $s$-wave superconductivity and with the possibility of tuning an in-plane magnetic field. We chart out the phase diagram by considering different boundary conditions, with the topology of the individual phases further examined by considering both the Wannier and entanglement spectra, as well as the Majorana polarization. For weak to moderate values of magnetic field and superconducting pairing amplitude, we find a second-order topological superconductor phase with eight zero-energy corner modes. Further increasing field or pairing, half of the corner states can be turned into zero-energy edge-localized modes, thus forming a type of hybrid-order phase. Then, we find two different putative first-order topological phases, a nodal and a nodeless phase, both with zero-energy flat bands localized along mirror-symmetric open edges. For the nodal phase, the flat bands are localized between the nodes in reciprocal space, while in the nodeless phase, with its a full bulk gap, the zero-energy boundary flat band spans the whole Brillouin zone.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# LLMは構造化グラフ推論を実行できるか?

Can LLMs perform structured graph reasoning? ( http://arxiv.org/abs/2402.01805v4 )

ライセンス: Link先を確認
Palaash Agrawal, Shavak Vasania, Cheston Tan, (参考訳) 事前訓練された大規模言語モデル(LLM)は、言語ベースのプロンプトだけで、特に非構造化タスク設定(純粋に言語意味論に基づくタスク)において、様々な推論能力を示している。 しかし、LLMは入力表現の固有の非互換性のため、しばしば構造化されたタスクと競合する。 構造化されたタスクを一次元の言語セマンティクスに還元することは、しばしば問題を簡単なものにする。 本稿では,LLMとの互換性と構造複雑性を念頭に置いて,様々なグラフ推論タスクを半構造化タスクのプロキシとして設計する。 特に,グラフトラバーサルの10の異なる問題を設計し,それぞれが複雑性のレベルを表わすとともに,上記のタスクに対して5つの異なるインストラクトファイントゥンドLLM(GPT-4,GPT-3.5,Claude-2,Llama-2,Palm-2)をベンチマークする。 さらに、グラフのサイズやkショットプロンプトの形式など、さまざまな設定でモデルの性能を分析する。 例えば、グラフ内のノード毎のトラバース自由度の平均値に対する逆関係、グラフ推論タスクにおけるkショットの全体的な負の影響、LLMが有効な解の欠如を識別するのを防ぐ正の応答バイアスなどである。 最後に,グラフトラバーサルタスク(PathCompare)に特化して設計された新しいプロンプト技術を導入し,Chain-of-Thought(CoT)などの標準プロンプト技術と比較してLCMの性能が顕著に向上したことを示す。

Pretrained Large Language Models (LLMs) have demonstrated various reasoning capabilities through language-based prompts alone, particularly in unstructured task settings (tasks purely based on language semantics). However, LLMs often struggle with structured tasks, because of the inherent incompatibility of input representation. Reducing structured tasks to uni-dimensional language semantics often renders the problem trivial. Keeping the trade-off between LLM compatibility and structure complexity in mind, we design various graph reasoning tasks as a proxy to semi-structured tasks in this paper, in order to test the ability to navigate through representations beyond plain text in various LLMs. Particularly, we design 10 distinct problems of graph traversal, each representing increasing levels of complexity, and benchmark 5 different instruct-finetuned LLMs (GPT-4, GPT-3.5, Claude-2, Llama-2 and Palm-2) on the aforementioned tasks. Further, we analyse the performance of models across various settings such as varying sizes of graphs as well as different forms of k-shot prompting. We highlight various limitations, biases and properties of LLMs through this benchmarking process, such as an inverse relation to the average degrees of freedom of traversal per node in graphs, the overall negative impact of k-shot prompting on graph reasoning tasks, and a positive response bias which prevents LLMs from identifying the absence of a valid solution. Finally, we introduce a new prompting technique specially designed for graph traversal tasks (PathCompare), which demonstrates a notable increase in the performance of LLMs in comparison to standard prompting techniques such as Chain-of-Thought (CoT).
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# 異常なポーズにおける物体認識における人間とAIの比較

A comparison between humans and AI at recognizing objects in unusual poses ( http://arxiv.org/abs/2402.03973v2 )

ライセンス: Link先を確認
Netta Ollikka, Amro Abbas, Andrea Perin, Markku Kilpeläinen, Stéphane Deny, (参考訳) ディープラーニングは、いくつかのオブジェクト認識ベンチマークにおける人間のビジョンとのギャップを埋めようとしている。 ここでは、このギャップを、異常なポーズで物体が見える挑戦的な画像に対して検討する。 人間はそのようなポーズで物体を認識するのが得意である。 対照的に、最先端のビジョン用ディープネットワーク(EfficientNet, SWAG, ViT, SWIN, BEiT, ConvNext)と最先端の大規模ビジョン言語モデル(Claude 3.5, Gemini 1.5, GPT-4)は異常なポーズで系統的に不安定である。 画像の露出時間を制限すると、人間のパフォーマンスはディープネットワークのレベルに低下し、異常なポーズで物体を識別するために追加の精神的プロセス(追加の時間を必要とする)が必要であることを示唆する。 人間とネットワークのエラーパターンの分析により、時間制限された人間でさえ、フィードフォワードのディープネットワークと異なることが判明した。 結論として、人間と深層ネットワークは、異常なポーズで物体を認識するための異なるメカニズムに依存していることが明らかとなった。 余分な視聴時間の間に起こる精神過程の性質を理解することは、サイリコにおける人間の視覚の堅牢さを再現する鍵となるかもしれない。

Deep learning is closing the gap with human vision on several object recognition benchmarks. Here we investigate this gap for challenging images where objects are seen in unusual poses. We find that humans excel at recognizing objects in such poses. In contrast, state-of-the-art deep networks for vision (EfficientNet, SWAG, ViT, SWIN, BEiT, ConvNext) and state-of-the-art large vision-language models (Claude 3.5, Gemini 1.5, GPT-4) are systematically brittle on unusual poses, with the exception of Gemini showing excellent robustness in that condition. As we limit image exposure time, human performance degrades to the level of deep networks, suggesting that additional mental processes (requiring additional time) are necessary to identify objects in unusual poses. An analysis of error patterns of humans vs. networks reveals that even time-limited humans are dissimilar to feed-forward deep networks. In conclusion, our comparison reveals that humans and deep networks rely on different mechanisms for recognizing objects in unusual poses. Understanding the nature of the mental processes taking place during extra viewing time may be key to reproduce the robustness of human vision in silico.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# Web 3.0ネットワークのための長距離自由空間量子セキュアダイレクト通信

Novel Long Distance Free Space Quantum Secure Direct Communication for Web 3.0 Networks ( http://arxiv.org/abs/2402.09108v5 )

ライセンス: Link先を確認
Yifan Zhou, Xinlin Zhou, Zi Yan Li, Yew Kee Wong, Yan Shing Liang, (参考訳) Web 3.0の出現により、技術の急速な進歩は、量子コンピューティングによる差し迫った脅威に直面している。 Web 2.0とWeb 3.0の完全性を保護しているセキュリティプロトコルは、量子攻撃と高度な古典的脅威の両方に対して、より影響を受けやすいようになってきている。 本稿では、量子および古典的文脈におけるセキュリティ侵害の防止方法として、我々の新しい長距離自由空間量子セキュアダイレクト通信(LF QSDC)を紹介する。 LF QSDCは量子鍵分布(QKD)のような技術と異なり、暗号化されたデータ転送が鍵交換を妨害し、鍵ベースのシステム固有の弱点を減らし、制約を超える。 この属性の特異性は、量子力学ベースと相まって、量子コンピュータの暴行や高度な非量子危険から保護し、Web 3.0時代の信頼できないテネットとシームレスに調和する。 本研究の焦点は、LF QSDCのWeb 3.0ネットワークインフラストラクチャへの技術設計と導入であり、拡張範囲通信の有効性を強調している。 LF QSDCは、メモリDL04プロトコルに基づいており、我々の新しい量子認識低密度パリティチェック(LDPC)、ポインティング、取得、追跡(PAT)技術、およびAQCAによって拡張されている。 この手法を利用することで、世界中のWeb 3.0ネットワークのセキュリティを高めるだけでなく、量子的および洗練された古典的脅威が同時に存在する時代にも、その持続性を保証する。 その結果、LF QSDCは、常に進化するデジタル環境の中で、Web 3.0システムに適した堅牢なセキュリティソリューションとして際立っている。

With the advent of Web 3.0, the swift advancement of technology confronts an imminent threat from quantum computing. Security protocols safeguarding the integrity of Web 2.0 and Web 3.0 are growing more susceptible to both quantum attacks and sophisticated classical threats. The article introduces our novel long-distance free-space quantum secure direct communication (LF QSDC) as a method to safeguard against security breaches in both quantum and classical contexts. Differing from techniques like quantum key distribution (QKD), LF QSDC surpasses constraints by facilitating encrypted data transmission sans key exchanges, thus diminishing the inherent weaknesses of key-based systems. The distinctiveness of this attribute, coupled with its quantum mechanics base, protects against quantum computer assaults and advanced non-quantum dangers, harmonizing seamlessly with the untrustworthy tenets of the Web 3.0 age. The focus of our study is the technical design and incorporation of LF QSDC into web 3.0 network infrastructures, highlighting its efficacy for extended-range communication. LF QSDC is based on the memory DL04 protocol and enhanced with our novel Quantum-Aware Low-Density Parity Check (LDPC), Pointing, Acquisition, and Tracking (PAT) technologies, and Atmospheric Quantum Correction Algorithm (AQCA). Utilizing this method not only bolsters the security of worldwide Web 3.0 networks but also guarantees their endurance in a time when quantum and sophisticated classical threats exist simultaneously. Consequently, LF QSDC stands out as a robust security solution, well-suited for Web 3.0 systems amidst the constantly evolving digital environment.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# PsychoGAT : LLMエージェントを用いたインタラクティブフィクションゲームによる新しい心理測定パラダイム

PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents ( http://arxiv.org/abs/2402.12326v2 )

ライセンス: Link先を確認
Qisen Yang, Zekun Wang, Honghui Chen, Shenzhi Wang, Yifan Pu, Xin Gao, Wenhao Huang, Shiji Song, Gao Huang, (参考訳) 心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。 自己報告尺度や心理学者のインタビューのような伝統的な手法は、しばしばエンゲージメントとアクセシビリティの課題に直面している。 ゲームベースおよびLLMベースのツールは、ユーザの関心を改善し、評価を自動化するために研究されているが、汎用性とエンゲージメントのバランスをとるのに苦労している。 本研究では,心理学的アセスメントの一般的なゲーミフィケーションを実現するために,サイコGAT(サイコロジカルゲームアジェント)を提案する。 主な洞察は、強力なLSMは、アドレプト心理学者と革新的なゲームデザイナーの両方として機能できるということである。 LLMエージェントを指定された役割に組み込んで、それらのインタラクションを慎重に管理することにより、サイコガトは標準化されたスケールをパーソナライズされ、魅力的なインタラクティブフィクションゲームに変換することができる。 提案手法の有効性を評価するために心理測定評価を行い, 抑うつ, 認知的歪み, 性格特性など, 様々な心理的構成物にまたがって生成された内容を調べるために, 人体評価装置を用いた。 その結果,サイコGATは信頼性,収束妥当性,差別的妥当性などの心理的指標において統計的に有意な卓越性を達成し,効果的な評価ツールとして機能することが示唆された。 さらに、人間の評価は、サイコGATのコンテンツコヒーレンス、対話性、興味、浸漬、満足度の向上を裏付けるものである。

Psychological measurement is essential for mental health, self-understanding, and personal development. Traditional methods, such as self-report scales and psychologist interviews, often face challenges with engagement and accessibility. While game-based and LLM-based tools have been explored to improve user interest and automate assessment, they struggle to balance engagement with generalizability. In this work, we propose PsychoGAT (Psychological Game AgenTs) to achieve a generic gamification of psychological assessment. The main insight is that powerful LLMs can function both as adept psychologists and innovative game designers. By incorporating LLM agents into designated roles and carefully managing their interactions, PsychoGAT can transform any standardized scales into personalized and engaging interactive fiction games. To validate the proposed method, we conduct psychometric evaluations to assess its effectiveness and employ human evaluators to examine the generated content across various psychological constructs, including depression, cognitive distortions, and personality traits. Results demonstrate that PsychoGAT serves as an effective assessment tool, achieving statistically significant excellence in psychometric metrics such as reliability, convergent validity, and discriminant validity. Moreover, human evaluations confirm PsychoGAT's enhancements in content coherence, interactivity, interest, immersion, and satisfaction.
翻訳日:2024-08-30 19:28:43 公開日:2024-08-29
# TEncDM:言語モデル符号化空間における拡散モデルの性質の理解

TEncDM: Understanding the Properties of Diffusion Model in the Space of Language Model Encodings ( http://arxiv.org/abs/2402.19097v2 )

ライセンス: Link先を確認
Alexander Shabalin, Viacheslav Meshchaninov, Egor Chimbulatov, Vladislav Lapikov, Roman Kim, Grigory Bartosh, Dmitry Molchanov, Sergey Markov, Dmitry Vetrov, (参考訳) 本稿では,テキスト符号化拡散モデル(TEncDM, Text Encoding Diffusion Model)を提案する。 従来の埋め込みとは対照的に、エンコーディングは文脈情報を統合する。 このアプローチでは,トークン予測プロセスにコンテキストを組み込むように設計されたトランスフォーマーベースのデコーダも採用しています。 ゼロショット生成におけるエンコーダ,デコーダ,ノイズスケジューラ,セルフコンディショニングの影響を総合的に検討する。 さらに,TEncDMと3つの条件付きテキスト生成タスク(QQP,XSum,Wiki-Auto)の比較を行った。 その結果,TEncDMは既存の非自己回帰拡散モデルと比較して優れた性能を示した。

This paper presents the Text Encoding Diffusion Model (TEncDM), a novel approach to diffusion modeling that operates in the space of pre-trained language model encodings. In contrast to traditionally used embeddings, encodings integrate contextual information. In our approach, we also employ a transformer-based decoder, specifically designed to incorporate context in the token prediction process. We conduct a comprehensive examination of the influence of the encoder, decoder, noise scheduler, and self-conditioning on zero-shot generation. Furthermore, we compare TEncDM with previous approaches on three conditional text generation tasks: QQP, XSum, and Wiki-Auto. The results show that TEncDM exhibits superior performance compared to existing non-autoregressive diffusion models.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# トポロジカルサンプル選択によるグラフ上のラベルノイズの緩和

Mitigating Label Noise on Graph via Topological Sample Selection ( http://arxiv.org/abs/2403.01942v4 )

ライセンス: Link先を確認
Yuhao Wu, Jiangchao Yao, Xiaobo Xia, Jun Yu, Ruxin Wang, Bo Han, Tongliang Liu, (参考訳) 慎重に注釈付けされたベンチマークの成功にもかかわらず、実世界のグラフデータが騒々しくラベル付けされている場合、既存のグラフニューラルネットワーク(GNN)の有効性は著しく損なわれる可能性がある。 従来, サンプル選択の探索は, ノイズラベルを用いた頑健な学習の有効な方法として実証されてきたが, 従来の研究はi.dデータに重点を置いており, 非idグラフデータやGNNに移行する際には, 1) トポロジカルなクラス境界付近のノードは分類に非常に有用であるが, ヒューリスティックなサンプル選択では区別できない。 2) グラフにおけるサンプル選択を促進するために, グラフトポロジ情報を考慮した指標は存在しない。 このジレンマに対処するために、トポロジ的情報を利用してグラフ内の情報的サンプル選択プロセスを促進する$\textit{Topological Sample Selection}$ (TSS)法を提案する。 提案手法は,対象のクリーン分布下での予測されるリスク上限の上限を最小化し,最先端のベースラインと比較して,提案手法の優位性を実験的に示す。

Despite the success of the carefully-annotated benchmarks, the effectiveness of existing graph neural networks (GNNs) can be considerably impaired in practice when the real-world graph data is noisily labeled. Previous explorations in sample selection have been demonstrated as an effective way for robust learning with noisy labels, however, the conventional studies focus on i.i.d data, and when moving to non-iid graph data and GNNs, two notable challenges remain: (1) nodes located near topological class boundaries are very informative for classification but cannot be successfully distinguished by the heuristic sample selection. (2) there is no available measure that considers the graph topological information to promote sample selection in a graph. To address this dilemma, we propose a $\textit{Topological Sample Selection}$ (TSS) method that boosts the informative sample selection process in a graph by utilising topological information. We theoretically prove that our procedure minimizes an upper bound of the expected risk under target clean distribution, and experimentally show the superiority of our method compared with state-of-the-art baselines.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# 量子スカイミオンによる雑音の位相的拒絶

Topological rejection of noise by quantum skyrmions ( http://arxiv.org/abs/2403.02031v2 )

ライセンス: Link先を確認
Pedro Ornelas, Isaac Nape, Robert De Mello Koch, Andrew Forbes, (参考訳) 量子情報処理と通信の文脈におけるオープンな課題は、現実のシナリオにおける深刻な障害であるノイズの環境貢献に対する量子情報の堅牢性を改善することである。 ここでは、典型的絡み合いの証人や状態崩壊の測度のように、量子天空とその非局所的な位相観測物は、ノイズに対して回復力を持つことを示す。 これにより、新しい離散的な位相量子オブザーバブルに基づく量子情報のデジタル化の概念を導入し、絡み合いの堅牢性の必要性を先導することができる。 我々は、トポロジカルな振る舞いの背後にある量子機構を解き放つ完全な理論的な処理で実験を補完し、トポロジがロバスト性をもたらす理由を説明する。 我々のアプローチは、トポロジによる固有量子情報レジリエンスのエキサイティングな約束であり、グローバル量子ネットワークやノイズ量子コンピュータのような現実世界のシステムに適用できる。

An open challenge in the context of quantum information processing and communication is improving the robustness of quantum information to environmental contributions of noise, a severe hindrance in real-world scenarios. Here, we show that quantum skyrmions and their nonlocal topological observables remain resilient to noise even as typical entanglement witnesses and measures of the state decay. This allows us to introduce the notion of digitization of quantum information based on our new discrete topological quantum observables, foregoing the need for robustness of entanglement. We compliment our experiments with a full theoretical treatment that unlocks the quantum mechanisms behind the topological behaviour, explaining why the topology leads to robustness. Our approach holds exciting promise for intrinsic quantum information resilience through topology, highly applicable to real-world systems such as global quantum networks and noisy quantum computers.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# ファジィロー法則誘導のための新しいアルゴリズムFRRI

FRRI: a novel algorithm for fuzzy-rough rule induction ( http://arxiv.org/abs/2403.04447v2 )

ライセンス: Link先を確認
Henri Bollaert, Marko Palangetić, Chris Cornelis, Salvatore Greco, Roman Słowiński, (参考訳) 解釈可能性(Interpretability)は、機械学習研究の次のフロンティアである。 ランダムな森林やニューラルネットワークのようなブラックボックスモデルとは対照的に、ホワイトボックスモデルの検索では、ルール誘導アルゴリズムは論理的で有望な選択肢である。 ファジィと粗い集合論は、ほぼ常に別々に、このアーチタイプにうまく適用されてきた。 どちらのルール帰納法も同値クラスの概念に基づく粒度の計算を伴っているため、それらを組み合わせることは自然である。 QuickRules\cite{JensenCornelis2009} アルゴリズムは、ファジィ粗セット理論をルール帰納法に利用するための最初の試みである。 QuickReductは、意思決定リダクトを構築するための欲張りのアルゴリズムである。 QuickRulesは、他のルール誘導方法よりも改善されている。 しかし、ファジィ粗規則誘導アルゴリズムの潜在能力を評価するためには、基礎から始める必要がある。 本稿ではファジィラフルール誘導(FRRI)と呼ばれる新しいルール誘導アルゴリズムを提案する。 アルゴリズムの背景と動作を説明します。 さらに,アルゴリズムの性能評価のための計算実験を行い,これを他の最先端ルール帰納手法と比較する。 比較的短いルールからなる小さなルールセットを作成しながら、我々のアルゴリズムはより正確であることがわかった。 今後の仕事の方向性を概説して、論文を締めくくります。

Interpretability is the next frontier in machine learning research. In the search for white box models - as opposed to black box models, like random forests or neural networks - rule induction algorithms are a logical and promising option, since the rules can easily be understood by humans. Fuzzy and rough set theory have been successfully applied to this archetype, almost always separately. As both approaches to rule induction involve granular computing based on the concept of equivalence classes, it is natural to combine them. The QuickRules\cite{JensenCornelis2009} algorithm was a first attempt at using fuzzy rough set theory for rule induction. It is based on QuickReduct, a greedy algorithm for building decision reducts. QuickRules already showed an improvement over other rule induction methods. However, to evaluate the full potential of a fuzzy rough rule induction algorithm, one needs to start from the foundations. In this paper, we introduce a novel rule induction algorithm called Fuzzy Rough Rule Induction (FRRI). We provide background and explain the workings of our algorithm. Furthermore, we perform a computational experiment to evaluate the performance of our algorithm and compare it to other state-of-the-art rule induction approaches. We find that our algorithm is more accurate while creating small rulesets consisting of relatively short rules. We end the paper by outlining some directions for future work.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# GEAR: LLMのニアロスレス生成推論のための効率的なKVキャッシュ圧縮

GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM ( http://arxiv.org/abs/2403.05527v3 )

ライセンス: Link先を確認
Hao Kang, Qingru Zhang, Souvik Kundu, Geonhwa Jeong, Zaoxing Liu, Tushar Krishna, Tuo Zhao, (参考訳) キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。 しかし、シーケンス長の増加に伴うキャッシュ需要の増加は、LLM推論をメモリバウンド問題に転換し、システムのスループットを著しく制限している。 既存の方法は、重要でないトークンをドロップしたり、全てのエントリを均一に定量化することに依存している。 しかし、そのような方法はしばしば圧縮行列を表現するために高い近似誤差を生じる。 自己回帰復号処理は、各ステップの誤差をさらに複雑化し、モデル生成に重大な偏差が生じ、性能が劣化する。 この課題に対処するため、我々は、ほぼロスレスな高比圧縮を実現する効率的なKVキャッシュ圧縮フレームワークであるGEARを提案する。 GEARはまず、非常に低い精度で類似した大きさの成分のほとんどに量子化を適用する。 次に、量子化誤差を近似するために低ランク行列を使用し、スパース行列を用いて、外れ値のエントリから個々のエラーを修復する。 3つの技術を統合することで、GEARはシナジスティックなポテンシャルを完全に活用することができる。 我々の実験では、GEARは代替品と比較して、ピークメモリサイズを2.29倍に抑えながら、最大2.38倍のスループットで、ほぼロスレスな4ビットKVキャッシュ圧縮を実現している。 私たちのコードはhttps://github.com/HaoKang-Timmy/GEAR.comで公開されています。

Key-value (KV) caching has become the de-facto to accelerate generation speed for large language models (LLMs) inference. However, the growing cache demand with increasing sequence length has transformed LLM inference to be a memory bound problem, significantly constraining the system throughput. Existing methods rely on dropping unimportant tokens or quantizing all entries uniformly. Such methods, however, often incur high approximation errors to represent the compressed matrices. The autoregressive decoding process further compounds the error of each step, resulting in critical deviation in model generation and deterioration of performance. To tackle this challenge, we propose GEAR, an efficient KV cache compression framework that achieves near-lossless high-ratio compression. GEAR first applies quantization to majority of entries of similar magnitudes to ultra-low precision. It then employs a low rank matrix to approximate the quantization error, and a sparse matrix to remedy individual errors from outlier entries. By adeptly integrating three techniques, GEAR is able to fully exploit their synergistic potentials. Our experiments demonstrate that compared to alternatives, GEAR achieves near-lossless 4-bit KV cache compression with up to 2.38x throughput improvement, while reducing peak-memory size up to 2.29x. Our code is publicly available at https://github.com/HaoKang-Timmy/GEAR.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# 直接クロスモーダルマッピングと幾何正規化による高速テキスト・ツー・3次元顔生成・操作

Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization ( http://arxiv.org/abs/2403.06702v3 )

ライセンス: Link先を確認
Jinlu Zhang, Yiyi Zhou, Qiancheng Zheng, Xiaoxiong Du, Gen Luo, Jun Peng, Xiaoshuai Sun, Rongrong Ji, (参考訳) テキストから3D対応顔(T3D Face)の生成と操作は、機械学習における新たなホットスポットであり、依然として低効率と低品質に悩まされている。 本稿では,高速かつ高精度なT3D顔生成と操作のためのエンド・ツー・エンド・エンド・エフェクト・ネットワークを提案し,これを$E^3$-FaceNetと呼ぶ。 既存の複雑な生成パラダイムとは異なり、$E^3$-FaceNetはテキスト命令から3D対応の視覚空間への直接マッピングを利用する。 我々は,多視点世代間の一貫性を維持するために,新しいスタイルコードエンハンサーを導入し,モジュール間のセマンティックアライメントを強化する。 3つのベンチマークデータセットの大規模な実験により、$E^3$-FaceNetは画像のような3D顔の生成と操作を達成できるだけでなく、桁違いの推測速度も改善できることが示された。 たとえば、Latent3Dと比較すると、$E^3$-FaceNetは5世代をほぼ470倍スピードアップするが、それでも世代品質は上回っている。 私たちのコードはhttps://github.com/Aria-Zhangjl/E3-FaceNet.orgで公開されています。

Text-to-3D-aware face (T3D Face) generation and manipulation is an emerging research hot spot in machine learning, which still suffers from low efficiency and poor quality. In this paper, we propose an End-to-End Efficient and Effective network for fast and accurate T3D face generation and manipulation, termed $E^3$-FaceNet. Different from existing complex generation paradigms, $E^3$-FaceNet resorts to a direct mapping from text instructions to 3D-aware visual space. We introduce a novel Style Code Enhancer to enhance cross-modal semantic alignment, alongside an innovative Geometric Regularization objective to maintain consistency across multi-view generations. Extensive experiments on three benchmark datasets demonstrate that $E^3$-FaceNet can not only achieve picture-like 3D face generation and manipulation, but also improve inference speed by orders of magnitudes. For instance, compared with Latent3D, $E^3$-FaceNet speeds up the five-view generations by almost 470 times, while still exceeding in generation quality. Our code is released at https://github.com/Aria-Zhangjl/E3-FaceNet.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# HDRTransDC:変圧器変形畳み込みを用いた高ダイナミックレンジ画像再構成

HDRTransDC: High Dynamic Range Image Reconstruction with Transformer Deformation Convolution ( http://arxiv.org/abs/2403.06831v2 )

ライセンス: Link先を確認
Shuaikang Shang, Xuejing Kang, Anlong Ming, (参考訳) 高ダイナミックレンジ(HDR)画像は、多露光低ダイナミックレンジ(LDR)画像を融合することにより、現実的な細部を持つ人工物のないHDR画像を生成することを目的としている。 入力されたLDR画像のうち、大きな動きと過度の露光により、HDRイメージングはゴーストアーティファクトや融合歪みに悩まされる。 これらの問題に対処するために,トランスフォーマー変形変換モジュール(TDCAM)と動的重み融合ブロック(DWFB)で構成される高品質なHDR画像を生成するHDR変換変換(HDRTransDC)ネットワークを提案する。 ゴーストアーティファクトを解決するため,提案したTDCAMは,非参照機能全体の参照特徴に類似した長距離コンテンツを抽出する。 融合歪みの除去を目的としたDWFBを提案する。 実験により,本手法が最先端の性能を定量的に,質的に達成できることが確認された。

High Dynamic Range (HDR) imaging aims to generate an artifact-free HDR image with realistic details by fusing multi-exposure Low Dynamic Range (LDR) images. Caused by large motion and severe under-/over-exposure among input LDR images, HDR imaging suffers from ghosting artifacts and fusion distortions. To address these critical issues, we propose an HDR Transformer Deformation Convolution (HDRTransDC) network to generate high-quality HDR images, which consists of the Transformer Deformable Convolution Alignment Module (TDCAM) and the Dynamic Weight Fusion Block (DWFB). To solve the ghosting artifacts, the proposed TDCAM extracts long-distance content similar to the reference feature in the entire non-reference features, which can accurately remove misalignment and fill the content occluded by moving objects. For the purpose of eliminating fusion distortions, we propose DWFB to spatially adaptively select useful information across frames to effectively fuse multi-exposed features. Extensive experiments show that our method quantitatively and qualitatively achieves state-of-the-art performance.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# 分散トレーニングのためのコミュニケーション最適化:アーキテクチャ、進歩、機会

Communication Optimization for Distributed Training: Architecture, Advances, and Opportunities ( http://arxiv.org/abs/2403.07585v2 )

ライセンス: Link先を確認
Yunze Wei, Tianshuo Hu, Cong Liang, Yong Cui, (参考訳) 過去数年間、パラメータ数が絶え間なく増加する大規模ディープニューラルネットワークモデルの繁栄を目撃してきた。 このような大規模モデルのトレーニングは、通常、大量のメモリとコンピューティングリソースを必要とし、分散トレーニングを必要とする。 近年、GPUの性能が急速に向上するにつれて、計算時間が減少し、コミュニケーションが全体的なトレーニング時間の大部分を占めるようになった。 その結果,分散トレーニングにおけるコミュニケーションの最適化が重要になった。 本稿では,分散ディープニューラルネットワークトレーニングの一般的なアーキテクチャについて紹介し,通信最適化の観点から並列化戦略,集合通信ライブラリ,ネットワーク間の関係を解析する。 次に、この3層パラダイムにおける現在の代表的な研究動向について概観する。 現在の3層パラダイムのレイヤは比較的独立しており、分散トレーニングシナリオにおいて、層間協調最適化のためのリッチな設計スペースがあることに気付きました。 そこで我々は3層パラダイムを5層パラダイムに拡張する"垂直"と"水平"の共設計を提唱する。 また、異種資源の可能性をさらに活用するために、"Intra-Inter"と"Host-Net"の共同設計も提唱する。 この記事では、分散トレーニングのためのコミュニケーション最適化に関する今後の研究について、いくつか光を当てておきたい。

The past few years have witnessed the flourishing of large-scale deep neural network models with ever-growing parameter numbers. Training such large-scale models typically requires massive memory and computing resources, necessitating distributed training. As GPU performance has rapidly evolved in recent years, computation time has shrunk, making communication a larger portion of the overall training time. Consequently, optimizing communication for distributed training has become crucial. In this article, we briefly introduce the general architecture of distributed deep neural network training and analyze relationships among Parallelization Strategy, Collective Communication Library, and Network from the perspective of communication optimization, which forms a three-layer paradigm. We then review current representative research advances within this three-layer paradigm. We find that layers in the current three-layer paradigm are relatively independent and there is a rich design space for cross-layer collaborative optimization in distributed training scenarios. Therefore, we advocate "Vertical" and "Horizontal" co-designs which extend the three-layer paradigm to a five-layer paradigm. We also advocate "Intra-Inter" and "Host-Net" co-designs to further utilize the potential of heterogeneous resources. We hope this article can shed some light on future research on communication optimization for distributed training.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# 視覚・言語ナビゲーションのための階層的空間的近接推論

Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation ( http://arxiv.org/abs/2403.11541v2 )

ライセンス: Link先を確認
Ming Xu, Zilong Xie, (参考訳) 多くのVision-and-Language Navigation (VLN)アルゴリズムは、視覚的常識の欠如と推論能力の不足により、決定を下す傾向にある。 この問題に対処するために,階層型空間近接推論(HSPR)手法を提案する。 まず、エージェントが階層的な空間的近接の知識基盤を構築するのを助けるために、シーン理解補助タスクを導入する。 このタスクでは、パノラマビューとオブジェクト機能を使用して、ノードの種類を特定し、ノード、オブジェクト、およびノードとオブジェクト間の隣接関係を明らかにする。 次に,階層的空間近接知識ベースに基づく多段階推論ナビゲーションアルゴリズムを提案する。 第3に,航法決定精度を向上させるための残差融合法を提案する。 最後に、REVERIE、SOON、R2R、R4Rなどの公開データセットに対する実験により、我々のアプローチを検証する。 私たちのコードはhttps://github.com/iCityLab/HSPR.comから入手可能です。

Most Vision-and-Language Navigation (VLN) algorithms are prone to making decision due to a lack of visual common sense and insufficient reasoning capabilities. To address this issue, we propose a Hierarchical Spatial Proximity Reasoning (HSPR) method. First, we introduce a scene understanding auxiliary task to help the agent build a knowledge base of hierarchical spatial proximity. This task utilizes panoramic views and object features to identify types of nodes and uncover the adjacency relationships between nodes, objects, and between nodes and objects. Second, we propose a multi-step reasoning navigation algorithm based on hierarchical spatial proximity knowledge base, which continuously plans feasible paths to enhance exploration efficiency. Third, we introduce a residual fusion method to improve navigation decision accuracy. Finally, we validate our approach with experiments on publicly available datasets including REVERIE, SOON, R2R, and R4R. Our code is available at https://github.com/iCityLab/HSPR.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# Helmsman of the Masses? : Werewolf Gameにおける大規模言語モデルのオピニオンリーダーシップの評価

Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game ( http://arxiv.org/abs/2404.01602v2 )

ライセンス: Link先を確認
Silin Du, Xiaowei Zhang, (参考訳) 大規模言語モデル (LLM) は、社会的誘因ゲームにおいて記憶可能な戦略的行動を示す。 しかし、LLMをベースとしたエージェントが提示する意見のリーダーシップの重要性はほとんど見落とされ、マルチエージェントやヒューマン・AIのインタラクション・セッティングにおける実践的応用に欠かせないものとなっている。 野党指導者は、社会集団内の他人の信念や行動に顕著な影響を与える個人である。 本研究では, LLM の意見指導力を評価するため, Werewolf ゲームをシミュレーションプラットフォームとして利用する。 ゲームには保安官の役割が含まれており、議論を要約し、決定オプションを推奨する。 我々は,シェリフの役割を統合する枠組みを開発し,世論指導者の批判的特徴に基づく2つの新しい指標を考案する。 第1の尺度は、意見リーダーの信頼性を測定し、第2の尺度は、他のプレーヤーの判断に対する意見リーダーの影響を評価する。 異なるスケールのLLMを評価するために、広範囲な実験を行う。 さらに, Werewolf 質問回答データセット (WWQA) を収集し, LLM によるゲームルールの把握と強化を行うとともに,人間の参加者を組み込んでさらなる分析を行う。 その結果、Werewolf ゲームは LLM の意見リーダーシップを評価するのに適したテストベッドであり、意見リーダーシップの能力を持つ LLM は少ないことが示唆された。

Large language models (LLMs) have exhibited memorable strategic behaviors in social deductive games. However, the significance of opinion leadership exhibited by LLM-based agents has been largely overlooked, which is crucial for practical applications in multi-agent and human-AI interaction settings. Opinion leaders are individuals who have a noticeable impact on the beliefs and behaviors of others within a social group. In this work, we employ the Werewolf game as a simulation platform to assess the opinion leadership of LLMs. The game includes the role of the Sheriff, tasked with summarizing arguments and recommending decision options, and therefore serves as a credible proxy for an opinion leader. We develop a framework integrating the Sheriff role and devise two novel metrics based on the critical characteristics of opinion leaders. The first metric measures the reliability of the opinion leader, and the second assesses the influence of the opinion leader on other players' decisions. We conduct extensive experiments to evaluate LLMs of different scales. In addition, we collect a Werewolf question-answering dataset (WWQA) to assess and enhance LLM's grasp of the game rules, and we also incorporate human participants for further analysis. The results suggest that the Werewolf game is a suitable test bed to evaluate the opinion leadership of LLMs, and few LLMs possess the capacity for opinion leadership.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# 量子パスカルピラミッドと拡張 de Moivre-Laplace 定理

A quantum Pascal pyramid and an extended de Moivre-Laplace theorem ( http://arxiv.org/abs/2404.03560v2 )

ライセンス: Link先を確認
Mohamed Sabba, (参考訳) パスカルの三角形は、磁気共鳴において$I_N S$結合スピン-1/2系のスペクトルに生じる「一階の」多重パターンを説明するための教育ツールとして広く用いられている。 量子力学の幅広い分野でよく知られる様々な組み合わせ構造は、潜在的な有用性にもかかわらず、いくつかの例外を除いて、磁気共鳴コミュニティの注意をほとんど逃がしたようである。 この短い講義ノートでは、「量子パスカルピラミッド」(OEIS https://oeis.org/A268533)をパスカルの三角形の一般化として記述し、任意のスピン積ランク$q$$\hat{Z}_N^q$のマルチスピン作用素と、磁性量子数$m$$\hat{S}_N^m$の状態に対する集団作用素の関係を直接マッピングし、結果として、反相単量子コヒーレンスに関連する多重項の強度比の一般形式を得る。 デ・モイブル=ラプラスの定理の拡張は、自明な場合の$q=0$を超えて、量子パスカルピラミッドの$q$-番目の列に適用され、$q$-階エルミート多項式の積とガウス分布の項で与えられ、量子調和振動子の解のよく知られた関数形式とレーザー物理学におけるエルミート-ガウスモードの古典的な極限を再現する(Allen et al , $\textit{Phys)。 略称A。 }$, $\textbf{45}$, 1992)。 これは、任意の複雑性の$\hat{Z}_N^q$-associated multipletsのフーリエ変換スペクトルを近似するために用いられる。 最後に、量子パスカルピラミッドの最初の2つの列を用いて、スピン系における$I_N S_z$偏極転移の既知対称性制約上界を計算する運動が示される。

Pascal's triangle is widely used as a pedagogical tool to explain the "first-order" multiplet patterns that arise in the spectra of $I_N S$ coupled spin-1/2 systems in magnetic resonance. Various other combinatorial structures, which may be well-known in the broader field of quantum dynamics, appear to have largely escaped the attention of the magnetic resonance community with a few exceptions, despite potential usefulness. In this brief set of lecture notes, we describe a "quantum Pascal pyramid" (OEIS https://oeis.org/A268533) as a generalization of Pascal's triangle, which is shown to directly map the relationship between multispin operators of arbitrary spin product rank $q$ ($\hat{Z}_N^q$) and population operators for states with magnetic quantum number $m$ ($\hat{S}_N^m$), and - as a consequence - obtain the general form of the intensity ratios of multiplets associated with antiphase single-quantum coherences, with an expression given in terms of the Jacobi polynomials. An extension of the de Moivre-Laplace theorem, beyond the trivial case $q=0$, is applied to the $q$-th columns of the quantum Pascal pyramid, and is given in terms of a product of the $q$-th order Hermite polynomials and a Gaussian distribution, reproducing the well-known functional forms of the solutions of the quantum harmonic oscillator and the classical limit of Hermite-Gaussian modes in laser physics (Allen et al., $\textit{Phys. Rev. A.}$, $\textbf{45}$, 1992). This is used to approximate the Fourier-transformed spectra of $\hat{Z}_N^q$-associated multiplets of arbitrary complexity. Finally, an exercise is shown in which the first two columns of the quantum Pascal pyramid are used to calculate the previously known symmetry-constrained upper bound on $I_z \rightarrow S_z$ polarization transfer in $I_N S$ spin systems.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# 骨格運動評価におけるフィードバック生成手法の評価枠組み

Evaluation Framework for Feedback Generation Methods in Skeletal Movement Assessment ( http://arxiv.org/abs/2404.09359v4 )

ライセンス: Link先を確認
Tal Hakim, (参考訳) 近年,スケルトンビデオからの運動評価への機械学習の応用が注目されている。 この進歩により、在宅でのリハビリテーションがより容易になり、2Dや3Dビデオから手頃な価格でポーズ検出や分析を行うための移動評価アルゴリズムが利用できるようになった。 自動評価タスクの主目的は運動を評価することであるが、重要な運動課題を強調したフィードバックの自動生成は、リハビリテーションプロセスを大幅に強化し、加速する可能性がある。 自動動作評価の分野では数多くの研究が存在しているが、アドレスフィードバック生成はごくわずかである。 本研究では,フィードバック生成ソリューションの分類,評価,比較のための用語と基準を提案する。 本稿では,各フィードバック生成手法に関連する課題について議論し,提案した基準を用いて既存のソリューションを分類する。 我々の知る限り、骨格運動評価においてフィードバック生成を定式化した最初の作品である。

The application of machine-learning solutions to movement assessment from skeleton videos has attracted significant research attention in recent years. This advancement has made rehabilitation at home more accessible, utilizing movement assessment algorithms that can operate on affordable equipment for human pose detection and analysis from 2D or 3D videos. While the primary objective of automatic assessment tasks is to score movements, the automatic generation of feedback highlighting key movement issues has the potential to significantly enhance and accelerate the rehabilitation process. While numerous research works exist in the field of automatic movement assessment, only a handful address feedback generation. In this study, we propose terminology and criteria for the classification, evaluation, and comparison of feedback generation solutions. We discuss the challenges associated with each feedback generation approach and use our proposed criteria to classify existing solutions. To our knowledge, this is the first work that formulates feedback generation in skeletal movement assessment.
翻訳日:2024-08-30 19:18:41 公開日:2024-08-29
# Mumpy:ビデオ塗布検出用マルチサイドテンポラルピラミッドトランス

Mumpy: Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection ( http://arxiv.org/abs/2404.11054v3 )

ライセンス: Link先を確認
Ying Zhang, Yuezun Li, Bo Peng, Jiaran Zhou, Huiyu Zhou, Junyu Dong, (参考訳) ビデオインペイント検出のタスクは、ビデオシーケンス内でピクセルレベルのインペイントされた領域を公開することである。 既存の手法は通常、空間的および時間的不整合の活用に焦点を当てる。 しかしながら、これらの手法は通常、空間的および時間的手がかりを組み合わせるために固定的な操作を使用し、異なるシナリオにおける適用性を制限する。 本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器({\em MumPy})について紹介する。 提案手法は,空間的時間的手がかりの様々なコラボレーションを抽出するために,新たに設計された多面的時間的視点エンコーダを用い,これらのコラボレーションの多様性を高めるために,変形可能なウィンドウベースの時間的視点対話モジュールを導入する。 その後,様々な特徴を集約し,検出マップを生成するマルチピラミドデコーダを開発した。 空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。 既存のデータセットに対して本手法の有効性を検証し,YouTube-VOSデータセットに基づく新しい挑戦的かつ大規模なビデオインパインティングデータセットを導入し,さらに最近のインパインティング手法を採用した。 その結果,本手法のドメイン内およびドメイン間評価シナリオにおける優位性を示した。

The task of video inpainting detection is to expose the pixel-level inpainted regions within a video sequence. Existing methods usually focus on leveraging spatial and temporal inconsistencies. However, these methods typically employ fixed operations to combine spatial and temporal clues, limiting their applicability in different scenarios. In this paper, we introduce a novel Multilateral Temporal-view Pyramid Transformer ({\em MumPy}) that collaborates spatial-temporal clues flexibly. Our method utilizes a newly designed multilateral temporal-view encoder to extract various collaborations of spatial-temporal clues and introduces a deformable window-based temporal-view interaction module to enhance the diversity of these collaborations. Subsequently, we develop a multi-pyramid decoder to aggregate the various types of features and generate detection maps. By adjusting the contribution strength of spatial and temporal clues, our method can effectively identify inpainted regions. We validate our method on existing datasets and also introduce a new challenging and large-scale Video Inpainting dataset based on the YouTube-VOS dataset, which employs several more recent inpainting methods. The results demonstrate the superiority of our method in both in-domain and cross-domain evaluation scenarios.
翻訳日:2024-08-30 19:08:39 公開日:2024-08-29
# 低コスト言語モデル:Pythonコード生成に関する調査とパフォーマンス評価

Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation ( http://arxiv.org/abs/2404.11160v2 )

ライセンス: Link先を確認
Jessica López Espejel, Mahaman Sanoussi Yahaya Alassan, Merieme Bouhandi, Walid Dahhane, El Hassane Ettifouri, (参考訳) 大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいて、その汎用性と高品質な結果を生み出す能力のため、一般的な選択肢となっている。 具体的には、開発者が反復的なコーディングタスクに取り組むのを助けるために、自動コード生成にますます使われています。 しかし、LLMの相当量の計算とメモリ要件は、限られたリソースを持つユーザーにはアクセスできないことが多い。 本稿では,資源集約型LLMの代替となる,非常に低コストなモデルに焦点をあてる。 特に,(1)Pythonコードの生成におけるパフォーマンスの詳細な半マニュアル評価を提案し,(2)モデル推論とコード品質を改善するための戦略を推進し,(3)HumanEvalやEvalPlusといった既存のベンチマークを拡張するために,さまざまな難易度を持つ60のプログラミング問題のデータセットを提案する。 以上の結果から,ChatGPTのような大規模モデルと比較して,低コストで互換性のあるモデルでは,リソースが大幅に少ないにもかかわらず,競合的な結果が得られることが示唆された。 データセットとプロンプトを公開して、さらなる研究を支援するつもりです。

Large Language Models (LLMs) have become a popular choice for many Natural Language Processing (NLP) tasks due to their versatility and ability to produce high-quality results. Specifically, they are increasingly used for automatic code generation to help developers tackle repetitive coding tasks. However, LLMs' substantial computational and memory requirements often make them inaccessible to users with limited resources. This paper focuses on very low-cost models which offer a more accessible alternative to resource-intensive LLMs. We notably: (1) propose a thorough semi-manual evaluation of their performance in generating Python code, (2) introduce a Chain-of-Thought (CoT) prompting strategy to improve model reasoning and code quality, and (3) propose a new dataset of 60 programming problems, with varied difficulty levels, designed to extend existing benchmarks like HumanEval and EvalPlus. Our findings show that some low-cost compatible models achieve competitive results compared to larger models like ChatGPT despite using significantly fewer resources. We will make our dataset and prompts publicly available to support further research.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# 大規模言語モデルを用いた拡張翻訳のための嗜好駆動パラダイム

A Preference-driven Paradigm for Enhanced Translation with Large Language Models ( http://arxiv.org/abs/2404.11288v2 )

ライセンス: Link先を確認
Dawei Zhu, Sony Trenous, Xiaoyu Shen, Dietrich Klakow, Bill Byrne, Eva Hasler, (参考訳) 近年,大規模言語モデル (LLM) は,少量の並列データのみを用いて教師付き微調整 (SFT) によって顕著な翻訳性能を達成できることが報告されている。 しかし、SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。 したがって、LLMがある程度の翻訳能力を獲得すれば、SFTの支援は高原に達することがしばしばあり、さらに並列データのサイズを拡大しても、さらなるメリットは得られない。 模倣に基づく SFT に付随するこの高原を克服するために,Planet-Luce モデルに基づく嗜好に基づくアプローチを提案する。 目的は、総合的な視点から翻訳の好みをより微妙な理解に向けてLSMを操ることであり、また、金の翻訳がない場合にはより弾力性が高いことである。 さらに,提案手法の有効性を検証するために,MAPLEというデータセットを構築した。 大規模な実験は、多種多様なLSMとテスト設定をまたいだ「高原を破る」アプローチの優位性を実証している。 我々の詳細な分析は、アプローチの成功における多種多様な翻訳と正確な選好スコアの重要な役割を浮き彫りにしている。

Recent research has shown that large language models (LLMs) can achieve remarkable translation performance through supervised fine-tuning (SFT) using only a small amount of parallel data. However, SFT simply instructs the model to imitate the reference translations at the token level, making it vulnerable to the noise present in the references. Hence, the assistance from SFT often reaches a plateau once the LLMs have achieved a certain level of translation capability, and further increasing the size of parallel data does not provide additional benefits. To overcome this plateau associated with imitation-based SFT, we propose a preference-based approach built upon the Plackett-Luce model. The objective is to steer LLMs towards a more nuanced understanding of translation preferences from a holistic view, while also being more resilient in the absence of gold translations. We further build a dataset named MAPLE to verify the effectiveness of our approach, which includes multiple translations of varying quality for each source sentence. Extensive experiments demonstrate the superiority of our approach in "breaking the plateau" across diverse LLMs and test settings. Our in-depth analysis underscores the pivotal role of diverse translations and accurate preference scores in the success of our approach.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# Mens Sana in Corpore Sano: 脆弱性研究のためのサウンドファームウェアコーポラ

Mens Sana In Corpore Sano: Sound Firmware Corpora for Vulnerability Research ( http://arxiv.org/abs/2404.11977v2 )

ライセンス: Link先を確認
René Helmke, Elmar Padilla, Nils Aschenbruck, (参考訳) 脆弱性研究のためのファームウェアコーパスは科学的に健全であるべきだ。 サンプル取得(例えば、サンプル取得)は困難であり、プロプライエタリなデータや暗号化されたデータの障壁を克服しなければならない。 画像の内容は事前に分かっていないため、科学的要求を満たす高品質なサンプルを選択することは困難である。 理想的には、データを共有することで互いに助け合っています。 しかしここでは、著作権法のために共有が問題となる。 代わりに、文書はコーパス生成の各ステップを慎重に文書化する必要がある。 これは、結果の妥当性、代表性、そして音性にカスケード効果をもたらす。 あらゆる課題にもかかわらず、ファームウェアコーパスの健全性をどのように維持できるか? 本稿では,問題空間を徹底的に分析し,その研究への影響について考察する。 これらの知見を用いて、研究者がコーパスの複製性と代表性を育むのに役立つガイドラインを導出する。 44階層の論文に適用し、科学的コーパス作成の実践を体系的に分析する。 本研究の総合的な分析から,現在,研究に共通する根拠は存在しないことが確認された。 コーパス作成の方法論的な問題を発見し、ドキュメントに最小のステップストーンを公開することによって、私たちのガイドラインの付加価値が示されます。 これらの曖昧なビジョンは代表性に影響を与え、複製性を阻害し、したがって、他の場合は優れた作品の音質に悪影響を及ぼす。 最後に、我々のガイドラインの実現可能性を示し、Linuxファームウェアの大規模解析のための新しいレプリカブルコーパスLFwCを構築した。 私たちは、優れた(そして証明された)複製性のために、リッチなメタデータを共有します。 我々は, アンパックの検証, 復号化, 内容の特定, 根拠的真理の提示, LFwCの実用性を示す。

Firmware corpora for vulnerability research should be scientifically sound. Yet, several practical challenges complicate the creation of sound corpora: Sample acquisition, e.g., is hard and one must overcome the barrier of proprietary or encrypted data. As image contents are unknown prior analysis, it is hard to select high-quality samples that can satisfy scientific demands. Ideally, we help each other out by sharing data. But here, sharing is problematic due to copyright laws. Instead, papers must carefully document each step of corpus creation: If a step is unclear, replicability is jeopardized. This has cascading effects on result verifiability, representativeness, and, thus, soundness. Despite all challenges, how can we maintain the soundness of firmware corpora? This paper thoroughly analyzes the problem space and investigates its impact on research: We distill practical binary analysis challenges that significantly influence corpus creation. We use these insights to derive guidelines that help researchers to nurture corpus replicability and representativeness. We apply them to 44 top tier papers and systematically analyze scientific corpus creation practices. Our comprehensive analysis confirms that there is currently no common ground in related work. It shows the added value of our guidelines, as they discover methodical issues in corpus creation and unveil miniscule step stones in documentation. These blur visions on representativeness, hinder replicability, and, thus, negatively impact the soundness of otherwise excellent work. Finally, we show the feasibility of our guidelines and build a new, replicable corpus for large-scale analyses on Linux firmware: LFwC. We share rich meta data for good (and proven) replicability. We verify unpacking, deduplicate, identify contents, provide ground truth, and show LFwC's utility for research.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# 極小散逸原理を用いたスピン-ボソンモデルの量子熱力学

Quantum thermodynamics of the spin-boson model using the principle of minimal dissipation ( http://arxiv.org/abs/2404.12118v2 )

ライセンス: Link先を確認
Salvatore Gatto, Alessandra Colla, Heinz-Peter Breuer, Michael Thoss, (参考訳) 最近開発されたオープン量子系の熱力学へのアプローチは、極小散逸の原理に基づいてスピン-ボソンモデルに適用されている。 階層型運動方程式(HEOM)法に基づく数値的正確な量子力学処理を用いて,弱結合限界を超え,非断熱型と断熱型の両方を含むパラメータの作業量,熱量,エントロピー生成量に対する環境の影響を調べた。 その結果, 弱い結合形態の作業, 熱, エントロピー生成に有意な差異が認められた。

A recently developed approach to the thermodynamics of open quantum systems, on the basis of the principle of minimal dissipation, is applied to the spin-boson model. Employing a numerically exact quantum dynamical treatment based on the hierarchical equations of motion (HEOM) method, we investigate the influence of the environment on quantities such as work, heat and entropy production in a range of parameters which go beyond the weak-coupling limit and include both the non-adiabatic and the adiabatic regimes. The results reveal significant differences to the weak-coupling forms of work, heat and entropy production, which are analyzed in some detail.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# MITRE ATT&CKを用いたサイバー詐欺に対するアクティブデコイ選択方式

A Proactive Decoy Selection Scheme for Cyber Deception using MITRE ATT&CK ( http://arxiv.org/abs/2404.12783v2 )

ライセンス: Link先を確認
Marco Zambianco, Claudio Facchinetti, Domenico Siracusa, (参考訳) サイバー詐欺は、攻撃者の戦術、技術、手順(TTP)に対する防御者の遅滞対応を補うことができる。 このプロアクティブディフェンス戦略は、正統なシステムコンポーネントに似たデコイを用いて、ディフェンダー環境内のステルスな攻撃者を誘惑し、目標達成を遅らせたり、あるいは否定したりする。 この点において、悪意のあるユーザによって使用されるテクニックを公開できるデコイの選択は、そのエンゲージメントをインセンティブ化するための中心的な役割を担っている。 しかし、攻撃能力と可能なターゲットの正確かつ現実的なモデリングを必要とするため、実際にはこれは達成が難しいタスクである。 本研究では,この課題に取り組み,実世界の攻撃者の経験的観察に基づく敵モデルにより支援されたデコイ選択スキームを設計する。 我々は,エンタープライズシステムを対象とした攻撃的TTPのソースとして,MITRE ATT&CKフレームワークを用いたドメイン固有の脅威モデリング言語を利用する。 本稿では,各手法の実行条件に関する情報と,その環境への影響を抽出し,敵の能力をモデル化したアタックグラフを生成する。 これに基づいて,特定の目標に向けられた様々な攻撃経路において,対応するテクニックを検出するデコイの数を最小限に抑えるグラフ分割問題を定式化する。 最適化に基づくデコイ選択手法を,様々な攻撃手順の事前条件を無視したベンチマーク方式と比較する。 その結果,提案手法は最小のデコイを用いた攻撃経路のインターセプション率が最も高いことがわかった。

Cyber deception allows compensating the late response of defenders countermeasures to the ever evolving tactics, techniques, and procedures (TTPs) of attackers. This proactive defense strategy employs decoys resembling legitimate system components to lure stealthy attackers within the defender environment, slowing and/or denying the accomplishment of their goals. In this regard, the selection of decoys that can expose the techniques used by malicious users plays a central role to incentivize their engagement. However, this is a difficult task to achieve in practice, since it requires an accurate and realistic modeling of the attacker capabilities and his possible targets. In this work, we tackle this challenge and we design a decoy selection scheme that is supported by an adversarial modeling based on empirical observation of real-world attackers. We take advantage of a domain-specific threat modelling language using MITRE ATT&CK framework as source of attacker TTPs targeting enterprise systems. In detail, we extract the information about the execution preconditions of each technique as well as its possible effects on the environment to generate attack graphs modeling the adversary capabilities. Based on this, we formulate a graph partition problem that minimizes the number of decoys detecting a corresponding number of techniques employed in various attack paths directed to specific targets. We compare our optimization-based decoy selection approach against several benchmark schemes that ignore the preconditions between the various attack steps. Results reveal that the proposed scheme provides the highest interception rate of attack paths using the lowest amount of decoys.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# 科学的推論のための特徴重要度手法の指針

A Guide to Feature Importance Methods for Scientific Inference ( http://arxiv.org/abs/2404.12862v2 )

ライセンス: Link先を確認
Fiona Katharina Ewald, Ludwig Bothmann, Marvin N. Wright, Bernd Bischl, Giuseppe Casalicchio, Gunnar König, (参考訳) 機械学習(ML)モデルは、予測能力が高いため、ますます使われているが、データ生成プロセス(DGP)を理解する上での使用は限られている。 DGPを理解するには、多くのMLモデルは不透明な内部メカニズムのために直接提供できない特徴目標関連に関する洞察が必要である。 特徴重要度(FI)法は特定の条件下でDGPに有用な洞察を与える。 異なるFI法の結果は異なる解釈を持つため、具体的なユースケースに対して正しいFI法を選択することは極めて重要であり、専門家の知識を必要とする。 本稿では,グローバルFI手法の解釈の理解を支援するための包括的ガイドとして機能する。 FI法を精査し,その解釈に関する新たな証明を提供することにより,これらの手法の理解を深め,科学的推論のための具体的な勧告を定式化する。 我々は、FI不確実性推定の選択肢について議論し、ブラックボックスMLモデルからの完全な統計的推測を目的とした将来の研究の方向性について論じる。

While machine learning (ML) models are increasingly used due to their high predictive power, their use in understanding the data-generating process (DGP) is limited. Understanding the DGP requires insights into feature-target associations, which many ML models cannot directly provide due to their opaque internal mechanisms. Feature importance (FI) methods provide useful insights into the DGP under certain conditions. Since the results of different FI methods have different interpretations, selecting the correct FI method for a concrete use case is crucial and still requires expert knowledge. This paper serves as a comprehensive guide to help understand the different interpretations of global FI methods. Through an extensive review of FI methods and providing new proofs regarding their interpretation, we facilitate a thorough understanding of these methods and formulate concrete recommendations for scientific inference. We conclude by discussing options for FI uncertainty estimation and point to directions for future research aiming at full statistical inference from black-box ML models.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# フェデレーションモデルの発展とオープンチャレンジ

Advances and Open Challenges in Federated Foundation Models ( http://arxiv.org/abs/2404.15381v3 )

ライセンス: Link先を確認
Chao Ren, Han Yu, Hongyi Peng, Xiaoli Tang, Bo Zhao, Liping Yi, Alysa Ziying Tan, Yulan Gao, Anran Li, Xiaoxiao Li, Zengxiang Li, Qiang Yang, (参考訳) ファンデーションモデル(FM)とフェデレートラーニング(FL)の統合は、人工知能(AI)における変革的パラダイムである。 この統合は、プライバシ、データ分散化、計算効率に関する懸念に対処しながら、機能強化を提供する。 本稿では,フェデレーション・ファンデーション・モデル (FedFM) の新興分野を包括的に調査し,そのシナジスティックな関係を解明し,新たな方法論,課題,今後の方向性を探究する。 モデルトレーニング、アグリゲーション、信頼性、インセンティブ化のための既存のFedFMアプローチを分類し、体系的な多層分類を提案する。 FLの計算要求の複雑さへの対処、プライバシーの考慮、コントリビューション評価、通信効率など、主な課題について詳しく論じる。 さらに、FLによる訓練・微調整FMに固有の通信、スケーラビリティ、セキュリティに関する複雑な課題について検討する。 これは、トレーニング、推論、最適化、データ暗号化のプロセスに革命をもたらす量子コンピューティングの可能性を強調している。 この調査ではまた、FedFMといくつかの実用的なFedFMアプリケーションの実装要件についても紹介する。 そこで本調査では,FedFMに関する知見の明確化について報告する。 最後に、この調査は、FedFMの現在の状況と課題に関する洞察を提供するだけでなく、今後の研究方向性の道を開いた上で、信頼できるソリューション開発の必要性を強調します。 これは、この学際的で急速に進歩する分野に貢献することに興味を持つ研究者や実践者のための基礎的なガイドとして機能する。

The integration of Foundation Models (FMs) with Federated Learning (FL) presents a transformative paradigm in Artificial Intelligence (AI). This integration offers enhanced capabilities while addressing concerns of privacy, data decentralization, and computational efficiency. This paper provides a comprehensive survey of the emerging field of Federated Foundation Models (FedFM), elucidating their synergistic relationship and exploring novel methodologies, challenges, and future directions that the FL research field needs to focus on in order to thrive in the age of FMs. A systematic multi-tiered taxonomy is proposed, categorizing existing FedFM approaches for model training, aggregation, trustworthiness, and incentivization. Key challenges, including how to enable FL to deal with high complexity of computational demands, privacy considerations, contribution evaluation, and communication efficiency, are thoroughly discussed. Moreover, the paper explores the intricate challenges of communication, scalability, and security inherent in training/fine-tuning FMs via FL. It highlights the potential of quantum computing to revolutionize the processes of training, inference, optimization, and data encryption. This survey also introduces the implementation requirement of FedFM and some practical FedFM applications. Then, this survey provides the lessons with a clear understanding of our findings for FedFM. Finally, this survey not only provides insights into the current state and challenges of FedFM but also paves the way for future research directions, emphasizing the need for developing trustworthy solutions. It serves as a foundational guide for researchers and practitioners interested in contributing to this interdisciplinary and rapidly advancing field.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# 対戦型イマジネーションによるロバストゼロショットの安全性

Gameplay Filters: Robust Zero-Shot Safety through Adversarial Imagination ( http://arxiv.org/abs/2405.00846v3 )

ライセンス: Link先を確認
Duy P. Nguyen, Kai-Chieh Hsu, Wenhao Yu, Jie Tan, Jaime F. Fisac, (参考訳) 学習ベースのロボット制御の目覚ましい進歩にもかかわらず、アウト・オブ・ディストリビューション条件に対する堅牢性を保証することは、依然としてオープンな課題である。 安全フィルタは、原則として、安全でないアクションをオーバーライドすることで、破滅的な失敗を引き起こすための任意の制御ポリシーを維持することができるが、複雑な(例えば、脚のついた)ロボットダイナミクスのための既存のソリューションは、フルモーションエンベロープにまたがらず、局所的な、縮小順序モデルに依存している。 これらのフィルタは、過度にアジリティを制限し、名目上の条件から遠ざかっても失敗する傾向がある。 本稿では,シミュレーション学習された安全戦略と,最悪のケースイベントやシム・ツー・リアルエラーを発生させるために訓練された仮想敵との仮説整合を連続的に行う新しい種類の予測安全フィルタであるゲームプレイフィルタについて述べる。 本研究では, (36-D) 四元体力学の1次全次安全フィルタを用いて, アプローチのスケーラビリティと堅牢性を実証する。 2つの異なる四角いプラットフォーム上での物理実験は、タグ付けや非モデル化地形のような大きな摂動下でのゲームプレイフィルタのゼロショット効果が優れていることを示した。

Despite the impressive recent advances in learning-based robot control, ensuring robustness to out-of-distribution conditions remains an open challenge. Safety filters can, in principle, keep arbitrary control policies from incurring catastrophic failures by overriding unsafe actions, but existing solutions for complex (e.g., legged) robot dynamics do not span the full motion envelope and instead rely on local, reduced-order models. These filters tend to overly restrict agility and can still fail when perturbed away from nominal conditions. This paper presents the gameplay filter, a new class of predictive safety filter that continually plays out hypothetical matches between its simulation-trained safety strategy and a virtual adversary co-trained to invoke worst-case events and sim-to-real error, and precludes actions that would cause it to fail down the line. We demonstrate the scalability and robustness of the approach with a first-of-its-kind full-order safety filter for (36-D) quadrupedal dynamics. Physical experiments on two different quadruped platforms demonstrate the superior zero-shot effectiveness of the gameplay filter under large perturbations such as tugging and unmodeled terrain.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# 仮想アナログ音響効果モデリングのための状態ベースニューラルネットワークの比較検討

Comparative Study of State-based Neural Networks for Virtual Analog Audio Effects Modeling ( http://arxiv.org/abs/2405.04124v5 )

ライセンス: Link先を確認
Riccardo Simionato, Stefano Fasciani, (参考訳) アナログ電子回路は、幅広いサウンドシンセサイザーとオーディオ効果を含む、音楽機器の重要なカテゴリの中核である。 仮想アナログモデリングとして知られるアナログ音楽デバイスをシミュレートするソフトウェアの開発は、音声信号処理において重要なサブフィールドである。 人工ニューラルネットワークは仮想アナログモデリングの有望な技術である。 ニューラルネットワークは歪み回路を正確にモデル化することに成功したが、パラメータ条件付けと低レイテンシ応答を考慮したアーキテクチャの改善が必要である。 本稿では,最近の機械学習の仮想アナログモデリングへの応用について考察する。 特に、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short-Term Memoryネットワークと比較する。 我々の比較研究は、様々な音響効果を持つブラックボックスニューラルモデリング技術を用いている。 我々は、これらのモデルの性能と限界を複数の指標を用いて評価し、将来の研究開発のための洞察を提供する。 我々の測定基準は、音響信号の過渡性に着目して、エネルギーエンベロープと周波数コンテンツを正確に再現するモデルの能力を評価することを目的としている。 制御パラメータをモデルに組み込むために,特徴量線形変調法を用いる。 長い短期記憶ネットワークは歪みや等化器のエミュレートにおいて精度が向上し、ステートスペースモデルはエンコーダ・デコーダ構造に統合された場合のロング短期記憶ネットワークに続き、リニア・リカレント・ユニットは飽和や圧縮のエミュレーションにおいて他より優れている。 長期間の変動特性を考慮すると、State-Spaceモデルは履歴を追跡する最大の能力を示す。 長期記憶ネットワークはオーディオアーティファクトを導入する傾向がある。

Analog electronic circuits are at the core of an important category of musical devices, which includes a broad range of sound synthesizers and audio effects. The development of software that simulates analog musical devices, known as virtual analog modeling, is a significant sub-field in audio signal processing. Artificial neural networks are a promising technique for virtual analog modeling. While neural approaches have successfully accurately modeled distortion circuits, they require architectural improvements that account for parameter conditioning and low-latency response. This article explores the application of recent machine learning advancements for virtual analog modeling. In particular, we compare State-Space models and Linear Recurrent Units against the more common Long Short-Term Memory networks. Our comparative study uses these black-box neural modeling techniques with various audio effects. We evaluate the performance and limitations of these models using multiple metrics, providing insights for future research and development. Our metrics aim to assess the models' ability to accurately replicate energy envelopes and frequency contents, with a particular focus on transients in the audio signal. To incorporate control parameters into the models, we employ the Feature-wise Linear Modulation method. Long Short-Term Memory networks exhibit better accuracy in emulating distortions and equalizers, while the State-Space model, followed by Long Short-Term Memory networks when integrated in an encoder-decoder structure, and Linear Recurrent Unit outperforms others in emulating saturation and compression. When considering long time-variant characteristics, the State-Space model demonstrates the greatest capability to track history. Long Short-Term Memory networks tend to introduce audio artifacts.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# リモートセンシング画像超解像のための周波数支援マンバ

Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution ( http://arxiv.org/abs/2405.04964v2 )

ライセンス: Link先を確認
Yi Xiao, Qiangqiang Yuan, Kui Jiang, Yuzeng Chen, Qiang Zhang, Chia-Wen Lin, (参考訳) リモートセンシング画像(RSI)の最近の進歩は、ディープニューラルネットワーク、例えば畳み込みニューラルネットワーク、トランスフォーマーを用いて顕著な性能を示した。 しかし、既存のSR法は、制限された受容場または二次計算オーバーヘッドに悩まされることが多く、その結果、大規模RSIにおいて、準最適大域表現と許容不可能な計算コストが生じる。 これらの問題を緩和するため、線形複雑度で長距離依存を捉えることで大規模RSI処理を専門とするRSI-SRのためのビジョン状態空間モデル(Mamba)を統合するための最初の試みを開発する。 より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを開発し,空間的・頻繁な相関関係を探索する。 特に、FMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層核融合アーキテクチャを特徴としている。 グローバルおよびローカルの依存関係は、SRにとって相補的かつ有益であることを考えると、学習可能なスケーリングアダプタを介して、これらのマルチレベル機能を正確な機能融合のために再検討する。 AID、DOTA、DIORベンチマークの大規模な実験により、FMSRは、それぞれのメモリ消費と複雑性の28.05%と19.08%しか消費せず、最先端のトランスフォーマーベースのHAT-Lを平均0.11dBで上回っていることが示された。 コードはhttps://github.com/XY-boy/FreMambaで入手できる。

Recent progress in remote sensing image (RSI) super-resolution (SR) has exhibited remarkable performance using deep neural networks, e.g., Convolutional Neural Networks and Transformers. However, existing SR methods often suffer from either a limited receptive field or quadratic computational overhead, resulting in sub-optimal global representation and unacceptable computational costs in large-scale RSI. To alleviate these issues, we develop the first attempt to integrate the Vision State Space Model (Mamba) for RSI-SR, which specializes in processing large-scale RSI by capturing long-range dependency with linear complexity. To achieve better SR reconstruction, building upon Mamba, we devise a Frequency-assisted Mamba framework, dubbed FMSR, to explore the spatial and frequent correlations. In particular, our FMSR features a multi-level fusion architecture equipped with the Frequency Selection Module (FSM), Vision State Space Module (VSSM), and Hybrid Gate Module (HGM) to grasp their merits for effective spatial-frequency fusion. Considering that global and local dependencies are complementary and both beneficial for SR, we further recalibrate these multi-level features for accurate feature fusion via learnable scaling adaptors. Extensive experiments on AID, DOTA, and DIOR benchmarks demonstrate that our FMSR outperforms state-of-the-art Transformer-based methods HAT-L in terms of PSNR by 0.11 dB on average, while consuming only 28.05% and 19.08% of its memory consumption and complexity, respectively. Code will be available at https://github.com/XY-boy/FreMamba
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# 大規模言語モデルにおける過大な安全性の軽減

Mitigating Exaggerated Safety in Large Language Models ( http://arxiv.org/abs/2405.05418v2 )

ライセンス: Link先を確認
Ruchira Ray, Ruchi Bhalani, (参考訳) LLM(Large Language Models)の人気が高まるにつれて、モデルの安全性とユーティリティを組み合わせることがますます重要になっている。 課題は、LLMが危険なプロンプトを認識して減らすのに役立てる能力を犠牲にすることなく、確実にできることです。 過大な安全性”という問題は、これがいかに難しいかを示している。 安全プロンプトの26.1%が危険で拒否されていることが判明した過剰な安全性行動を減らすために、私たちは、XSTestデータセットプロンプトと、対話的、文脈的、数発のプロンプトを組み合わせて、Llama2、Gemma Command R+、Phi-3などのLLMの決定境界を調べる。 Llama2には、対話的プロンプトはGemmaに、コンテキスト的プロンプトはCommand R+とPhi-3に最適です。 これらのプロンプト戦略を組み合わせることで、全LSM全体の92.9%の過大な安全行動を軽減することができる。 我々の研究は、LLMの意思決定プロセスをジェイルブレイクし、安全でないプロンプトを排除し、有効なままでいる間に、厳密な線をナビゲートする、複数のプロンプト戦略を提示しています。

As the popularity of Large Language Models (LLMs) grow, combining model safety with utility becomes increasingly important. The challenge is making sure that LLMs can recognize and decline dangerous prompts without sacrificing their ability to be helpful. The problem of "exaggerated safety" demonstrates how difficult this can be. To reduce excessive safety behaviours -- which was discovered to be 26.1% of safe prompts being misclassified as dangerous and refused -- we use a combination of XSTest dataset prompts as well as interactive, contextual, and few-shot prompting to examine the decision bounds of LLMs such as Llama2, Gemma Command R+, and Phi-3. We find that few-shot prompting works best for Llama2, interactive prompting works best Gemma, and contextual prompting works best for Command R+ and Phi-3. Using a combination of these prompting strategies, we are able to mitigate exaggerated safety behaviors by an overall 92.9% across all LLMs. Our work presents a multiple prompting strategies to jailbreak LLMs' decision-making processes, allowing them to navigate the tight line between refusing unsafe prompts and remaining helpful.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# 非退化関数に対するバッチ確率帯域

Batched Stochastic Bandit for Nondegenerate Functions ( http://arxiv.org/abs/2405.05733v2 )

ライセンス: Link先を確認
Yu Liu, Yunlu Shu, Tianyu Wang, (参考訳) 本稿では,非退化関数に対するバッチ帯域学習問題について検討する。 本稿では,非退化関数に対するバッチバンドイット問題をほぼ最適に解くアルゴリズムを提案する。 より具体的には、Geometric Narrowing (GN) と呼ばれるアルゴリズムを導入し、その残差は$\widetilde{{\mathcal{O}}} (A_{+}^d \sqrt{T} )$である。 さらに、GNはこの後悔を達成するために$\mathcal{O} (\log \log T)$のバッチのみを必要とする。 また、この問題に対する低境界解析も提供する。 より具体的には、ある(コンパクトな)二重計量空間において、次元が$d$:であることを示す。 1. 任意のポリシー $\pi$ に対して、$\pi$ が次数 ${\Omega} ( A_-^d \sqrt{T})$ の後悔を認める問題インスタンスが存在する。 2. A_-^d \sqrt{T} $ の全ての問題インスタンスに対して、$ \Omega ( \log \log T ) $ の通信ラウンドを使用するという遺言は得られない。 我々の低境界解析は、GNアルゴリズムが最小のバッチ数でほぼ最適に後悔することを示す。

This paper studies batched bandit learning problems for nondegenerate functions. We introduce an algorithm that solves the batched bandit problem for nondegenerate functions near-optimally. More specifically, we introduce an algorithm, called Geometric Narrowing (GN), whose regret bound is of order $\widetilde{{\mathcal{O}}} ( A_{+}^d \sqrt{T} )$. In addition, GN only needs $\mathcal{O} (\log \log T)$ batches to achieve this regret. We also provide lower bound analysis for this problem. More specifically, we prove that over some (compact) doubling metric space of doubling dimension $d$: 1. For any policy $\pi$, there exists a problem instance on which $\pi$ admits a regret of order ${\Omega} ( A_-^d \sqrt{T})$; 2. No policy can achieve a regret of order $ A_-^d \sqrt{T} $ over all problem instances, using less than $ \Omega ( \log \log T ) $ rounds of communications. Our lower bound analysis shows that the GN algorithm achieves near optimal regret with minimal number of batches.
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# わずかな未学習によるテキスト・画像拡散モデルからの概念の消去

Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning ( http://arxiv.org/abs/2405.07288v2 )

ライセンス: Link先を確認
Masane Fuchi, Tomohiro Takagi, (参考訳) テキストから画像を生成することは、拡散モデルのスケーリングと視覚・言語分野の進歩により容易になっている。 これらのモデルは、インターネットから大量のデータを使って訓練されている。 したがって、著作権のある資料のような望ましくない内容もしばしば含んでいる。 このようなデータを取り除き、モデルを再訓練することは難しいため、事前訓練されたモデルから特定の概念を消去する方法が研究されている。 本稿では,テキストエンコーダを数発のアンラーニングで更新するコンセプト・エミッション手法を提案する。 概念の消去後の生成画像に関する議論は欠落している。 概念の移行先を特定する方法はあるが,その妥当性は明らかではない。 提案手法は,モデルや画像に固有の潜在概念に遷移することで,暗黙的にこれを実現する。 提案手法は10秒以内に概念を消去し,概念の消去をこれまで以上に容易に行えるようにする。 暗黙的に関連する概念に移行することは、より自然な概念の消去につながる。 提案手法を様々な概念に適用し, 提案手法の数十倍から数百倍の速度で実現可能であることを確認した。 更新すべきパラメータを変化させることで、従来の研究と同様に、知識が主にテキストエンコーダのフィードフォワードネットワークに蓄積されていることを示唆する結果を得た。 私たちのコードは \url{https://github.com/fmp453/few-shot-erasing} で利用可能です。

Generating images from text has become easier because of the scaling of diffusion models and advancements in the field of vision and language. These models are trained using vast amounts of data from the Internet. Hence, they often contain undesirable content such as copyrighted material. As it is challenging to remove such data and retrain the models, methods for erasing specific concepts from pre-trained models have been investigated. We propose a novel concept-erasure method that updates the text encoder using few-shot unlearning in which a few real images are used. The discussion regarding the generated images after erasing a concept has been lacking. While there are methods for specifying the transition destination for concepts, the validity of the specified concepts is unclear. Our method implicitly achieves this by transitioning to the latent concepts inherent in the model or the images. Our method can erase a concept within 10 s, making concept erasure more accessible than ever before. Implicitly transitioning to related concepts leads to more natural concept erasure. We applied the proposed method to various concepts and confirmed that concept erasure can be achieved tens to hundreds of times faster than with current methods. By varying the parameters to be updated, we obtained results suggesting that, like previous research, knowledge is primarily accumulated in the feed-forward networks of the text encoder. Our code is available at \url{https://github.com/fmp453/few-shot-erasing}
翻訳日:2024-08-30 19:08:38 公開日:2024-08-29
# Wasserstein Gradient Boosting: 分散価値学習のためのフレームワーク

Wasserstein Gradient Boosting: A Framework for Distribution-Valued Supervised Learning ( http://arxiv.org/abs/2405.09536v2 )

ライセンス: Link先を確認
Takuo Matsubara, (参考訳) グラディエントブースティング(Gradient boosting)は、新しい弱い学習者が各イテレーションで擬似残留物に適合する逐次アンサンブル方式である。 本稿では,各入力に割り当てられた確率分布の損失関数のWasserstein勾配である代替擬似残差に対して,新しい弱い学習者に適合する勾配ブースティングの新たな拡張であるWasserstein勾配ブースティングを提案する。 トレーニングデータセットの出力値が各入力の確率分布である分布値教師付き学習を解決する。 分類と回帰において、モデルは通常、各入力に対して、応答変数に指定された雑音分布のパラメータの点推定を返します。 本稿では,各入力に対する応答パラメータの分布推定値を返す木に基づく明らかな学習について述べる。 我々は,既存の不確実性定量化手法と比較して,ワッサーシュタイン勾配の上昇による確率予測の優れた性能を実証的に実証した。

Gradient boosting is a sequential ensemble method that fits a new weaker learner to pseudo residuals at each iteration. We propose Wasserstein gradient boosting, a novel extension of gradient boosting that fits a new weak learner to alternative pseudo residuals that are Wasserstein gradients of loss functionals of probability distributions assigned at each input. It solves distribution-valued supervised learning, where the output values of the training dataset are probability distributions for each input. In classification and regression, a model typically returns, for each input, a point estimate of a parameter of a noise distribution specified for a response variable, such as the class probability parameter of a categorical distribution specified for a response label. A main application of Wasserstein gradient boosting in this paper is tree-based evidential learning, which returns a distributional estimate of the response parameter for each input. We empirically demonstrate the superior performance of the probabilistic prediction by Wasserstein gradient boosting in comparison with existing uncertainty quantification methods.
翻訳日:2024-08-30 18:57:31 公開日:2024-08-29
# 長い経路における断熱挙動の補正

Corrections to adiabatic behavior for long paths ( http://arxiv.org/abs/2405.10294v2 )

ライセンス: Link先を確認
Thomas D. Cohen, Hyunwoo Oh, (参考訳) 最終固有状態を作成するための断熱定理のコストと誤差を経路長の観点から論じる。 スペクトルギャップを持つハミルトニアンとその微分のノルムに関する以前の研究は、特定の物理的に大きな系に対する断熱的状態準備のコストを記述する能力に制限されている。 我々は,非ゴー定理を考案することによって,断熱的量子計算の計算困難度を決定するのに,総時間は十分ではないと主張している。 時間周期ハミルトニアンの場合の結果、誤差が固定され、小さく保たれたときに経路長が増加するにつれて増大する計算コストのプロキシが存在することを示唆し、その挙動がどの程度一般であるかを推測する。

The cost and the error of the adiabatic theorem for preparing the final eigenstate are discussed in terms of path length. Previous studies in terms of the norm of the Hamiltonian and its derivatives with the spectral gap are limited in their ability to describe the cost of adiabatic state preparation for certain physically large systems. We argue that total time is not a good measure for determining the computational difficulty of adiabatic quantum computation by developing a no-go theorem. From the result of time-periodic Hamiltonian cases, we suggest that there are proxies for computational cost which typically grow as path length increases when the error is kept fixed and small and consider possible conjectures on how general the behavior is.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# DuoSpaceNet: 3Dオブジェクト検出のためのバードアイビューとパースペクティブビュー表現の活用

DuoSpaceNet: Leveraging Both Bird's-Eye-View and Perspective View Representations for 3D Object Detection ( http://arxiv.org/abs/2405.10577v2 )

ライセンス: Link先を確認
Zhe Huang, Yizhe Zhao, Hao Xiao, Chenyan Wu, Lingting Ge, (参考訳) 近年の多視点カメラのみの3Dオブジェクト検出の進歩は、鳥眼視(BEV)の3D特徴の正確な再構築や、従来の2Dビュービュー(PV)の画像特徴に依存している。 どちらも独自の長所と短所を持っているが、「両方の世界の最高のもの」の恩恵を受けるために縫い合わせる方法を見つけた者は少ない。 この目的のために、2つの特徴表現を効果的に集約できるいくつかの有用な2次元空間融合戦略とともに、2次元空間(すなわち、BEVとPV)の知覚フレームワークを探索する。 我々の知る限り、提案手法であるDuoSpaceNetは、2つの異なる特徴空間を最初に活用し、最先端の3Dオブジェクト検出と、nuScenesデータセット上のBEVマップセグメンテーション結果を達成する。

Recent advances in multi-view camera-only 3D object detection either rely on an accurate reconstruction of bird's-eye-view (BEV) 3D features or on traditional 2D perspective view (PV) image features. While both have their own pros and cons, few have found a way to stitch them together in order to benefit from "the best of both worlds". To this end, we explore a duo space (i.e., BEV and PV) 3D perception framework, in conjunction with some useful duo space fusion strategies that allow effective aggregation of the two feature representations. To the best of our knowledge, our proposed method, DuoSpaceNet, is the first to leverage two distinct feature spaces and achieves the state-of-the-art 3D object detection and BEV map segmentation results on nuScenes dataset.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# CC-GPX:Common Crawlによる高品質アノテート地理空間データの抽出

CC-GPX: Extracting High-Quality Annotated Geospatial Data from Common Crawl ( http://arxiv.org/abs/2405.11039v3 )

ライセンス: Link先を確認
Ilya Ilyankou, Meihui Wang, Stefano Cavazzi, James Haworth, (参考訳) Common Crawl (CC) コーパスは2008年以来9.5ペタバイト以上のデータを含む最大のオープンウェブクローリングデータセットである。 データセットは、大規模な言語モデルのトレーニングに役立ち、(望ましくない)コンテンツのために研究され、より小さなドメイン固有のデータセットのために蒸留されている。 しかし、我々の知る限りでは、注釈付き地理空間データの源としてCCを用いる研究は行われていない。 本稿では,CC で発見された GPX ファイルから注釈付きユーザ生成トラックを抽出する効率的なパイプラインと,最新の CC リリース6 から,人文記述と MultiLineString ベクトルデータのペア化によるマルチモーダルデータセットを提案する。 このデータセットは、人々のアウトドア活動パターン、人々がアウトドア体験について話す方法、軌跡生成やアノテーションモデルの開発、あるいは合成的に生成されたルートの代わりに様々な問題の研究に使用することができる。 再現可能なコードはGitHubで入手可能です。

The Common Crawl (CC) corpus is the largest open web crawl dataset containing 9.5+ petabytes of data captured since 2008. The dataset is instrumental in training large language models, and as such it has been studied for (un)desirable content, and distilled for smaller, domain-specific datasets. However, to our knowledge, no research has been dedicated to using CC as a source of annotated geospatial data. In this paper, we introduce an efficient pipeline to extract annotated user-generated tracks from GPX files found in CC, and the resulting multimodal dataset with 1,416 pairings of human-written descriptions and MultiLineString vector data from the 6 most recent CC releases. The dataset can be used to study people's outdoor activity patterns, the way people talk about their outdoor experiences, as well as for developing trajectory generation or track annotation models, or for various other problems in place of synthetically generated routes. Our reproducible code is available on GitHub: https://github.com/ilyankou/cc-gpx
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# ハミルトンアルゴリズムの一般化

Generalization of Hamiltonian algorithms ( http://arxiv.org/abs/2405.14469v2 )

ライセンス: Link先を確認
Andreas Maurer, (参考訳) 本稿では,確率的学習アルゴリズムのクラスに対する一般化結果を示す。 この方法はアルゴリズムが任意のa-プリオリ測度に対して絶対連続分布を生成し、ラドン・ニコディム微分が亜ガウス濃度を持つときに適用される。 Gibbsアルゴリズムと安定した決定論的アルゴリズムのランダム化、およびデータ依存の先行値を持つPAC-Bayesian境界に対する応用である。

The paper proves generalization results for a class of stochastic learning algorithms. The method applies whenever the algorithm generates an absolutely continuous distribution relative to some a-priori measure and the Radon Nikodym derivative has subgaussian concentration. Applications are bounds for the Gibbs algorithm and randomizations of stable deterministic algorithms as well as PAC-Bayesian bounds with data-dependent priors.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# スパースチューニング:効率的な微調整と推論による視覚変換器の適応

Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference ( http://arxiv.org/abs/2405.14700v2 )

ライセンス: Link先を確認
Ting Liu, Xuyang Liu, Siteng Huang, Liangtao Shi, Zunnan Xu, Yi Xin, Quanjun Yin, Xiaohong Liu, (参考訳) パラメータ効率のよい微調整(PEFT)は、トレーニング済みの視覚変換器(ViT)モデルを下流アプリケーションに適用するための一般的なソリューションとして登場した。 現在のPEFT法はパラメータ効率を達成しているが、微調整と推論の両方において計算とGPUメモリの効率を軽視し、実際的な要件を欠いている。 本稿では,画像やビデオにおける情報冗長性を考慮に入れた新しいPEFT手法である \textbf{Sparse-Tuning} を提案する。 意味関連トークンをわずかに保存し、無関係トークンをマージすることで、スパースチューニングは各層で処理されるトークンの量を最小化し、計算とメモリオーバーヘッドを2次的に削減する。 トークンスペーシフィケーション戦略を微調整の目的に合わせるため、浅い層から深い層への密接な接続を確立するDense Adapterをさらに設計する。 これらのDense Adapterは、複数のレベルのローカル機能を統合して、現在のトークンを強化し、トークン保存とモデル適応の両方を改善します。 VTAB-1Kと3つの画像データセット、および2つのビデオデータセットの実証結果から、私たちのスパースチューニングは、GFLOPを、最先端のパフォーマンスを達成しつつ、元のViT-Bの \textbf{62\%-70\%} に還元することを示す。 ソースコードは \url{https://github.com/liuting20/Sparse-Tuning} で入手できる。

Parameter-efficient fine-tuning (PEFT) has emerged as a popular solution for adapting pre-trained Vision Transformer (ViT) models to downstream applications. While current PEFT methods have achieved parameter efficiency, they overlook the efficiency of computation and GPU memory during both fine-tuning and inference, falling short of practical requirements. In this paper, we propose \textbf{Sparse-Tuning}, a novel PEFT method that accounts for the information redundancy in images and videos to boost the above efficiency. By sparsely preserving the semantic-relevant tokens and merging irrelevant ones, Sparse-Tuning minimizes the quantity of tokens processed at each layer, leading to a quadratic reduction in computational and memory overhead. To align our token sparsification strategy suitably with fine-tuning purposes, we further design Dense Adapters that establish dense connections from shallow layers to deeper layers. These Dense Adapters integrate multi-level local features to enrich the current tokens, improving both token preservation and model adaptation. Empirical results on VTAB-1K, three image datasets, and two video datasets show that our Sparse-Tuning reduces GFLOPs to \textbf{62\%-70\%} of the original ViT-B while achieving state-of-the-art performance. Source code is available at \url{https://github.com/liuting20/Sparse-Tuning}.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# 共同現実の量子違反

Quantum violations of joint reality ( http://arxiv.org/abs/2405.17300v2 )

ライセンス: Link先を確認
R. A. Caetano, R. M. Angelo, (参考訳) 基礎 一 地方因果の物理的原則及び (II) アインシュタイン、ポドルスキー、ローゼン(EPR)といった現実の要素の特定の概念は、2つの非可換可観測物が物理的現実のジョイント要素となるような物理的実例が存在する可能性を示唆している。 ここでは,ジョイントリアリティの新たな基準を紹介する。 この基準によると、量子力学は一般に、非可換な可観測物が現実のジョイント要素を持つことを妨げている。 現実のジョイント要素です さらに, 基準が違反する程度を定量化するための尺度を導入し, 適合性や相関関係との関連性について検討する。 量子現象を解釈する新しい方法が示唆された。

With basis on (i) the physical principle of local causality and (ii) a certain notion of elements of reality, Einstein, Podolsky, and Rosen (EPR) put forward an argument showing that physical instances may exist in which two non-commuting observables can be joint elements of the physical reality. Here, we introduce a new criterion of joint reality. We demonstrate that, according to this criterion, quantum mechanics generally prevents non-commuting observables from having joint elements of reality. joint elements of reality. In addition, we introduce a measure to quantify the extent to which the criterion is violated and explore the implications of such a measure in connection with incompatibility and correlations. Our findings suggest new manners of interpreting quantum phenomena.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# Wannier-Stark ladder を用いた非エルミート自由フェルミオンの研究

Fate of non-Hermitian free fermions with Wannier-Stark ladder ( http://arxiv.org/abs/2405.19155v3 )

ライセンス: Link先を確認
Han-Ze Li, Minhui Wan, Jian-Xin Zhong, (参考訳) ワニエ・スタークの局在は非エルミート自由フェルミオンの絡み合い挙動を動的に変化させる。 単一粒子相関行列法を用いて,これらのフェルミオンの有効ハミルトニアンをワニエ・スターク・はしごを用いて解析する。 開境界条件下では、定常状態半鎖絡みのエントロピーを観察し、2つの異なる領域法則領域と代数的スケーリング領域を同定する。 有限サイズスケーリング解析は、半鎖絡みエントロピーの臨界スケーリング挙動を明らかにする。 特に、このシステムは周期境界条件下での特異な絡み合い特性を示し、アンダーソン局所化のための (1+1)D 共形場理論の予測から分岐する。 本研究は,非エルミート皮膚効果と無障害局所化との相互作用から出現する新規な絡み合い相について考察した。

The Wannier-Stark localization dynamically alters the entanglement behavior of non-Hermitian free fermions. Utilizing the single-particle correlation matrix technique, we analyze the effective Hamiltonian of these fermions with a Wannier-Stark ladder. Under open boundary conditions, we observe the steady state half-chain entanglement entropy and identify two distinct area law regions and an algebraic scaling region. Finite-size scaling analysis reveals critical scaling behavior of the half-chain entanglement entropy. Notably, the system demonstrates unique entanglement characteristics under periodic boundary conditions, which diverge from the (1+1)D conformal field theory predictions for Anderson localization. Our findings highlight novel entanglement phases emerging from the interplay between the non-Hermitian skin effect and disorder-free localization.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# ミンコフスキー時空における観測者と自然の間のゲームとしての量子論の解釈について

On the interpretation of quantum theory as games between observers and nature played in Minkowski spacetime ( http://arxiv.org/abs/2405.20143v2 )

ライセンス: Link先を確認
Ghislain Fourny, (参考訳) 2019年、ミンコフスキー時空におけるゲームは、ゲーム理論の一般化として、通常形式(空間的分離)のゲームと広範な形式(時間的分離)のゲームを仮定する特殊相対性理論を導入した。 ナッシュ均衡や平らな戦略形式を含むゲーム理論の多くの概念は、自然に時空ゲームに拡張される。 また,ベル実験などの量子実験をモデル化する上で,これらのゲームの重要性を強調した。 その後の作業は因果文脈性シナリオと呼ばれ、戦略前処理の観点でそのようなゲームの特別なケースを形式化することを提案した。 自然被覆が取られた場合、時空ゲームは特別な場合として因果文脈性シナリオを回復することを示す。 時空ゲームは、視覚的かつ直感的なフレームワークを提供し、共同実験と一方的な実験の区別を捉え、それらがその因果構造に十分に富み、対応する因果的文脈性シナリオの自然な覆いを暗示する。 本研究は,時空ゲームにおける戦略の縮小形における純粋な戦略(およびその制限)に基づいて,戦略事前の戦略を定義することを提案する。 議論は単純で、フラットケースのイベントシーブに似ている。 最後に、戦略分布プレシーブにおけるせん断特性の失敗は、ナッシュゲーム理論が量子物理学と相容れないというこれまでの議論とどのように一致しているかを説明する。 このことは、時空ゲームと因果文脈性シナリオの洞察が、量子基礎の分野の発展に肯定的な貢献をすることを示している。

In 2019, we introduced games in Minkowski spacetime as a generalization of game theory to special relativity that subsumes games in normal form (spacelike separation) and games in extensive form (timelike separation). Many concepts of the game theory literature, including Nash equilibria and flattened strategic forms, naturally extend to spacetime games. We also emphasized the importance of these games to model quantum experiments, such as Bell experiments and more generally any adaptive measurements, from a decision theory perspective. Subsequent work, named causal contextuality scenarios, suggested formalizing a special case of such games in terms of strategy presheaves. If a natural cover is taken, we show that spacetime games recover causal contextuality scenarios as a special case. Spacetime games provide a visual and intuitive framework that captures the distinction between joint experiments and either-or experiments, so that they are rich enough in their causal structure to imply a natural cover for the corresponding causal contextuality scenario. Based on this observation, we suggest defining the strategy presheaf directly based on the pure strategies (and restrictions thereof) in the reduced strategic form of the spacetime game, and we show that the sheaf property obtains for the games at hand. The argument is simple and similar to event sheaves for the flat case. Finally, we explain how, in the other direction, the failure of the sheaf property on strategy distribution presheaves is consistent with our previous argument that Nash game theory is incompatible with quantum physics. This shows that the insights of spacetime games and causal contextuality scenarios, taken together, can contribute positively to the advancement of the field of quantum foundations.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# 離散遅延符号の低ランク適応による軌道予測

Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes ( http://arxiv.org/abs/2405.20743v2 )

ライセンス: Link先を確認
Riccardo Benaglia, Angelo Porrello, Pietro Buzzega, Simone Calderara, Rita Cucchiara, (参考訳) トラジェクトリ予測はビデオ監視分析において不可欠であり、例えば、長期的意図との複雑な相互作用に従事するバスケットボール選手など、一組のエージェントの将来の動きを予測できる。 深層生成モデルは、軌道予測のための自然な学習手法を提供するが、サンプリング忠実度と多様性の最適バランスを達成するのに困難に直面する。 本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAEs)を用いて,離散潜在空間を用いて後方崩壊問題に取り組むことで,この問題に対処する。 具体的には、インスタンスベースのコードブックを導入し、各例用に調整された潜在表現を可能にします。 簡単に言えば、コードブックの行は動的に調整され、文脈情報(つまり、観察された軌跡から抽出された過去の動きパターン)を反映する。 このようにして、離散化プロセスは柔軟性を高め、再構築の改善につながる。 特に、インスタンスレベルのダイナミクスは低ランクの更新によってコードブックに注入され、コードブックの低次元空間へのカスタマイズが制限される。 結果として生じる離散空間は、拡散に基づく予測モデルのトレーニングを考慮に入れたその後のステップの基礎となる。 このような2段階のフレームワークは、インスタンスレベルの離散化によって強化され、正確で多様な予測をもたらし、3つの確立されたベンチマークで最先端のパフォーマンスが得られることを示す。

Trajectory forecasting is crucial for video surveillance analytics, as it enables the anticipation of future movements for a set of agents, e.g. basketball players engaged in intricate interactions with long-term intentions. Deep generative models offer a natural learning approach for trajectory forecasting, yet they encounter difficulties in achieving an optimal balance between sampling fidelity and diversity. We address this challenge by leveraging Vector Quantized Variational Autoencoders (VQ-VAEs), which utilize a discrete latent space to tackle the issue of posterior collapse. Specifically, we introduce an instance-based codebook that allows tailored latent representations for each example. In a nutshell, the rows of the codebook are dynamically adjusted to reflect contextual information (i.e., past motion patterns extracted from the observed trajectories). In this way, the discretization process gains flexibility, leading to improved reconstructions. Notably, instance-level dynamics are injected into the codebook through low-rank updates, which restrict the customization of the codebook to a lower dimension space. The resulting discrete space serves as the basis of the subsequent step, which regards the training of a diffusion-based predictive model. We show that such a two-fold framework, augmented with instance-level discretization, leads to accurate and diverse forecasts, yielding state-of-the-art performance on three established benchmarks.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# カテゴリー量子ボリューム演算子

Categorical Quantum Volume Operator ( http://arxiv.org/abs/2406.02111v3 )

ライセンス: Link先を確認
Alexander Hahn, Sebastian Murk, Sukhbinder Singh, Gavin K. Brennen, (参考訳) 本稿では、曲面三次元離散幾何学における体積を定量化する量子体積演算子の一般化について述べる。 標準的な形式では、量子体積作用素は、面に$\mathrm{SU}(2)$の既約表現が与えられるテトラヘドラから構成される。 ここでは、融合圏の一般対象を自由度として許容する2つの等価な構成を示す。 まず,リボン融合カテゴリの体積演算子を計算する。 これは、任意のモデルの構成要素であるモジュラーテンソル圏(量子倍数など)の重要なクラスを含む。 第二に、体積作用素を閉包制約(四面体対称性として知られる)のカテゴリー的類似を緩和することにより球面融合圏に一般化する。 どちらの場合も、入力圏がユニタリであることを仮定して、エルミート作用素を得る。 例を挙げると、$\mathrm{SU}(2)_k$ の場合を考え、標準 $\mathrm{SU}(2)$ volume operator が $k\rightarrow\infty$ の極限で回復されることを示す。

We present a generalization of the quantum volume operator quantifying the volume in curved three-dimensional discrete geometries. In its standard form, the quantum volume operator is constructed from tetrahedra whose faces are endowed with irreducible representations of $\mathrm{SU}(2)$. Here, we show two equivalent constructions that allow general objects in fusion categories as degrees of freedom. First, we compute the volume operator for ribbon fusion categories. This includes the important class of modular tensor categories (such as quantum doubles), which are the building blocks of anyon models. Second, we further generalize the volume operator to spherical fusion categories by relaxing the categorical analog of the closure constraint (known as tetrahedral symmetry). In both cases, we obtain a volume operator that is Hermitian, provided that the input category is unitary. As an illustrative example, we consider the case of $\mathrm{SU}(2)_k$ and show that the standard $\mathrm{SU}(2)$ volume operator is recovered in the limit $k\rightarrow\infty$.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# CityLight: 都市規模の異種交差点における協調交通信号制御のユニバーサルモデル

CityLight: A Universal Model for Coordinated Traffic Signal Control in City-scale Heterogeneous Intersections ( http://arxiv.org/abs/2406.02126v3 )

ライセンス: Link先を確認
Jinwei Zeng, Chao Yu, Xinyi Yang, Wenxuan Ao, Qianyue Hao, Jian Yuan, Yong Li, Yu Wang, Huazhong Yang, (参考訳) 近代都市における混雑問題の増加により、交通効率向上のための都市規模の交通信号制御(TSC)手法の開発の重要性が高まっている。 TSCでは強化学習が広く研究されているが、その多くがまだ小規模の最適化を目標としており、資源需要の難しさから都市レベルへの直接的拡大はできない。 パラメータ共有機構を導入することで、都市レベルの最適化、すなわち1000スケールの最適化に取り組むことができるのはごくわずかだが、実際の都市道路網に固有の交差点の不均一性や複雑な交差点間相互作用に完全に取り組むことはほとんどない。 このギャップを埋めるために、パラメータ共有パラダイムを採用する際の2つの重要な課題として、コンフィグレーションやスケール、利用可能なトラフィックフェーズのヘテロジニアスな交差点の内的状態表現の不整合、不整合相秩序と多様な相対的位置決めによる様々な相対的トラフィック関係を持つ近隣交差点からの影響の複雑化、などがあげられる。 提案手法であるCityLightは, 共通表現モジュールを特徴とし, 相のセマンティクスに基づいて位相を再現し, 異種性保存観測を設計するとともに, 近傍の交差点を均一な相対的交通影響空間に投影するために, 狭義の相対的交通関係型を符号化する。 我々はさらに、その競合関係に基づいて近隣の表現をさらに融合させ、調整を促進するために近隣統合報酬を取り入れた。 数百から数万の交差点による大規模な実験により、CityLightの驚くべき有効性と一般化性が確認され、全体的なパフォーマンスは11.68%、スループットにおける転送シナリオは22.59%向上した。

The increasingly severe congestion problem in modern cities strengthens the significance of developing city-scale traffic signal control (TSC) methods for traffic efficiency enhancement. While reinforcement learning has been widely explored in TSC, most of them still target small-scale optimization and cannot directly scale to the city level due to unbearable resource demand. Only a few of them manage to tackle city-level optimization, namely a thousand-scale optimization, by incorporating parameter-sharing mechanisms, but hardly have they fully tackled the heterogeneity of intersections and intricate between-intersection interactions inherent in real-world city road networks. To fill in the gap, we target at the two important challenges in adopting parameter-sharing paradigms to solve TSC: inconsistency of inner state representations for intersections heterogeneous in configuration, scale, and orders of available traffic phases; intricacy of impacts from neighborhood intersections that have various relative traffic relationships due to inconsistent phase orders and diverse relative positioning. Our method, CityLight, features a universal representation module that not only aligns the state representations of intersections by reindexing their phases based on their semantics and designing heterogeneity-preserving observations, but also encodes the narrowed relative traffic relation types to project the neighborhood intersections onto a uniform relative traffic impact space. We further attentively fuse neighborhood representations based on their competing relations and incorporate neighborhood-integrated rewards to boost coordination. Extensive experiments with hundreds to tens of thousands of intersections validate the surprising effectiveness and generalizability of CityLight, with an overall performance gain of 11.68% and a 22.59% improvement in transfer scenarios in throughput.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# 強相関物質の量子輸送理論

Quantum Transport Theory of Strongly Correlated Matter ( http://arxiv.org/abs/2406.02677v2 )

ライセンス: Link先を確認
Assa Auerbach, Sauri Bhattacharyya, (参考訳) 本報告では, 一般相互作用ハミルトニアンに対するKubo式計算の最近の進歩について述べる。 ボルツマン方程式とホール伝導率プロキシがそれらの妥当性を超える強い散乱状態における電気的および熱的導電率を計算することを目的としている。 3つの主要なアプローチが説明される。 1. ホール型導電率の縮退計画偏極公式は, 計算された電流行列要素の数を大幅に減少させる。 これらの式はベリー曲率積分公式を不完全格子に一般化する。 2. 動的長手導電率の連続分数表現 計算は熱力学的平均値のセットを生成し、その数学的関係を低周波および高周波導電性漸近量に制御して外挿することができる。 3. 熱力学平均から構築したホール型係数和式。 熱力学公式は、ハミルトニアン固有スペクトルの不透明度と高い計算コストを避ける作用素ヒルベルト空間定式化(英語版)によって導かれる。 この係数は、よく確立された実時間モンテカルロサンプリング、高温膨張、演算子の痕跡、低温での変動波動関数によって得られる。 格子電子とボソンのよく知られたモデルへの応用により、アプローチ1--3のパワーを実証する。 計算により, モット絶縁体近傍の金属輸送に及ぼす強い局所相互作用の影響が明らかにされた。 これらのアプローチの今後の方向性について論じる。

This report reviews recent progress in computing Kubo formulas for general interacting Hamiltonians. The aim is to calculate electric and thermal magneto-conductivities in strong scattering regimes where Boltzmann equation and Hall conductivity proxies exceed their validity. Three primary approaches are explained. 1. Degeneracy-projected polarization formulas for Hall-type conductivities, which substantially reduce the number of calculated current matrix elements. These expressions generalize the Berry curvature integral formulas to imperfect lattices. 2. Continued fraction representation of dynamical longitudinal conductivities. The calculations produce a set of thermodynamic averages, which can be controllably extrapolated using their mathematical relations to low and high frequency conductivity asymptotics. 3. Hall-type coefficients summation formulas, which are constructed from thermodynamic averages. The thermodynamic formulas are derived in the operator Hilbert space formalism, which avoids the opacity and high computational cost of the Hamiltonian eigenspectrum. The coefficients can be obtained by well established imaginary-time Monte Carlo sampling, high temperature expansion, traces of operator products, and variational wavefunctions at low temperatures. We demonstrate the power of approaches 1--3 by their application to well known models of lattice electrons and bosons. The calculations clarify the far-reaching influence of strong local interactions on the metallic transport near Mott insulators. Future directions for these approaches are discussed.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# コモンクローリングコーパスにおける地理空間の定量化

Quantifying Geospatial in the Common Crawl Corpus ( http://arxiv.org/abs/2406.04952v2 )

ライセンス: Link先を確認
Ilya Ilyankou, Meihui Wang, Stefano Cavazzi, James Haworth, (参考訳) 大規模言語モデル (LLM) は、しばしばCommon Crawl (CC) コーパスから派生した巨大な未ラベルテキストデータセットの事前学習から生まれた、新しい地理空間能力を示す。 しかし, CC内の空間的含みは未解明であり, LLMsの空間的推論の理解に影響を与えている。 本稿では,最近のCommon Crawlリリースにおける地理空間データの有効性について,強力な言語モデルであるGemini 1.5を用いて検討する。 文書のサンプルを分析し,手作業による修正を行った結果,CC内のWebドキュメントの18.7%が座標やアドレスなどの地理空間情報を含んでいることが推定された。 エンリジッシュ語と非英語の文書の頻度の差はほとんど見つからない。 本研究は,地球空間データの性質と範囲を定量的に把握し,今後のLLMの地空間バイアス研究の基盤となるものと考えられる。

Large language models (LLMs) exhibit emerging geospatial capabilities, stemming from their pre-training on vast unlabelled text datasets that are often derived from the Common Crawl (CC) corpus. However, the geospatial content within CC remains largely unexplored, impacting our understanding of LLMs' spatial reasoning. This paper investigates the prevalence of geospatial data in recent Common Crawl releases using Gemini 1.5, a powerful language model. By analyzing a sample of documents and manually revising the results, we estimate that 18.7% of web documents in CC contain geospatial information such as coordinates and addresses. We find little difference in prevalence between Enlgish- and non-English-language documents. Our findings provide quantitative insights into the nature and extent of geospatial data in CC, and lay the groundwork for future studies of geospatial biases of LLMs.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# 高次グラフニューラルネットワークのための高効率トポロジ対応データ拡張

Efficient Topology-aware Data Augmentation for High-Degree Graph Neural Networks ( http://arxiv.org/abs/2406.05482v4 )

ライセンス: Link先を確認
Yurui Lai, Xiaoyang Lin, Renchi Yang, Hongtao Wang, (参考訳) 近年,グラフニューラルネットワーク(GNN)がグラフ構造化データ学習の強力なツールとして登場し,様々な分野で実りある成功を収めている。 GNNの大多数はメッセージパッシングのパラダイムに従っており、各ノードの表現は隣人の機能を再帰的に集約することで学習される。 しかし、このメカニズムは、高次グラフ(HDG)よりも過度にスムーシングと効率上の問題をもたらし、ほとんどのノードには、ソーシャルネットワーク、トランザクショングラフ、電力網など、数十(あるいは数百)の隣人が存在する。 さらに、そのようなグラフは通常、リッチで複雑な構造意味論を含み、GNNの機能集約だけではキャプチャが困難である。 上記の制限により,HDG上でのGNNのための効率的かつ効果的なフロントマウントデータ拡張フレームワークであるTADを提案する。 内部では、TADには2つの重要なモジュールが含まれている。 (i)構造埋め込みによる特徴拡張、及び (ii) トポロジーと属性対応グラフのスパース化。 前者は,高効率スケッチ法を用いて,グラフ構造を高品質な構造埋め込みに符号化することにより,拡張ノード特性とモデルキャパシティを向上させる。 さらに、グラフ構造や属性から抽出したタスク関連特徴を利用して、第2モジュールは、入力グラフから多数の冗長/ノイズエッジの正確な識別と削減を可能にし、過剰なスムーシングを緩和し、HDGよりも高速な特徴集約を容易にする。 経験的に、TADはノード分類の観点から8つの実ホモ親和性/ヘテロ親和性HDG上でのメインストリームGNNモデルの予測性能を著しく改善し、効率的なトレーニングと推論プロセスを実現している。

In recent years, graph neural networks (GNNs) have emerged as a potent tool for learning on graph-structured data and won fruitful successes in varied fields. The majority of GNNs follow the message-passing paradigm, where representations of each node are learned by recursively aggregating features of its neighbors. However, this mechanism brings severe over-smoothing and efficiency issues over high-degree graphs (HDGs), wherein most nodes have dozens (or even hundreds) of neighbors, such as social networks, transaction graphs, power grids, etc. Additionally, such graphs usually encompass rich and complex structure semantics, which are hard to capture merely by feature aggregations in GNNs. Motivated by the above limitations, we propose TADA, an efficient and effective front-mounted data augmentation framework for GNNs on HDGs. Under the hood, TADA includes two key modules: (i) feature expansion with structure embeddings, and (ii) topology- and attribute-aware graph sparsification. The former obtains augmented node features and enhanced model capacity by encoding the graph structure into high-quality structure embeddings with our highly-efficient sketching method. Further, by exploiting task-relevant features extracted from graph structures and attributes, the second module enables the accurate identification and reduction of numerous redundant/noisy edges from the input graph, thereby alleviating over-smoothing and facilitating faster feature aggregations over HDGs. Empirically, TADA considerably improves the predictive performance of mainstream GNN models on 8 real homophilic/heterophilic HDGs in terms of node classification, while achieving efficient training and inference processes.
翻訳日:2024-08-30 18:57:30 公開日:2024-08-29
# 生成基礎モデルからの合成音声は音声認識と音声モデリングを支援するか?

Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling? ( http://arxiv.org/abs/2406.08800v2 )

ライセンス: Link先を確認
Tiantian Feng, Dimitrios Dimitriadis, Shrikanth Narayanan, (参考訳) 基礎モデルの最近の進歩は、音楽、イベント、人間の行動に関連する高忠実な音を生成するオーディオ生成モデルを可能にしている。 現代のオーディオ生成モデルで成功したにもかかわらず、オーディオ生成の品質を評価する従来のアプローチは、Frechet Audio Distanceのような距離メトリクスに大きく依存している。 一方,本研究では,学習データとしての音質評価を行ない,音質評価を行おうとしている。 具体的には,音声認識における合成音声の利用について検討する。 さらに,音声関連モデリングにおいて,合成音声がデータ拡張の資源となるかどうかを検討する。 包括的実験により,音声認識や音声関連モデリングに合成音声を用いる可能性が示された。 私たちのコードはhttps://github.com/usc-sail/SynthAudio.comで公開されています。

Recent advances in foundation models have enabled audio-generative models that produce high-fidelity sounds associated with music, events, and human actions. Despite the success achieved in modern audio-generative models, the conventional approach to assessing the quality of the audio generation relies heavily on distance metrics like Frechet Audio Distance. In contrast, we aim to evaluate the quality of audio generation by examining the effectiveness of using them as training data. Specifically, we conduct studies to explore the use of synthetic audio for audio recognition. Moreover, we investigate whether synthetic audio can serve as a resource for data augmentation in speech-related modeling. Our comprehensive experiments demonstrate the potential of using synthetic audio for audio recognition and speech-related modeling. Our code is available at https://github.com/usc-sail/SynthAudio.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# Misam: Sparse-Sparse Matrix Multiplicationのデータフロー選択にMLを使用する

Misam: Using ML in Dataflow Selection of Sparse-Sparse Matrix Multiplication ( http://arxiv.org/abs/2406.10166v2 )

ライセンス: Link先を確認
Sanjali Yadav, Bahar Asgari, (参考訳) スパース行列行列行列乗法(SpGEMM)は、科学計算、グラフ解析、ディープラーニングを含む多くの分野において重要な演算である。 これらのアプリケーションは、ストレージと計算要求を減らすために行列の幅を利用する。 しかし、スパース行列の不規則な構造は、性能最適化に重大な課題をもたらす。 従来のハードウェアアクセラレータは、内部、外部、および行単位で固定されたデータフロースキームを持つ特定のスパーシティパターン用に調整されているが、実際のスパーシティがこれらの所定のパターンから逸脱したときには、過度に実行することが多い。 様々な領域にまたがってSpGEMMの利用が拡大するにつれて、様々な空間パターンを効率的に扱えるハードウェアアクセラレーターの需要が高まっている。 本稿では,SpGEMMタスクに最適なデータフロースキームを適応的に選択する機械学習手法を提案する。 決定木と深層強化学習を用いることで、最適なデータフロースキームを特定するためのヒューリスティックな手法を超える可能性を探る。 それらのモデルとヒューリスティックなモデルを比較し、それぞれのアプローチの長所と短所を強調して評価する。 ハードウェアアクセラレーターにおける動的データフロー選択に機械学習を用いることで、最大28倍のゲインが得られることが示唆された。

Sparse matrix-matrix multiplication (SpGEMM) is a critical operation in numerous fields, including scientific computing, graph analytics, and deep learning. These applications exploit the sparsity of matrices to reduce storage and computational demands. However, the irregular structure of sparse matrices poses significant challenges for performance optimization. Traditional hardware accelerators are tailored for specific sparsity patterns with fixed dataflow schemes - inner, outer, and row-wise but often perform suboptimally when the actual sparsity deviates from these predetermined patterns. As the use of SpGEMM expands across various domains, each with distinct sparsity characteristics, the demand for hardware accelerators that can efficiently handle a range of sparsity patterns is increasing. This paper presents a machine learning based approach for adaptively selecting the most appropriate dataflow scheme for SpGEMM tasks with diverse sparsity patterns. By employing decision trees and deep reinforcement learning, we explore the potential of these techniques to surpass heuristic-based methods in identifying optimal dataflow schemes. We evaluate our models by comparing their performance with that of a heuristic, highlighting the strengths and weaknesses of each approach. Our findings suggest that using machine learning for dynamic dataflow selection in hardware accelerators can provide upto 28 times gains.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# 適応強化学習計画:複雑な情報抽出のための大規模言語モデルの構築

Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction ( http://arxiv.org/abs/2406.11455v2 )

ライセンス: Link先を確認
Zepeng Ding, Ruiyang Ke, Wenhao Huang, Guochao Jiang, Yanda Li, Deqing Yang, Jiaqing Liang, (参考訳) 大規模言語モデル(LLM)に関する既存の研究は、多段階計画により情報抽出タスクを解くことができることを示している。 しかし、複雑な文やタスクに対する抽出行動は不安定であり、偽陽性や欠落要素といった新たな問題が発生する。 複雑な抽出タスクを分解し、ステップごとに抽出することで、LCMの性能を効果的に向上させることができることを観察し、LCMの最終結果に大きな影響を及ぼす。 本稿では,LLMに基づく情報抽出のための2段階多段階手法を提案し,多段階計画を実行するためにRLフレームワークを採用する。 我々は、逐次抽出をマルコフ決定過程とみなし、LCMに基づく抽出環境を構築し、異なる文に対する逐次エンティティ抽出の最適順序を適応的に提供する決定モジュールを設計し、DDQNアルゴリズムを用いて決定モデルを訓練する。 また,LLMの抽出結果に適した報酬と評価指標を設計する。 提案手法の有効性を実証するため,複数の公開データセットに対する広範囲な実験を行い,LLMの情報抽出能力の向上を図った。

Existing research on large language models (LLMs) shows that they can solve information extraction tasks through multi-step planning. However, their extraction behavior on complex sentences and tasks is unstable, emerging issues such as false positives and missing elements. We observe that decomposing complex extraction tasks and extracting them step by step can effectively improve LLMs' performance, and the extraction orders of entities significantly affect the final results of LLMs. This paper proposes a two-stage multi-step method for LLM-based information extraction and adopts the RL framework to execute the multi-step planning. We regard sequential extraction as a Markov decision process, build an LLM-based extraction environment, design a decision module to adaptively provide the optimal order for sequential entity extraction on different sentences, and utilize the DDQN algorithm to train the decision model. We also design the rewards and evaluation metrics suitable for the extraction results of LLMs. We conduct extensive experiments on multiple public datasets to demonstrate the effectiveness of our method in improving the information extraction capabilities of LLMs.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# OpticalRS-4M:大規模リモートセンシングデータセットを用いた効率的なマスク付きオートエンコーダ学習

OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset ( http://arxiv.org/abs/2406.11933v2 )

ライセンス: Link先を確認
Fengxiang Wang, Hongzhen Wang, Di Wang, Zonghao Guo, Zhenyu Zhong, Long Lan, Jing Zhang, Zhiyuan Liu, Maosong Sun, (参考訳) Masked Image Modeling (MIM) は、リモートセンシング(RS)における基礎的な視覚モデル構築に欠かせない手法となっている。 しかし、既存のRSデータセットのサイズと多様性の制限は、MIM法が一般化可能な表現を学習する能力を制限する。 さらに、全てのトークンを再構築する必要がある従来のMIM技術は、不要な計算オーバーヘッドを導入している。 これらの問題に対処するため、我々は大規模なRSデータセットの作成と効率的なMIMアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。 我々は、公開可能なRSデータセットを収集し、排除、スライシング、復号化によってそれらを処理することで、OptoRS-4Mという高品質なデータセットをキュレートした。 光RS-4Mは、オブジェクト検出やピクセルセグメンテーションなど、様々なRSタスクをカバーする400万の光学画像で構成されている。 効率を向上させるために,SelectiveMAEを提案する。SelectiveMAEは,意味的にリッチなパッチトークンを動的にエンコードし,再構成することで,RS画像の冗長な背景画素に起因する従来のMIMモデルの非効率性を低減できる。 広汎な実験により、光学RS-4Mは分類、検出、セグメンテーション性能を著しく改善し、セレクティブMAEは2倍のトレーニング効率を向上することが示された。 これは、RS基盤モデルの開発におけるパイプラインの有効性とスケーラビリティを強調します。

Masked Image Modeling (MIM) has become an essential method for building foundational visual models in remote sensing (RS). However, the limitations in size and diversity of existing RS datasets restrict the ability of MIM methods to learn generalizable representations. Additionally, conventional MIM techniques, which require reconstructing all tokens, introduce unnecessary computational overhead. To address these issues, we present a new pre-training pipeline for RS models, featuring the creation of a large-scale RS dataset and an efficient MIM approach. We curated a high-quality dataset named OpticalRS-4M by collecting publicly available RS datasets and processing them through exclusion, slicing, and deduplication. OpticalRS-4M comprises 4 million optical images covering various RS tasks, such as object detection and pixel segmentation. To enhance efficiency, we propose SelectiveMAE, a pre-training method that dynamically encodes and reconstructs semantically rich patch tokens, thereby reducing the inefficiencies of traditional MIM models caused by redundant background pixels in RS images. Extensive experiments demonstrate that OpticalRS-4M significantly improves classification, detection, and segmentation performance, while SelectiveMAE increases training efficiency over 2 times. This highlights the effectiveness and scalability of our pipeline in developing RS foundational models.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# 力学における逆問題解決のための条件付きスコアベース拡散モデル

Conditional score-based diffusion models for solving inverse problems in mechanics ( http://arxiv.org/abs/2406.13154v3 )

ライセンス: Link先を確認
Agnimitra Dasgupta, Harisankar Ramaswamy, Javier Murgoitio-Esandi, Ken Foo, Runze Li, Qifa Zhou, Brendan Kennedy, Assad Oberai, (参考訳) 本研究では, 条件付きスコアベース拡散モデルを用いてベイズ推定を行い, 荷重に対する機械的応答のノイズ測定から, 試料の空間的に変化する材料特性を推定する機構の逆問題クラスを解く枠組みを提案する。 条件付きスコアベース拡散モデル(英: Conditional score-based diffusion model)は、条件付き分布のスコア関数を、共同分布からのサンプルを用いて近似する生成モデルである。 より具体的には、測定の多重実現に対応するスコア関数を、単一のニューラルネットワーク、いわゆるスコアネットワークを用いて近似し、その後、ランゲヴィン力学に基づく適切なマルコフ連鎖モンテカルロスキームを用いて後部分布をサンプリングする。 スコアネットワークをトレーニングするには、フォワードモデルをシミュレートする必要がある。 したがって、提案手法はブラックボックスフォワードモデルと複雑な測定ノイズに対応できる。 さらに、一度スコアネットワークをトレーニングすれば、測定の異なる実現のための逆問題の解決に再利用することができる。 ノイズ測定から異種材料特性を推定する力学における高次元逆問題に対して,提案手法の有効性を実証する。 合成データを含むと考える例や、実際のエラストグラフィー実験から収集したデータを含む例がある。 さらに, 提案手法は, 異なる測定モダリティ, 推定量の複雑なパターン, 非ガウス雑音モデル, 非ガウス雑音モデル, 非線形ブラックボックスフォワードモデルに対応できることを示す。 その結果,提案フレームワークは大規模物理学に基づく逆問題の解法を効率的に行うことができることがわかった。

We propose a framework to perform Bayesian inference using conditional score-based diffusion models to solve a class of inverse problems in mechanics involving the inference of a specimen's spatially varying material properties from noisy measurements of its mechanical response to loading. Conditional score-based diffusion models are generative models that learn to approximate the score function of a conditional distribution using samples from the joint distribution. More specifically, the score functions corresponding to multiple realizations of the measurement are approximated using a single neural network, the so-called score network, which is subsequently used to sample the posterior distribution using an appropriate Markov chain Monte Carlo scheme based on Langevin dynamics. Training the score network only requires simulating the forward model. Hence, the proposed approach can accommodate black-box forward models and complex measurement noise. Moreover, once the score network has been trained, it can be re-used to solve the inverse problem for different realizations of the measurements. We demonstrate the efficacy of the proposed approach on a suite of high-dimensional inverse problems in mechanics that involve inferring heterogeneous material properties from noisy measurements. Some examples we consider involve synthetic data, while others include data collected from actual elastography experiments. Further, our applications demonstrate that the proposed approach can handle different measurement modalities, complex patterns in the inferred quantities, non-Gaussian and non-additive noise models, and nonlinear black-box forward models. The results show that the proposed framework can solve large-scale physics-based inverse problems efficiently.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# Floquetシステムを用いた振幅増幅と推定

Amplitude Amplification and Estimation using a Floquet system ( http://arxiv.org/abs/2406.13211v2 )

ライセンス: Link先を確認
Keshav V, M. S. Santhanam, (参考訳) 量子キックドローター(QKR)は時間依存型量子カオスの基本モデルであり、アンダーソン局在の物理である。 Floquetは、最もよく研究されているFloquetシステムの一つである。 本研究では、QKRを用いて非構造化探索を行う量子アルゴリズム、すなわち、Groverの探索アルゴリズムを一般化した振幅増幅を行う。 また、マーク状態の振幅が未知の場合には、QKRを用いて振幅推定を行う。 また,QKRの動的ローカライゼーションの特性を利用して,振幅増幅アルゴリズムの性能を向上させることができることを示した。 共振から逸脱する未構造化探索の成功確率とノイズキック強度の影響を解析し,QKRに基づくアルゴリズムのロバスト性を実証した。 アルゴリズムのすべてのコンポーネントの実験的実現可能性について論じる。

The quantum kicked rotor (QKR) is a fundamental model of time-dependent quantum chaos and the physics of Anderson localization. It is one of the most well-studied Floquet systems. In this work, it is shown that QKR can be used to implement a quantum algorithm to perform unstructured search; namely Amplitude Amplification, a generalization of Grover's search algorithm. Further, the QKR is employed for amplitude estimation when the amplitude of the marked states is unknown. It is also shown that the characteristic property of dynamical localization of the QKR can be exploited to enhance the performance of the amplitude amplification algorithm by reducing its average runtime. The sensitivity of the success probability of unstructured search to detuning from resonance and the effects of noisy kick strengths are analyzed and the robustness of the QKR based algorithm is demonstrated. The experimental feasibility of every component of the algorithm is discussed.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# 階層型サポートグラフによる次世代メッセージパッシング

Next Level Message-Passing with Hierarchical Support Graphs ( http://arxiv.org/abs/2406.15852v2 )

ライセンス: Link先を確認
Carlos Vonessen, Florian Grötschla, Roger Wattenhofer, (参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、グラフ学習タスクに広く使用されているが、各ラウンドのメッセージパッシング中に隣接するノードに制限されるため、情報交換の制限範囲のような制限に悩まされている。 グローバルな情報交換を容易にするために仮想ノードを組み込むなど、これらの制限に対処する様々な戦略が提案されている。 本研究では,元のグラフの再帰的粗大化によって生成された仮想ノードの概念の拡張である階層支援グラフ(HSG)を紹介する。 このアプローチは、使用する特定のMPNN層とは独立して、グラフ内の情報フローを強化する柔軟なフレームワークを提供する。 本稿では、HSGの理論的解析を行い、その経験的性能を検証し、HSGが仮想ノードで拡張された他の手法を超越し、複数のデータセットにまたがって最先端の結果を達成できることを実証する。

Message-Passing Neural Networks (MPNNs) are extensively employed in graph learning tasks but suffer from limitations such as the restricted scope of information exchange, by being confined to neighboring nodes during each round of message passing. Various strategies have been proposed to address these limitations, including incorporating virtual nodes to facilitate global information exchange. In this study, we introduce the Hierarchical Support Graph (HSG), an extension of the virtual node concept created through recursive coarsening of the original graph. This approach provides a flexible framework for enhancing information flow in graphs, independent of the specific MPNN layers utilized. We present a theoretical analysis of HSGs, investigate their empirical performance, and demonstrate that HSGs can surpass other methods augmented with virtual nodes, achieving state-of-the-art results across multiple datasets.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# 二次元絶縁体における量子幾何学と絡み合いの観測可能なコーナー電荷ゆらぎ

Corner Charge Fluctuation as an Observable for Quantum Geometry and Entanglement in Two-dimensional Insulators ( http://arxiv.org/abs/2406.17023v2 )

ライセンス: Link先を確認
Pok Man Tam, Jonah Herzog-Arbeitman, Jiabin Yu, (参考訳) 粒子数のような保存電荷の2部ゆらぎを測定することは、量子系を理解するための強力なアプローチである。 測定された領域が鋭い角を持つとき、バイパルタイト変動は、2D等方性と均一系の普遍的な角度依存性を示すことが知られている追加の寄与を受ける。 ここでは、非相互作用電子の一般格子系に対して、角電荷のゆらぎは量子幾何学と直接関係していることを確立し、単位セル毎に原子が1つ存在する場合の相互作用系への結論をさらに一般化する。 まず、格子上のコーナーコントリビューションを分離する実用的なスキームを提案し、その角依存性を小角極限で解析的に証明し、積分量子計量を専ら測定する。 量子幾何学のプローブとして、有限サイズの量子シミュレータにおける角電荷変動の実験的関連性を、チャーン絶縁体モデルに対する数値的な検証によりさらに示しながら、この効果を解析的に示すために、コンパクトな閉塞原子絶縁体のモデルを紹介した。 最後に、自由フェルミオンに対しては、角絡みエントロピーのレンズを通して量子幾何学と量子情報の間の顕著な接続を明らかにする。

Measuring bipartite fluctuations of a conserved charge, such as the particle number, is a powerful approach to understanding quantum systems. When the measured region has sharp corners, the bipartite fluctuation receives an additional contribution known to exhibit a universal angle-dependence in 2D isotropic and uniform systems. Here we establish that, for generic lattice systems of noninteracting electrons, the corner charge fluctuation is directly related to quantum geometry; we further generalize the conclusion to interacting systems for the case where there is one atom per unit cell. We first provide a practical scheme to isolate the corner contribution on lattices, and analytically prove that its angle-dependence in the small-angle limit measures the integrated quantum metric exclusively. A model of a compact obstructed atomic insulator is introduced to illustrate this effect analytically, while numerical verification for various Chern insulator models further demonstrate the experimental relevance of the corner charge fluctuation in a finite-size quantum simulator as a probe of quantum geometry. Last but not least, for free-fermions, we unveil a remarkable connection between quantum geometry and quantum information through the lens of corner entanglement entropies.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# マニピュレーション・アニーシング:視覚言語モデルを用いた実世界ロボットの自動化

Manipulate-Anything: Automating Real-World Robots using Vision-Language Models ( http://arxiv.org/abs/2406.18915v3 )

ライセンス: Link先を確認
Jiafei Duan, Wentao Yuan, Wilbert Pumacay, Yi Ru Wang, Kiana Ehsani, Dieter Fox, Ranjay Krishna, (参考訳) Open-X-Embodimentのような大規模な取り組みやコミュニティの幅広い取り組みは、ロボットのデモデータの拡大に寄与している。 しかし、ロボットのデモデータの質、量、多様性を改善する機会はまだ残っている。 視覚言語モデルは、デモデータを自動的に生成することが示されているが、そのユーティリティは特権のある状態情報を持つ環境に限られており、手書きのスキルを必要とし、少数のオブジェクトインスタンスとのインタラクションに限られている。 実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。 従来の作業とは異なり,本手法は特権状態情報や手書きのスキルを使わずに実環境でも動作可能であり,静的オブジェクトを操作できる。 提案手法を2つの設定を用いて評価する。 第一に、Manipulate-Anythingは7つの現実世界と14のシミュレーションタスクの軌道を生成することに成功した。 第2に、Manipulate-Anything氏のデモは、人間のデモを使用したトレーニングや、VoxPoser、Scaling-up、Code-As-Policiesによって生成されたデータより堅牢な行動クローンポリシーをトレーニングすることができる。 Manipulate-Anythingは、ロボット工学のためのデータ生成と、ゼロショット設定で新しいタスクを解くためのスケーラブルな方法であると考えています。 プロジェクトページ: https://robot-ma.github.io/.com

Large-scale endeavors like and widespread community efforts such as Open-X-Embodiment have contributed to growing the scale of robot demonstration data. However, there is still an opportunity to improve the quality, quantity, and diversity of robot demonstration data. Although vision-language models have been shown to automatically generate demonstration data, their utility has been limited to environments with privileged state information, they require hand-designed skills, and are limited to interactions with few object instances. We propose Manipulate-Anything, a scalable automated generation method for real-world robotic manipulation. Unlike prior work, our method can operate in real-world environments without any privileged state information, hand-designed skills, and can manipulate any static object. We evaluate our method using two setups. First, Manipulate-Anything successfully generates trajectories for all 7 real-world and 14 simulation tasks, significantly outperforming existing methods like VoxPoser. Second, Manipulate-Anything's demonstrations can train more robust behavior cloning policies than training with human demonstrations, or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe Manipulate-Anything can be a scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Project page: https://robot-ma.github.io/.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# VideoMambaPro:ビデオ理解におけるMambaの推進力

VideoMambaPro: A Leap Forward for Mamba in Video Understanding ( http://arxiv.org/abs/2406.19006v2 )

ライセンス: Link先を確認
Hui Lu, Albert Ali Salah, Ronald Poppe, (参考訳) ビデオ理解には、トランスフォーマーモデルが自己注意を通じて達成する豊かな時空間表現の抽出が必要である。 残念ながら、自己注意は計算上の負担をもたらす。 NLPでは、Mambaは変換器の効率的な代替品として浮上している。 しかし、マンバの成功は、ビデオ分析を含むコンピュータビジョンのタスクにさほど及ばない。 本稿では,自尊心とマンバの差異を理論的に分析する。 マンバのトークン処理には、歴史的崩壊と元素矛盾という2つの制限がある。 我々は,ビデオマンバのバックボーンにマスク付き後方計算と要素残差接続を追加することで,特定された制限を解消するVideoMambaPro(VMP)を提案する。 VideoMambaProは、トランスフォーマーモデルと比較して最先端のビデオアクション認識性能を示し、Kinetics-400とSomething V2でそれぞれ7.9%と8.1%という明確なマージンでVideoMambaを上回っている。 私たちのVideoMambaPro-Mモデルは、InternVideo2-6Bよりわずか0.2%低いが、パラメータの1.2%しか持たないKinetics-400で91.9%のトップ-1を達成した。 高性能と効率性の組み合わせにより、VideoMambaProはトランスフォーマーモデルの興味深い代替品となる。

Video understanding requires the extraction of rich spatio-temporal representations, which transformer models achieve through self-attention. Unfortunately, self-attention poses a computational burden. In NLP, Mamba has surfaced as an efficient alternative for transformers. However, Mamba's successes do not trivially extend to computer vision tasks, including those in video analysis. In this paper, we theoretically analyze the differences between self-attention and Mamba. We identify two limitations in Mamba's token processing: historical decay and element contradiction. We propose VideoMambaPro (VMP) that solves the identified limitations by adding masked backward computation and elemental residual connections to a VideoMamba backbone. VideoMambaPro shows state-of-the-art video action recognition performance compared to transformer models, and surpasses VideoMamba by clear margins: 7.9% and 8.1% top-1 on Kinetics-400 and Something-Something V2, respectively. Our VideoMambaPro-M model achieves 91.9% top-1 on Kinetics-400, only 0.2% below InternVideo2-6B but with only 1.2% of its parameters. The combination of high performance and efficiency makes VideoMambaPro an interesting alternative for transformer models.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# Commonsense Causalityのオデュッセイ:基礎ベンチマークからカットエッジ推論まで

The Odyssey of Commonsense Causality: From Foundational Benchmarks to Cutting-Edge Reasoning ( http://arxiv.org/abs/2406.19307v2 )

ライセンス: Link先を確認
Shaobo Cui, Zhijing Jin, Bernhard Schölkopf, Boi Faltings, (参考訳) 常識の因果関係を理解することは、人間にとってユニークな知性である。 現実世界の原則をよりよく理解し、因果関係の意思決定プロセスに役立ちます。 例えば、コモンセンスの因果関係は、被告の行為が原告の法的責任決定における損失を引き起こすかどうかを判断するために重要である。 その重要性にもかかわらず、このトピックの体系的な探索は特に欠落している。 我々の総合的な調査は、分類学、ベンチマーク、取得方法、質的推論、コモンセンス因果関係の定量的測定に焦点をあて、200以上の代表記事から洞察を合成することで、このギャップを埋める。 本研究の目的は、体系的な概要の提供、最近の進歩に関する学者の更新、初心者のための実践的なガイドの提供、そしてこの重要な分野における将来的な研究の方向性を明らかにすることである。

Understanding commonsense causality is a unique mark of intelligence for humans. It helps people understand the principles of the real world better and benefits the decision-making process related to causation. For instance, commonsense causality is crucial in judging whether a defendant's action causes the plaintiff's loss in determining legal liability. Despite its significance, a systematic exploration of this topic is notably lacking. Our comprehensive survey bridges this gap by focusing on taxonomies, benchmarks, acquisition methods, qualitative reasoning, and quantitative measurements in commonsense causality, synthesizing insights from over 200 representative articles. Our work aims to provide a systematic overview, update scholars on recent advancements, provide a pragmatic guide for beginners, and highlight promising future research directions in this vital field.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# ストーリー全体ではない:コヒーレンス、グラウンド、反復の測定以上のビジュアルストーリーテリングを評価する必要がある

Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition ( http://arxiv.org/abs/2407.04559v2 )

ライセンス: Link先を確認
Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle, (参考訳) 視覚的なストーリーテリングは、時間順に順序付けられた画像の列が与えられた自然言語のストーリーを生成することで構成される。 このタスクは、モデルにとって難しいだけでなく、ストーリーを「良い」ものにする方法についてのコンセンサスがないため、自動メトリクスで評価するのも非常に難しい。 本稿では,視覚的接地,コヒーレンス,反復性の3つの重要な側面について,人間の類似性の観点から物語の質を測定する新しい手法を提案する。 次に,この手法を用いて複数のモデルから生成されたストーリーを評価することにより,基礎モデルであるLLaVAが最良の結果を得ることを示すが,50倍の小型ビジュアルストーリーテリングモデルであるTAPMに比べてわずかに劣る。 TAPMの視覚的および言語的コンポーネントをアップグレードすると、比較的少ないパラメータで競合性能が得られるモデルが得られる。 最後に、人間の評価研究を行い、その結果から「良い」ストーリーは人間のような視覚的接地、コヒーレンス、反復以上のレベルを必要とする可能性が示唆された。

Visual storytelling consists in generating a natural language story given a temporally ordered sequence of images. This task is not only challenging for models, but also very difficult to evaluate with automatic metrics since there is no consensus about what makes a story 'good'. In this paper, we introduce a novel method that measures story quality in terms of human likeness regarding three key aspects highlighted in previous work: visual grounding, coherence, and repetitiveness. We then use this method to evaluate the stories generated by several models, showing that the foundation model LLaVA obtains the best result, but only slightly so compared to TAPM, a 50-times smaller visual storytelling model. Upgrading the visual and language components of TAPM results in a model that yields competitive performance with a relatively low number of parameters. Finally, we carry out a human evaluation study, whose results suggest that a 'good' story may require more than a human-like level of visual grounding, coherence, and repetition.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# 正規化流れを伴う非線形後モデルにおける因果発見

Enabling Causal Discovery in Post-Nonlinear Models with Normalizing Flows ( http://arxiv.org/abs/2407.04980v2 )

ライセンス: Link先を確認
Nu Hoang, Bao Duong, Thin Nguyen, (参考訳) 非線形後因果モデル(PNL)は、複雑な因果関係をモデル化するための汎用的で適応可能なフレームワークとして際立っている。 しかしながら、PNLモデルで必要とされる可逆性制約を正確に捉えることは、既存の研究では難しい。 この問題に対処するために,我々は正規化フローアーキテクチャのパワーを活用し,PNLモデルにおける重要な可逆性制約を強制する CAF-PoNo (正規化フローによるポスト非線形モデルへの因果発見)を導入する。 本手法は,流れの正規化を通じて隠れ雑音を正確に再構成し,統計的独立性試験により原因影響の同定に重要な役割を担っている。 さらに,提案手法は,因果関係を効率的に解き放つために,因果関係の同定による多変量因果関係の発見を容易にするためにシームレスに拡張できることから,顕著な拡張性を示す。 シミュレーションと実データの両方に対する広範囲な実験的評価は、提案手法が二変量および多変量因果発見タスクにおいていくつかの最先端手法より優れていることを一貫して証明している。

Post-nonlinear (PNL) causal models stand out as a versatile and adaptable framework for modeling intricate causal relationships. However, accurately capturing the invertibility constraint required in PNL models remains challenging in existing studies. To address this problem, we introduce CAF-PoNo (Causal discovery via Normalizing Flows for Post-Nonlinear models), harnessing the power of the normalizing flows architecture to enforce the crucial invertibility constraint in PNL models. Through normalizing flows, our method precisely reconstructs the hidden noise, which plays a vital role in cause-effect identification through statistical independence testing. Furthermore, the proposed approach exhibits remarkable extensibility, as it can be seamlessly expanded to facilitate multivariate causal discovery via causal order identification, empowering us to efficiently unravel complex causal relationships. Extensive experimental evaluations on both simulated and real datasets consistently demonstrate that the proposed method outperforms several state-of-the-art approaches in both bivariate and multivariate causal discovery tasks.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# 非周期性に制約されないスケーラブルな変分因果発見

Scalable Variational Causal Discovery Unconstrained by Acyclicity ( http://arxiv.org/abs/2407.04992v2 )

ライセンス: Link先を確認
Nu Hoang, Bao Duong, Thin Nguyen, (参考訳) ベイズ因果発見は、データを説明する可能性のある様々な構造的多様因果理論の中で、有意な不確かさを定量化する力を提供し、有向非巡回グラフ(DAG)の形で表される。 しかし,既存手法では複素非周期性制約のため,効率的なDAGサンプリングに苦慮している。 本研究では,DAGを明示的に非周期的に生成する能力により,観測データから得られた因果グラフの後方分布を効果的に学習するスケーラブルなベイズ的手法を提案する。 具体的には、暗黙的トポロジ的順序の制約のない分布をDAG上の分布にマッピングすることにより、有効な非循環因果グラフを生成することができる新しい微分可能なDAGサンプリング手法を提案する。 この効率的なDAGサンプリング方式により、連続領域上の単純な変分分布を用いて因果グラフ上の後部分布をモデル化することができる。 シミュレーションと実データの両方に対する大規模な実験実験は、いくつかの最先端ベースラインと比較して提案モデルの優れた性能を示す。

Bayesian causal discovery offers the power to quantify epistemic uncertainties among a broad range of structurally diverse causal theories potentially explaining the data, represented in forms of directed acyclic graphs (DAGs). However, existing methods struggle with efficient DAG sampling due to the complex acyclicity constraint. In this study, we propose a scalable Bayesian approach to effectively learn the posterior distribution over causal graphs given observational data thanks to the ability to generate DAGs without explicitly enforcing acyclicity. Specifically, we introduce a novel differentiable DAG sampling method that can generate a valid acyclic causal graph by mapping an unconstrained distribution of implicit topological orders to a distribution over DAGs. Given this efficient DAG sampling scheme, we are able to model the posterior distribution over causal graphs using a simple variational distribution over a continuous domain, which can be learned via the variational inference framework. Extensive empirical experiments on both simulated and real datasets demonstrate the superior performance of the proposed model compared to several state-of-the-art baselines.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# CorMulT:感覚分析のための半教師付きモード相関対応マルチモーダルトランス

CorMulT: A Semi-supervised Modality Correlation-aware Multimodal Transformer for Sentiment Analysis ( http://arxiv.org/abs/2407.07046v2 )

ライセンス: Link先を確認
Yangmin Li, Ruiqi Zhu, Wengen Li, (参考訳) マルチモーダル感情分析(Multimodal sentiment analysis)は、テキスト、画像、音声などの複数のデータモダリティを組み合わせて、人間の感情を分析し、様々なアプリケーションに恩恵をもたらす、活発な研究分野である。 既存のマルチモーダル感情分析手法は、モーダリティ相互作用に基づく方法、モーダリティ変換に基づく方法、モーダリティ類似性に基づく方法に分類される。 しかし,これらの手法の多くはモダリティ間の強い相関関係に強く依存しており,感情分析を強化するためにモダリティ間の相関関係を完全に解明・活用することができない。 したがって、これらの手法は、弱い相関関係を持つマルチモーダルデータの感情を特定するために、通常、悪い性能を達成する。 そこで本研究では,事前学習段階と予測段階からなる相関対応マルチモーダルトランス(CorMulT)と呼ばれる2段階の半教師付きモデルを提案する。 事前学習段階では、モーダリティ相関比較学習モジュールは、異なるモーダリティ間のモーダリティ相関係数を効率的に学習するように設計されている。 予測段階では、学習された相関係数にモダリティ表現を融合させて感情予測を行う。 人気のマルチモーダルデータセットであるCMU-MOSEIの実験によると、CorMulTは明らかに最先端のマルチモーダル感情分析手法を上回っている。

Multimodal sentiment analysis is an active research area that combines multiple data modalities, e.g., text, image and audio, to analyze human emotions and benefits a variety of applications. Existing multimodal sentiment analysis methods can be classified as modality interaction-based methods, modality transformation-based methods and modality similarity-based methods. However, most of these methods highly rely on the strong correlations between modalities, and cannot fully uncover and utilize the correlations between modalities to enhance sentiment analysis. Therefore, these methods usually achieve bad performance for identifying the sentiment of multimodal data with weak correlations. To address this issue, we proposed a two-stage semi-supervised model termed Correlation-aware Multimodal Transformer (CorMulT) which consists pre-training stage and prediction stage. At the pre-training stage, a modality correlation contrastive learning module is designed to efficiently learn modality correlation coefficients between different modalities. At the prediction stage, the learned correlation coefficients are fused with modality representations to make the sentiment prediction. According to the experiments on the popular multimodal dataset CMU-MOSEI, CorMulT obviously surpasses state-of-the-art multimodal sentiment analysis methods.
翻訳日:2024-08-30 18:47:03 公開日:2024-08-29
# グラフニューラルネットワークプログラミングのための$μ\mathcal{G}$言語

The $μ\mathcal{G}$ Language for Programming Graph Neural Networks ( http://arxiv.org/abs/2407.09441v2 )

ライセンス: Link先を確認
Matteo Belenchia, Flavio Corradini, Michela Quadrini, Michele Loreti, (参考訳) グラフニューラルネットワークは、グラフ構造化データを扱うように設計されたディープラーニングアーキテクチャのクラスを形成する。 そのため、深層学習の本質的な限界と問題、特に説明可能性と信頼性の問題を共有している。 我々は,これらの問題を克服することを目的とした,グラフニューラルネットワーク仕様のためのドメイン固有言語である$\mu\mathcal{G}$を提案する。 言語の構文は導入され、その意味は意味論的意味論によって厳密に定義される。 操作意味論の形での等価な特徴付けも提供され、型システムとともに$\mu\mathcal{G}$の型音性を証明するために使用される。 我々は、$\mu\mathcal{G}$プログラムが、よりユーザフレンドリーなグラフィカルな視覚化でどのように表現できるかを示し、最も人気のあるグラフニューラルネットワークモデルを定義したり、カスタムなグラフ処理アプリケーションを開発するためにどのように使用できるかを示す。

Graph neural networks form a class of deep learning architectures specifically designed to work with graph-structured data. As such, they share the inherent limitations and problems of deep learning, especially regarding the issues of explainability and trustworthiness. We propose $\mu\mathcal{G}$, an original domain-specific language for the specification of graph neural networks that aims to overcome these issues. The language's syntax is introduced, and its meaning is rigorously defined by a denotational semantics. An equivalent characterization in the form of an operational semantics is also provided and, together with a type system, is used to prove the type soundness of $\mu\mathcal{G}$. We show how $\mu\mathcal{G}$ programs can be represented in a more user-friendly graphical visualization, and provide examples of its generality by showing how it can be used to define some of the most popular graph neural network models, or to develop any custom graph processing application.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# MaskMoE:Mixture-of-ExpertsにおけるタスクのルーティングによるToken-Level学習の促進

MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts ( http://arxiv.org/abs/2407.09816v4 )

ライセンス: Link先を確認
Zhenpeng Su, Zijia Lin, Xue Bai, Xing Wu, Yizhe Xiong, Haoran Lian, Guangyuan Ma, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu, (参考訳) モデルのサイズを拡大すると、その能力は向上するが、計算の複雑さは大幅に増大する。 Mixture-of-Experts Model (MoE)は、トレーニングや推論コストを大幅に増加させることなく、モデルサイズをスケールアップ可能にすることで、この問題に対処する。 MoEにはルータと呼ばれる重要なモジュールがあり、各トークンを専門家に配布するために使用される。 現在、メインストリームのルーティング手法には動的ルーティングと固定ルーティングが含まれる。 期待された結果にもかかわらず、MoEモデルはいくつかの課題に直面している。 主に動的ルーティング手法では、トレーニングトークンが複数の専門家に分散しているため、特に希少なトークンでは不適合になる可能性がある。 さらに、固定ルーティングメソッドはその問題を緩和できるが、表現の多様性を損なう。 本稿では, トークンレベルの学習を円滑に行うために, \textbf{M}ixture-\textbf{o}f-\textbf{E}xpertsモデル内に, ルーティング型 \textbf{mask}ing 技術を用いることで, トークンレベルの学習を向上する手法である \textbf{MaskMoE} を提案する。 MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。 実験結果から,提案手法は従来のMixture-of-Expertsモデルよりもパープレキシティ(PPL)と下流タスク性能の両面で優れていることが示された。

Scaling the size of a model enhances its capabilities but significantly increases computation complexity. Mixture-of-Experts models (MoE) address the issue by allowing model size to scale up without substantially increasing training or inference costs. In MoE, there is an important module called the router, which is used to distribute each token to the experts. Currently, the mainstream routing methods include dynamic routing and fixed routing. Despite their promising results, MoE models encounter several challenges. Primarily, for dynamic routing methods, the dispersion of training tokens across multiple experts can lead to underfitting, particularly for infrequent tokens. Additionally, though fixed routing methods can mitigate that issue, they compromise on the diversity of representations. In this paper, we propose \textbf{MaskMoE}, a method designed to enhance token-level learning by employing a routing \textbf{mask}ing technique within the \textbf{M}ixture-\textbf{o}f-\textbf{E}xperts model. MaskMoE is capable of maintaining representation diversity while achieving more comprehensive training. Experimental results demonstrate that our method outperforms previous dominant Mixture-of-Experts models in terms of both perplexity (PPL) and downstream task performance.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# VGBench: ベクトルグラフィックスの理解と生成に基づく大規模言語モデルの評価

VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation ( http://arxiv.org/abs/2407.10972v2 )

ライセンス: Link先を確認
Bocheng Zou, Mu Cai, Jianrui Zhang, Yong Jae Lee, (参考訳) 視覚モデルの領域では、表現の第一のモードは、ピクセルを使って視覚世界をラスタライズすることである。 しかし、特に多角形のような幾何学的プリミティブを使って世界を描写するデザイナーやアーティストにとって、これは必ずしも視覚的コンテンツを表現するための最良の方法やユニークな方法ではない。 一方、ベクトルグラフィックス(VG)は、ビジュアルコンテンツのテキスト表現を提供しており、漫画、スケッチ、科学的な図形などのコンテンツに対してより簡潔で強力である。 近年,Large Language Models (LLMs) を用いたベクトルグラフィックス処理の有望な成果が報告されている。 しかし、そのような研究は質的な結果、理解、あるいは特定の種類のベクトルグラフィックスにのみ焦点をあてている。 VGBenchは、多種多様な側面を含むベクトルグラフィックスを扱うLLMの総合的なベンチマークである。 (a)視覚的理解と生成の両方 (b)ベクターグラフィックスフォーマットの評価 (c) 多様な質問タイプ。 (d)広範囲のプロンプト技術 (e)複数のLLMおよび (f) ラスタ化表現におけるVLMとの比較。 収集した4279の理解と5845の生成サンプルから,LLMは両面に強い能力を示し,低レベルフォーマット(SVG)では望ましい性能が得られていないことがわかった。 データと評価パイプラインはhttps://vgbench.github.ioでオープンソース化される。

In the realm of vision models, the primary mode of representation is using pixels to rasterize the visual world. Yet this is not always the best or unique way to represent visual content, especially for designers and artists who depict the world using geometry primitives such as polygons. Vector graphics (VG), on the other hand, offer a textual representation of visual content, which can be more concise and powerful for content like cartoons, sketches and scientific figures. Recent studies have shown promising results on processing vector graphics with capable Large Language Models (LLMs). However, such works focus solely on qualitative results, understanding, or a specific type of vector graphics. We propose VGBench, a comprehensive benchmark for LLMs on handling vector graphics through diverse aspects, including (a) both visual understanding and generation, (b) evaluation of various vector graphics formats, (c) diverse question types, (d) wide range of prompting techniques, (e) under multiple LLMs and (f) comparison with VLMs on rasterized representations. Evaluating on our collected 4279 understanding and 5845 generation samples, we find that LLMs show strong capability on both aspects while exhibiting less desirable performance on low-level formats (SVG). Both data and evaluation pipeline will be open-sourced at https://vgbench.github.io.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# リーマン幾何学に基づく知性と意識の数学的枠組み

A mathematical framework of intelligence and consciousness based on Riemannian Geometry ( http://arxiv.org/abs/2407.11024v2 )

ライセンス: Link先を確認
Meng Lu, (参考訳) 知性を理解することは神経科学、認知科学、人工知能の中心的な研究である。 知性は学習、問題解決、創造性、さらには意識まで含んでいる。 幾何解析の最近の進歩は、高次元情報表現と組織に対する新たな洞察を明らかにし、ニューラルシステムと人工システムにおける本質的なデータ構造と動的プロセスを明らかにする。 しかし、インテリジェンスの静的および動的側面を統一する包括的なフレームワークはまだ欠けている。 この写本は、知性と意識の構造と力学を記述するためにリーマン幾何学に基づく数学的枠組みを提案する。 知能要素は高次元空間に埋め込まれたトークンとして概念化される。 学習されたトークン埋め込みは、さまざまなシナリオやタスクにわたるトークンの相互接続をキャプチャし、インテリジェンス空間で多様体を形成する。 思考フローは、これらの多様体内の測地線に沿ったトークンの逐次活性化として描かれる。 測地学のナビゲーションにおいて、自己参照過程としての意識は思考の流れを知覚し、予測に対して評価し、予測誤差を通じてフィードバックを提供し、ジオデシックを調整する。 この動的相互作用は、新しい情報を統合し、幾何学を進化させ、学習を促進する。 知能の幾何学は意識を導き、意識は知能の幾何学を構造化する。 幾何学的概念を統合することにより、この理論は知性と意識の構造と力学を記述するための統一された数学的枠組みを提供する。 生物学的および人工知能に適用できるこの枠組みは、将来の研究と実証的な検証の道を開くかもしれない。

Understanding intelligence is a central pursuit in neuroscience, cognitive science, and artificial intelligence. Intelligence encompasses learning, problem-solving, creativity, and even consciousness. Recent advancements in geometric analysis have revealed new insights into high-dimensional information representation and organisation, exposing intrinsic data structures and dynamic processes within neural and artificial systems. However, a comprehensive framework that unifies the static and dynamic aspects of intelligence is still lacking. This manuscript proposes a mathematical framework based on Riemannian geometry to describe the structure and dynamics of intelligence and consciousness. Intelligence elements are conceptualised as tokens embedded in a high-dimensional space. The learned token embeddings capture the interconnections of tokens across various scenarios and tasks, forming manifolds in the intelligence space. Thought flow is depicted as the sequential activation of tokens along geodesics within these manifolds. During the navigation of geodesics, consciousness, as a self-referential process, perceives the thought flow, evaluates it against predictions, and provides feedback through prediction errors, adjusting the geodesic: non-zero prediction errors, such as learning, lead to the restructuring of the curved manifolds, thus changing the geodesic of thought flow. This dynamic interaction integrates new information, evolves the geometry and facilitates learning. The geometry of intelligence guides consciousness, and consciousness structures the geometry of intelligence. By integrating geometric concepts, this proposed theory offers a unified, mathematically framework for describing the structure and dynamics of intelligence and consciousness. Applicable to biological and artificial intelligence, this framework may pave the way for future research and empirical validation.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# セグメント出力品質制御のための等角的性能範囲予測

Conformal Performance Range Prediction for Segmentation Output Quality Control ( http://arxiv.org/abs/2407.13307v2 )

ライセンス: Link先を確認
Anna M. Wundram, Paul Fischer, Michael Muehlebach, Lisa M. Koch, Christian F. Baumgartner, (参考訳) 近年の研究では、ニューラルネットワークのソフトマックス出力にのみ依存して、真理を示さずにセグメンテーション性能を推定する方法が提案されている。 これらの技術は直感的な出力品質制御の可能性を秘めている。 しかし、そのような性能推定は校正されたソフトマックス出力に依存しており、現代のニューラルネットワークではそうではないことが多い。 さらに、推定値はセグメンテーションタスクに固有の不確実性を考慮していない。 これらの制限は、正確な性能予測を達成不可能にし、性能推定手法の実用性を制限する可能性がある。 これらの課題に対処するため,利用者が特定した確率で真理を含むという統計的保証付きの性能範囲を予測するための新しい手法を開発した。 提案手法は,サンプリングに基づくセグメンテーションの不確実性推定を利用してヒューリスティックな性能範囲を導出し,これらの推定を所望の保証を満たす厳密な予測範囲に変換するために分割共形予測を適用する。 FIVES網膜血管セグメンテーションデータセットへのアプローチを実証し、5つの一般的なサンプリングベース不確実性推定手法を比較した。 本結果から,出力品質管理に有用なツールとして,性能範囲予測の可能性を強調し,予測範囲を小さくすることで,所望のカバレッジを達成できることが示唆された。

Recent works have introduced methods to estimate segmentation performance without ground truth, relying solely on neural network softmax outputs. These techniques hold potential for intuitive output quality control. However, such performance estimates rely on calibrated softmax outputs, which is often not the case in modern neural networks. Moreover, the estimates do not take into account inherent uncertainty in segmentation tasks. These limitations may render precise performance predictions unattainable, restricting the practical applicability of performance estimation methods. To address these challenges, we develop a novel approach for predicting performance ranges with statistical guarantees of containing the ground truth with a user specified probability. Our method leverages sampling-based segmentation uncertainty estimation to derive heuristic performance ranges, and applies split conformal prediction to transform these estimates into rigorous prediction ranges that meet the desired guarantees. We demonstrate our approach on the FIVES retinal vessel segmentation dataset and compare five commonly used sampling-based uncertainty estimation techniques. Our results show that it is possible to achieve the desired coverage with small prediction ranges, highlighting the potential of performance range prediction as a valuable tool for output quality control.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# EaDeblur-GS: Gaussian Splatting を用いた3D Deblur 再建

EaDeblur-GS: Event assisted 3D Deblur Reconstruction with Gaussian Splatting ( http://arxiv.org/abs/2407.13520v2 )

ライセンス: Link先を確認
Yuchen Weng, Zhengwen Shen, Ruofan Chen, Qi Wang, Jun Wang, (参考訳) 近年,NeRF (Neural Radiance Fields) と3D Gaussian Splatting (3DGS) の開発により, 3次元劣化再建技術が著しい進歩を遂げている。 これらの技術は、ぼやけた画像入力から比較的鮮明な3D再構成を復元できるが、深刻なぼやけた複雑なカメラの動きを扱うには限界がある。 これらの課題に対処するために,3DGS の動作ぼけに対する堅牢性を高めるために,イベントカメラデータを統合した3D Deblur Reconstruction with Gaussian Splatting (EaDeblur-GS)を提案する。 Adaptive Deviation Estimator (ADE) ネットワークを用いてガウス中心偏差を推定し、新しい損失関数を用いることで、EaDeblur-GS は最先端の手法に匹敵する性能を示す。

3D deblurring reconstruction techniques have recently seen significant advancements with the development of Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS). Although these techniques can recover relatively clear 3D reconstructions from blurry image inputs, they still face limitations in handling severe blurring and complex camera motion. To address these issues, we propose Event-assisted 3D Deblur Reconstruction with Gaussian Splatting (EaDeblur-GS), which integrates event camera data to enhance the robustness of 3DGS against motion blur. By employing an Adaptive Deviation Estimator (ADE) network to estimate Gaussian center deviations and using novel loss functions, EaDeblur-GS achieves sharp 3D reconstructions in real-time, demonstrating performance comparable to state-of-the-art methods.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# 大規模言語モデルからの知識を積極的に拡張するデータ制限グラフニューラルネットワークの強化

Enhancing Data-Limited Graph Neural Networks by Actively Distilling Knowledge from Large Language Models ( http://arxiv.org/abs/2407.13989v2 )

ライセンス: Link先を確認
Quan Li, Tianxiang Zhao, Lingwei Chen, Junjie Xu, Suhang Wang, (参考訳) グラフは、ソーシャルネットワーク分析、バイオインフォマティクス、知識グラフなど、現実世界に広く普及している。 グラフニューラルネットワーク(GNN)は、グラフの基本課題であるノード分類において優れた能力を持つ。 残念ながら、従来のGNNは、実世界のアプリケーションで数ショットのノード分類タスクが頻繁に行われているにもかかわらず、ラベル付きノードがほとんどないシナリオでは依然として課題に直面している。 この課題に対処するため,グラフメタ学習,移動学習,Large Language Models(LLM)に基づく手法など,さまざまなアプローチが提案されている。 しかし、従来のメタラーニングとトランスファーラーニングは、しばしば基礎クラスからの事前の知識を必要とするか、ラベルなしノードの潜在的な利点を活用できない。 一方、LLMベースの手法は、LLMのゼロショット機能を見落とし、生成されたコンテキストの品質に大きく依存する。 本稿では、LLMとGNNを統合し、LLMのゼロショット推論と推論機能を活用し、GNNの性能を高めるためにグラフ-LLMベースのアクティブラーニングパラダイムを用いる新しいアプローチを提案する。 大規模な実験により,ノード分類精度をかなり制限されたラベル付きデータで向上し,最先端のベースラインをかなりのマージンで上回った。

Graphs are pervasive in the real-world, such as social network analysis, bioinformatics, and knowledge graphs. Graph neural networks (GNNs) have great ability in node classification, a fundamental task on graphs. Unfortunately, conventional GNNs still face challenges in scenarios with few labeled nodes, despite the prevalence of few-shot node classification tasks in real-world applications. To address this challenge, various approaches have been proposed, including graph meta-learning, transfer learning, and methods based on Large Language Models (LLMs). However, traditional meta-learning and transfer learning methods often require prior knowledge from base classes or fail to exploit the potential advantages of unlabeled nodes. Meanwhile, LLM-based methods may overlook the zero-shot capabilities of LLMs and rely heavily on the quality of generated contexts. In this paper, we propose a novel approach that integrates LLMs and GNNs, leveraging the zero-shot inference and reasoning capabilities of LLMs and employing a Graph-LLM-based active learning paradigm to enhance GNNs' performance. Extensive experiments demonstrate the effectiveness of our model in improving node classification accuracy with considerably limited labeled data, surpassing state-of-the-art baselines by significant margins.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# 大規模言語モデルにおける内部整合性と自己フィードバック

Internal Consistency and Self-Feedback in Large Language Models: A Survey ( http://arxiv.org/abs/2407.14507v2 )

ライセンス: Link先を確認
Xun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Peng Cheng, Zhonghao Wang, Feiyu Xiong, Zhiyu Li, (参考訳) 大型言語モデル(LLM)は、しばしば欠点のある推論や幻覚を生成する。 これらの問題に対処するため、自己整合性、自己即興性、自己再定義などの「自己-」を冠称する研究が進められている。 LLMの評価と更新を含む、共通点を共有しています。 それにもかかわらず、これらの取り組みは、既存の調査が主に分類に焦点を当てているため、要約に関する統一的な視点を欠いている。 本稿では,障害と幻覚を推論するための理論的枠組みである内部整合性(internal Consistency)を要約する。 内部整合性とは、サンプリング手法に基づくLCMの潜伏層、復号層、応答層間の表現の整合性を指す。 そこで,本研究では,自己フィードバックという内部一貫性をマイニングする有効な理論的枠組みを紹介した。 このフレームワークは、Self-EvaluationとSelf-Updateの2つのモジュールで構成されている。 前者は内部一貫性信号を捕捉し、後者はモデル応答またはモデル自体を強化するために信号を利用する。 この枠組みは多くの研究で採用されている。 私たちはこれらの研究をタスクや作業行によって体系的に分類し、関連する評価方法やベンチマークを要約し、懸念点を掘り下げる。 また、「内的一貫性のHourglass Evolution of Internal Consistency」、「Consistency Is (Almost) correctness」仮説」、「The Paradox of Latent and Explicit Reasoning」など、いくつかの批判的視点も提案する。 関連するリソースはhttps://github.com/IAAR-Shanghai/ICSFSurvey.comで公開されている。

Large language models (LLMs) often exhibit deficient reasoning or generate hallucinations. To address these, studies prefixed with "Self-" such as Self-Consistency, Self-Improve, and Self-Refine have been initiated. They share a commonality: involving LLMs evaluating and updating themselves. Nonetheless, these efforts lack a unified perspective on summarization, as existing surveys predominantly focus on categorization. In this paper, we summarize a theoretical framework, Internal Consistency, offering explanations for reasoning deficiencies and hallucinations. Internal Consistency refers to the consistency in expressions among LLMs' latent, decoding, or response layers based on sampling methodologies. Then, we introduce another effective theoretical framework capable of mining Internal Consistency, named Self-Feedback. This framework consists of two modules: Self-Evaluation and Self-Update. The former captures Internal Consistency Signals, while the latter leverages the signals to enhance either the model's response or the model itself. This framework has been employed in numerous studies. We systematically classify these studies by tasks and lines of work; summarize relevant evaluation methods and benchmarks; and delve into the concern, "Does Self-Feedback Really Work?" We also propose several critical viewpoints, including the "Hourglass Evolution of Internal Consistency", "Consistency Is (Almost) Correctness" hypothesis, and "The Paradox of Latent and Explicit Reasoning". The relevant resources are open-sourced at https://github.com/IAAR-Shanghai/ICSFSurvey.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# 双曲格子イジングモデルにおける境界相関関数のホログラフィー解析

Holographic analysis of boundary correlation functions for the hyperbolic-lattice Ising model ( http://arxiv.org/abs/2407.14689v2 )

ライセンス: Link先を確認
Kouichi Okunishi, Tomotoshi Nishino, (参考訳) 双曲格子イジングモデルの境界スピン相関関数をホログラムの観点から解析する。 コーナー-トランスファー-行列再正規化群 (CTMRG) 法を用いて, 境界相関関数が準周期発振によるパワー-ロー減衰を示すのに対して, バルク相関関数は常に指数関数的に減衰することを示した。 境界相関関数のスケーリング次元は, バルク相関経路と外縁境界に沿った距離との幾何学的関係に基づいて, 双曲格子に固有の背景曲率とバルク相関長の組合せによりよく説明できることがわかった。 また,CTMRGにおける結合寸法の切断効果について検討し,境界スピン相関の長距離挙動を小さい結合寸法でも正確に記述することを示した。 対照的に、ソート距離の挙動は、その精度を急速に低下させる。

We analyze boundary spin correlation functions of the hyperbolic-lattice Ising model from the holographic point of view. Using the corner-transfer-matrix renormalization group (CTMRG) method, we demonstrate that the boundary correlation function exhibits power-law decay with quasi-periodic oscillation, while the bulk correlation function always decays exponentially. On the basis of the geometric relation between the bulk correlation path and distance along the outer edge boundary, we find that scaling dimensions for the boundary correlation function can be well explained by the combination of the bulk correlation length and background curvatures inherent to the hyperbolic lattice. We also investigate the cutoff effect of the bond dimension in CTMRG, revealing that the long-distance behavior of the boundary spin correlation is accurately described even with a small bond dimension. In contrast, the sort-distance behavior rapidly loses its accuracy.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# 最近近傍を用いたカーネル型条件付き2サンプル試験(校正・回帰曲線・シミュレーションベース推論への応用)

A Kernel-Based Conditional Two-Sample Test Using Nearest Neighbors (with Applications to Calibration, Regression Curves, and Simulation-Based Inference) ( http://arxiv.org/abs/2407.16550v2 )

ライセンス: Link先を確認
Anirban Chatterjee, Ziang Niu, Bhaswar B. Bhattacharya, (参考訳) 本稿では,2つの条件分布の違いを検出するカーネルベースの尺度を提案する。 カーネルトリック」と最寄りのグラフを用いて、ほぼ線形時間(近傍の固定数)で計算できるこの測度を一貫した推定法を提案する。 さらに、2つの条件分布が同じ場合、推定はガウス極限を持ち、その漸近分散はデータから容易に推定できる単純な形式を持つ。 結果として得られた試験は、正確な漸近レベルに達し、2つの条件分布の差を検出するために普遍的に一致している。 また, 有限サンプルにおけるタイプI誤差を制御し, 有限個の再サンプルのみと漸近的に整合性を有する条件付き善良性問題に適用可能な, 推定値を用いた再サンプリングベーステストも提供する。 再サンプリングテストの非ランダム化方法も提示する。 提案手法は、古典的非パラメトリック統計学から現代の機械学習まで、幅広い問題に容易に適用できる。 具体的には,実験モデルキャリブレーション,回帰曲線評価,シミュレーションベース推論におけるエミュレータモデルの検証の3つの応用について検討する。 シミュレーションと実データの両方において,本手法の優れた性能について述べる。 具体的には,(1)CIFAR-10データセットでトレーニングしたニューラルネットワークモデルの校正,(2)2つの異なるタービン間での風力発電の回帰関数の比較,(3)銀河画像に付随する合成「赤方偏移」を生成するためのエミュレータモデルの有効性を検証する。

In this paper we introduce a kernel-based measure for detecting differences between two conditional distributions. Using the `kernel trick' and nearest-neighbor graphs, we propose a consistent estimate of this measure which can be computed in nearly linear time (for a fixed number of nearest neighbors). Moreover, when the two conditional distributions are the same, the estimate has a Gaussian limit and its asymptotic variance has a simple form that can be easily estimated from the data. The resulting test attains precise asymptotic level and is universally consistent for detecting differences between two conditional distributions. We also provide a resampling based test using our estimate that applies to the conditional goodness-of-fit problem, which controls Type I error in finite samples and is asymptotically consistent with only a finite number of resamples. A method to de-randomize the resampling test is also presented. The proposed methods can be readily applied to a broad range of problems, ranging from classical nonparametric statistics to modern machine learning. Specifically, we explore three applications: testing model calibration, regression curve evaluation, and validation of emulator models in simulation-based inference. We illustrate the superior performance of our method for these tasks, both in simulations as well as on real data. In particular, we apply our method to (1) assess the calibration of neural network models trained on the CIFAR-10 dataset, (2) compare regression functions for wind power generation across two different turbines, and (3) validate emulator models on benchmark examples with intractable posteriors and for generating synthetic `redshift' associated with galaxy images.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# パーキンソン病分類のための革新的音声に基づく深層学習アプローチ : 体系的レビュー

Innovative Speech-Based Deep Learning Approaches for Parkinson's Disease Classification: A Systematic Review ( http://arxiv.org/abs/2407.17844v2 )

ライセンス: Link先を確認
Lisanne van Gelderen, Cristian Tejedor-García, (参考訳) パーキンソン病(英: Parkinson's disease、PD)は、世界で2番目に多い神経変性疾患である。 近年の人工知能(AI),特に深層学習(DL)の進歩は,音声データの解析を通じてPD診断を大幅に強化している。 それでも研究の進展は、主にプライバシー上の懸念から、広くアクセス可能な音声ベースのPDデータセットの限定的な利用によって制限されている。 この体系的なレビューの目的は、2020年から2024年3月までに発行された33の科学的研究に基づいて、PD分類のための音声ベースのDLアプローチの現在の展望を探ることである。 我々は、彼らの利用可能なリソース、能力、潜在的な制限、バイアス、説明可能性、プライバシーに関連する問題について議論する。 さらに、このレビューは、パブリックアクセス可能な音声ベースのデータセットとPDのためのオープンソース資料の概要を提供する。 DLアプローチは、エンド・ツー・エンド(E2E)学習、転送学習(TL)、深層音響特徴抽出(DAFE)アプローチに分類される。 E2Eアプローチの中では、畳み込みニューラルネットワーク(CNN)が一般的だが、トランスフォーマーの人気はますます高まっている。 E2Eアプローチは、特にTransformerにおいて、限られたデータや計算資源といった課題に直面している。 TLは、より堅牢なPD診断と言語間の一般化性を提供することにより、これらの問題に対処する。 DAFEは、他のDLアプローチとより伝統的な機械学習(ML)手法の両方に対する深い特徴の具体的な影響を調べることで、結果の説明可能性と解釈可能性を改善することを目的としている。 しかし、E2E や TL に比べて性能が劣ることが多い。

Parkinson's disease (PD), the second most prevalent neurodegenerative disorder worldwide, frequently presents with early-stage speech impairments. Recent advancements in Artificial Intelligence (AI), particularly deep learning (DL), have significantly enhanced PD diagnosis through the analysis of speech data. Nevertheless, the progress of research is restricted by the limited availability of publicly accessible speech-based PD datasets, primarily due to privacy concerns. The goal of this systematic review is to explore the current landscape of speech-based DL approaches for PD classification, based on 33 scientific works published between 2020 and March 2024. We discuss their available resources, capabilities, potential limitations, and issues related to bias, explainability, and privacy. Furthermore, this review provides an overview of publicly accessible speech-based datasets and open-source material for PD. The DL approaches are categorized into end-to-end (E2E) learning, transfer learning (TL) and deep acoustic features extraction (DAFE) approaches. Among E2E approaches, Convolutional Neural Networks (CNNs) are prevalent, though Transformers are increasingly popular. E2E approaches face challenges such as limited data and computational resources, especially with Transformers. TL addresses these issues by providing more robust PD diagnosis and better generalizability across languages. DAFE aims to improve the explainability and interpretability of results by examining the specific effects of deep features on both other DL approaches and more traditional machine learning (ML) methods. However, it often underperforms compared to E2E and TL approaches.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# 関数呼び出しのダークサイド:大規模言語モデルの脱獄への道

The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models ( http://arxiv.org/abs/2407.17915v3 )

ライセンス: Link先を確認
Zihui Wu, Haichang Gao, Jianping He, Ping Wang, (参考訳) 大規模言語モデル(LLM)は目覚ましい能力を示しているが、そのパワーには重大なセキュリティ上の配慮が伴っている。 チャットモードにおけるLLMの安全性について広範な研究が行われてきたが、その機能呼び出し機能のセキュリティへの影響は概ね見過ごされている。 本稿では,LCMの関数呼び出しプロセスにおける重大な脆弱性を明らかにし,アライメントの相違,ユーザ強制,厳密な安全フィルタの欠如を生かした,新しい"jailbreak function"攻撃手法を提案する。 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-proを含む6つの最先端LCMで実施した実証実験の結果、この攻撃に対する平均成功率は90%以上であることが判明した。 本稿では,このような攻撃に対して関数呼び出しがどのような影響を受けやすいのかを包括的に分析し,防御的プロンプトの使用を含む防衛戦略を提案する。 本研究は,LLMの機能呼び出し機能におけるセキュリティ対策の迅速化の必要性を浮き彫りにし,これまで探索されていなかったリスクを特定し,効果的な攻撃手法を設計し,実用的な防御対策を提案することによって,AIの安全性の分野に寄与している。 私たちのコードはhttps://github.com/wooozihui/jailbreakfunction.comで利用可能です。

Large language models (LLMs) have demonstrated remarkable capabilities, but their power comes with significant security considerations. While extensive research has been conducted on the safety of LLMs in chat mode, the security implications of their function calling feature have been largely overlooked. This paper uncovers a critical vulnerability in the function calling process of LLMs, introducing a novel "jailbreak function" attack method that exploits alignment discrepancies, user coercion, and the absence of rigorous safety filters. Our empirical study, conducted on six state-of-the-art LLMs including GPT-4o, Claude-3.5-Sonnet, and Gemini-1.5-pro, reveals an alarming average success rate of over 90\% for this attack. We provide a comprehensive analysis of why function calls are susceptible to such attacks and propose defensive strategies, including the use of defensive prompts. Our findings highlight the urgent need for enhanced security measures in the function calling capabilities of LLMs, contributing to the field of AI safety by identifying a previously unexplored risk, designing an effective attack method, and suggesting practical defensive measures. Our code is available at https://github.com/wooozihui/jailbreakfunction.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# TiCoSS: 共同学習フレームワークにおけるセマンティックセグメンテーションとステレオマッチングの結合を強化する

TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework ( http://arxiv.org/abs/2407.18038v2 )

ライセンス: Link先を確認
Guanfeng Tang, Zhiyuan Wu, Jiahang Li, Ping Zhong, Xieyuanli Chen, Huiming Liu, Rui Fan, (参考訳) セマンティックセグメンテーション(Semantic segmentation)とステレオマッチング(ステレオマッチング)は、それぞれ人間の脳の腹側と背側の流れに類似しており、自律運転認識システムの2つの重要な構成要素である。 これら2つのタスクに別々のネットワークで対処することは、コンピュータービジョンアルゴリズムの開発においてもはや主流の方向ではない。 この傾向は、共同学習フレームワーク内でそれらを組み合わせること、特に2つのタスク間の機能共有を強調することにシフトしている。 本研究の主な貢献は,セマンティックセグメンテーションとステレオマッチングの結合を包括的に強化することにある。 具体的には,(1)密結合型ゲート型特徴融合戦略,(2)階層型深層監視戦略,(3)結合密化損失関数の3つの新しい特徴を紹介する。 これらの技術的コントリビューションの併用により、TiCoSSは、セマンティックセグメンテーションとステレオマッチングを同時に扱う最先端のジョイントラーニングフレームワークである。 KITTIとvKITTI2データセットに関する広範な実験を通じて、定性的かつ定量的な分析とともに、発達した戦略と損失関数の有効性を検証し、mIoUを9%以上増加させ、先行技術よりも優れた性能を示す。 ソースコードは公開後、mias.group/TiCoSSで公開されます。

Semantic segmentation and stereo matching, respectively analogous to the ventral and dorsal streams in our human brain, are two key components of autonomous driving perception systems. Addressing these two tasks with separate networks is no longer the mainstream direction in developing computer vision algorithms, particularly with the recent advances in large vision models and embodied artificial intelligence. The trend is shifting towards combining them within a joint learning framework, especially emphasizing feature sharing between the two tasks. The major contributions of this study lie in comprehensively tightening the coupling between semantic segmentation and stereo matching. Specifically, this study introduces three novelties: (1) a tightly coupled, gated feature fusion strategy, (2) a hierarchical deep supervision strategy, and (3) a coupling tightening loss function. The combined use of these technical contributions results in TiCoSS, a state-of-the-art joint learning framework that simultaneously tackles semantic segmentation and stereo matching. Through extensive experiments on the KITTI and vKITTI2 datasets, along with qualitative and quantitative analyses, we validate the effectiveness of our developed strategies and loss function, and demonstrate its superior performance compared to prior arts, with a notable increase in mIoU by over 9%. Our source code will be publicly available at mias.group/TiCoSS upon publication.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# LaMAGIC:アナログ集積回路のための言語モデルに基づくトポロジー生成

LaMAGIC: Language-Model-based Topology Generation for Analog Integrated Circuits ( http://arxiv.org/abs/2407.18269v2 )

ライセンス: Link先を確認
Chen-Chia Chang, Yikang Shen, Shaoze Fan, Jing Li, Shun Zhang, Ningyuan Cao, Yiran Chen, Xin Zhang, (参考訳) 電子工学と電気工学の分野では、現代的な応用の複雑さとカスタマイズされた要求を考えると、アナログ回路の自動化がますます不可欠になっている。 しかし、既存の手法では、回路トポロジを設計するために多くのシミュレーションイテレーションを必要とする探索ベースのアルゴリズムしか開発していない。 この目的のために, 教師付き微調整を利用して自動アナログ回路設計を行う言語モデルに基づくトポロジ生成モデルであるLaMAGICを紹介する。 LaMAGICは、カスタム仕様から最適化された回路設計を単一のパスで効率的に生成できる。 本手法は,回路の様々な入力および出力の定式化の精密な開発と解析を含む。 これらの定式化は、アナログ回路をグラフとして表すという課題に効果的に対処するために、回路の標準表現を保証し、LMの自己回帰的な性質と整合することができる。 実験結果から,LaMAGICは0.01の厳格な許容条件下で最大96\%の成功率を達成した。 また、LaMAGICのスケーラビリティと適応性についても検討し、より複雑な回路上でその性能をテストする。 本研究は, 浮動小数点入力を用いた隣接行列を用いた回路定式化の有効性が向上し, 複雑な回路設計に適合することが示唆された。 この研究は、グラフ生成における言語モデルの可能性を示すだけでなく、自動アナログ回路設計における将来の探索のための基盤となる枠組みを構築する。

In the realm of electronic and electrical engineering, automation of analog circuit is increasingly vital given the complexity and customized requirements of modern applications. However, existing methods only develop search-based algorithms that require many simulation iterations to design a custom circuit topology, which is usually a time-consuming process. To this end, we introduce LaMAGIC, a pioneering language model-based topology generation model that leverages supervised finetuning for automated analog circuit design. LaMAGIC can efficiently generate an optimized circuit design from the custom specification in a single pass. Our approach involves a meticulous development and analysis of various input and output formulations for circuit. These formulations can ensure canonical representations of circuits and align with the autoregressive nature of LMs to effectively addressing the challenges of representing analog circuits as graphs. The experimental results show that LaMAGIC achieves a success rate of up to 96\% under a strict tolerance of 0.01. We also examine the scalability and adaptability of LaMAGIC, specifically testing its performance on more complex circuits. Our findings reveal the enhanced effectiveness of our adjacency matrix-based circuit formulation with floating-point input, suggesting its suitability for handling intricate circuit designs. This research not only demonstrates the potential of language models in graph generation, but also builds a foundational framework for future explorations in automated analog circuit design.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# 欠落ラベルを用いた複数ラベル画像認識のためのテキストレギュレーションマッチング

Text-Region Matching for Multi-Label Image Recognition with Missing Labels ( http://arxiv.org/abs/2407.18520v3 )

ライセンス: Link先を確認
Leilei Ma, Hongxing Xie, Lei Wang, Yanping Fu, Dengdi Sun, Haifeng Zhao, (参考訳) 近年,大規模ビジュアル言語事前訓練(VLP)モデルでは,下流タスクにまたがる顕著なパフォーマンスが示されている。 これらの進歩に触発されて、VLPプロンプトチューニング技術を活用して、ラベルを欠いたマルチラベル画像認識において先駆的な取り組みが生まれている。 しかし、複雑なセマンティクスのギャップやマルチラベル画像のラベルの欠如のため、テキストや視覚機能とよく一致しないことが多い。 この課題に対処するために、$\textbf{T}$ext-$\textbf{R}$egion $\textbf{M}$atching for optimizing $\textbf{M}$ulti-$\textbf{L}$abel prompt tuning, すなわち、意味のあるクロスモーダルマッチングを促進する新しい方法であるTRM-MLを提案する。 既存の手法と比較して,画像や画素全体ではなくカテゴリ認識領域の情報を探究することを提唱し,テキストと視覚のセマンティックなギャップを1対1で埋めることに寄与する。 同時に,テキストと視覚のセマンティックなギャップを狭め,クラス内およびクラス間関係を確立するために,マルチモーダルコントラスト学習を導入する。 また,ラベルの欠落に対処するために,カテゴリ内およびカテゴリ間セマンティックな関係を利用して未知ラベルを推定し,擬似ラベル生成を容易にするマルチモーダルカテゴリのプロトタイプを提案する。 MS-COCO, PASCAL VOC, Visual Genome, NUS-WIDE, CUB-200-211ベンチマークデータセットの大規模な実験により, 提案したフレームワークは最先端の手法よりも大幅に優れていることが示された。 私たちのコードは、https://github.com/yu-gi-oh-leilei/TRM-ML.comで利用可能です。

Recently, large-scale visual language pre-trained (VLP) models have demonstrated impressive performance across various downstream tasks. Motivated by these advancements, pioneering efforts have emerged in multi-label image recognition with missing labels, leveraging VLP prompt-tuning technology. However, they usually cannot match text and vision features well, due to complicated semantics gaps and missing labels in a multi-label image. To tackle this challenge, we propose $\textbf{T}$ext-$\textbf{R}$egion $\textbf{M}$atching for optimizing $\textbf{M}$ulti-$\textbf{L}$abel prompt tuning, namely TRM-ML, a novel method for enhancing meaningful cross-modal matching. Compared to existing methods, we advocate exploring the information of category-aware regions rather than the entire image or pixels, which contributes to bridging the semantic gap between textual and visual representations in a one-to-one matching manner. Concurrently, we further introduce multimodal contrastive learning to narrow the semantic gap between textual and visual modalities and establish intra-class and inter-class relationships. Additionally, to deal with missing labels, we propose a multimodal category prototype that leverages intra- and inter-category semantic relationships to estimate unknown labels, facilitating pseudo-label generation. Extensive experiments on the MS-COCO, PASCAL VOC, Visual Genome, NUS-WIDE, and CUB-200-211 benchmark datasets demonstrate that our proposed framework outperforms the state-of-the-art methods by a significant margin. Our code is available here: https://github.com/yu-gi-oh-leilei/TRM-ML.
翻訳日:2024-08-30 18:35:55 公開日:2024-08-29
# GenRec: 大規模言語モデルによる生成シーケンスレコメンデーション

GenRec: Generative Sequential Recommendation with Large Language Models ( http://arxiv.org/abs/2407.21191v2 )

ライセンス: Link先を確認
Panfeng Cao, Pietro Lio, (参考訳) シーケンシャルレコメンデーション(Sequential recommendation)は、過去のユーザアイテムのインタラクションデータから隠されたユーザの好みをキャプチャし、次のアイテムをユーザに推奨するタスクである。 分類に基づく学習手法を活用することで,この領域で重要な進歩を遂げた。 近年のNLPにおける「プレトレイン、プロンプト、予測」のパラダイムに着想を得て、シーケンシャルレコメンデーションをシーケンス生成タスクのシーケンスとして検討し、ジェネレーティブレコメンデーション(GenRec)と呼ばれる新しいモデルを提案する。 明示的なユーザとアイテム表現を学習する分類ベースモデルとは異なり、GenRecはTransformerのシーケンスモデリング機能を使用し、マスクされたアイテム予測目標を採用して、隠れた双方向のシーケンシャルパターンを効果的に学習する。 既存の生成シーケンシャルレコメンデーションモデルとは異なり、GenRecは手動で設計されたハードプロンプトに依存しない。 GenRecへの入力はテキストのユーザアイテムシーケンスであり、出力は次のアイテムのトップである。 さらに、GenRecは軽量で、低リソース環境で効果的にトレーニングするのに数時間しか必要とせず、現実世界のシナリオに非常に適用でき、シーケンシャルレコメンデーションドメインで大きな言語モデルを民主化するのに役立ちます。 我々の広範な実験は、GenRecが様々な公開現実世界のデータセットを一般化し、最先端の結果を得ることを示した。 また,提案手法の有効性を検証し,提案手法の有効性を検証した。

Sequential recommendation is a task to capture hidden user preferences from historical user item interaction data and recommend next items for the user. Significant progress has been made in this domain by leveraging classification based learning methods. Inspired by the recent paradigm of 'pretrain, prompt and predict' in NLP, we consider sequential recommendation as a sequence to sequence generation task and propose a novel model named Generative Recommendation (GenRec). Unlike classification based models that learn explicit user and item representations, GenRec utilizes the sequence modeling capability of Transformer and adopts the masked item prediction objective to effectively learn the hidden bidirectional sequential patterns. Different from existing generative sequential recommendation models, GenRec does not rely on manually designed hard prompts. The input to GenRec is textual user item sequence and the output is top ranked next items. Moreover, GenRec is lightweight and requires only a few hours to train effectively in low-resource settings, making it highly applicable to real-world scenarios and helping to democratize large language models in the sequential recommendation domain. Our extensive experiments have demonstrated that GenRec generalizes on various public real-world datasets and achieves state-of-the-art results. Our experiments also validate the effectiveness of the the proposed masked item prediction objective that improves the model performance by a large margin.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# エンボディメント:カメラモデルに基づく自己監督深度推定

Embodiment: Self-Supervised Depth Estimation Based on Camera Models ( http://arxiv.org/abs/2408.01565v2 )

ライセンス: Link先を確認
Jinchang Zhang, Praveen Kumar Reddy, Xue-Iuan Wong, Yiannis Aloimonos, Guoyu Lu, (参考訳) 深さ推定はロボット工学と視覚関連タスクにとって重要なトピックである。 単眼深度推定では、高価な地中レーティングを必要とする教師あり学習と比較して、自己教師あり手法はラベリングコストを伴わないため、大きな可能性を秘めている。 しかし, 自己指導型学習は, 3次元再構成と深度推定性能において, 教師あり学習と大きなギャップがある。 一方、スケーリングは単眼で教師なし深度推定を行う上でも大きな問題であり、GPSやLiDAR、あるいは既存の地図からの地上の真理スケールを必要とすることが多い。 ディープラーニングの時代には、既存の手法は主に教師なしニューラルネットワークを訓練するための画像関係の探索に頼っている。 これらの物理的性質は単なる数学的パラメータではなく、カメラと物理世界との相互作用の具体化である。 深層学習モデルにこれらの物理特性を埋め込むことで、物理原理に基づいて地上と接する領域の深度先を計算し、センサの追加を必要とせずに、自由な監視信号を提供する。 このアプローチは実装が容易であるだけでなく、カメラの物理的特性をモデルに埋め込むことによって、教師なしのすべての方法の効果を高め、現実世界の具体的理解を実現する。

Depth estimation is a critical topic for robotics and vision-related tasks. In monocular depth estimation, in comparison with supervised learning that requires expensive ground truth labeling, self-supervised methods possess great potential due to no labeling cost. However, self-supervised learning still has a large gap with supervised learning in 3D reconstruction and depth estimation performance. Meanwhile, scaling is also a major issue for monocular unsupervised depth estimation, which commonly still needs ground truth scale from GPS, LiDAR, or existing maps to correct. In the era of deep learning, existing methods primarily rely on exploring image relationships to train unsupervised neural networks, while the physical properties of the camera itself such as intrinsics and extrinsics are often overlooked. These physical properties are not just mathematical parameters; they are embodiments of the camera's interaction with the physical world. By embedding these physical properties into the deep learning model, we can calculate depth priors for ground regions and regions connected to the ground based on physical principles, providing free supervision signals without the need for additional sensors. This approach is not only easy to implement but also enhances the effects of all unsupervised methods by embedding the camera's physical properties into the model, thereby achieving an embodied understanding of the real world.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# マジック・リソースの計測

Measurement Induced Magic Resources ( http://arxiv.org/abs/2408.01980v3 )

ライセンス: Link先を確認
Gongchu Li, Lei Chen, Si-Qi Zhang, Xu-Song Hong, Huaqing Xu, Yuancheng Liu, You Zhou, Geng Chen, Chuan-Feng Li, Alioscia Hamma, Guang-Can Guo, (参考訳) マジック状態とマジックゲートは普遍的な計算を達成するために重要であるが、量子優位性を達成するために魔法の資源をどのように実装すべきかという重要な疑問は、例えば、単一の量子ビットの測定だけで測定ベースの量子計算(MQC)の文脈において、まだ探索されていない。 この研究は、'invested'と'potential'マジックリソースの概念を導入することで、MQCとマジックのリソース理論のギャップを埋める。 前者はMQCフレームワークに関連するマジックコストを定量化し、マジックリソースの証人および望ましいユニタリ変換の実現のための上限として機能する。 潜在的なマジックリソースは、MQCを定義するグラフ構造における最大達成可能なマジックリソースを表す。 我々はこれらの概念を利用して量子フーリエ変換(QFT)のマジックリソース要件を分析し、異なるリソース状態のMQCの普遍性について新たな視点を提供し、マジックを注入するための非パウリ測定の重要性を強調した。 高忠実度4光子配置における我々の理論的予測を実験的に実証し、従来のマジック状態注入法の限界を超えながら、魔法状態の生成におけるMQCの効率を実証する。 本研究は, MQCフレームワーク内での魔法資源最適化と新しい蒸留スキームを探求し, フォールトトレラントな普遍量子計算の進歩に寄与する。

Magic states and magic gates are crucial for achieving universal computation, but some important questions about how magic resources should be implemented to attain quantum advantage have remained unexplored, for instance, in the context of Measurement-based Quantum Computation (MQC) with only single-qubit measurements. This work bridges the gap between MQC and the resource theory of magic by introducing the concept of ``invested'' and ``potential" magic resources. The former quantifies the magic cost associated with the MQC framework, serving both as a witness of magic resources and an upper bound for the realization of a desired unitary transformation. Potential magic resources represent the maximum achievable magic resource in a given graph structure defining the MQC. We utilize these concepts to analyze the magic resource requirements of the Quantum Fourier Transform (QFT) and provide a fresh perspective on the universality of MQC of different resource states, highlighting the crucial role of non-Pauli measurements for injecting magic. We demonstrate experimentally our theoretical predictions in a high-fidelity four-photon setup and demonstrate the efficiency of MQC in generating magic states, surpassing the limitations of conventional magic state injection methods. Our findings pave the way for future research exploring magic resource optimization and novel distillation schemes within the MQC framework, contributing to the advancement of fault-tolerant universal quantum computation.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# 意図的難読化攻撃の可能性について

On Feasibility of Intent Obfuscating Attacks ( http://arxiv.org/abs/2408.02674v2 )

ライセンス: Link先を確認
Zhaobin Li, Patrick Shafto, (参考訳) 侵入難読化(Intent obfuscation)は、敵の状況において一般的な戦術であり、攻撃者が標的システムの操作と、実行可能性の回避を可能にする。 驚くべきことに、機械学習システムに対する敵攻撃で実装されることはめったにない。 対象物体を乱すために別の非重複物体を摂動することで、攻撃者は対象物体を隠蔽する。 我々は、ターゲットと未ターゲットの両方の攻撃を使用して、YOLOv3、SSD、RetinaNet、Faster R-CNN、Cascade R-CNNの5つの重要な検出器でランダム化実験を行い、すべてのモデルと攻撃で成功しました。 対象物体の信頼度や摂動物体の大きさなど,意図的難読化攻撃を特徴付ける成功要因を解析する。 次に、攻撃者がこれらの成功要因を利用して、すべてのモデルと攻撃の成功率を高めることを実証する。 最後に、主要な取扱いと法的反感について論じる。

Intent obfuscation is a common tactic in adversarial situations, enabling the attacker to both manipulate the target system and avoid culpability. Surprisingly, it has rarely been implemented in adversarial attacks on machine learning systems. We are the first to propose using intent obfuscation to generate adversarial examples for object detectors: by perturbing another non-overlapping object to disrupt the target object, the attacker hides their intended target. We conduct a randomized experiment on 5 prominent detectors -- YOLOv3, SSD, RetinaNet, Faster R-CNN, and Cascade R-CNN -- using both targeted and untargeted attacks and achieve success on all models and attacks. We analyze the success factors characterizing intent obfuscating attacks, including target object confidence and perturb object sizes. We then demonstrate that the attacker can exploit these success factors to increase success rates for all models and attacks. Finally, we discuss main takeaways and legal repercussions.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# MSDiagnosis : EMRを用いた多段階診断用データセット

MSDiagnosis: An EMR-based Dataset for Clinical Multi-Step Diagnosis ( http://arxiv.org/abs/2408.10039v2 )

ライセンス: Link先を確認
Ruihui Hou, Shencheng Chen, Yongqi Fan, Lifeng Zhu, Jing Sun, Jingping Liu, Tong Ruan, (参考訳) 臨床診断は医療実践において重要であり、通常、一次診断、鑑別診断、最終診断を含む継続的かつ進化的なプロセスを必要とする。 しかし、既存の臨床診断タスクのほとんどは1段階のプロセスであり、実際の臨床現場で見られる複雑な多段階の診断手順とは一致しない。 本稿では,多段階診断タスクを提案し,臨床診断データセット(MSDiagnosis)に注釈を付ける。 本データセットは、一次診断、鑑別診断、最終診断質問を含む。 さらに,新規かつ効果的な枠組みを提案する。 このフレームワークは、前方推論、後方推論、反射、改善を組み合わせ、LSMが診断結果を自己評価し、調整することができる。 提案手法の有効性を評価するため,我々は広範囲な実験を設計・実施する。 実験の結果,提案手法の有効性が示された。 また、包括的実験分析を行い、今後の研究の方向性を提案する。

Clinical diagnosis is critical in medical practice, typically requiring a continuous and evolving process that includes primary diagnosis, differential diagnosis, and final diagnosis. However, most existing clinical diagnostic tasks are single-step processes, which does not align with the complex multi-step diagnostic procedures found in real-world clinical settings. In this paper, we propose a multi-step diagnostic task and annotate a clinical diagnostic dataset (MSDiagnosis). This dataset includes primary diagnosis, differential diagnosis, and final diagnosis questions. Additionally, we propose a novel and effective framework. This framework combines forward inference, backward inference, reflection, and refinement, enabling the LLM to self-evaluate and adjust its diagnostic results. To assess the effectiveness of our proposed method, we design and conduct extensive experiments. The experimental results demonstrate the effectiveness of the proposed method. We also provide a comprehensive experimental analysis and suggest future research directions for this task.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# BEYOND DIALOGUE:汎用ロールプレイング言語モデルに向けたプロファイルダイアライメントフレームワーク

BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model ( http://arxiv.org/abs/2408.10903v5 )

ライセンス: Link先を確認
Yeyong Yu, Runsheng Yu, Haojie Wei, Zhanqiu Zhang, Quan Qian, (参考訳) 大規模言語モデル(LLM)の急速な進歩はロールプレイングに革命をもたらし、一般的なロールプレイングモデルの開発を可能にした。 しかし、現在のロールプレイングトレーニングには2つの大きな問題がある: (I) 特定のシナリオに対する対話トレーニングを促すために事前に定義されたロールプロファイルを使用すると、通常、対話とプロファイルの間に矛盾や矛盾が生じ、トレーニングバイアスが生じる。 (II) モデルは、プロファイルのみに基づくロールの模倣を学び、文レベルでのプロファイル-対話アライメントを無視する。 本研究では,これらのハードルを克服するために,BEYOND DIALOGUEと呼ばれるシンプルで効果的なフレームワークを提案する。 このフレームワークは革新的に"Beyond dialogue"タスクを導入し、それぞれのシナリオに基づいて対話をプロファイル特性と整合させ、トレーニング中のバイアスを取り除く。 さらに、学習のための推論結果を生成する革新的なプロンプト機構を採用することにより、このフレームワークは、文レベルでのプロファイルと対話の微妙なアライメントを実現することができる。 上記の方法は、完全に自動化され、低コストである。 さらに、自動対話と客観的評価手法の統合は総合的な枠組みを形成し、一般的なロールプレイングの道を開く。 実験結果から,我々のモデルは役割プロファイルの様々な次元を忠実に表現し,表現する上で優れており,最もプロプライエタリな役割プレーングベースラインよりも優れていた。 すべてのコードとデータセットはhttps://github.com/yuyouyu32/BeyondDialogue.comで入手できる。

The rapid advancement of large language models (LLMs) has revolutionized role-playing, enabling the development of general role-playing models. However, current role-playing training has two significant issues: (I) Using a predefined role profile to prompt dialogue training for specific scenarios usually leads to inconsistencies and even conflicts between the dialogue and the profile, resulting in training biases. (II) The model learns to imitate the role based solely on the profile, neglecting profile-dialogue alignment at the sentence level. In this work, we propose a simple yet effective framework called BEYOND DIALOGUE, designed to overcome these hurdles. This framework innovatively introduces "beyond dialogue" tasks to align dialogue with profile traits based on each specific scenario, thereby eliminating biases during training. Furthermore, by adopting an innovative prompting mechanism that generates reasoning outcomes for training, the framework allows the model to achieve fine-grained alignment between profile and dialogue at the sentence level. The aforementioned methods are fully automated and low-cost. Additionally, the integration of automated dialogue and objective evaluation methods forms a comprehensive framework, paving the way for general role-playing. Experimental results demonstrate that our model excels in adhering to and reflecting various dimensions of role profiles, outperforming most proprietary general and specialized role-playing baselines. All code and datasets are available at https://github.com/yuyouyu32/BeyondDialogue.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# IKUN for WMT24 General MT Task: LLMs for Multilingual Machine Translation (英語)

IKUN for WMT24 General MT Task: LLMs Are here for Multilingual Machine Translation ( http://arxiv.org/abs/2408.11512v2 )

ライセンス: Link先を確認
Baohao Liao, Christian Herold, Shahram Khadivi, Christof Monz, (参考訳) 本稿では,WMT24における汎用機械翻訳タスクのために開発された2つの多言語システム,IKUNとIKUN-Cを紹介する。 IKUNとIKUN-Cは、それぞれLlama-3-8bとMistral-7B-v0.3上に構築されたオープンシステムと制約されたシステムを表している。 どちらのシステムも、単一のモデルを使用して11の言語方向を処理するように設計されている。 自動評価指標によると、IKUN-Cは全ての制約されたシステムの中で6位と3位に、IKUNは2位と1位を確保した。 これらの奨励的な結果は、大規模言語モデル(LLM)が効果的な多言語機械翻訳に必要な習熟度に近づいていることを示唆している。 システムは2段階のアプローチに基づいており、まず10言語でモノリンガルデータに対して連続的な事前学習を行い、続いて11言語方向の高品質な並列データに微調整を行う。 IKUNとIKUN-Cの主な違いは、モノリンガル事前訓練戦略にある。 IKUN-Cは制約付きモノリンガルデータを使用して事前トレーニングされる一方、IKUNはOSCARデータセットからのモノリンガルデータを活用する。 第2段階では、どちらのシステムも NTREX, Flores, WMT16-23 から得られた並列データに基づいて細調整される。

This paper introduces two multilingual systems, IKUN and IKUN-C, developed for the general machine translation task in WMT24. IKUN and IKUN-C represent an open system and a constrained system, respectively, built on Llama-3-8b and Mistral-7B-v0.3. Both systems are designed to handle all 11 language directions using a single model. According to automatic evaluation metrics, IKUN-C achieved 6 first-place and 3 second-place finishes among all constrained systems, while IKUN secured 1 first-place and 2 second-place finishes across both open and constrained systems. These encouraging results suggest that large language models (LLMs) are nearing the level of proficiency required for effective multilingual machine translation. The systems are based on a two-stage approach: first, continuous pre-training on monolingual data in 10 languages, followed by fine-tuning on high-quality parallel data for 11 language directions. The primary difference between IKUN and IKUN-C lies in their monolingual pre-training strategy. IKUN-C is pre-trained using constrained monolingual data, whereas IKUN leverages monolingual data from the OSCAR dataset. In the second phase, both systems are fine-tuned on parallel data sourced from NTREX, Flores, and WMT16-23 for all 11 language pairs.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# GRAB: 大規模マルチモーダルモデルのGRaph解析ベンチマーク

GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models ( http://arxiv.org/abs/2408.11817v2 )

ライセンス: Link先を確認
Jonathan Roberts, Kai Han, Samuel Albanie, (参考訳) 大規模マルチモーダルモデル (LMM) は多くの視覚的タスクに習熟している。 モデル性能を評価するためによく知られたベンチマークが多数存在するが、ヘッドルームはますます不十分である。 そのため、次世代のLMMに十分挑戦する新しい世代のベンチマークが必要である。 LMMがポテンシャルを示す分野の1つはグラフ解析であり、具体的には、平均やインターセプト、関数やデータ系列の相関を推定するといった数字を解釈する際に、アナリストが一般的に行うべきタスクである。 本稿では,現在および将来のフロンティアLMMに適合するグラフ解析ベンチマークGRABを紹介する。 私たちのベンチマークは完全に総合的で、高品質でノイズフリーな質問を確実にします。 GRABは2170の質問で構成され、4つのタスクと23のグラフプロパティをカバーしている。 GRAB上で20のLMMを評価し、21.7%のスコアで最高のパフォーマンスのモデルで、挑戦的なベンチマークであることが判明した。 最後に、モデルがどのように成功し、苦闘するかを調べるために、様々な試みを行う。 この重要で成長しているドメインの進展を促進するため、GRABをリリースします。

Large multimodal models (LMMs) have exhibited proficiencies across many visual tasks. Although numerous well-known benchmarks exist to evaluate model performance, they increasingly have insufficient headroom. As such, there is a pressing need for a new generation of benchmarks challenging enough for the next generation of LMMs. One area that LMMs show potential is graph analysis, specifically, the tasks an analyst might typically perform when interpreting figures such as estimating the mean, intercepts or correlations of functions and data series. In this work, we introduce GRAB, a graph analysis benchmark, fit for current and future frontier LMMs. Our benchmark is entirely synthetic, ensuring high-quality, noise-free questions. GRAB is comprised of 2170 questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on GRAB, finding it to be a challenging benchmark, with the highest performing model attaining a score of just 21.7%. Finally, we conduct various ablations to investigate where the models succeed and struggle. We release GRAB to encourage progress in this important, growing domain.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# 選択状態空間モデルを用いた光圧縮機の時間変動応答のモデル化

Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models ( http://arxiv.org/abs/2408.12549v2 )

ライセンス: Link先を確認
Riccardo Simionato, Stefano Fasciani, (参考訳) 本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。 提案手法は、Selective State Spaceブロックを用いて入力音声を符号化することにより、繰り返し層に基づく従来の手法を超越する。 機能ワイドリニア変調とゲート付きリニアユニットを統合して動的にネットワークを調整し、外部パラメータに応じて圧縮のアタックとリリースフェーズを条件付ける。 提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。 この方法は、異なる特性を持つアナログ光学圧縮機TubeTech CL 1BとTeletronix LA-2Aで検証されている。 定量的な測定値と主観的聴力テストを用いて評価を行い,提案手法を他の最先端モデルと比較した。 その結果,ブラックボックスのモデリング手法は他の手法よりも優れており,トレーニング中は目視と目視の両方の圧縮過程の正確なエミュレーションを実現していることがわかった。 さらに、この精度とデータセット内の制御パラメータのサンプリング密度の相関性を示し、高速攻撃と遅いリリースによる設定をエミュレートするのが最も困難であることを示す。

This paper presents a method for modeling optical dynamic range compressors using deep neural networks with Selective State Space models. The proposed approach surpasses previous methods based on recurrent layers by employing a Selective State Space block to encode the input audio. It features a refined technique integrating Feature-wise Linear Modulation and Gated Linear Units to adjust the network dynamically, conditioning the compression's attack and release phases according to external parameters. The proposed architecture is well-suited for low-latency and real-time applications, crucial in live audio processing. The method has been validated on the analog optical compressors TubeTech CL 1B and Teletronix LA-2A, which possess distinct characteristics. Evaluation is performed using quantitative metrics and subjective listening tests, comparing the proposed method with other state-of-the-art models. Results show that our black-box modeling methods outperform all others, achieving accurate emulation of the compression process for both seen and unseen settings during training. We further show a correlation between this accuracy and the sampling density of the control parameters in the dataset and identify settings with fast attack and slow release as the most challenging to emulate.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# 線形近似とリプシッツ最適化によるニューラルネットワークの幾何学的ロバスト性の検証

Verification of Geometric Robustness of Neural Networks via Piecewise Linear Approximation and Lipschitz Optimisation ( http://arxiv.org/abs/2408.13140v2 )

ライセンス: Link先を確認
Ben Batten, Yang Zheng, Alessandro De Palma, Panagiotis Kouvaros, Alessio Lomuscio, (参考訳) 我々は、回転、スケーリング、せん断、翻訳を含む入力画像の幾何学的変換に対するニューラルネットワークの検証の問題に対処する。 提案手法は, 分枝・分枝リプシッツ最適化と組み合わせたサンプリングおよび線形近似を用いて, 画素値に対する高音域線形制約を求める。 本発明の方法は、現在の最先端技術よりも、摂動領域の過近似を確実に厳格に求める。 MNISTとCIFAR10の総合的な検証ベンチマーク実験の結果を報告する。 提案手法では,既存の手法よりも最大32%の検証ケースが解決されている。

We address the problem of verifying neural networks against geometric transformations of the input image, including rotation, scaling, shearing, and translation. The proposed method computes provably sound piecewise linear constraints for the pixel values by using sampling and linear approximations in combination with branch-and-bound Lipschitz optimisation. The method obtains provably tighter over-approximations of the perturbation region than the present state-of-the-art. We report results from experiments on a comprehensive set of verification benchmarks on MNIST and CIFAR10. We show that our proposed implementation resolves up to 32% more verification cases than present approaches.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# LlamaDuo: サービスLLMから小規模ローカルLLMへのシームレス移行のためのLLMOpsパイプライン

LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs ( http://arxiv.org/abs/2408.13467v2 )

ライセンス: Link先を確認
Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jing Tang, (参考訳) クラウドベースのプロプライエタリな大規模言語モデル(LLM)の普及は、運用上の依存関係、プライバシの懸念、継続的なインターネット接続の必要性など、大きな課題をもたらしている。 本研究では,LLMOpsパイプライン"LlamaDuo"を導入し,サービス指向のLLMから,より小型でローカルに管理可能なモデルへの,知識と能力のシームレスな移行を実現する。 このパイプラインは、運用上の障害、厳格なプライバシポリシ、あるいはオフライン要件の存在下でのサービス継続性を保証するために不可欠である。 私たちのLlamaDuoは、後者によって生成された合成データセットを使用して、サービスLLMに対して小さな言語モデルを微調整します。 細調整されたモデルの性能が期待に届かなかった場合、サービスLLMが作成した類似したデータを追加してさらに細調整を行うことで、性能が向上する。 この反復的なプロセスは、小さなモデルが最終的に特定の下流タスクでLLMの能力と一致または超えることを保証するもので、制約のある環境でAIデプロイメントを管理するための実用的でスケーラブルなソリューションを提供する。 各種下流タスクにおけるLlamaDuoの有効性,適応性,手頃性を示すために,先進LLMを用いた大規模実験を行った。 パイプラインの実装はhttps://github.com/deep-diver/llamaduo.comで公開しています。

The widespread adoption of cloud-based proprietary large language models (LLMs) has introduced significant challenges, including operational dependencies, privacy concerns, and the necessity of continuous internet connectivity. In this work, we introduce an LLMOps pipeline, "LlamaDuo", for the seamless migration of knowledge and abilities from service-oriented LLMs to smaller, locally manageable models. This pipeline is crucial for ensuring service continuity in the presence of operational failures, strict privacy policies, or offline requirements. Our LlamaDuo involves fine-tuning a small language model against the service LLM using a synthetic dataset generated by the latter. If the performance of the fine-tuned model falls short of expectations, it is enhanced by further fine-tuning with additional similar data created by the service LLM. This iterative process guarantees that the smaller model can eventually match or even surpass the service LLM's capabilities in specific downstream tasks, offering a practical and scalable solution for managing AI deployments in constrained environments. Extensive experiments with leading edge LLMs are conducted to demonstrate the effectiveness, adaptability, and affordability of LlamaDuo across various downstream tasks. Our pipeline implementation is available at https://github.com/deep-diver/llamaduo.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# 不確実性を考慮した決定融合による画像分類のための適応型深層ネットワークの強化

Enhancing Adaptive Deep Networks for Image Classification via Uncertainty-aware Decision Fusion ( http://arxiv.org/abs/2408.13744v2 )

ライセンス: Link先を確認
Xu Zhang, Zhipeng Xie, Haiyang Yu, Qitong Wang, Peng Wang, Wei Wang, (参考訳) 様々な計算リソースを扱うことは、現代のAIアプリケーションにおいて重要な問題である。 異なる層間における複数の分類器ヘッドの動的使用を特徴とする適応型ディープネットワークは,様々な計算資源下での分類課題に対処するために提案されている。 既存のアプローチでは、利用可能なリソースによってサポートされている最後の分類器を推論に利用するのが一般的である。 しかし,本研究の結果から,より早期の分類器ヘッドは,特定のクラスにおいて最後の頭部より優れていたことが示唆された。 そこで本研究では,適応型深層ネットワークの推論性能を高めるために,複数の分類器ヘッドを融合したCDM(Collaborative Decision Making)モジュールを提案する。 CDMは、第1のc-1分類器からの信頼性(不確かさ値)を利用してc-th分類器の精度を向上させる、明らかな深層学習(EDL)に基づく不確実性認識融合法を取り入れている。 また、CDMの核融合品質を改善するために、EDL制約による核融合飽和度と不公平性の問題を低減するバランス項を設計する。 最後に,最終分類器を用いて早期分類器の学習過程をガイドする正規化学習戦略を提案し,CDMモジュールの効果をさらに向上させる。 実験により,本手法の有効性が示された。 ImageNetデータセットの結果、CDMとGCDMは、一般的な適応ネットワーク上での精度を0.4%から2.8%向上させる(様々なコンピューティングリソースの下で)。 コードはhttps://github.com/Meteor-Stars/GCDM_AdaptiveNet.comリンクで入手できる。

Handling varying computational resources is a critical issue in modern AI applications. Adaptive deep networks, featuring the dynamic employment of multiple classifier heads among different layers, have been proposed to address classification tasks under varying computing resources. Existing approaches typically utilize the last classifier supported by the available resources for inference, as they believe that the last classifier always performs better across all classes. However, our findings indicate that earlier classifier heads can outperform the last head for certain classes. Based on this observation, we introduce the Collaborative Decision Making (CDM) module, which fuses the multiple classifier heads to enhance the inference performance of adaptive deep networks. CDM incorporates an uncertainty-aware fusion method based on evidential deep learning (EDL), that utilizes the reliability (uncertainty values) from the first c-1 classifiers to improve the c-th classifier' accuracy. We also design a balance term that reduces fusion saturation and unfairness issues caused by EDL constraints to improve the fusion quality of CDM. Finally, a regularized training strategy that uses the last classifier to guide the learning process of early classifiers is proposed to further enhance the CDM module's effect, called the Guided Collaborative Decision Making (GCDM) framework. The experimental evaluation demonstrates the effectiveness of our approaches. Results on ImageNet datasets show CDM and GCDM obtain 0.4% to 2.8% accuracy improvement (under varying computing resources) on popular adaptive networks. The code is available at the link https://github.com/Meteor-Stars/GCDM_AdaptiveNet.
翻訳日:2024-08-30 18:25:25 公開日:2024-08-29
# 工学的問題に対する量子科学計算アルゴリズムの概観

A Review of Quantum Scientific Computing Algorithms for Engineering Problems ( http://arxiv.org/abs/2408.13943v2 )

ライセンス: Link先を確認
Osama Muhammad Raisuddin, Suvranu De, (参考訳) 重ね合わせや絡み合いのような量子現象を活用する量子コンピューティングは、計算技術においてトランスフォーメーションの力として登場し、工学的応用に不可欠な計算速度と効率を約束している。 この進歩は機会と課題の両方を示し、技術者は量子原理、応用、複雑さに精通する必要がある。 本稿では, 量子力学の基礎的概念と, その計算発展への含意を体系的に検討し, 問題解決における量子アルゴリズムの優位性を強調した。 拡張性やコヒーレンスの問題に直面しながら、ゲートベースの量子コンピューティングが古典的手法を上回る可能性を秘めている分野を特定する。 量子物理学やハードウェア仕様に最小限依存した明確な例を提供することによって、量子コンピューティングをエンジニアに利用しやすくし、急勾配の学習曲線に対処し、量子ハードウェアがより堅牢で信頼性の高いものになるにつれて、複雑な問題解決と技術進歩への実践的採用を促進することを目的としている。

Quantum computing, leveraging quantum phenomena like superposition and entanglement, is emerging as a transformative force in computing technology, promising unparalleled computational speed and efficiency crucial for engineering applications. This advancement presents both opportunities and challenges, requiring engineers to familiarize themselves with quantum principles, applications, and complexities. This paper systematically explores the foundational concepts of quantum mechanics and their implications for computational advancements, emphasizing the superiority of quantum algorithms in solving engineering problems. It identifies areas where gate-based quantum computing has the potential to outperform classical methods despite facing scalability and coherence issues. By offering clear examples with minimal reliance on in-depth quantum physics or hardware specifics, the aim is to make quantum computing accessible to engineers, addressing the steep learning curve and fostering its practical adoption for complex problem-solving and technological advancement as quantum hardware becomes more robust and reliable.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# TF-Attack:大規模言語モデルにおける転送可能かつ高速な敵攻撃

TF-Attack: Transferable and Fast Adversarial Attacks on Large Language Models ( http://arxiv.org/abs/2408.13985v2 )

ライセンス: Link先を確認
Zelin Li, Kehai Chen, Xuefeng Bai, Lemao Liu, Mingming Yang, Yang Xiang, Min Zhang, (参考訳) 大規模言語モデル (LLM) の進歩により, LLM に対する敵対的攻撃が近年注目されている。 既存の対向攻撃法は移動性に限界があり,特にLSMに適用した場合,特に非効率であることがわかった。 本稿では,従来主流であった敵攻撃手法のコアメカニズムを解析し,それを明らかにする。 1) 重要得点の分布は,被害者のモデルによって著しく異なり,伝達可能性に制限がある。 2) シーケンシャル・アタック・プロセスは時間的オーバーヘッドを生じさせる。 上記の2つの知見に基づいて, TF-Attack という新しいスキームを導入し, LLM に対するTransferable と Fast の敵攻撃について検討した。 TF-Attack は外部の LLM を被害者モデルではなく第三者の監督者として使用し、文内の重要な単位を識別する。 さらにTF-Attackは、攻撃の並列置換を可能にするImportance Levelの概念を導入している。 我々は6つの広く採用されているベンチマークについて広範な実験を行い、提案手法を自動測定と人為計測の両方で評価した。 その結果,本手法は従来手法をはるかに上回り,従来の攻撃戦略の最大20倍の速度向上を実現していることがわかった。

With the great advancements in large language models (LLMs), adversarial attacks against LLMs have recently attracted increasing attention. We found that pre-existing adversarial attack methodologies exhibit limited transferability and are notably inefficient, particularly when applied to LLMs. In this paper, we analyze the core mechanisms of previous predominant adversarial attack methods, revealing that 1) the distributions of importance score differ markedly among victim models, restricting the transferability; 2) the sequential attack processes induces substantial time overheads. Based on the above two insights, we introduce a new scheme, named TF-Attack, for Transferable and Fast adversarial attacks on LLMs. TF-Attack employs an external LLM as a third-party overseer rather than the victim model to identify critical units within sentences. Moreover, TF-Attack introduces the concept of Importance Level, which allows for parallel substitutions of attacks. We conduct extensive experiments on 6 widely adopted benchmarks, evaluating the proposed method through both automatic and human metrics. Results show that our method consistently surpasses previous methods in transferability and delivers significant speed improvements, up to 20 times faster than earlier attack strategies.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# 機械学習におけるカテゴリー理論とトピック理論の枠組み:調査

Category-Theoretical and Topos-Theoretical Frameworks in Machine Learning: A Survey ( http://arxiv.org/abs/2408.14014v2 )

ライセンス: Link先を確認
Yiyang Jia, Guohong Peng, Zheng Yang, Tianhao Chen, (参考訳) 本稿では、勾配に基づく学習、確率に基づく学習、不変性と等価性に基づく学習、およびトポスに基づく学習の4つの主要な視点から、カテゴリー理論に基づく機械学習の概要について述べる。 最初の3つのトピックについて、主に過去5年間の研究をレビューし、Shiebler氏らによる以前の調査を更新し、拡張しました。 第4のトピックは、高次圏論、特にトポス理論を論じるもので、この論文で初めて調査される。 特定の機械学習手法において、関手の構成性は重要な役割を担い、特定の分類的フレームワークの開発を促す。 しかし、ネットワークのグローバルな性質が局所構造をどのように反映し、幾何学的性質が論理でどのように表現されるかを考えると、トポス構造は特に重要かつ深遠なものとなる。

In this survey, we provide an overview of category theory-derived machine learning from four mainstream perspectives: gradient-based learning, probability-based learning, invariance and equivalence-based learning, and topos-based learning. For the first three topics, we primarily review research in the past five years, updating and expanding on the previous survey by Shiebler et al.. The fourth topic, which delves into higher category theory, particularly topos theory, is surveyed for the first time in this paper. In certain machine learning methods, the compositionality of functors plays a vital role, prompting the development of specific categorical frameworks. However, when considering how the global properties of a network reflect in local structures and how geometric properties are expressed with logic, the topos structure becomes particularly significant and profound.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# フェデレーションラーニングにおけるSAMによる近隣・グローバル摂動支援--地域意識からグローバルアウェアネスまで

Neighborhood and Global Perturbations Supported SAM in Federated Learning: From Local Tweaks To Global Awareness ( http://arxiv.org/abs/2408.14144v2 )

ライセンス: Link先を確認
Boyuan Li, Zihao Peng, Yafei Li, Mingliang Xu, Shengbo Chen, Baofeng Ji, Cong Shen, (参考訳) フェデレートラーニング(FL)は、中央サーバのオーケストレーションの下でコーディネートすることで、データ交換を必要とせずに、プライバシ保護モデルを協調的に構築することができる。 しかし、参加者データの不均一性は局所的な最適分散をもたらし、その後収束結果に影響を及ぼす。 近年、グローバル・シャープネス・アウェアの最小化(SAM)と動的正規化技術に注目し、グローバル・ローカル・一般化と最適化の目的の整合性を高める。 それでも、グローバルSAMの推定には計算とメモリのオーバーヘッドが加わり、動的正規化は訓練分離による局所的および大域的双対変数のバイアスに悩まされる。 本稿では,最小限のアップリンク通信オーバヘッドを維持しつつ,最適化と一般化の目的を考慮した新しいFLアルゴリズムであるFedTOGAを提案する。 局所摂動をグローバルな更新にリンクすることで、グローバルな一般化一貫性が向上する。 さらに、グローバルアップデートは局所的動的正規化器の修正、二重変数バイアスの低減、最適化の整合性向上に使用されている。 グローバルアップデートは、クライアントから受動的に受信され、オーバーヘッドが削減される。 また、局所摂動を近似し、その強度と限界を解析するために、近隣摂動を提案する。 理論的解析は、FedTOGAが非凸関数の下でより高速な収束O(1/T)$を達成することを示している。 実証的な研究によると、FedTOGAは最先端のアルゴリズムより優れており、精度は1\%、収束速度は30\%向上し、最先端のアルゴリズムを達成している。

Federated Learning (FL) can be coordinated under the orchestration of a central server to collaboratively build a privacy-preserving model without the need for data exchange. However, participant data heterogeneity leads to local optima divergence, subsequently affecting convergence outcomes. Recent research has focused on global sharpness-aware minimization (SAM) and dynamic regularization techniques to enhance consistency between global and local generalization and optimization objectives. Nonetheless, the estimation of global SAM introduces additional computational and memory overhead, while dynamic regularization suffers from bias in the local and global dual variables due to training isolation. In this paper, we propose a novel FL algorithm, FedTOGA, designed to consider optimization and generalization objectives while maintaining minimal uplink communication overhead. By linking local perturbations to global updates, global generalization consistency is improved. Additionally, global updates are used to correct local dynamic regularizers, reducing dual variables bias and enhancing optimization consistency. Global updates are passively received by clients, reducing overhead. We also propose neighborhood perturbation to approximate local perturbation, analyzing its strengths and limitations. Theoretical analysis shows FedTOGA achieves faster convergence $O(1/T)$ under non-convex functions. Empirical studies demonstrate that FedTOGA outperforms state-of-the-art algorithms, with a 1\% accuracy increase and 30\% faster convergence, achieving state-of-the-art.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# 金属アーチファクト低減のためのデュアルドメインCLIP支援残留最適知覚モデル

Dual-Domain CLIP-Assisted Residual Optimization Perception Model for Metal Artifact Reduction ( http://arxiv.org/abs/2408.14342v2 )

ライセンス: Link先を確認
Xinrui Zhang, Ailong Cai, Shaoyu Wang, Linyuan Wang, Zhizhong Zheng, Lei Li, Bin Yan, (参考訳) CT(Computed tomography)画像における金属遺物は,正確な臨床診断に重要な課題である。 高密度金属インプラントの存在は、画像品質を劣化させ、ストリーキング、ぼやけ、ビーム硬化効果などの形で現れるアーティファクトをもたらす。 近年, 各種深層学習に基づくアプローチ, 特に生成モデルが, 金属人工物還元 (MAR) のために提案されている。 しかし、これらの手法は、異なる金属インプラントと人工物との多様な形態において知覚能力に限界があり、これは突発的な解剖学的構造を生じさせ、より低い一般化能力を示す可能性がある。 この問題に対処するために、視覚言語モデル(VLM)を用いてこれらの形態的特徴を識別し、MARのための二重ドメインCLIP支援残差最適化認識モデル(DuDoCROP)に導入する。 具体的には、二重ドメインCLIP(DuDoCLIP)をコントラスト学習を用いて画像ドメインとシングラムドメインに微調整し、解剖学的構造や金属人工物から意味記述を抽出する。 その後、拡散モデルをDuDoCLIPの埋め込みによって導出し、二重領域事前生成を可能にする。 さらに、より正確な画像テキスト記述のためのプロンプトエンジニアリングを設計し、モデルの知覚能力を高める。 そして、生データ忠実度を取り入れつつ、1ステップの残差最適化と2つのドメイン事前の統合のために下流タスクを考案する。 最終的に、モデルの知覚と生成性能を検証するために、新しい知覚指標が提案される。 DuDoCLIPの助けを借りて、DuDoCROPはベースラインモデルと比較して少なくとも63.7%高い一般化能力を示す。 数値実験により,提案手法はより現実的な画像構造を生成でき,他のSOTA手法よりも質的,定量的に優れていることが示された。

Metal artifacts in computed tomography (CT) imaging pose significant challenges to accurate clinical diagnosis. The presence of high-density metallic implants results in artifacts that deteriorate image quality, manifesting in the forms of streaking, blurring, or beam hardening effects, etc. Nowadays, various deep learning-based approaches, particularly generative models, have been proposed for metal artifact reduction (MAR). However, these methods have limited perception ability in the diverse morphologies of different metal implants with artifacts, which may generate spurious anatomical structures and exhibit inferior generalization capability. To address the issues, we leverage visual-language model (VLM) to identify these morphological features and introduce them into a dual-domain CLIP-assisted residual optimization perception model (DuDoCROP) for MAR. Specifically, a dual-domain CLIP (DuDoCLIP) is fine-tuned on the image domain and sinogram domain using contrastive learning to extract semantic descriptions from anatomical structures and metal artifacts. Subsequently, a diffusion model is guided by the embeddings of DuDoCLIP, thereby enabling the dual-domain prior generation. Additionally, we design prompt engineering for more precise image-text descriptions that can enhance the model's perception capability. Then, a downstream task is devised for the one-step residual optimization and integration of dual-domain priors, while incorporating raw data fidelity. Ultimately, a new perceptual indicator is proposed to validate the model's perception and generation performance. With the assistance of DuDoCLIP, our DuDoCROP exhibits at least 63.7% higher generalization capability compared to the baseline model. Numerical experiments demonstrate that the proposed method can generate more realistic image structures and outperform other SOTA approaches both qualitatively and quantitatively.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# 衛星サンルーフ:高解像度デジタル表面モデルとグローバルソーラーマッピングのための屋根セグメンテーション

Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping ( http://arxiv.org/abs/2408.14400v2 )

ライセンス: Link先を確認
Vishal Batchu, Alex Wilson, Betty Peng, Carl Elkin, Umangi Jain, Christopher Van Arsdale, Ross Goroshin, Varun Gulshan, (参考訳) 再生可能エネルギー、特に太陽エネルギーへの移行は、気候変動を緩和する鍵となる。 GoogleのSolar APIは、太陽ポテンシャルを空中画像から推定することで、この移行を支援するが、その影響は地理的カバレッジによって制限されている。 本稿では,衛星画像を用いてAPIの範囲を拡大し,地球規模の太陽ポテンシャル評価を可能にすることを提案する。 我々は,DSM(Digital Surface Model)と屋根のインスタンスセグメンテーションを低解像度から,深層学習モデルを用いた単一斜めビューから構築する際の課題に取り組む。 我々のモデルは、衛星と空中のデータセットに基づいて訓練され、25cmのDSMと屋根のセグメントを生成します。 建物に約1mのDSM MAE、屋根のピッチ誤差に約5deg、屋根のセグメンテーションに約56%のIOUがあるため、ソーラーAPIのソーラー採用を促進する可能性は大きく向上した。

The transition to renewable energy, particularly solar, is key to mitigating climate change. Google's Solar API aids this transition by estimating solar potential from aerial imagery, but its impact is constrained by geographical coverage. This paper proposes expanding the API's reach using satellite imagery, enabling global solar potential assessment. We tackle challenges involved in building a Digital Surface Model (DSM) and roof instance segmentation from lower resolution and single oblique views using deep learning models. Our models, trained on aligned satellite and aerial datasets, produce 25cm DSMs and roof segments. With ~1m DSM MAE on buildings, ~5deg roof pitch error and ~56% IOU on roof segmentation, they significantly enhance the Solar API's potential to promote solar adoption.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# スマートマルチモーダル検索:Adobe Expressにおけるコンテキストスパースとデンス埋め込みの統合

Smart Multi-Modal Search: Contextual Sparse and Dense Embedding Integration in Adobe Express ( http://arxiv.org/abs/2408.14698v2 )

ライセンス: Link先を確認
Cherag Aroraa, Tracy Holloway King, Jayant Kumar, Yi Lu, Sanat Sharma, Arvind Srikantan, David Uvalle, Josep Valls-Vargas, Harsha Vardhan, (参考訳) ユーザコンテンツやクエリのマルチモーダル化が進むにつれ,効率的なマルチモーダル検索システムの必要性が高まっている。 従来の検索システムはインデックス画像のテキストやメタデータのアノテーションに頼っていることが多いが、CLIPのようなマルチモーダルの埋め込みはテキストや画像の埋め込みを直接検索できる。 しかし、埋め込みベースのアプローチは、ユーザのローカライズやリレーシといったコンテキスト機能を統合する際の課題に直面している。 スケーラブルなマルチモーダル検索システムを構築するには、いくつかのコンポーネントを微調整する必要がある。 本稿では,Adobe Expressのテンプレート検索において,組込みとマルチモーダル技術を最適化するマルチモーダル検索アーキテクチャと一連のABテストを提案する。 埋め込みモデル選択、マッチングとランク付けにおける埋め込みの役割、密着と疎着のバランス等について考察する。 我々の反復的アプローチは、スパース、高密度、コンテキスト的な機能を利用することで、短いクエリー検索や長いクエリー検索が向上し、ヌルレート(70%以上)が大幅に減少し、クリックスルーレート(CTR)が向上することを示す。 本研究は,堅牢なマルチモーダル検索システムの構築に関する知見を提供し,複雑なクエリの関連性を高めることを目的とする。

As user content and queries become increasingly multi-modal, the need for effective multi-modal search systems has grown. Traditional search systems often rely on textual and metadata annotations for indexed images, while multi-modal embeddings like CLIP enable direct search using text and image embeddings. However, embedding-based approaches face challenges in integrating contextual features such as user locale and recency. Building a scalable multi-modal search system requires fine-tuning several components. This paper presents a multi-modal search architecture and a series of AB tests that optimize embeddings and multi-modal technologies in Adobe Express template search. We address considerations such as embedding model selection, the roles of embeddings in matching and ranking, and the balance between dense and sparse embeddings. Our iterative approach demonstrates how utilizing sparse, dense, and contextual features enhances short and long query search, significantly reduces null rates (over 70\%), and increases click-through rates (CTR). Our findings provide insights into developing robust multi-modal search systems, thereby enhancing relevance for complex queries.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# 適応光学イメージングにおける感光体解析のための一般偏差アルゴリズム

Generalist Segmentation Algorithm for Photoreceptors Analysis in Adaptive Optics Imaging ( http://arxiv.org/abs/2408.14810v2 )

ライセンス: Link先を確認
Mikhail Kulyabin, Aline Sindel, Hilde Pedersen, Stuart Gilson, Rigmor Baraas, Andreas Maier, (参考訳) 生体網膜から得られた画像中のコーン光受容体パターンを定量的な方法で解析することは、様々な眼状態の早期発見と管理に不可欠である。 共焦点適応光学スキャニング光眼鏡(AOSLO)イメージングにより、導波路光受容体の反射から円錐を可視化することができる。 共焦点AOSLO画像におけるコーン分割の自動アルゴリズムは大幅に改善されているが、データラベリングのプロセスは労働集約的で手動のままである。 本稿では,AOSLO画像中のコーンの検出とセグメンテーションを行うための,ディープラーニング(DL)に基づく手法を提案する。 これらのモデルは、葉中心から0$^{\circ}$, 1$^{\circ}$, 2$^{\circ}$の18人の参加者の20のAOSLOバッチの半自動ラベル付きデータセットでトレーニングされた。 F1スコアは, 0.968, 0.958, 0.954 for 0$^{\circ}$, 1$^{\circ}$, 2$^{\circ}$であった。 本手法は,ラベル付きコーンを少量だけ必要とすることで,ラベル付きデータの必要性を最小限に抑え,特にラベル付きデータを制限できる眼科領域において有益である。

Analyzing the cone photoreceptor pattern in images obtained from the living human retina using quantitative methods can be crucial for the early detection and management of various eye conditions. Confocal adaptive optics scanning light ophthalmoscope (AOSLO) imaging enables visualization of the cones from reflections of waveguiding cone photoreceptors. While there have been significant improvements in automated algorithms for segmenting cones in confocal AOSLO images, the process of labelling data remains labor-intensive and manual. This paper introduces a method based on deep learning (DL) for detecting and segmenting cones in AOSLO images. The models were trained on a semi-automatically labelled dataset of 20 AOSLO batches of images of 18 participants for 0$^{\circ}$, 1$^{\circ}$, and 2$^{\circ}$ from the foveal center. F1 scores were 0.968, 0.958, and 0.954 for 0$^{\circ}$, 1$^{\circ}$, and 2$^{\circ}$, respectively, which is better than previously reported DL approaches. Our method minimizes the need for labelled data by only necessitating a fraction of labelled cones, which is especially beneficial in the field of ophthalmology, where labelled data can often be limited.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# Inverse-Q*: 優先データのない大規模言語モデルのトークンレベル強化学習

Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data ( http://arxiv.org/abs/2408.14874v2 )

ライセンス: Link先を確認
Han Xia, Songyang Gao, Qiming Ge, Zhiheng Xi, Qi Zhang, Xuanjing Huang, (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、大規模な言語モデルを人間の意図と整合させるのに有効であることが証明されている。 本稿では,トークンレベルの強化学習を,付加的な報酬や価値モデルなしで最適化することで,従来のRL手法を超越する革新的なフレームワークであるInverse-Q*を紹介する。 Inverse-Q* は直接選好最適化手法を利用するが、モデル応答から直接条件最適ポリシーを推定することにより、よりきめ細やかで柔軟なポリシー形成を容易にする。 提案手法は人間のアノテーションや外部監視への依存を軽減し,低リソース設定に特に適している。 Inverse-Q*は, コンバージェンス速度, モデル応答と人間の嗜好との整合性において, 適合するだけでなく, PPOの有効性を上回る可能性が示唆された。 この結果から,Inverse-Q*は従来のRLHFアプローチに代わる実用的で堅牢な代替手段であり,より効率的で適応可能なモデルトレーニングアプローチの道を開くことが示唆された。

Reinforcement Learning from Human Feedback (RLHF) has proven effective in aligning large language models with human intentions, yet it often relies on complex methodologies like Proximal Policy Optimization (PPO) that require extensive hyper-parameter tuning and present challenges in sample efficiency and stability. In this paper, we introduce Inverse-Q*, an innovative framework that transcends traditional RL methods by optimizing token-level reinforcement learning without the need for additional reward or value models. Inverse-Q* leverages direct preference optimization techniques but extends them by estimating the conditionally optimal policy directly from the model's responses, facilitating more granular and flexible policy shaping. Our approach reduces reliance on human annotation and external supervision, making it especially suitable for low-resource settings. We present extensive experimental results demonstrating that Inverse-Q* not only matches but potentially exceeds the effectiveness of PPO in terms of convergence speed and the alignment of model responses with human preferences. Our findings suggest that Inverse-Q* offers a practical and robust alternative to conventional RLHF approaches, paving the way for more efficient and adaptable model training approaches.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# 最小限の変更による後処理フェアネス

Post-processing fairness with minimal changes ( http://arxiv.org/abs/2408.15096v2 )

ライセンス: Link先を確認
Federico Di Gennaro, Thibault Laugel, Vincent Grari, Xavier Renard, Marcin Detyniecki, (参考訳) 本稿では,モデルに依存しない新しいポストプロセッシングアルゴリズムを提案する。 さらに,本アルゴリズムは偏りの予測と偏りの予測の最小限の変更を強制するように設計されている。 提案手法では,ブラックボックス分類器が生成する確率スコアのロジット値に乗算係数を適用する。 本手法の有効性を実証的評価により実証し, フェアネス研究において広く用いられている2つのデータセットの他の4つのデバイアスアルゴリズムと比較した。

In this paper, we introduce a novel post-processing algorithm that is both model-agnostic and does not require the sensitive attribute at test time. In addition, our algorithm is explicitly designed to enforce minimal changes between biased and debiased predictions; a property that, while highly desirable, is rarely prioritized as an explicit objective in fairness literature. Our approach leverages a multiplicative factor applied to the logit value of probability scores produced by a black-box classifier. We demonstrate the efficacy of our method through empirical evaluations, comparing its performance against other four debiasing algorithms on two widely used datasets in fairness research.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# No Regrets: カリキュラム発見のためのRegret近似の調査と改善

No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery ( http://arxiv.org/abs/2408.15099v2 )

ライセンス: Link先を確認
Alexander Rutherford, Michael Beukman, Timon Willi, Bruno Lacerda, Nick Hawes, Jakob Foerster, (参考訳) 下流のパフォーマンスを改善するためにトレーニングに使用するデータや環境は、強化学習において長く、非常にトピックな問題である。 特に、非教師なし環境設計(UED)手法は、適応的なカリキュラムによってエージェントがイン・オブ・アウト・ディストリビューション・タスクに対して堅牢であることから、近年注目を集めている。 これらの手法が、現実のロボット工学の問題に強くインスパイアされた、新しい設定に適用された場合、どの程度堅牢であるかを問う。 驚いたことに、最先端のUEDメソッドは、ドメインランダム化(DR)のna\"{i}veベースラインを改良しないか、あるいはそれを行うためにかなりのハイパーパラメータチューニングを必要としている。 我々の分析は、エージェントが時折解決するが、必ずしも必ずしも解決しないような設定を見つける際に、'learnability'の直感的な測度を予測できない基礎的なスコアリング関数が原因であることを示している。 この手法は、我々のドメインやMinigridの標準 UED ドメインなど、いくつかのバイナリアウトカム環境において、UED メソッドや DR よりも優れています。 さらに,リスク条件値(CVaR)を忠実に反映し,ロバスト性を直接測定する新たな逆評価手法を導入する。 すべてのコードをオープンソースにして、最終ポリシーの視覚化を以下に公開しています。

What data or environments to use for training to improve downstream performance is a longstanding and very topical question in reinforcement learning. In particular, Unsupervised Environment Design (UED) methods have gained recent attention as their adaptive curricula enable agents to be robust to in- and out-of-distribution tasks. We ask to what extent these methods are themselves robust when applied to a novel setting, closely inspired by a real-world robotics problem. Surprisingly, we find that the state-of-the-art UED methods either do not improve upon the na\"{i}ve baseline of Domain Randomisation (DR), or require substantial hyperparameter tuning to do so. Our analysis shows that this is due to their underlying scoring functions failing to predict intuitive measures of ``learnability'', i.e., in finding the settings that the agent sometimes solves, but not always. Based on this, we instead directly train on levels with high learnability and find that this simple and intuitive approach outperforms UED methods and DR in several binary-outcome environments, including on our domain and the standard UED domain of Minigrid. We further introduce a new adversarial evaluation procedure for directly measuring robustness, closely mirroring the conditional value at risk (CVaR). We open-source all our code and present visualisations of final policies here: https://github.com/amacrutherford/sampling-for-learnability.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# ランダム性のイリュージョン:アドレス空間レイアウトランダム化実装の実証分析

The Illusion of Randomness: An Empirical Analysis of Address Space Layout Randomization Implementations ( http://arxiv.org/abs/2408.15107v2 )

ライセンス: Link先を確認
Lorenzo Binosi, Gregorio Barzasi, Michele Carminati, Stefano Zanero, Mario Polino, (参考訳) アドレス空間レイアウトランダム化(ASLR, Address Space Layout Randomization)は、プロセスのメモリレイアウトをランダム化することによってエクスプロイトを軽減するために、現代のオペレーティングシステムが採用する重要な防御機構である。 しかし、現実には、ASLRの現実世界の実装は不完全であり、攻撃者が悪用できる弱点に直面している。 この研究は、Linux、MacOS、Windowsを含む主要なデスクトッププラットフォームにおけるASLRの有効性を評価し、様々なプロセス、スレッド、システム再起動にまたがるメモリオブジェクトの配置のばらつきを調べる。 特に、メモリオブジェクトの位置のサンプルを収集し、これらの配置のランダム性を測定する統計的解析を行い、メモリレイアウトを調べて、このランダム性を低下させる可能性のあるオブジェクトのパターンを見つける。 結果として、Linuxディストリビューションのようなシステムの中には、堅牢なランダム化を提供するものもあるが、WindowsやMacOSのようなシステムは、実行可能なコードやライブラリのような重要な領域を適切にランダム化できないことが多い。 さらに、Linux 5.18以降のライブラリのエントロピーの大幅なエントロピー削減と、攻撃者が利用の複雑さを著しく低減するために活用できる相関パスの同定を行う。 最終的に、重大度に基づいて識別された弱点をランク付けし、概念実証攻撃によるエントロピー推定を検証する。 簡単に言うと,本論文は,異なるオペレーティングシステム間でASLRの有効性を総合的に評価し,ASLR実装を強化するオペレーティング・システム(OS)ベンダーの機会を強調している。

Address Space Layout Randomization (ASLR) is a crucial defense mechanism employed by modern operating systems to mitigate exploitation by randomizing processes' memory layouts. However, the stark reality is that real-world implementations of ASLR are imperfect and subject to weaknesses that attackers can exploit. This work evaluates the effectiveness of ASLR on major desktop platforms, including Linux, MacOS, and Windows, by examining the variability in the placement of memory objects across various processes, threads, and system restarts. In particular, we collect samples of memory object locations, conduct statistical analyses to measure the randomness of these placements and examine the memory layout to find any patterns among objects that could decrease this randomness. The results show that while some systems, like Linux distributions, provide robust randomization, others, like Windows and MacOS, often fail to adequately randomize key areas like executable code and libraries. Moreover, we find a significant entropy reduction in the entropy of libraries after the Linux 5.18 version and identify correlation paths that an attacker could leverage to reduce exploitation complexity significantly. Ultimately, we rank the identified weaknesses based on severity and validate our entropy estimates with a proof-of-concept attack. In brief, this paper provides the first comprehensive evaluation of ASLR effectiveness across different operating systems and highlights opportunities for Operating System (OS) vendors to strengthen ASLR implementations.
翻訳日:2024-08-30 18:15:34 公開日:2024-08-29
# ペプチドのフル原子時間相関ダイナミクスのためのフォースガイドブリッジマッチング

Force-Guided Bridge Matching for Full-Atom Time-Coarsened Dynamics of Peptides ( http://arxiv.org/abs/2408.15126v2 )

ライセンス: Link先を確認
Ziyang Yu, Wenbing Huang, Yang Liu, (参考訳) 分子動力学(MD)シミュレーションは、材料科学、化学、薬理学の分野において、いくつかの分野において、置換不可能でユビキタスである。 従来のMDシミュレーションは、MDシミュレーションの広範な適用を制限する長期均衡時間問題と同様に、数値安定性に悩まされている。 近年,この制限を克服するために,より大規模な時間スケールにおける状態遷移機構を学習する,時間粗大化力学のためのディープラーニングアプローチの急激な開発が進められている。 しかしながら,提案手法が低効率な新しい状態として受け入れられることは滅多にない,再サンプリング手法によってボルツマン分布を目標とする手法はごくわずかである。 本研究では,フル原子時間粗大化力学のためのブリッジマッチングに物理前処理を組み込んだ新しいフレームワークであるFBMを提案する。 我々のよく設計された中間力場の誘導により、FBMは余分なステップなしで直接推論によりボルツマン様の分布を目標にすることができる。 小ペプチドに関する実験は、網羅的な指標で我々の優越性を検証し、未知のペプチド系への転移性を示す。

Molecular Dynamics (MD) simulations are irreplaceable and ubiquitous in fields of materials science, chemistry, pharmacology just to name a few. Conventional MD simulations are plagued by numerical stability as well as long equilibration time issues, which limits broader applications of MD simulations. Recently, a surge of deep learning approaches have been devised for time-coarsened dynamics, which learns the state transition mechanism over much larger time scales to overcome these limitations. However, only a few methods target the underlying Boltzmann distribution by resampling techniques, where proposals are rarely accepted as new states with low efficiency. In this work, we propose a force-guided bridge matching model, FBM, a novel framework that first incorporates physical priors into bridge matching for full-atom time-coarsened dynamics. With the guidance of our well-designed intermediate force field, FBM is feasible to target the Boltzmann-like distribution by direct inference without extra steps. Experiments on small peptides verify our superiority in terms of comprehensive metrics and demonstrate transferability to unseen peptide systems.
翻訳日:2024-08-30 18:04:21 公開日:2024-08-29
# VQEによる1次元トポロジカルモデルにおける準退化基底状態の検出

Detecting quasi-degenerate ground states in 1D topological models via VQE ( http://arxiv.org/abs/2408.15179v2 )

ライセンス: Link先を確認
Carola Ciaramelletti, Martin Beseda, Mirko Consiglio, Luca Lepori, Tony J. G. Apollaro, Simone Paganelli, (参考訳) 変分量子固有解法 (VQE) アルゴリズムを用いて, Su-Schrieffer-Heeger 開鎖と Kitaev 開鎖の正確な基底状態について検討した。 これらのモデルは、熱力学の極限で単一粒子エネルギーが消滅するエッジモードを特徴とする対称性で保護された位相位相をホストする。 同じ事実は、標準のVQEアルゴリズムが有限鎖に対して正しい基底状態に収束することを妨げている。 特に、この準縮退性は、典型的なスピン系のように、小さな摂動によって取り除けない。 この問題は、VQEの進化に適切な制約を課し、同じ進化に沿ってヒルベルト空間のプローブ部分を制限するために、適切な変動回路を構築することで解決する。 これらの制約はトポロジカル位相の一般的な性質と研究されたハミルトニアンの両方に由来する。 このようにして、改良されたVQEアルゴリズムは各位相における正確な基底状態への正確な収束を達成する。 このアプローチは、比較的多くの量子ビットを持つシステムでも達成された非常に高い忠実さのおかげで、現実的なシステムや、おそらく異なるトポロジを持つシステムにも、大きな適用性を約束する。

We study the exact ground states of the Su--Schrieffer--Heeger open chain and of the Kitaev open chain, using the Variational Quantum Eigensolver (VQE) algorithm. These models host symmetry-protected topological phases, characterized by edge modes with vanishing single-particle energy in the thermodynamic limit. The same fact prevents the standard VQE algorithm from converging to the correct ground state for finite chains, since it is quasi-degenerate in energy with other many-body states. Notably, this quasi-degeneracy cannot be removed by small perturbations, as in typical spin systems. We address this issue by imposing appropriate constraints on the VQE evolution and constructing appropriate variational circuits, to restrict the probed portion of the Hilbert space along the same evolution. These constraints stem from both general properties of the topological phases and of the studied Hamiltonians. In this way, the improved VQE algorithm achieves an accurate convergence to the exact ground states in each phase. The present approach promises large applicability, also to realistic systems and possibly with different topology, thanks to the very high fidelity achieved also on systems with a relatively high number of qubits.
翻訳日:2024-08-30 18:04:21 公開日:2024-08-29
# オントチャットと参加型プロンプトによるオントロジー要求工学の改善

Improving Ontology Requirements Engineering with OntoChat and Participatory Prompting ( http://arxiv.org/abs/2408.15256v2 )

ライセンス: Link先を確認
Yihang Zhao, Bohui Zhang, Xi Hu, Shuyin Ouyang, Jongmo Kim, Nitisha Jain, Jacopo de Berardinis, Albert Meroño-Peñuela, Elena Simperl, (参考訳) 過去のオントロジー要件エンジニアリング(ORE)は、特に大規模プロジェクトでは、特にドメインの専門家からユーザー要求を集めるために、インタビューや共同フォーラムのような手動の手法に依存してきた。 Current OntoChatは,ユーザストーリ生成,能力質問(CQ)抽出,CQフィルタリングと分析,オントロジーテストサポートという,4つの重要な機能を通じてプロセスを合理化するための,大規模な言語モデル(LLM)を利用する,ORE用のフレームワークを提供する。 OntoChatでは、ユーザーはチャットボットにユーザーストーリーを生成するよう促すことが期待されている。 しかし、予備評価の結果、彼らはこれを効果的に行うのに苦労していることがわかった。 この問題に対処するため,私たちは,LLMの深い知識を必要とせずにチャットボットをより効果的に活用するための研究者によるインタラクションを含む,参加型プロンプトと呼ばれる研究手法を実験した。 この参加的なユーザスタディは、ユーザクエリに基づいた事前定義されたプロンプトテンプレートを生成し、ペルソナ、ゴール、シナリオ、サンプルデータ、ユーザストーリーのデータリソースの作成と精錬に重点を置いている。 これらの洗練されたユーザーストーリーはその後CQに変換される。

Past ontology requirements engineering (ORE) has primarily relied on manual methods, such as interviews and collaborative forums, to gather user requirements from domain experts, especially in large projects. Current OntoChat offers a framework for ORE that utilises large language models (LLMs) to streamline the process through four key functions: user story creation, competency question (CQ) extraction, CQ filtration and analysis, and ontology testing support. In OntoChat, users are expected to prompt the chatbot to generate user stories. However, preliminary evaluations revealed that they struggle to do this effectively. To address this issue, we experimented with a research method called participatory prompting, which involves researcher-mediated interactions to help users without deep knowledge of LLMs use the chatbot more effectively. This participatory prompting user study produces pre-defined prompt templates based on user queries, focusing on creating and refining personas, goals, scenarios, sample data, and data resources for user stories. These refined user stories will subsequently be converted into CQs.
翻訳日:2024-08-30 18:04:21 公開日:2024-08-29
# 人中心知識グラフ埋め込みの予測的特徴の評価:拡張的アブレーション研究

Evaluating the Predictive Features of Person-Centric Knowledge Graph Embeddings: Unfolding Ablation Studies ( http://arxiv.org/abs/2408.15294v2 )

ライセンス: Link先を確認
Christos Theodoropoulos, Natasha Mulligan, Joao Bettencourt-Silva, (参考訳) 複雑な生体情報を用いた新しい予測モデルの開発は、データの異質性、標準化、スパース性に関連する様々な慣用性のために困難である。 我々は以前、患者に関する情報を整理するための人中心オントロジーと、人中心知識グラフ(PKG)を抽出し、グラフニューラルネットワーク(GNN)を訓練するための表現学習フレームワークを導入しました。 本稿では,MIMIC-IIIデータセットから得られた構造化情報と非構造化情報の両方を用いて学習したGNNモデルの結果を体系的に検証する手法を提案する。 異なる臨床, 人口統計, 社会データに対するアブレーション研究を通じて, 読み出し予測のタスクにおいて, PKGの予測的特徴を識別する上で, このアプローチの堅牢性を示す。

Developing novel predictive models with complex biomedical information is challenging due to various idiosyncrasies related to heterogeneity, standardization or sparseness of the data. We previously introduced a person-centric ontology to organize information about individual patients, and a representation learning framework to extract person-centric knowledge graphs (PKGs) and to train Graph Neural Networks (GNNs). In this paper, we propose a systematic approach to examine the results of GNN models trained with both structured and unstructured information from the MIMIC-III dataset. Through ablation studies on different clinical, demographic, and social data, we show the robustness of this approach in identifying predictive features in PKGs for the task of readmission prediction.
翻訳日:2024-08-30 18:04:21 公開日:2024-08-29
# LLM研究から学ぶ、法律と欠陥

Awes, Laws, and Flaws From Today's LLM Research ( http://arxiv.org/abs/2408.15409v2 )

ライセンス: Link先を確認
Adrian de Wynter, (参考訳) 我々は,現代大言語モデル(LLM)研究の背景にある科学的方法論を批判的に検討する。 そこで我々は,優れた研究(例えば,統計的検査や再現性の有無)の基準に基づいて2000を超える研究成果を評価し,議論の中心にある議論(例えば,創発的行動の主張,LLMを評価対象として用いるなど)で検証する。 例えば、創発的行動や倫理的否定の主張の減少、コミュニティからの理解の欠如にもかかわらず評価者としてのLCMの台頭、LLM推論能力の主張の増加などである。 本稿は、倫理的で再現性があり、体系的で、批判を受ける責任ある科学的方法の基礎に生きるために、この分野におけるより精査と厳密さの必要性を浮き彫りにする。

We perform a critical examination of the scientific methodology behind contemporary large language model (LLM) research. For this we assess over 2,000 research works based on criteria typical of what is considered good research (e.g. presence of statistical tests and reproducibility) and cross-validate it with arguments that are at the centre of controversy (e.g., claims of emergent behaviour, the use of LLMs as evaluators). We find multiple trends, such as declines in claims of emergent behaviour and ethics disclaimers; the rise of LLMs as evaluators in spite of a lack of consensus from the community about their useability; and an increase of claims of LLM reasoning abilities, typically without leveraging human evaluation. This paper underscores the need for more scrutiny and rigour by and from this field to live up to the fundamentals of a responsible scientific method that is ethical, reproducible, systematic, and open to criticism.
翻訳日:2024-08-30 18:04:21 公開日:2024-08-29
# 超対称性量子力学による半古典的手法の最近の進歩

Recent Advances in Semiclassical Methods Inspired by Supersymmetric Quantum Mechanics ( http://arxiv.org/abs/2408.15424v2 )

ライセンス: Link先を確認
Asim Gangopadhyaya, Jonathan Bougie, Constantin Rasinariu, (参考訳) 半古典的手法は量子力学系の解析に不可欠である。 概して近似結果を生成するが、これらの手法が正確である比較的稀なポテンシャルが存在する。 このような興味深いポテンシャルは、半古典的近似の重要なテストケースとして機能する。 最近の研究では、超対称性量子力学と半古典的手法の正確性の間に深い関係が示されている。 具体的には、従来の形状不変ポテンシャルの数学的形式は、いくつかの関連する状況において正確性を保証する。 本稿では,最近の研究成果を概観し,その意義について論じる。

Semiclassical methods are essential in analyzing quantum mechanical systems. Although they generally produce approximate results, relatively rare potentials exist for which these methods are exact. Such intriguing potentials serve as crucial test cases for semiclassical approximations. Recent research has demonstrated a deep connection between supersymmetric quantum mechanics and the exactness of semiclassical methods. Specifically, the mathematical form of conventional shape-invariant potentials guarantees exactness in several related situations. In this manuscript, we review these recent results and discuss their significance.
翻訳日:2024-08-30 18:04:21 公開日:2024-08-29
# ASR-LLMセットアップにおける日本語音声認識の高速化と生成誤差補正

Benchmarking Japanese Speech Recognition on ASR-LLM Setups with Multi-Pass Augmented Generative Error Correction ( http://arxiv.org/abs/2408.16180v1 )

ライセンス: Link先を確認
Yuka Ko, Sheng Li, Chao-Han Huck Yang, Tatsuya Kawahara, (参考訳) 大きな言語モデル(LLM)の強力な表現力により、自動音声認識(ASR)のための生成誤り補正(GER)は、ASRの誤りに対処するための意味的および音声的改善を提供することを目的としている。 本研究では,LLMをベースとしたGERが日本語処理能力の強化と拡張を実現し,0.9-2.6kテキスト発声による日本語ASRのGERベンチマークを初めて提示する。 また、入力側で複数のシステム仮説を統合し、出力側で複数のLSMを補正し、それらをマージすることで、新しいマルチパス拡張生成誤差補正(MPA GER)を導入する。 我々の知る限りでは、ASRシステム(例えば、N-best仮説)が生成した出力書き起こしにおける第二パス言語モデリングを含む日本語 GER 用 LLM の使用に関する最初の調査である。 実験では,SPREDS-U1-jaデータとCSJデータの両方において,ASR品質と一般化の手法による性能改善を実証した。

With the strong representational power of large language models (LLMs), generative error correction (GER) for automatic speech recognition (ASR) aims to provide semantic and phonetic refinements to address ASR errors. This work explores how LLM-based GER can enhance and expand the capabilities of Japanese language processing, presenting the first GER benchmark for Japanese ASR with 0.9-2.6k text utterances. We also introduce a new multi-pass augmented generative error correction (MPA GER) by integrating multiple system hypotheses on the input side with corrections from multiple LLMs on the output side and then merging them. To the best of our knowledge, this is the first investigation of the use of LLMs for Japanese GER, which involves second-pass language modeling on the output transcriptions generated by the ASR system (e.g., N-best hypotheses). Our experiments demonstrated performance improvement in the proposed methods of ASR quality and generalization both in SPREDS-U1-ja and CSJ data.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# ミニバッチSGDに基づく光学的最適政策を用いたインベントリシステムのための学習メタポリシー

A Minibatch-SGD-Based Learning Meta-Policy for Inventory Systems with Myopic Optimal Policy ( http://arxiv.org/abs/2408.16181v1 )

ライセンス: Link先を確認
Jiameng Lyu, Jinxing Xie, Shilin Yuan, Yuan Zhou, (参考訳) 確率勾配降下(SGD)は多くの在庫管理問題を需要学習で解くのに有効であることが証明されている。 しかし、しばしば現在の在庫水準よりも低い、実現不可能な目標在庫水準の落とし穴に直面します。 いくつかの最近の研究(2009年)、Huh and Rusmevichientong(2009年)、Shi et al(2016年)は、様々な在庫システムでこの問題を解決するのに成功している。 しかし、これらの手法は、多製品や多制約インベントリシステムのようなより複雑なシナリオに適用することは困難である。 本稿では、新しい技術的視点から、実用不可能な目標-発明レベル問題に対処し、新しいミニバッチ-SGDベースのメタ政治を提案する。 我々のメタ政治は、筋明快な最適政策による幅広い在庫管理問題をカバーする一般的な在庫管理システムフレームワークに適用できるほど柔軟である。 最適なミニバッチスキームを考案することにより、我々のメタポリティクスは、一般凸の場合で$\mathcal{O}(\sqrt{T})$、強凸の場合で$\mathcal{O}(\log T)$の後悔境界を達成する。 メタポリティクスのパワーと柔軟性を実証するために、アプリケーション固有のサブルーチンを慎重に設計し、マルチプロプライエタリ・マルチ制約システム、マルチエケロン・シリアルシステム、ワンウェアハウス・マルチストアシステムという3つの重要な在庫管理問題に適用した。

Stochastic gradient descent (SGD) has proven effective in solving many inventory control problems with demand learning. However, it often faces the pitfall of an infeasible target inventory level that is lower than the current inventory level. Several recent works (e.g., Huh and Rusmevichientong (2009), Shi et al.(2016)) are successful to resolve this issue in various inventory systems. However, their techniques are rather sophisticated and difficult to be applied to more complicated scenarios such as multi-product and multi-constraint inventory systems. In this paper, we address the infeasible-target-inventory-level issue from a new technical perspective -- we propose a novel minibatch-SGD-based meta-policy. Our meta-policy is flexible enough to be applied to a general inventory systems framework covering a wide range of inventory management problems with myopic clairvoyant optimal policy. By devising the optimal minibatch scheme, our meta-policy achieves a regret bound of $\mathcal{O}(\sqrt{T})$ for the general convex case and $\mathcal{O}(\log T)$ for the strongly convex case. To demonstrate the power and flexibility of our meta-policy, we apply it to three important inventory control problems: multi-product and multi-constraint systems, multi-echelon serial systems, and one-warehouse and multi-store systems by carefully designing application-specific subroutines.We also conduct extensive numerical experiments to demonstrate that our meta-policy enjoys competitive regret performance, high computational efficiency, and low variances among a wide range of applications.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# 非線形制約付き最適化のための単ループ決定性と確率的内点アルゴリズム

Single-Loop Deterministic and Stochastic Interior-Point Algorithms for Nonlinearly Constrained Optimization ( http://arxiv.org/abs/2408.16186v1 )

ライセンス: Link先を確認
Frank E. Curtis, Xin Jiang, Qi Wang, (参考訳) 非線形に制約された連続最適化問題の解法として,内点アルゴリズムフレームワークを提案し,解析し,検証した。 主な関心事は、目的関数と制約関数が非線形または/または非凸であり、制約値と導関数が計算可能である場合であり、目的関数の値と導関数しか推定できないことである。 このアルゴリズムは、主に、非制約最適化のための確率勾配法に類似した設定、すなわち、確率勾配推定が利用可能で、目的の勾配に代えて使用される場合、および目的関数値(それらの推定も含まない場合)が使用されることを意図している。 これは、現代のインテリアポイント法に典型的なネストループ構造ではなく、単一ループ構造を持つインテリアポイントフレームワークによって達成される。 完全性のために、フレームワークの収束保証は決定論的および確率的設定の両方のために提供される。 数値実験により,このアルゴリズムは多数のテスト問題に対して良好な性能を示すことが示された。

An interior-point algorithm framework is proposed, analyzed, and tested for solving nonlinearly constrained continuous optimization problems. The main setting of interest is when the objective and constraint functions may be nonlinear and/or nonconvex, and when constraint values and derivatives are tractable to compute, but objective function values and derivatives can only be estimated. The algorithm is intended primarily for a setting that is similar for stochastic-gradient methods for unconstrained optimization, namely, the setting when stochastic-gradient estimates are available and employed in place of gradients of the objective, and when no objective function values (nor estimates of them) are employed. This is achieved by the interior-point framework having a single-loop structure rather than the nested-loop structure that is typical of contemporary interior-point methods. For completeness, convergence guarantees for the framework are provided both for deterministic and stochastic settings. Numerical experiments show that the algorithm yields good performance on a large set of test problems.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# ニュージーランドのリアルタイムエネルギー価格:進化するストリーム分析

Real-Time Energy Pricing in New Zealand: An Evolving Stream Analysis ( http://arxiv.org/abs/2408.16187v1 )

ライセンス: Link先を確認
Yibin Sun, Heitor Murilo Gomes, Bernhard Pfahringer, Albert Bifet, (参考訳) 本稿では,ニュージーランド政府が管理するElectricity Market Information (EMI)のウェブサイトから得られた,リアルタイム時系列とニュージーランドのエネルギー価格のストリーミングデータを表す新しいデータセットについて紹介する。 データセットは、回帰学習タスクをストリーミングするための適切なデータセットの不足に対処することを意図している。 我々はこれらのデータセットに関する広範な分析と実験を行い、前処理技術、回帰タスク、予測間隔、概念ドリフト検出、異常検出を網羅した。 実験では,データセットの有用性を実証し,今後のエネルギー価格予測研究の課題と機会を強調した。

This paper introduces a group of novel datasets representing real-time time-series and streaming data of energy prices in New Zealand, sourced from the Electricity Market Information (EMI) website maintained by the New Zealand government. The datasets are intended to address the scarcity of proper datasets for streaming regression learning tasks. We conduct extensive analyses and experiments on these datasets, covering preprocessing techniques, regression tasks, prediction intervals, concept drift detection, and anomaly detection. Our experiments demonstrate the datasets' utility and highlight the challenges and opportunities for future research in energy price forecasting.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# 伝達学習のより統一された理論

A More Unified Theory of Transfer Learning ( http://arxiv.org/abs/2408.16189v1 )

ライセンス: Link先を確認
Steve Hanneke, Samory Kpotufe, (参考訳) ソースリスクが減少するにつれてターゲットリスクが減少する速度を測る$\delta$は、移行学習や関連文献における古典的関連性尺度の根本にあると考えられる。 つまり、$\delta$という用語のバウンダリは、回帰と分類の両方において、関連性の他の尺度で、既存のバウンダリの多くを回復し、時にはより厳密にすることができる。 我々は、学習者がソースデータとターゲットデータの両方にアクセス可能な一般的な状況に特に関心を持っている。 興味深いことに、$\delta$自身は効率的に推定されないかもしれないが、アダプティブなプロシージャは信頼集合への還元に基づいて存在する。 未知の$\delta$へのそのような適応性は、多くの古典的関連性の概念への適応性を、ソースとターゲット標本のサイズの組み合わせの観点から直ちに意味する。

We show that some basic moduli of continuity $\delta$ -- which measure how fast target risk decreases as source risk decreases -- appear to be at the root of many of the classical relatedness measures in transfer learning and related literature. Namely, bounds in terms of $\delta$ recover many of the existing bounds in terms of other measures of relatedness -- both in regression and classification -- and can at times be tighter. We are particularly interested in general situations where the learner has access to both source data and some or no target data. The unified perspective allowed by the moduli $\delta$ allow us to extend many existing notions of relatedness at once to these scenarios involving target data: interestingly, while $\delta$ itself might not be efficiently estimated, adaptive procedures exist -- based on reductions to confidence sets -- which can get nearly tight rates in terms of $\delta$ with no prior distributional knowledge. Such adaptivity to unknown $\delta$ immediately implies adaptivity to many classical relatedness notions, in terms of combined source and target samples' sizes.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# 追従対象群の動的流れ特性の推定

Estimating Dynamic Flow Features in Groups of Tracked Objects ( http://arxiv.org/abs/2408.16190v1 )

ライセンス: Link先を確認
Tanner D. Harms, Steven L. Brunton, Beverley J. McKeon, (参考訳) 画像シーケンスでキャプチャされた動作の解釈は、幅広いコンピュータビジョン応用に不可欠である。 典型的な推定手法としては、シーン内の見かけの動きを瞬時に近似する光学フロー(OF)と、時間とともに被写体の動きを追跡する複数の物体追跡(MOT)がある。 多くの場合、シーン内の物体の運動は、対象群の運動を分析することによって推論できる基礎となる力学系によって制御される。 しかし、標準運動解析は、軌跡データから流れのダイナミクスを導出するためには設計されておらず、実際はそのような測定を困難にしている。 この研究の目的は、勾配に基づく力学系解析を、不完全なトレーサを持つ複雑な特徴豊富な画像列を特徴とする実世界のアプリケーションに拡張することである。 トレーサ軌道はディープビジョンネットワークを用いて追跡され、スパースデータから空間勾配を推定するためのツールであるラグランジアン勾配回帰(LGR)を用いて勾配を近似する。 勾配から、コヒーレント回転領域や輸送障壁などの動的特徴を同定する。 提案手法は,2つの異なる対象クラスの1つの画像列における動作解析を含む高度な研究を可能にする。 この手法の2つの例は、標準勾配に基づく解析が適用されないデータセットに示される。

Interpreting motion captured in image sequences is crucial for a wide range of computer vision applications. Typical estimation approaches include optical flow (OF), which approximates the apparent motion instantaneously in a scene, and multiple object tracking (MOT), which tracks the motion of subjects over time. Often, the motion of objects in a scene is governed by some underlying dynamical system which could be inferred by analyzing the motion of groups of objects. Standard motion analyses, however, are not designed to intuit flow dynamics from trajectory data, making such measurements difficult in practice. The goal of this work is to extend gradient-based dynamical systems analyses to real-world applications characterized by complex, feature-rich image sequences with imperfect tracers. The tracer trajectories are tracked using deep vision networks and gradients are approximated using Lagrangian gradient regression (LGR), a tool designed to estimate spatial gradients from sparse data. From gradients, dynamical features such as regions of coherent rotation and transport barriers are identified. The proposed approach is affordably implemented and enables advanced studies including the motion analysis of two distinct object classes in a single image sequence. Two examples of the method are presented on data sets for which standard gradient-based analyses do not apply.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# 時空間交通予測のための変動モード駆動グラフ畳み込みネットワーク

Variational Mode-Driven Graph Convolutional Network for Spatiotemporal Traffic Forecasting ( http://arxiv.org/abs/2408.16191v1 )

ライセンス: Link先を確認
Osama Ahmad, Zubair Khalid, (参考訳) 本稿では,グラフニューラルネットワークを用いた時空間(ST)トラフィック予測について述べる。 STデータは非定常かつ複雑な時間イベントで構成されているため、そのような傾向の解釈と予測は比較的複雑である。 モードにおけるSTデータの表現は,動作を推測し,騒音が予測アプリケーションに与える影響を評価するのに役立つ。 本稿では,STデータを変分モード分解(VMD)法を用いてモードに分解するフレームワークを提案する。 このハイブリッドアプローチは、変分モードグラフ畳み込みネットワーク(VMGCN)として知られている。 モード数を徹底的に検索する代わりに、リアルタイムアプリケーションデータからの復元損失を用いて決定する。 また,交通流データにおける各モードの重要性と帯域幅制約の影響についても検討した。 本稿では,LargeSTデータセット上で提案したネットワークの性能を,短期および長期の予測において評価する。 我々のフレームワークは最先端の手法よりも優れた結果をもたらす。

This paper focuses on spatio-temporal (ST) traffic prediction traffic using graph neural networks. Given that ST data consists of non-stationary and complex time events, interpreting and predicting such trends is comparatively complicated. Representation of ST data in modes helps us infer behavior and assess the impact of noise on prediction applications. We propose a framework that decomposes ST data into modes using the variational mode decomposition (VMD) method, which is then fed into the neural network for forecasting future states. This hybrid approach is known as a variational mode graph convolutional network (VMGCN). Instead of exhaustively searching for the number of modes, they are determined using the reconstruction loss from the real-time application data. We also study the significance of each mode and the impact of bandwidth constraints on different horizon predictions in traffic flow data. We evaluate the performance of our proposed network on the LargeST dataset for both short and long-term predictions. Our framework yields better results compared to state-of-the-art methods.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# DLM-VMTL:多タスク同時学習のための二重層マッパー

DLM-VMTL:A Double Layer Mapper for heterogeneous data video Multi-task prompt learning ( http://arxiv.org/abs/2408.16195v1 )

ライセンス: Link先を確認
Zeyi Bo, Wuxi Sun, Ye Jin, (参考訳) 近年、ビデオ理解タスクのバックボーンのパラメータは増加し続け、数十億レベルにまで達している。 ビデオファウンデーションモデルで特定のタスクを微調整するか、特定のタスクのために設計されたモデルを事前訓練するかは、多くのオーバーヘッドを引き起こします。 これらのモデルを、自分たちのタスク以外の価値をどう扱うかは、価値のある問題になります。 MTL(Multi-Task Learning)は、視覚タスクが協調トレーニング中に、他のタスクから豊富な共有可能な知識を得られるようにする。 画像認識タスク、特に高密度予測タスクにおいて完全に探索されている。 しかし、マルチラベルビデオデータがないため、ビデオ領域ではほとんど使われない。 本論文では、上記の問題に対処するために、異種データビデオマルチタスクプロンプト学習(VMTL)手法を提案する。 イメージドメインでは、共有可能な知識をビジュアルプロンプトに抽出し、プライマリタスクの表現と整合させるために、Double-Layers Mapper(DLM)が提案されている。 大規模な実験により、DLM-VMTLは6つの異なるビデオ理解タスクと11のデータセットのベースラインよりも優れていることが証明された。

In recent years, the parameters of backbones of Video Understanding tasks continue to increase and even reach billion-level. Whether fine-tuning a specific task on the Video Foundation Model or pre-training the model designed for the specific task, incurs a lot of overhead. How to make these models play other values than their own tasks becomes a worthy question. Multi-Task Learning(MTL) makes the visual task acquire the rich shareable knowledge from other tasks while joint training. It is fully explored in Image Recognition tasks especially dense predict tasks. Nevertheless, it is rarely used in video domain due to the lack of multi-labels video data. In this paper, a heterogenous data video multi-task prompt learning (VMTL) method is proposed to address above problem. It's different from it in image domain, a Double-Layers Mapper(DLM) is proposed to extract the shareable knowledge into visual promptS and align it with representation of primary task. Extensive experiments prove that our DLM-VMTL performs better than baselines on 6 different video understanding tasks and 11 datasets.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# Chain-of-Experts (CoE): コードクローン検索によるJavaScriptアプリケーションバンドルのためのリバースエンジニアリングソフトウェア法案

Chain-of-Experts (CoE): Reverse Engineering Software Bills of Materials for JavaScript Application Bundles through Code Clone Search ( http://arxiv.org/abs/2408.16198v1 )

ライセンス: Link先を確認
Leo Song, Steven H. H. Ding, Yuan Tian, Li Tao Li, Philippe Charland, Andrew Walenstein, (参考訳) A Software Bill of Materials (SBoM) はソフトウェアアーティファクト内のすべてのコンポーネント、ライブラリ、モジュールの詳細な在庫であり、ソフトウェアサプライチェーン全体のトレーサビリティを提供する。 動的構文とシームレスなサプライチェーンの統合により、ソフトウェアエンジニアリングにおけるJavaScriptの人気が高まり、脆弱性やアタックへの露出が大幅に増加した。 統合され、シンボルストラップ付き、最適化されたコードのアセンブリである、JavaScriptアプリケーションバンドル。 JavaScriptアプリケーションバンドルからリバースエンジニアリングプロセスを通じてSBoMを生成することで、元の依存性グラフにアクセスしなくても、サプライヤのソフトウェアリリースの整合性、セキュリティ、コンプライアンスが保証される。 本稿では,JavaScriptアプリケーションバンドルのSBoM生成に関する最初の研究について述べる。 このタスクには、ネストされたコードスコープ、非常に長いシーケンス、大きな検索スペースという3つの重要な課題がある。 これらの課題に対処するために、コードセグメンテーション、コード分類、コードクローン検索という3つのタスクを通じてSBoMを生成するために設計されたマルチタスクディープラーニングモデルであるChain-of-Experts (CoE)を導入する。 66,000以上の依存関係を持つ500以上のWebアプリケーションバンドル上で、個別のタスク固有のソリューションに対して、CoEを評価する。 実験の結果,CoEは個々のタスク固有のソリューションと組み合わせた場合と比較して,トレーニング時間や推論時間が少なくて競争力のある結果が得られることがわかった。 その結果、CoEはSBoM世代の現実世界のJavaScriptアプリケーションバンドルに対して、初めてスケーラブルで効率的でエンドツーエンドのソリューションを提供する。

A Software Bill of Materials (SBoM) is a detailed inventory of all components, libraries, and modules in a software artifact, providing traceability throughout the software supply chain. With the increasing popularity of JavaScript in software engineering due to its dynamic syntax and seamless supply chain integration, the exposure to vulnerabilities and attacks has risen significantly. A JavaScript application bundle, which is a consolidated, symbol-stripped, and optimized assembly of code for deployment purpose. Generating a SBoM from a JavaScript application bundle through a reverse-engineering process ensures the integrity, security, and compliance of the supplier's software release, even without access to the original dependency graphs. This paper presents the first study on SBoM generation for JavaScript application bundles. We identify three key challenges for this task, i.e., nested code scopes, extremely long sequences, and large retrieval spaces. To address these challenges, we introduce Chain-of-Experts (CoE), a multi-task deep learning model designed to generate SBoMs through three tasks: code segmentation, code classification, and code clone retrieval. We evaluate CoE against individual task-specific solutions on 500 web application bundles with over 66,000 dependencies. Our experimental results demonstrate that CoE offers competitive outcomes with less training and inference time when compared with combined individual task-specific solutions. Consequently, CoE provides the first scalable, efficient, and end-to-end solution for the SBoM generation of real-world JavaScript application bundles.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# PolarBEVDet:Bird's-Eye-Viewにおける多視点3次元物体検出のための極性表現の探索

PolarBEVDet: Exploring Polar Representation for Multi-View 3D Object Detection in Bird's-Eye-View ( http://arxiv.org/abs/2408.16200v1 )

ライセンス: Link先を確認
Zichen Yu, Quanli Liu, Wei Wang, Liyong Zhang, Xiaoguang Zhao, (参考訳) 近年,LSSをベースとした多視点3Dオブジェクト検出は,自律運転に経済的かつ展開しやすいソリューションを提供する。 しかし、既存のLSSベースの手法はすべて、多視点画像の特徴をCartesian Bird's-Eye-View(BEV)表現に変換する。 本稿では、画像情報分布の適応と、正規畳み込みによる視線対称性の維持のために、カルテシアンBEV表現の代替として極性BEV表現を用いることを提案する。 これを実現するために、極性BEV表現を生成する極性ビュー変換器、歴史的極性BEV特徴を融合する極性時間融合モジュール、極性検出ヘッドの3つのモジュールを精巧に調整し、物体の極性パラメータ化表現を予測する。 さらに,2次元補助検出ヘッドと空間的注意度向上モジュールを設計し,視点視における特徴抽出の質を向上する。 最後に、上記の改良点を新しい多視点3Dオブジェクト検出器であるPolarBEVDetに統合する。 nuScenesの実験では、PolarBEVDetは優れたパフォーマンスを実現している。 コードはhttps://github.com/Yzichen/PolarBEVDet.gitで公開されている。

Recently, LSS-based multi-view 3D object detection provides an economical and deployment-friendly solution for autonomous driving. However, all the existing LSS-based methods transform multi-view image features into a Cartesian Bird's-Eye-View(BEV) representation, which does not take into account the non-uniform image information distribution and hardly exploits the view symmetry. In this paper, in order to adapt the image information distribution and preserve the view symmetry by regular convolution, we propose to employ the polar BEV representation to substitute the Cartesian BEV representation. To achieve this, we elaborately tailor three modules: a polar view transformer to generate the polar BEV representation, a polar temporal fusion module for fusing historical polar BEV features and a polar detection head to predict the polar-parameterized representation of the object. In addition, we design a 2D auxiliary detection head and a spatial attention enhancement module to improve the quality of feature extraction in perspective view and BEV, respectively. Finally, we integrate the above improvements into a novel multi-view 3D object detector, PolarBEVDet. Experiments on nuScenes show that PolarBEVDet achieves the superior performance. The code is available at https://github.com/Yzichen/PolarBEVDet.git.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# Uni-3DAD:モデルフリー製品におけるGAN変換支援ユニバーサル3D異常検出

Uni-3DAD: GAN-Inversion Aided Universal 3D Anomaly Detection on Model-free Products ( http://arxiv.org/abs/2408.16201v1 )

ライセンス: Link先を確認
Jiayu Liu, Shancong Mou, Nathan Gaw, Yinan Wang, (参考訳) 異常検出は製造システムにおける長年の課題である。 従来、異常検出は人間の検査に頼っていた。 しかし、3次元点雲は、環境要因への頑健さと幾何学的データを表現する能力から注目されている。 既存の3D異常検出方法は一般的に2つのカテゴリに分類される。 スキャンした3Dポイントクラウドとデザインファイルを比較して、これらのファイルが常に利用できると仮定する。 しかし、このような仮定は、生鮮食品(例えば『Cookie』、『Potato』など)、義歯、骨など、モデルのない製品が存在する多くの現実世界のアプリケーションでは、しばしば違反される。 他のカテゴリでは、スキャンされた3Dポイントクラウドのパッチと、メモリバンクと呼ばれる通常のパッチのライブラリを比較している。 しかしながら、これらの手法は通常不完全な形状を検出できないが、これは非常に一般的な欠陥タイプである(すなわち、異なる製品の欠落)。 主な課題は、3Dポイントクラウドに欠落している領域がスキャンされたポイントの欠如を表していることである。 これにより、不足しているリージョンと既存のポイントクラウドパッチをメモリバンクで比較することは不可能である。 これら2つの課題に対処するため,モデルフリー製品におけるあらゆる種類の欠陥を識別できる,統一的で教師なしの3次元異常検出フレームワークを提案した。 本手法では,特徴に基づく検出モジュールと再構成に基づく検出モジュールの2つの検出モジュールを統合する。 特徴に基づく検出は、デント、穴、ひび割れなどの幾何学的欠陥をカバーし、再構成に基づく手法は欠落した領域を検知する。 さらに,OCSVM (One-class Support Vector Machine) を用いて,両方のモジュールから検出結果を融合する。 その結果, 提案手法は, 不完全形状の同定において最先端の手法よりも優れており, また, その他の全ての異常検出において, SOTA法と同等の性能を維持していることがわかった。

Anomaly detection is a long-standing challenge in manufacturing systems. Traditionally, anomaly detection has relied on human inspectors. However, 3D point clouds have gained attention due to their robustness to environmental factors and their ability to represent geometric data. Existing 3D anomaly detection methods generally fall into two categories. One compares scanned 3D point clouds with design files, assuming these files are always available. However, such assumptions are often violated in many real-world applications where model-free products exist, such as fresh produce (i.e., ``Cookie", ``Potato", etc.), dentures, bone, etc. The other category compares patches of scanned 3D point clouds with a library of normal patches named memory bank. However, those methods usually fail to detect incomplete shapes, which is a fairly common defect type (i.e., missing pieces of different products). The main challenge is that missing areas in 3D point clouds represent the absence of scanned points. This makes it infeasible to compare the missing region with existing point cloud patches in the memory bank. To address these two challenges, we proposed a unified, unsupervised 3D anomaly detection framework capable of identifying all types of defects on model-free products. Our method integrates two detection modules: a feature-based detection module and a reconstruction-based detection module. Feature-based detection covers geometric defects, such as dents, holes, and cracks, while the reconstruction-based method detects missing regions. Additionally, we employ a One-class Support Vector Machine (OCSVM) to fuse the detection results from both modules. The results demonstrate that (1) our proposed method outperforms the state-of-the-art methods in identifying incomplete shapes and (2) it still maintains comparable performance with the SOTA methods in detecting all other types of anomalies.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# ディープラーニングによる短期電力負荷予測:総合調査

Short-Term Electricity-Load Forecasting by Deep Learning: A Comprehensive Survey ( http://arxiv.org/abs/2408.16202v1 )

ライセンス: Link先を確認
Qi Dong, Rubing Huang, Chenhui Cui, Dave Towey, Ling Zhou, Jinyu Tian, Jianzhou Wang, (参考訳) 短期電力損失予測(英語: Short-Term Electricity-Load Forecasting, STELF)は、電力システムの即時需要(数時間から数日)の予測である。 気象の変化や新しい電力消費シナリオの出現といった様々な外部要因は、電力需要に影響し、負荷データが変動して非線形になり、STELFの複雑さと難易度が増大する。 過去10年間で、深層学習はSTELFに適用され、高い精度で電力需要をモデル化し予測し、STELFの開発に大きく貢献した。 本稿では,過去10年間のディープラーニングに基づくSTELFに関する包括的調査を行う。 データ前処理、特徴抽出、ディープラーニングモデリングと最適化、結果評価など、予測プロセス全体について検討する。 また,今後の研究課題や今後の研究の方向性についても検討する。

Short-Term Electricity-Load Forecasting (STELF) refers to the prediction of the immediate demand (in the next few hours to several days) for the power system. Various external factors, such as weather changes and the emergence of new electricity consumption scenarios, can impact electricity demand, causing load data to fluctuate and become non-linear, which increases the complexity and difficulty of STELF. In the past decade, deep learning has been applied to STELF, modeling and predicting electricity demand with high accuracy, and contributing significantly to the development of STELF. This paper provides a comprehensive survey on deep-learning-based STELF over the past ten years. It examines the entire forecasting process, including data pre-processing, feature extraction, deep-learning modeling and optimization, and results evaluation. This paper also identifies some research challenges and potential research directions to be further investigated in future work.
翻訳日:2024-08-30 15:25:12 公開日:2024-08-29
# Revisit Micro-batch Clipping:グラディエント・マニピュレーションによる適応型データ・プルーニング

Revisit Micro-batch Clipping: Adaptive Data Pruning via Gradient Manipulation ( http://arxiv.org/abs/2408.16204v1 )

ライセンス: Link先を確認
Lun Wang, (参考訳) 勾配クリッピング法であるマイクロバッチクリッピングは,最近,自動音声認識(ASR)モデルの性能向上の可能性が示された。 しかし、この改善の根底にあるメカニズムは謎のままであり、特に特定のマイクロバッチサイズだけが有用であるという観察は謎のままである。 本稿では,この現象を説明するための最初の試みを行う。 最近のデータプルーニング研究に触発されて、特定のトレーニングサンプルは、特定のトレーニングフェーズにおけるモデル収束を阻害する可能性があると仮定する。 この仮定の下では、マイクロバッチクリッピングは、より多くのトレーニングイテレーションで減少しない追加の一定のバイアスのコストで漸近的に収束率を向上させることができることを示す。 このバイアスはいくつかの要因に依存しており、特定のマイクロバッチサイズで最小化できるため、以前に観察されたスイートスポットのマイクロバッチサイズの存在が解明される。 また,視覚モデルや言語モデルにおける音声モデル以外のマイクロバッチクリッピングの有効性を検証するとともに,これらの領域における有望な性能向上を示す。 潜在的な制限の探索は、トレーニングデータが複数の異なるドメインに由来する場合、マイクロバッチクリッピングは効果が低いことを示している。

Micro-batch clipping, a gradient clipping method, has recently shown potential in enhancing auto-speech recognition (ASR) model performance. However, the underlying mechanism behind this improvement remains mysterious, particularly the observation that only certain micro-batch sizes are beneficial. In this paper, we make the first attempt to explain this phenomenon. Inspired by recent data pruning research, we assume that specific training samples may impede model convergence during certain training phases. Under this assumption, the convergence analysis shows that micro-batch clipping can improve the convergence rate asymptotically at the cost of an additional constant bias that does not diminish with more training iterations. The bias is dependent on a few factors and can be minimized at specific micro-batch size, thereby elucidating the existence of the sweet-spot micro-batch size observed previously. We also verify the effectiveness of micro-batch clipping beyond speech models on vision and language models, and show promising performance gains in these domains. An exploration of potential limitations shows that micro-batch clipping is less effective when training data originates from multiple distinct domains.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# 1次元デルタポテンシャル井戸による2粒子干渉の実証

Demonstrating two-particle interference with a one-dimensional delta potential well ( http://arxiv.org/abs/2408.16205v1 )

ライセンス: Link先を確認
Zhi Jiao Deng, Xin Zhang, Yong Shen, Wei Tao Liu, Ping Xing Chen, (参考訳) 量子力学において、同一粒子に対する波動関数の交換対称性は、広く研究されているHong-Ou-Mandel(HOM)効果を含む観測可能な効果を持つ。 第二量子化を用いた理論的記述はエレガントだが抽象的である。 一方,本研究では,ビームスプリッタと同様に1次元デルタ電位を用いた2粒子干渉の簡易モデルについて述べる。 HOM効果の条件は、ウェーブパケットの進化の観点から導かれる。 さらに、ボソン、フェルミオンおよび識別可能な粒子の干渉過程を詳細に示し、比較した。 ここで提示される方法は具体的であり、可視化が容易であり、波動関数の交換対称性から生じる影響をよりよく理解するのに役立ちます。 主な成果は、教室の授業用にアニメーションしたり、学部セミナーのトピックに発展させたりすることができる。

In quantum mechanics, the exchange symmetry of wave functions for identical particles has observable effects, including the widely studied Hong-Ou-Mandel (HOM) effect. A theoretical description using second quantization is elegant but abstract. In contrast, this paper describes a simple model of two-particle interference using a one-dimensional delta potential well as a beam splitter. The conditions for the HOM effect are derived from the perspective of wave packet evolution. Furthermore, the interference processes of bosons, fermions and distinguishable particles are demonstrated and compared in detail. The method presented here is concrete, easy to visualize, and can help students to better understand the effects arising from the exchange symmetry of wave functions. The main results can be animated for classroom teaching or developed into an undergraduate seminar topic.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# ReXamine-Global:放射線医学レポート生成基準の不整合を明らかにするためのフレームワーク

ReXamine-Global: A Framework for Uncovering Inconsistencies in Radiology Report Generation Metrics ( http://arxiv.org/abs/2408.16208v1 )

ライセンス: Link先を確認
Oishi Banerjee, Agustina Saenz, Kay Wu, Warren Clements, Adil Zia, Dominic Buensalido, Helen Kavnoudias, Alain S. Abi-Ghanem, Nour El Ghawi, Cibele Luna, Patricia Castillo, Khaled Al-Surimi, Rayyan A. Daghistani, Yuh-Min Chen, Heng-sheng Chao, Lars Heiliger, Moon Kim, Johannes Haubold, Frederic Jonske, Pranav Rajpurkar, (参考訳) 放射線学のための生成AIモデルの急速に拡大する能力を考えると、さまざまな病院でAI生成放射線学レポートの品質を正確に測定できる堅牢なメトリクスが必要である。 LLMを利用した多サイトフレームワークであるReXamine-Globalを開発した。 第一に,提案手法は,AI生成レポートが地中真実レポートとスタイリスティックに類似しているか否かに応じて,測定値が報告スタイルに好ましくないかどうかを判定する。 第2に,提案手法は,メトリックが専門家と確実に一致しているか,あるいは,AIが生成したレポート品質の指標と専門家のスコアが,サイトによって異なるかを測定する。 世界中の6つの病院からの240件の報告を用いて、ReXamine-Globalを7つの確立された報告評価指標に適用し、その一般化可能性の重大なギャップを明らかにする。 開発者は、新しいレポート評価メトリクスを設計する際にReXamine-Globalを適用することができる。 さらに、既存のメトリクスの分析は、それらのメトリクスのユーザを、関心のある場所で確実に機能する評価手順へと導くことができる。

Given the rapidly expanding capabilities of generative AI models for radiology, there is a need for robust metrics that can accurately measure the quality of AI-generated radiology reports across diverse hospitals. We develop ReXamine-Global, a LLM-powered, multi-site framework that tests metrics across different writing styles and patient populations, exposing gaps in their generalization. First, our method tests whether a metric is undesirably sensitive to reporting style, providing different scores depending on whether AI-generated reports are stylistically similar to ground-truth reports or not. Second, our method measures whether a metric reliably agrees with experts, or whether metric and expert scores of AI-generated report quality diverge for some sites. Using 240 reports from 6 hospitals around the world, we apply ReXamine-Global to 7 established report evaluation metrics and uncover serious gaps in their generalizability. Developers can apply ReXamine-Global when designing new report evaluation metrics, ensuring their robustness across sites. Additionally, our analysis of existing metrics can guide users of those metrics towards evaluation procedures that work reliably at their sites of interest.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# カートからトラックへ:過去2世紀における英語の言葉を通す意味

From cart to truck: meaning shift through words in English in the last two centuries ( http://arxiv.org/abs/2408.16209v1 )

ライセンス: Link先を確認
Esteban Rodríguez Betancourt, Edgar Casasola Murillo, (参考訳) この擬似論的研究は、1800年から2000年までの歴史的単語データを用いて、異なる単語が同じ概念を時とともにどのように表すかを研究するために、ダイアクロニックな単語埋め込みを用いている。 我々は、エネルギー、輸送、エンターテイメント、およびコンピューティング領域の変化を特定し、言語と社会的な変化の関連を明らかにする。 提案手法は,Word2vecをスキップグラムで訓練し,直交Procrustesを用いてそれらを整列するダイアクロニック単語埋め込みを用いて構成した。 本稿では,本手法が特定する関係に関連付ける可能性について論じる。 さらに,結果の解釈の倫理的側面を考察し,その方法の意義を理解するための専門家の洞察の必要性を強調した。

This onomasiological study uses diachronic word embeddings to explore how different words represented the same concepts over time, using historical word data from 1800 to 2000. We identify shifts in energy, transport, entertainment, and computing domains, revealing connections between language and societal changes. Our approach consisted in using diachronic word embeddings trained using word2vec with skipgram and aligning them using orthogonal Procrustes. We discuss possible difficulties linked to the relationships the method identifies. Moreover, we look at the ethical aspects of interpreting results, highlighting the need for expert insights to understand the method's significance.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# スター・プラネットシステムの潮流進化シミュレーションにおける機械学習の適用

The Application of Machine Learning in Tidal Evolution Simulation of Star-Planet Systems ( http://arxiv.org/abs/2408.16212v1 )

ライセンス: Link先を確認
Shuaishuai Guo, Jianheng Guo, KaiFan Ji, Hui Liu, Lei Xing, (参考訳) 大量の天文学的なデータが放出されたことにより、密接なホットジュピターが発見された。 恒星と惑星の相互作用モデルを用いた進化曲線の計算は困難である。 これらのホットジュピター系の進化曲線の生成を早めるために、MESAで確立された潮位相互作用モデルを用いて、15,745個の星系と7,500個の星のサンプルを作成しました。 さらに、恒星有効温度、半径、恒星回転周期、惑星軌道周期を含む系の進化曲線を予測するために、ニューラルネットワーク(Multi-Layer Perceptron - MLP)を用いた。 予測された進化曲線の相対誤差の平均値は0.15%、0.43%、2.61%、0.57%であった。 さらに、進化曲線を生成する速度は、モデル生成曲線を4桁以上上回る。 また, 惑星移動状態の特徴を抽出し, 光GBMを用いて試料を6つのカテゴリに分類し, 予測を行った。 その結果,長期二重同期を行う3つのタイプを1つのラベルに組み合わせることで,これらの特徴を効果的に認識できることがわかった。 長期の二重同期を経験するシステムを除くと、予測された進化曲線の相対誤差は4%以下であった。 我々の研究は、重要な計算資源と時間を最小限の精度で節約する効率的な方法を提供する。 この研究は、異なる移行状態下でのシステムの進化的特性を解析し、そのようなシステムの基盤となる物理的メカニズムの理解を支援する基盤となる。 最後に、我々の手法は理論モデルの計算に取って代わる可能性がある。

With the release of a large amount of astronomical data, an increasing number of close-in hot Jupiters have been discovered. Calculating their evolutionary curves using star-planet interaction models presents a challenge. To expedite the generation of evolutionary curves for these close-in hot Jupiter systems, we utilized tidal interaction models established on MESA to create 15,745 samples of star-planet systems and 7,500 samples of stars. Additionally, we employed a neural network (Multi-Layer Perceptron - MLP) to predict the evolutionary curves of the systems, including stellar effective temperature, radius, stellar rotation period, and planetary orbital period. The median relative errors of the predicted evolutionary curves were found to be 0.15%, 0.43%, 2.61%, and 0.57%, respectively. Furthermore, the speed at which we generate evolutionary curves exceeds that of model-generated curves by more than four orders of magnitude. We also extracted features of planetary migration states and utilized lightGBM to classify the samples into 6 categories for prediction. We found that by combining three types that undergo long-term double synchronization into one label, the classifier effectively recognized these features. Apart from systems experiencing long-term double synchronization, the median relative errors of the predicted evolutionary curves were all below 4%. Our work provides an efficient method to save significant computational resources and time with minimal loss in accuracy. This research also lays the foundation for analyzing the evolutionary characteristics of systems under different migration states, aiding in the understanding of the underlying physical mechanisms of such systems. Finally, to a large extent, our approach could replace the calculations of theoretical models.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# M4CXR:胸部X線解釈のためのマルチモーダル大言語モデルのマルチタスクポテンシャル探索

M4CXR: Exploring Multi-task Potentials of Multi-modal Large Language Models for Chest X-ray Interpretation ( http://arxiv.org/abs/2408.16213v1 )

ライセンス: Link先を確認
Jonggwon Park, Soobum Kim, Byungmu Yoon, Jihun Hyun, Kyoyun Choi, (参考訳) 人工知能の急速な進化、特に大規模言語モデル(LLM)は、医療を含む様々な領域に大きな影響を与えている。 胸部X線分析(CXR)では、従来の研究ではLSMを使用していたが、LSMのマルチタスク能力の不足や臨床精度の欠如といった制限があった。 本稿では,CXRの解釈向上を目的としたマルチモーダルLLMであるM4CXRを提案する。 このモデルは、様々なタスク固有のデータセットを会話形式で統合した視覚的命令追跡データセットに基づいて訓練される。 その結果、このモデルは医療報告生成(MRG)、視覚的接地、視覚的質問応答(VQA)などの複数のタスクをサポートする。 M4CXRは、CXR画像の発見を識別し、それに対応するレポートを生成するチェーン・オブ・プルーピング戦略を用いて、MRGの最先端の臨床精度を達成する。 このモデルは、シングルイメージ、マルチイメージ、マルチスタディコンテキストなど、利用可能な入力に依存する様々なMRGシナリオに適応可能である。 MRGに加えて、M4CXRは特殊モデルに匹敵するレベルで視覚的グラウンド化を行い、VQAで優れた性能を示す。 定量的および質的評価はM4CXRのMRG、視覚的接地、VQAの汎用性を示し、臨床精度は一貫して維持されている。

The rapid evolution of artificial intelligence, especially in large language models (LLMs), has significantly impacted various domains, including healthcare. In chest X-ray (CXR) analysis, previous studies have employed LLMs, but with limitations: either underutilizing the multi-tasking capabilities of LLMs or lacking clinical accuracy. This paper presents M4CXR, a multi-modal LLM designed to enhance CXR interpretation. The model is trained on a visual instruction-following dataset that integrates various task-specific datasets in a conversational format. As a result, the model supports multiple tasks such as medical report generation (MRG), visual grounding, and visual question answering (VQA). M4CXR achieves state-of-the-art clinical accuracy in MRG by employing a chain-of-thought prompting strategy, in which it identifies findings in CXR images and subsequently generates corresponding reports. The model is adaptable to various MRG scenarios depending on the available inputs, such as single-image, multi-image, and multi-study contexts. In addition to MRG, M4CXR performs visual grounding at a level comparable to specialized models and also demonstrates outstanding performance in VQA. Both quantitative and qualitative assessments reveal M4CXR's versatility in MRG, visual grounding, and VQA, while consistently maintaining clinical accuracy.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# 帯域フィードバックに基づく適応型ネットワーク最適化:非定常マルチホップネットワークにおけるユーティリティの最大化

Adversarial Network Optimization under Bandit Feedback: Maximizing Utility in Non-Stationary Multi-Hop Networks ( http://arxiv.org/abs/2408.16215v1 )

ライセンス: Link先を確認
Yan Dai, Longbo Huang, (参考訳) 確率的ネットワーク最適化(SNO)は確率的キューシステムにおけるスケジューリングに関するものである。 ネットワーク理論で広く研究されている。 古典的なSNOアルゴリズムは、ネットワーク条件を時間とともに定常的に要求するが、実世界の多くのシナリオにおいて静止しないコンポーネントを捕捉することができない。 多くの既存のアルゴリズムは、決定の前にネットワーク条件の知識を前提としており、予測不可能なアプリケーションを制御する。 これらの問題に触発され、我々は帯域幅のフィードバックの下でAdversarial Network Optimization (ANO) を検討する。 具体的には、*i)* のタスクをスケジューラの動作に関連する未知かつ時間変化のあるユーティリティ関数を最大化する、*ii)* 基礎となるネットワークは、時間とともに条件が任意に変化する非定常マルチホップであり、*iii)* バンドフィードバック(実際にデプロイされたアクションの影響)のみが決定後に明らかにされる、と考える。 提案したUMO2アルゴリズムは,ネットワークの安定性を保証し,多項式的に減衰するギャップまでの「最小変化」参照ポリシーの効用最大化性能と一致させる。 我々の知る限りでは、従来のANOアルゴリズムはマルチホップネットワークを処理したり、バンディットフィードバックの下でユーティリティ保証を達成できたりはしませんが、どちらも可能です。 マルチホップネットワークにおける待ち行列間の複雑な依存性を扱うために,オンライン学習とリアプノフの議論のバランスをとるための巧妙な手法を提案する。 潜在的に非有界な待ち行列サイズによる学習障害に対処するために,損失の大きさに自動的に適応するオンライン線形最適化アルゴリズムを設計する。 有効性を最大化するために,待ち行列に依存する新しい学習率スケジューリングを用いた帯域凸最適化アルゴリズムを提案する。 オンライン学習における私たちの新しい洞察は、独立した関心を持つことができます。

Stochastic Network Optimization (SNO) concerns scheduling in stochastic queueing systems. It has been widely studied in network theory. Classical SNO algorithms require network conditions to be stationary with time, which fails to capture the non-stationary components in many real-world scenarios. Many existing algorithms also assume knowledge of network conditions before decision, which rules out applications where unpredictability presents. Motivated by these issues, we consider Adversarial Network Optimization (ANO) under bandit feedback. Specifically, we consider the task of *i)* maximizing some unknown and time-varying utility function associated to scheduler's actions, where *ii)* the underlying network is a non-stationary multi-hop one whose conditions change arbitrarily with time, and *iii)* only bandit feedback (effect of actually deployed actions) is revealed after decisions. Our proposed `UMO2` algorithm ensures network stability and also matches the utility maximization performance of any "mildly varying" reference policy up to a polynomially decaying gap. To our knowledge, no previous ANO algorithm handled multi-hop networks or achieved utility guarantees under bandit feedback, whereas ours can do both. Technically, our method builds upon a novel integration of online learning into Lyapunov analyses: To handle complex inter-dependencies among queues in multi-hop networks, we propose meticulous techniques to balance online learning and Lyapunov arguments. To tackle the learning obstacles due to potentially unbounded queue sizes, we design a new online linear optimization algorithm that automatically adapts to loss magnitudes. To maximize utility, we propose a bandit convex optimization algorithm with novel queue-dependent learning rate scheduling that suites drastically varying queue lengths. Our new insights in online learning can be of independent interest.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# データ駆動学習による目的的原因発見

Targeted Cause Discovery with Data-Driven Learning ( http://arxiv.org/abs/2408.16218v1 )

ライセンス: Link先を確認
Jang-Hyun Kim, Claudia Skok Gibbs, Sangdoo Yun, Hyun Oh Song, Kyunghyun Cho, (参考訳) 本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。 我々のゴールは、システム内の直接的原因と間接的原因の両方を特定し、それぞれの因果変数に介入する困難さとコストが変化するときに、ターゲット変数を効率的に制御することである。 本手法では,シミュレーションデータを用いた教師あり学習により因果関係の同定を訓練したニューラルネットワークを用いる。 局所推論戦略を実装することにより,変数数に対する線形複雑性を実現し,数千変数まで効率的にスケールアップする。 その結果,大規模遺伝子制御ネットワークにおける因果関係の同定における本手法の有効性が実証された。 我々は、新しいグラフ構造と、大腸菌の遺伝子制御ネットワークやヒトK562細胞株を含む生成機構を網羅して、モデルの一般化能力を検証した。 実装コードはhttps://github.com/snu-mllab/Targeted-Cause-Discovery.comで公開されている。

We propose a novel machine learning approach for inferring causal variables of a target variable from observations. Our goal is to identify both direct and indirect causes within a system, thereby efficiently regulating the target variable when the difficulty and cost of intervening on each causal variable vary. Our method employs a neural network trained to identify causality through supervised learning on simulated data. By implementing a local-inference strategy, we achieve linear complexity with respect to the number of variables, efficiently scaling up to thousands of variables. Empirical results demonstrate the effectiveness of our method in identifying causal relationships within large-scale gene regulatory networks, outperforming existing causal discovery methods that primarily focus on direct causality. We validate our model's generalization capability across novel graph structures and generating mechanisms, including gene regulatory networks of E. coli and the human K562 cell line. Implementation codes are available at https://github.com/snu-mllab/Targeted-Cause-Discovery.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# 大規模事前学習モデルを用いた訓練不要ビデオ時間グラウンド

Training-free Video Temporal Grounding using Large-scale Pre-trained Models ( http://arxiv.org/abs/2408.16219v1 )

ライセンス: Link先を確認
Minghang Zheng, Xinhao Cai, Qingchao Chen, Yuxin Peng, Yang Liu, (参考訳) ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。 既存のビデオ時間的ローカライゼーションモデルは、トレーニング用の特定のデータセットに依存し、データ収集コストが高いが、全データセットとアウト・オブ・ディストリビューション(OOD)設定下での一般化能力は低い。 本稿では,事前学習型大規模モデルの能力を活用した訓練自由時間グラウンド(TFVTG)手法を提案する。 ナイーブベースラインは、ビデオに提案を列挙し、事前訓練された視覚言語モデル(VLM)を使用して、視覚言語アライメントに従って最適な提案を選択することである。 しかしながら、既存のVLMは画像テキストペアやトリミングされたビデオクリップテキストペアで訓練されており、(1)関係を把握し、同じビデオ内の複数のイベントの時間的境界を区別すること、(2)ビデオ内のイベントの動的遷移(あるイベントから別のイベントへの遷移)を理解・敏感にすること、が困難である。 これらの問題に対処するために,大規模言語モデル(LLM)を用いてクエリテキストに含まれる複数のサブイベントを分析し,時間的順序とイベント間の関係を分析することを提案する。 第2に、サブイベントを動的遷移と静的状態の部分に分割し、VLMを用いた動的および静的スコアリング関数を提案し、イベントと記述の関連性をよりよく評価する。 最後に、各サブイベント記述に対して、トップkの提案を見つけるためにVLMを使用し、LLMが提供するサブイベント間の順序と関係を利用して、これらの提案をフィルタリングし、統合する。 本手法は,Charades-STA と ActivityNet Captions のデータセットをトレーニングすることなく,ゼロショット映像の時間的グラウンドで最高の性能を実現し,クロスデータセットと OOD 設定においてより優れた一般化能力を示す。

Video temporal grounding aims to identify video segments within untrimmed videos that are most relevant to a given natural language query. Existing video temporal localization models rely on specific datasets for training and have high data collection costs, but they exhibit poor generalization capability under the across-dataset and out-of-distribution (OOD) settings. In this paper, we propose a Training-Free Video Temporal Grounding (TFVTG) approach that leverages the ability of pre-trained large models. A naive baseline is to enumerate proposals in the video and use the pre-trained visual language models (VLMs) to select the best proposal according to the vision-language alignment. However, most existing VLMs are trained on image-text pairs or trimmed video clip-text pairs, making it struggle to (1) grasp the relationship and distinguish the temporal boundaries of multiple events within the same video; (2) comprehend and be sensitive to the dynamic transition of events (the transition from one event to another) in the video. To address these issues, we propose leveraging large language models (LLMs) to analyze multiple sub-events contained in the query text and analyze the temporal order and relationships between these events. Secondly, we split a sub-event into dynamic transition and static status parts and propose the dynamic and static scoring functions using VLMs to better evaluate the relevance between the event and the description. Finally, for each sub-event description, we use VLMs to locate the top-k proposals and leverage the order and relationships between sub-events provided by LLMs to filter and integrate these proposals. Our method achieves the best performance on zero-shot video temporal grounding on Charades-STA and ActivityNet Captions datasets without any training and demonstrates better generalization capabilities in cross-dataset and OOD settings.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# LightSLH: 目標命令硬化によるプロビブル・ローオーバーヘッドスペクトルv1緩和

LightSLH: Provable and Low-Overhead Spectre v1 Mitigation through Targeted Instruction Hardening ( http://arxiv.org/abs/2408.16220v1 )

ライセンス: Link先を確認
Yiming Zhu, Wenchao Huang, Yan Xiong, (参考訳) Spectreの脆弱性を防御するために、いくつかのソフトウェア対策が提案されている。 しかしながら、これらの対策は、多くの場合、不要な保護のために、高いパフォーマンスのオーバーヘッドに悩まされる。 本稿では,Spectre脆弱性の脅威にさらされている場合にのみ,このオーバーヘッドを軽減するためのLightSLHを提案する。 LightSLHは抽象解釈に基づくプログラム解析技術を活用し、Spectreの脆弱性につながる可能性のあるすべての命令を特定し、証明可能な保護を提供する。 解析効率と精度を高めるため、LightSLHは新規なテイントとバリュードメインを採用している。 taintドメインはビットレベルのtaintトラッキングを可能にし、ValueドメインはLightSLHがポインタや構造のような複雑なプログラム構造を解析できる。 さらに、LightSLHは2段階の抽象的解釈手法を用いて、潜在的な分析パラシス問題を回避している。 我々は、LightSLHのセキュリティ保証を実証し、OpenSSLの暗号化アルゴリズム実装の性能を評価する。 LightSLHは投機的負荷硬化技術に関連するオーバーヘッドを著しく削減する。 以上の結果から,LightSLHは保護を伴わず,かつ7つの研究アルゴリズムのうち4つのオーバーヘッドを伴わないことが明らかとなった。 さらに、LightSLHは、Spectre v1に対するRSAのセキュリティ保証を厳格に分析し、キャッシュラインの粒度のオブザーバであっても、散乱ガザアルゴリズムによって生成されたメモリアクセスパターンがシークレットに依存することを強調した。

Several software mitigations have been proposed to defend against Spectre vulnerabilities. However, these countermeasures often suffer from high performance overhead, largely due to unnecessary protections. We propose LightSLH, designed to mitigate this overhead by hardening instructions only when they are under threat from Spectre vulnerabilities. LightSLH leverages program analysis techniques based on abstract interpretation to identify all instructions that could potentially lead to Spectre vulnerabilities and provides provable protection. To enhance analysis efficiency and precision, LightSLH employs novel taint and value domains. The taint domain enables bit-level taint tracking, while the value domain allows LightSLH to analyze complex program structures such as pointers and structures. Furthermore, LightSLH uses a two-stage abstract interpretation approach to circumvent potential analysis paralysis issues. We demonstrate the security guarantees of LightSLH and evaluate its performance on cryptographic algorithm implementations from OpenSSL. LightSLH significantly reduces the overhead associated with speculative-load-hardening techniques. Our results show that LightSLH introduces no protection and thus no overhead on 4 out of the 7 studied algorithms, which contrasts with existing countermeasures that introduce additional overhead due to unnecessary hardening. Additionally, LightSLH performs, for the first time, a rigorous analysis of the security guarantees of RSA against Spectre v1, highlighting that the memory access patterns generated by the scatter-gather algorithm depend on secrets, even for observers at the cache line granularity, necessitating protection for such accesses.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# SSDM:スケーラブル音声障害モデリング

SSDM: Scalable Speech Dysfluency Modeling ( http://arxiv.org/abs/2408.16221v1 )

ライセンス: Link先を確認
Jiachen Lian, Xuanru Zhou, Zoe Ezzes, Jet Vonk, Brittany Morin, David Baquirin, Zachary Mille, Maria Luisa Gorno Tempini, Gopala Anumanchipalli, (参考訳) 音声のディフルエンシ・モデリングは、音声言語学習と音声治療のコアモジュールである。 しかし、課題は3つある。 第一に、最先端のソリューションはスケーラビリティの低下に悩まされている。 第二に、大規模な逆流コーパスがない。 第三に、効果的な学習フレームワークはありません。 本稿では,(1)音節的ジェスチャーをスケーラブルな強制アライメントとして採用する「textit{SSDM: Scalable Speech Dysfluency Modeling」,(2)ディフルアライメントを実現するためのコネクショナサブシーケンスアライメント(CSA)の導入,(3)リブリダイスと呼ばれる大規模シミュレーション型ディフルアライメントコーパスの導入,(4)大規模言語モデル(LLM)のパワーを活用してエンドツーエンドシステムを開発することを提案する。 我々は,Dyfluency Modelingの分野でSSDMが標準となることを期待している。 Demo は \url{https://eureka235.github.io} で公開されている。

Speech dysfluency modeling is the core module for spoken language learning, and speech therapy. However, there are three challenges. First, current state-of-the-art solutions suffer from poor scalability. Second, there is a lack of a large-scale dysfluency corpus. Third, there is not an effective learning framework. In this paper, we propose \textit{SSDM: Scalable Speech Dysfluency Modeling}, which (1) adopts articulatory gestures as scalable forced alignment; (2) introduces connectionist subsequence aligner (CSA) to achieve dysfluency alignment; (3) introduces a large-scale simulated dysfluency corpus called Libri-Dys; and (4) develops an end-to-end system by leveraging the power of large language models (LLMs). We expect SSDM to serve as a standard in the area of dysfluency modeling. Demo is available at \url{https://eureka235.github.io}.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# LLaVA-SG:視覚言語モデルにおける視覚意味表現としてのシーングラフの活用

LLaVA-SG: Leveraging Scene Graphs as Visual Semantic Expression in Vision-Language Models ( http://arxiv.org/abs/2408.16224v1 )

ライセンス: Link先を確認
Jingyi Wang, Jianzhong Ju, Jian Luan, Zhidong Deng, (参考訳) 大規模視覚言語モデル(VLM)の最近の進歩は、視覚変換器(ViT)アーキテクチャに基づく視覚エンコーダが一般的である。 ViTによる画像のパッチへの分割は、断片化された知覚をもたらすため、VLMの視覚的理解能力を妨げる。 本稿では,VLMにSGE(Scene Graph Expression)モジュールを導入することで,この制限に対処する革新的な拡張を提案する。 このモジュールは、画像内の複雑な意味情報を抽出し、構造的に表現することにより、VLMの基本認識と理解能力を向上させる。 我々のSGEモジュールの統合は、視覚言語タスクにおけるVLMの性能を大幅に向上させ、複雑なセマンティックな詳細を保存し、視覚的理解を促進する効果を示す。 コードとデータは利用可能である。

Recent advances in large vision-language models (VLMs) typically employ vision encoders based on the Vision Transformer (ViT) architecture. The division of the images into patches by ViT results in a fragmented perception, thereby hindering the visual understanding capabilities of VLMs. In this paper, we propose an innovative enhancement to address this limitation by introducing a Scene Graph Expression (SGE) module in VLMs. This module extracts and structurally expresses the complex semantic information within images, thereby improving the foundational perception and understanding abilities of VLMs. Extensive experiments demonstrate that integrating our SGE module significantly enhances the VLM's performance in vision-language tasks, indicating its effectiveness in preserving intricate semantic details and facilitating better visual understanding. Code and data would be available.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# PanoGaborによる360度深度推定の再検討

Revisiting 360 Depth Estimation with PanoGabor: A New Fusion Perspective ( http://arxiv.org/abs/2408.16227v1 )

ライセンス: Link先を確認
Zhijie Shen, Chunyu Lin, Lang Nie, Kang Liao, (参考訳) 単眼360度画像からの深度推定は3次元環境全体の知覚に重要である。 しかし、360度画像の固有の歪みと視野(FoV)は、この課題に大きな課題をもたらす。 この目的のために、既存の主流のソリューションは通常、効果的な特徴抽出を達成するために、パースペクティブベースの360表現(\textit{e g }, Cubemap)を導入します。 それでも、導入された表現によらず、後続の深さ推定のために等方射影(ERP)形式に統一する必要があるため、必然的に厄介な歪みが再導入される。 本稿では,これらの課題に対処する指向性歪みを考慮したGabor Fusionフレームワーク(PGFuse)を提案する。 まず,周波数領域のテクスチャを分析するGaborフィルタを導入する。 再帰的歪みに対処するため、線形緯度対応の歪み表現法を設計し、カスタマイズされた歪み対応ガボルフィルタ(PanoGabor filters)を生成する。 さらに,提案したPanoGaborフィルタを統合して,他の表現をERPフォーマットに統合し,有効かつ歪みのない機能を実現する,チャネルワイドかつ空間ワイドな一方向融合モジュール(CS-UFM)を設計する。 ガボル変換の配向感度を考慮すると、この感度を安定させるために球面勾配制約を導入する。 3つの室内360度ベンチマーク実験の結果、提案したPGFuseが既存の最先端ソリューションよりも優れていることが示された。 コードは受理時に利用できる。

Depth estimation from a monocular 360 image is important to the perception of the entire 3D environment. However, the inherent distortion and large field of view (FoV) in 360 images pose great challenges for this task. To this end, existing mainstream solutions typically introduce additional perspective-based 360 representations (\textit{e.g.}, Cubemap) to achieve effective feature extraction. Nevertheless, regardless of the introduced representations, they eventually need to be unified into the equirectangular projection (ERP) format for the subsequent depth estimation, which inevitably reintroduces the troublesome distortions. In this work, we propose an oriented distortion-aware Gabor Fusion framework (PGFuse) to address the above challenges. First, we introduce Gabor filters that analyze texture in the frequency domain, thereby extending the receptive fields and enhancing depth cues. To address the reintroduced distortions, we design a linear latitude-aware distortion representation method to generate customized, distortion-aware Gabor filters (PanoGabor filters). Furthermore, we design a channel-wise and spatial-wise unidirectional fusion module (CS-UFM) that integrates the proposed PanoGabor filters to unify other representations into the ERP format, delivering effective and distortion-free features. Considering the orientation sensitivity of the Gabor transform, we introduce a spherical gradient constraint to stabilize this sensitivity. Experimental results on three popular indoor 360 benchmarks demonstrate the superiority of the proposed PGFuse to existing state-of-the-art solutions. Code can be available upon acceptance.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# 言語最適化によるポリシー適応:Few-Shotimitationのためのタスクの分解

Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation ( http://arxiv.org/abs/2408.16228v1 )

ライセンス: Link先を確認
Vivek Myers, Bill Chunyuan Zheng, Oier Mees, Sergey Levine, Kuan Fang, (参考訳) 学習された言語条件のロボットポリシーは、様々な命令セットを事前訓練しても、新しい現実世界のタスクに効果的に対応するのに苦労することが多い。 本稿では,視覚言語モデル(VLM)によるタスク分解のセマンティック理解を生かした,未確認タスクへの数発適応のための新しいアプローチを提案する。 我々の手法であるPALO(Policy Adaptation via Language Optimization)は、タスクのいくつかのデモとVLMからサンプリングされた言語分解を組み合わせ、高速な非パラメトリック適応を実現し、より大規模な微調整データセットを必要としないようにする。 本研究は,ロボット操作作業の難易度を考慮に入れた実世界実験におけるPALOの評価である。 PALOは、実世界の多層的タスクを一貫して完了することができ、最先端の訓練済みジェネラリストポリシーや、同じデモにアクセスできる方法よりも優れています。

Learned language-conditioned robot policies often struggle to effectively adapt to new real-world tasks even when pre-trained across a diverse set of instructions. We propose a novel approach for few-shot adaptation to unseen tasks that exploits the semantic understanding of task decomposition provided by vision-language models (VLMs). Our method, Policy Adaptation via Language Optimization (PALO), combines a handful of demonstrations of a task with proposed language decompositions sampled from a VLM to quickly enable rapid nonparametric adaptation, avoiding the need for a larger fine-tuning dataset. We evaluate PALO on extensive real-world experiments consisting of challenging unseen, long-horizon robot manipulation tasks. We find that PALO is able of consistently complete long-horizon, multi-tier tasks in the real world, outperforming state of the art pre-trained generalist policies, and methods that have access to the same demonstrations.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# 高密度電磁・構造多面体設計のためのアンカー制御型生成共振器ネットワーク

Anchor-Controlled Generative Adversarial Network for High-Fidelity Electromagnetic and Structurally Diverse Metasurface Design ( http://arxiv.org/abs/2408.16231v1 )

ライセンス: Link先を確認
Yunhui Zeng, Hongkun Cao, Xin Jin, (参考訳) 光エレクトロニクスにおいて、自由形準曲面の設計は、特に物理構造と電磁的挙動の複雑な関係により、高い電磁応答の忠実性を達成する上で重要な課題を示す。 重要な困難は、複数の異なる物理構造が同様の電磁応答を生じさせ、設計過程を複雑にする1対多のジレンマから生じる。 本稿では,AcGAN (Anchor- controlled Generative Adversarial Network) を新たに導入した。 物理的外観を主に再現する既存の方法とは異なり、AcGANは物理的特性の違いにもかかわらず、同様の電磁応答を示す様々な構造を生成するのに優れている。 本稿では, スペクトルオーバーラップ係数(SOC)を, 生成した設計と対象とのスペクトル忠実度を正確に測定する指標として紹介する。 さらに、クラスタ誘導コントローラは入力処理を洗練し、マルチレベルスペクトル統合を確保し、電磁忠実度を高める。 損失関数へのアンカーネットの統合は、スペクトルアライメントを最適化する動的損失重み付け戦略によって支持される電磁特性の微妙な評価を促進する。 これらの革新は、準曲面の逆設計において、電磁応答指向工学を進歩させ、一対多マッピングジレンマの複雑さを克服し、AcGANが設計プロセスの合理化、優れた電磁精度の実現、設計可能性の幅広いスペクトルを育むことの実証的証拠である。

In optoelectronics, designing free-form metasurfaces presents significant challenges, particularly in achieving high electromagnetic response fidelity due to the complex relationship between physical structures and electromagnetic behaviors. A key difficulty arises from the one-to-many mapping dilemma, where multiple distinct physical structures can yield similar electromagnetic responses, complicating the design process. This paper introduces a novel generative framework, the Anchor-controlled Generative Adversarial Network (AcGAN), which prioritizes electromagnetic fidelity while effectively navigating the one-to-many challenge to create structurally diverse metasurfaces. Unlike existing methods that mainly replicate physical appearances, AcGAN excels in generating a variety of structures that, despite their differences in physical attributes, exhibit similar electromagnetic responses, thereby accommodating fabrication constraints and tolerances. We introduce the Spectral Overlap Coefficient (SOC) as a precise metric to measure the spectral fidelity between generated designs and their targets. Additionally, a cluster-guided controller refines input processing, ensuring multi-level spectral integration and enhancing electromagnetic fidelity. The integration of AnchorNet into our loss function facilitates a nuanced assessment of electromagnetic qualities, supported by a dynamic loss weighting strategy that optimizes spectral alignment. Collectively, these innovations represent a transformative stride in metasurface inverse design, advancing electromagnetic response-oriented engineering and overcoming the complexities of the one-to-many mapping dilemma.Empirical evidence underscores AcGAN's effectiveness in streamlining the design process, achieving superior electromagnetic precision, and fostering a broad spectrum of design possibilities.
翻訳日:2024-08-30 15:15:25 公開日:2024-08-29
# 説明可能な遅延空間操作による条件画像生成の強化

Enhancing Conditional Image Generation with Explainable Latent Space Manipulation ( http://arxiv.org/abs/2408.16232v1 )

ライセンス: Link先を確認
Kshitij Pathania, (参考訳) 画像合成の領域では、条件付きプロンプトに固執しながら参照画像への忠実性を達成することは重要な課題である。 本稿では,この問題に対処するために,拡散モデルと潜時空間操作と勾配に基づく選択的注意機構を統合した新しいアプローチを提案する。 グラッドSAM(グラディエントベース選択注意操作)を応用し、関心対象に関連する認知潜在ベクトルの要素の重要スコアを導出し、クロスアテンション層と遅延ベクトルの勾配の横断アテンションマップを解析する。 この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。 このアプローチは、条件付きプロンプトに基づく主題の忠実な形成を保証すると同時に、より一貫性のある構成のために背景を同時に洗練する。 提案モデルでは, ベースラインモデルと比較して, 平均, 中央値のFrechet Inception Distance(FID)スコアが最低値, 中央値のFID(Frechet Inception Distance)スコアを達成し, 良好なフィデリティ保存を示す。 さらに,本モデルでは,高CLIPスコアが示すように,生成した画像をテキスト記述で整列する上での競合性能を示す。 これらの結果は,テキスト・ツー・イメージ合成タスクにおいて,文章の保存と文脈保存の両面でのアプローチの有効性を浮き彫りにしている。

In the realm of image synthesis, achieving fidelity to a reference image while adhering to conditional prompts remains a significant challenge. This paper proposes a novel approach that integrates a diffusion model with latent space manipulation and gradient-based selective attention mechanisms to address this issue. Leveraging Grad-SAM (Gradient-based Selective Attention Manipulation), we analyze the cross attention maps of the cross attention layers and gradients for the denoised latent vector, deriving importance scores of elements of denoised latent vector related to the subject of interest. Using this information, we create masks at specific timesteps during denoising to preserve subjects while seamlessly integrating the reference image features. This approach ensures the faithful formation of subjects based on conditional prompts, while concurrently refining the background for a more coherent composition. Our experiments on places365 dataset demonstrate promising results, with our proposed model achieving the lowest mean and median Frechet Inception Distance (FID) scores compared to baseline models, indicating superior fidelity preservation. Furthermore, our model exhibits competitive performance in aligning the generated images with provided textual descriptions, as evidenced by high CLIP scores. These results highlight the effectiveness of our approach in both fidelity preservation and textual context preservation, offering a significant advancement in text-to-image synthesis tasks.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# PSE-Net:並列サブネット推定器を用いた畳み込みニューラルネットワークのためのチャネルプルーニング

PSE-Net: Channel Pruning for Convolutional Neural Networks with Parallel-subnets Estimator ( http://arxiv.org/abs/2408.16233v1 )

ライセンス: Link先を確認
Shiguang Wang, Tao Xie, Haijun Liu, Xingcheng Zhang, Jian Cheng, (参考訳) チャネルプルーニング(Channel Pruning)は、ディープニューラルネットワークを圧縮し、その性能を維持するために最も広く使われているテクニックの1つである。 現在、典型的なプルーニングアルゴリズムは、ニューラルアーキテクチャ検索を利用して、構成可能な幅のネットワークを直接見つけ、そのキーステップは、スーパーネットをトレーニングすることで、様々なプルーニング比の代表サブネットを特定することである。 しかし、現在の手法は主に、非常に時間がかかるスーパーネットを最適化するためのシリアルトレーニング戦略に従っている。 本研究では,PSE-Netを提案する。PSE-Netは,並列サブネットを用いた高速チャネルプルーニングのための並列サブネット推定器である。 具体的には,バッチ次元に外部特徴をドロップすることで,複数のサブネットの前向きパスをシミュレートする並列サブネットトレーニングアルゴリズムを提案する。 提案アルゴリズムは,スーパーネットトレーニングの効率を向上し,未サンプリングサブネットの精度を補間し,PSE-Netを効果的に評価・ランク付けすることを可能にする。 トレーニングされたスーパーネット上で,従来の進化探索の性能を高めるために,事前分散型サンプリングアルゴリズムを開発した。 このようなアルゴリズムは、ネットワーク構成の長期分布による資源制約を満たすサンプルの発見という課題に対処しつつ、最適なサブネットの探索を支援するために、スーパーネットトレーニングフェーズの事前情報を利用する。 大規模な実験では、PSE-NetはImageNetデータセット上で従来の最先端チャネルプルーニング手法よりも優れており、優れたスーパーネットトレーニング効率を維持している。 例えば、300M FLOPの制約下において、当社の刈り取られたMobileNetV2は、ImageNetデータセット上で75.2%のTop-1精度を実現し、オリジナルのMobileNetV2を2.6単位上回る一方で、BCNet/AutoAlimの30%/16%のコストしかかからない。

Channel Pruning is one of the most widespread techniques used to compress deep neural networks while maintaining their performances. Currently, a typical pruning algorithm leverages neural architecture search to directly find networks with a configurable width, the key step of which is to identify representative subnet for various pruning ratios by training a supernet. However, current methods mainly follow a serial training strategy to optimize supernet, which is very time-consuming. In this work, we introduce PSE-Net, a novel parallel-subnets estimator for efficient channel pruning. Specifically, we propose a parallel-subnets training algorithm that simulate the forward-backward pass of multiple subnets by droping extraneous features on batch dimension, thus various subnets could be trained in one round. Our proposed algorithm facilitates the efficiency of supernet training and equips the network with the ability to interpolate the accuracy of unsampled subnets, enabling PSE-Net to effectively evaluate and rank the subnets. Over the trained supernet, we develop a prior-distributed-based sampling algorithm to boost the performance of classical evolutionary search. Such algorithm utilizes the prior information of supernet training phase to assist in the search of optimal subnets while tackling the challenge of discovering samples that satisfy resource constraints due to the long-tail distribution of network configuration. Extensive experiments demonstrate PSE-Net outperforms previous state-of-the-art channel pruning methods on the ImageNet dataset while retaining superior supernet training efficiency. For example, under 300M FLOPs constraint, our pruned MobileNetV2 achieves 75.2% Top-1 accuracy on ImageNet dataset, exceeding the original MobileNetV2 by 2.6 units while only cost 30%/16% times than BCNet/AutoAlim.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# 量子物理学のない量子プログラミング

Quantum Programming Without the Quantum Physics ( http://arxiv.org/abs/2408.16234v1 )

ライセンス: Link先を確認
Jun Inoue, (参考訳) 量子プログラミングのパラダイムとして、すべてのデータがよく知られた古典的データであり、唯一の非古典的要素は、負の確率で結果を返却できる乱数生成器である。 現在、ほとんどの量子プログラミング言語は、キュービットからなる量子データ型を扱う。 それらの振る舞いの記述は、重線型代数と多くの相互依存の概念と量子物理学からの直観に依存しており、その理解には専用の研究が必要である。 提案する量子プログラミングの観点は、その中心的な概念と制約を、よりアクセスしやすく、計算に関係のある用語で説明できる。 これは、全てを、その負確率ランダムジェネレータの存在に体系的に還元し、可能な限り高度な物理学の言及を避けることで達成される。 これにより、物理学や線形代数の深い背景なしに、プログラマにとって量子プログラミングがよりアクセスしやすくなる。 この論文の大部分は、そのような聴衆を念頭に置いて書かれている。 動作する車両として、このパラダイムの下で単純な量子プログラミング言語をレイアウトし、全ての量子プログラムを表現できるだけでなく、量子ビットや崩壊を言うことなく、自然に測定の意味を捉えていることを示す。 言語は実装可能で普遍的であることが証明されている。

We propose a quantum programming paradigm where all data are familiar classical data, and the only non-classical element is a random number generator that can return results with negative probability. Currently, the vast majority of quantum programming languages instead work with quantum data types made up of qubits. The description of their behavior relies on heavy linear algebra and many interdependent concepts and intuitions from quantum physics, which takes dedicated study to understand. We demonstrate that the proposed view of quantum programming explains its central concepts and constraints in more accessible, computationally relevant terms. This is achieved by systematically reducing everything to the existence of that negative-probability random generator, avoiding mention of advanced physics as much as possible. This makes quantum programming more accessible to programmers without a deep background in physics or linear algebra. The bulk of this paper is written with such an audience in mind. As a working vehicle, we lay out a simple quantum programming language under this paradigm, showing that not only can it express all quantum programs, it also naturally captures the semantics of measurement without ever mentioning qubits or collapse. The language is proved to be implementable and universal.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# LMT-GP:半教師付き低照度画像強調のための潜在平均教師とガウス過程の組み合わせ

LMT-GP: Combined Latent Mean-Teacher and Gaussian Process for Semi-supervised Low-light Image Enhancement ( http://arxiv.org/abs/2408.16235v1 )

ライセンス: Link先を確認
Ye Yu, Fengxin Chen, Jun Yu, Zhen Kan, (参考訳) 近年の低照度画像強調法 (LLIE) は大きな進歩を遂げているが, 複雑なシナリオに適用した場合, 視覚的品質の低下や一般化能力の低下といった問題に直面している。 これらの問題に対処するために,LMT-GP という潜在平均教師とガウス過程に基づく半教師付き手法を提案する。 まず、ラベル付きデータとラベルなしデータ、および潜在ベクトルをモデルトレーニングに統合する潜在平均教師フレームワークを設計する。 一方、平均教師支援型ガウス過程学習戦略を用いてラベル付きおよびラベルなしデータから得られた潜伏ベクトルと疑似潜伏ベクトルとの接続を確立する。 学習過程の導出には補助ガウス過程回帰(GPR)損失関数を用いる。 さらに,ネットワーク学習の信頼性を確保するために,擬似ラベル適応モジュール(PAM)を設計する。 本手法の一般化能力と有効性を示すため,複数のLLIEデータセットと高レベル視覚タスクに適用する。 実験結果から,本手法は高い一般化性能と画質を実現することが示された。 コードはhttps://github.com/HFUT-CV/LMT-GPで入手できる。

While recent low-light image enhancement (LLIE) methods have made significant advancements, they still face challenges in terms of low visual quality and weak generalization ability when applied to complex scenarios. To address these issues, we propose a semi-supervised method based on latent mean-teacher and Gaussian process, named LMT-GP. We first design a latent mean-teacher framework that integrates both labeled and unlabeled data, as well as their latent vectors, into model training. Meanwhile, we use a mean-teacher-assisted Gaussian process learning strategy to establish a connection between the latent and pseudo-latent vectors obtained from the labeled and unlabeled data. To guide the learning process, we utilize an assisted Gaussian process regression (GPR) loss function. Furthermore, we design a pseudo-label adaptation module (PAM) to ensure the reliability of the network learning. To demonstrate our method's generalization ability and effectiveness, we apply it to multiple LLIE datasets and high-level vision tasks. Experiment results demonstrate that our method achieves high generalization performance and image quality. The code is available at https://github.com/HFUT-CV/LMT-GP.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# データセット蒸留のためのニューラルスペクトル分解

Neural Spectral Decomposition for Dataset Distillation ( http://arxiv.org/abs/2408.16236v1 )

ライセンス: Link先を確認
Shaolei Yang, Shen Cheng, Mingbo Hong, Haoqiang Fan, Xing Wei, Shuaicheng Liu, (参考訳) 本稿では,データセット蒸留のための一般的な分解フレームワークであるニューラルスペクトル分解を提案する。 従来の手法とは異なり、データセット全体を全次元にわたって低ランクの高次元観察と見なす。 本研究の目的は,データセット全体の低ランク表現を発見し,効率的に蒸留を行うことである。 この目的のために、スペクトルテンソルと変換行列の集合を学び、単純な行列乗算によってデータ分布を再構成する。 具体的には、スペクトルテンソルを変換行列で画像空間にマッピングし、異なるスペクトルベクトルと変換行列のペア結合により蒸留学習過程における効率的な情報共有を実現する。 さらに,実分布で導かれる軌道整合最適化手法を統合する。 実験の結果,CIFAR10, CIFAR100, Tiny Imagenet, ImageNet Subset など,ベンチマークの最先端性能が得られた。 私たちのコードは \url{https://github.com/slyang2021/NSD} で利用可能です。

In this paper, we propose Neural Spectrum Decomposition, a generic decomposition framework for dataset distillation. Unlike previous methods, we consider the entire dataset as a high-dimensional observation that is low-rank across all dimensions. We aim to discover the low-rank representation of the entire dataset and perform distillation efficiently. Toward this end, we learn a set of spectrum tensors and transformation matrices, which, through simple matrix multiplication, reconstruct the data distribution. Specifically, a spectrum tensor can be mapped back to the image space by a transformation matrix, and efficient information sharing during the distillation learning process is achieved through pairwise combinations of different spectrum vectors and transformation matrices. Furthermore, we integrate a trajectory matching optimization method guided by a real distribution. Our experimental results demonstrate that our approach achieves state-of-the-art performance on benchmarks, including CIFAR10, CIFAR100, Tiny Imagenet, and ImageNet Subset. Our code are available at \url{https://github.com/slyang2021/NSD}.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# モデルを最大限に活用する - 事前訓練されたトランスフォーマーの微調整と適用方法

Making the Most of your Model: Methods for Finetuning and Applying Pretrained Transformers ( http://arxiv.org/abs/2408.16241v1 )

ライセンス: Link先を確認
Davis Yoshida, (参考訳) この論文は、この目標を前進させるモデルの方法と分析を提供する。 概略した手法はタスク非依存であり、ほぼすべてのトランスフォーマーLMで使用する場合の利点を提供するべきである。 使用するモデルに新たな機能を追加する2つの新しいファインタニング手法を導入する。 第1は、固定ウィンドウサイズの制約を除去し、変圧器デコーダの効率を向上させるリカレンス機構を付加する。 第二に、マスク付き言語モデル(MLM)は、非自己回帰配列列列変換器のエンコーダとデコーダの両方の初期化に使用することができ、以前は自然言語理解タスクにのみ使用されていたモデルの生成的応用を開放する。 また,任意の変圧器デコーダの予測精度を向上させるための2つの新しい手法を導入する。 隠れ状態最適化は任意の変圧器デコーダに適用でき、特に数発の分類において、推論時の予測品質を改善することができる。 もうひとつの条件ビームサーチでは、アウトプットが退化していない場合(例えば、空、反復など)に条件付けしながら、自然言語生成(NLG)モデル出力を高い確率で探索することができる。 最後に,従来の研究で広く見られたモデルライクリフと出力品質の相違に関する理論的および実証的な知見を提供する。 これらの洞察は、テキスト上の分布を表すあらゆるモデルに適用され、トランスフォーマーや自己回帰的でない言語モデルにも適用されます。 我々は,NLPコミュニティがこれらの発見の意味をある程度誤解しており,よりニュアンスの高い視点を奨励していると論じている。

This thesis provides methods and analysis of models which make progress on this goal. The techniques outlined are task agnostic, and should provide benefit when used with nearly any transformer LM. We introduce two new finetuning methods which add new capabilities to the models they are used on. The first adds a recurrence mechanism, which removes the fixed-window sized constraint and improves the efficiency of a transformer decoder. The second allows masked language models (MLMs) to be used for initialization of both the encoder and decoder of a non-autoregressive sequence-to-sequence transformer, opening up generative applications of models which were previously only used for natural language understanding tasks. We also introduce two new techniques for improving the quality of predictions of any transformer decoder without additional finetuning. One, hidden state optimization, can be applied to any transformer decoder to improve the quality of predictions at inference time, especially for few-shot classification. The other, conditional beam search, allows practitioners to search for natural language generation (NLG) model outputs with high likelihood while conditioning on the event that the output is not degenerate (e.g. empty, repetitive, etc.). Finally, we provide theoretical and empirical insights on the divergence of model-likelihood and output quality which has widely been observed in prior work. These insights apply to any model which represents a distribution over text, and apply to language models which are not transformers or even autoregressive. We argue that the NLP community has, to some extent, misunderstood the implications of these findings, and encourage a point of view which has more nuance.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# 量子シャドウトモグラフィによる効率的な後処理による量子アドバンテージ

Quantum Advantage via Efficient Post-processing on Qudit Shadow tomography ( http://arxiv.org/abs/2408.16244v1 )

ライセンス: Link先を確認
Yu Wang, (参考訳) 指数スケール行列の積のトレースを効率よく計算すると、$A$ と $B$ は古典計算において重要な問題を示し、特に$A$ がトレース 1 を持つ$d$-次元正のエルミート行列であり、$B$ が有界ノルムを持つエルミート行列である場合である。 この計算は伝統的に$O(d^2)$時間複雑さを必要とする。 O(\text{poly}(\log d))$ Time for a wide class of matrices $A$, offered potential application in high-dimensional data analysis and complex systems。 本稿では,Dense Dual Basesにランダムな射影計測を応用し,効率的なサンプリングと後処理を行う,任意の$d$次元システムのためのシャドウトモグラフィー手法を提案する。 ランダムなクリフォードや相互に偏りのないベース(MUB)測定とは異なり、本手法は光学プラットフォーム上で実験的に実現可能である。 ランダムなクリフォード(MUB)測定で見られる指数関数的な最悪のシナリオとは対照的に、ランダムに投影された状態の全ての係数を決定するために指数関数的に少ない計算を必要とする。 一般次元$d$の場合、一般次元における$d+1$ MUBsの存在は依然として未解決の問題であり、ランダム化されたクリフォード測定の処理は完全には理解されていない。 行列の$A$の適用性は、ランダムなクリフォードの測定よりも限定的であるが、我々のアプローチはいくつかのケースにおいて効率的であり、平均的性能は特に効率的である。 すべての$A$に対して、計算複雑性は$O(d)$であり、ほぼ平均の場合、$O(\text{poly}(\log d))$である。 このスキームは、量子情報科学以上の大きな可能性を秘めており、人工知能などの分野において、$\text{tr}(AB)$の効率的な計算を可能にしている。

Efficiently computing the trace of the product of exponential-scale matrices $A$ and $B$ presents a significant challenge in classical computation, particularly when $A$ is a $d$-dimensional positive Hermitian matrix with trace 1, and $B$ is a Hermitian matrix with a bounded norm. This computation traditionally requires $O(d^2)$ time complexity. We explore leveraging quantum advantage to perform this computation in $O(\text{poly}(\log d))$ time for a broad class of matrices $A$, offering potential applications in high-dimensional data analysis and complex systems. We propose a shadow tomography scheme for arbitrary $d$-dimensional systems that utilizes random projective measurements onto Dense Dual Bases for efficient sampling and post-processing. Unlike random Clifford or mutually unbiased bases (MUB) measurements, our method is experimentally feasible on optical platforms. It requires exponentially fewer computations to determine all coefficients of the randomly projected states, with a constant post-processing time per measurement, as opposed to the exponential worst-case scenario seen with random Clifford (MUB) measurements. For general dimensions $d$, the existence of $d+1$ MUBs in general dimensions is still an open question, and the processing of randomized Clifford measurements is not fully understood. While the applicability of matrix $A$ may be more limited compared to random Clifford measurements, our approach remains efficient in several cases, with average performance that is particularly efficient. For all $A$, the computational complexity is $O(d)$, and in the approximately average case, it is $O(\text{poly}(\log d))$. This scheme holds significant potential beyond quantum information science; it could be instrumental in fields such as artificial intelligence, enabling efficient computation of $\text{tr}(AB)$.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# ペプチド-ヌクレオチド相互作用のモデル化のための大規模多モードバイオシークエンストランス

Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions ( http://arxiv.org/abs/2408.16245v1 )

ライセンス: Link先を確認
Sully F. Chen, Robert J. Steele, Beakal Lemeneh, Shivanand P. Lad, Eric Oermann, (参考訳) トランスフォーマーアーキテクチャはバイオインフォマティクスに革命をもたらし、生体分子の性質の理解と予測の進歩を促した。 大規模生物配列変換器の研究のほとんど全ては、一度に1つのドメイン(単一オーミック、通常ヌクレオチドまたはペプチド)に焦点を当てている。 これらのモデルは、各領域の下流のタスクで驚くほど成功し、ペプチド配列や構造モデリングにおいて特に顕著なブレークスルーを達成した。 しかしながら、これらの単一オーミックモデルは、生物的に最も重要なヌクレオチド-ペプチド相互作用であるマルチオーミックなタスクをモデル化することができない。 本研究は,最初のマルチオミックヌクレオチド-ペプチド基盤モデルについて述べる。 これらのマルチオミクスモデル(MOM)は,未ラベルの生物配列でのみ訓練されているにもかかわらず,分子生物学の中央ドッグマと突発的に一致した様々な単一オミクス分布の関節表現を学習できることを示す。 さらに、MOMは、与えられたオリゴヌクレオチドとペプチドの結合相互作用のギブス自由エネルギー({\Delta}G)の変化を予測し、オリゴヌクレオチド配列({\Delta}{\Delta}G)の変異によるこの結合相互作用への影響を予測し、ペプチド-ヌクレオチド相互作用タスクの最先端結果を達成するために微調整できることを示した。 また, ペプチド-ヌクレオチド結合の相互作用にどのペプチド残基が最も関与しているかを予測するために, 事前の構造訓練を必要とせず, 新規に有用な構造情報を学習できることが示唆された。 最後に、マルチオミックなバイオシーケンスモデルが単一オミクス分布で訓練された基礎モデルに非依存であることを示すとともに、これらのモデルを構築するためのより一般化された、あるいは基礎的なアプローチを示唆する。

The transformer architecture has revolutionized bioinformatics and driven progress in the understanding and prediction of the properties of biomolecules. Almost all research on large-scale biosequence transformers has focused on one domain at a time (single-omic), usually nucleotides or peptides. These models have seen incredible success in downstream tasks in each domain and have achieved particularly noteworthy breakthroughs in sequences of peptides and structural modeling. However, these single-omic models are naturally incapable of modeling multi-omic tasks, one of the most biologically critical being nucleotide-peptide interactions. We present our work training the first multi-omic nucleotide-peptide foundation models. We show that these multi-omic models (MOMs) can learn joint representations between various single-omic distributions that are emergently consistent with the Central Dogma of molecular biology, despite only being trained on unlabeled biosequences. We further demonstrate that MOMs can be fine-tuned to achieve state-of-the-art results on peptide-nucleotide interaction tasks, namely predicting the change in Gibbs free energy ({\Delta}G) of the binding interaction between a given oligonucleotide and peptide, as well as the effect on this binding interaction due to mutations in the oligonucleotide sequence ({\Delta}{\Delta}G). Remarkably, we show that multi-omic biosequence transformers emergently learn useful structural information without any prior structural training, allowing us to predict which peptide residues are most involved in the peptide-nucleotide binding interaction. Lastly, we provide evidence that multi-omic biosequence models are non-inferior to foundation models trained on single-omics distributions, suggesting a more generalized or foundational approach to building these models.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# PACiM:確率近似による分散中心型ハイブリッド・コンピュート・イン・メモリアーキテクチャ

PACiM: A Sparsity-Centric Hybrid Compute-in-Memory Architecture via Probabilistic Approximation ( http://arxiv.org/abs/2408.16246v1 )

ライセンス: Link先を確認
Wenlun Zhang, Shimpei Ando, Yung-Chin Chen, Satomi Miyagi, Shinya Takamaeda-Yamazaki, Kentaro Yoshioka, (参考訳) 近似コンピューティングは、ディープニューラルネットワーク処理における計算メモリ(CiM)システムの効率を高めるための有望なアプローチとして出現する。 しかし、従来の近似技術は電力効率の精度を著しく引き離し、メインメモリとCiMバンク間のデータ転送を減らすことができず、電力消費を支配している。 本稿では,確率的近似計算(PAC)手法を提案する。この手法は統計手法を利用して乗算および累積(MAC)演算を近似し,従来の手法に比べて近似誤差を4倍に削減する。 PACは、複雑なMACベクトル計算をスカラー計算に単純化することにより、CiMシステムにおける効率的なスペーサ性ベースの計算を可能にする。 さらに、PACは、LSBアクティベーションの送信をスポーシティエンコーディングし、排除し、データ読み込みと書き込みを大幅に削減する。 これによりPACは従来の近似計算技術とは切り離され、計算能力だけでなくメモリアクセスも50%削減され、システムレベルの効率が向上する。 ResNet-18 モデルを用いた CIFAR-10/CIFAR-100/ImageNet ベンチマークで高精度の 93.85/72.36/66.02% を維持しつつ,ビットシリアルサイクルを 81% 削減し,ピーク時 8b/8b の 14.63 TOPS/W を65nm CMOS で達成し,ピーク時 8b/8b 効率を実現した。

Approximate computing emerges as a promising approach to enhance the efficiency of compute-in-memory (CiM) systems in deep neural network processing. However, traditional approximate techniques often significantly trade off accuracy for power efficiency, and fail to reduce data transfer between main memory and CiM banks, which dominates power consumption. This paper introduces a novel probabilistic approximate computation (PAC) method that leverages statistical techniques to approximate multiply-and-accumulation (MAC) operations, reducing approximation error by 4X compared to existing approaches. PAC enables efficient sparsity-based computation in CiM systems by simplifying complex MAC vector computations into scalar calculations. Moreover, PAC enables sparsity encoding and eliminates the LSB activations transmission, significantly reducing data reads and writes. This sets PAC apart from traditional approximate computing techniques, minimizing not only computation power but also memory accesses by 50%, thereby boosting system-level efficiency. We developed PACiM, a sparsity-centric architecture that fully exploits sparsity to reduce bit-serial cycles by 81% and achieves a peak 8b/8b efficiency of 14.63 TOPS/W in 65 nm CMOS while maintaining high accuracy of 93.85/72.36/66.02% on CIFAR-10/CIFAR-100/ImageNet benchmarks using a ResNet-18 model, demonstrating the effectiveness of our PAC methodology.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# Anno-incomplete Multi-dataset Detection

Anno-incomplete Multi-dataset Detection ( http://arxiv.org/abs/2408.16247v1 )

ライセンス: Link先を確認
Yiran Xu, Haoxiang Zhong, Kai Wu, Jialin Li, Yong Liu, Chengjie Wang, Shu-Tao Xia, Hongen Liao, (参考訳) オブジェクト検出器は、様々な公開データセットで顕著なパフォーマンスを示している。 しかし、新しいタスクに新しいデータセットをアノテートすることは、実際には避けられない。 1) 1つの既存のデータセットは通常、必要なすべてのオブジェクトカテゴリを含まない。 2) 複数のデータセットを使用する場合,アノテーションの不補完や異種機能に悩まされることが多い。 本稿では,「アノテーション不完全なマルチデータセット検出」という新たな問題を提案し,複数の部分アノテーション付きデータセットを用いて,すべてのオブジェクトカテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを提案する。 具体的には,異なるデータセット間の関係を抽出するアテンション特徴抽出器を提案する。 さらに、異なるソースからの不均一な特徴に対応するために、知識の融合訓練戦略が組み込まれている。 オブジェクト検出データセットの大規模な実験により,COCOとVOCでそれぞれ2.17%,2.10%の改善が達成された。

Object detectors have shown outstanding performance on various public datasets. However, annotating a new dataset for a new task is usually unavoidable in real, since 1) a single existing dataset usually does not contain all object categories needed; 2) using multiple datasets usually suffers from annotation incompletion and heterogeneous features. We propose a novel problem as "Annotation-incomplete Multi-dataset Detection", and develop an end-to-end multi-task learning architecture which can accurately detect all the object categories with multiple partially annotated datasets. Specifically, we propose an attention feature extractor which helps to mine the relations among different datasets. Besides, a knowledge amalgamation training strategy is incorporated to accommodate heterogeneous features from different sources. Extensive experiments on different object detection datasets demonstrate the effectiveness of our methods and an improvement of 2.17%, 2.10% in mAP can be achieved on COCO and VOC respectively.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# ボルツマン密度からのサンプリングのための反復エネルギーベースフローマッチング

Iterated Energy-based Flow Matching for Sampling from Boltzmann Densities ( http://arxiv.org/abs/2408.16249v1 )

ライセンス: Link先を確認
Dongyeop Woo, Sungsoo Ahn, (参考訳) 本研究では,エネルギー関数の評価や非正規化密度からジェネレータを訓練する問題を考察する。 これは確率的推論における根本的な問題であり、分子の3次元座標分布の学習などの科学的応用に不可欠である。 この問題を解決するために,非正規化密度から連続正規化フロー(CNF)モデルをトレーニングするための最初のオフ政治手法である反復エネルギーベースフローマッチング(iEFM)を提案する。 本稿では, モンテカルロモデルを用いて, 既知エネルギー関数から構築した限界ベクトル場の推定を行うシミュレーションフリーなエネルギーベースフローマッチング手法を提案する。 我々のフレームワークは汎用的で、分散露光(VE)および最適輸送(OT)条件付き確率パスに拡張することができる。 二次元ガウス混合モデル (GMM) と8次元4粒子ダブルウェルポテンシャル (DW-4) のエネルギー関数を用いたiEFMの評価を行った。 以上の結果から,iEFMは既存の手法よりも優れており,複雑な高次元システムにおける効率的かつスケーラブルな確率的モデリングの可能性を示している。

In this work, we consider the problem of training a generator from evaluations of energy functions or unnormalized densities. This is a fundamental problem in probabilistic inference, which is crucial for scientific applications such as learning the 3D coordinate distribution of a molecule. To solve this problem, we propose iterated energy-based flow matching (iEFM), the first off-policy approach to train continuous normalizing flow (CNF) models from unnormalized densities. We introduce the simulation-free energy-based flow matching objective, which trains the model to predict the Monte Carlo estimation of the marginal vector field constructed from known energy functions. Our framework is general and can be extended to variance-exploding (VE) and optimal transport (OT) conditional probability paths. We evaluate iEFM on a two-dimensional Gaussian mixture model (GMM) and an eight-dimensional four-particle double-well potential (DW-4) energy function. Our results demonstrate that iEFM outperforms existing methods, showcasing its potential for efficient and scalable probabilistic modeling in complex high-dimensional systems.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# EvLight++: イベントカメラによる低照度ビデオ拡張: 大規模リアルタイムデータセット、新しいメソッドなど

EvLight++: Low-Light Video Enhancement with an Event Camera: A Large-Scale Real-World Dataset, Novel Method, and More ( http://arxiv.org/abs/2408.16254v1 )

ライセンス: Link先を確認
Kanghao Chen, Guoqiang Liang, Hangyu Li, Yunfan Lu, Lin Wang, (参考訳) イベントカメラは、高ダイナミックレンジのため、低照度ビデオのエンハンスメントに大きな利点をもたらす。 しかし、現在の研究は、大規模な、実世界、時空間的に整合したイベント・ビデオ・データセットが存在しないために、著しく制限されている。 そこで本研究では,3万組以上のフレームとイベントを多彩な照明下でキャプチャした大規模データセットを提案する。 このデータセットは、一貫した非線形軌道を辿り、0.03mm以下の空間的アライメント精度と、データセットの90%の0.01s以下のエラーとの時間的アライメントを達成するロボットアームを用いてキュレートされた。 このデータセットに基づいて,実世界のシナリオにおけるロバストなパフォーマンスのために設計された,イベント誘導型低照度ビデオエンハンスメントアプローチである‘textbf{EvLight++} を提案する。 まず,画像とイベントの両方から構造情報とテクスチャ情報を統合するために,マルチスケールの総合融合分枝を設計する。 地域照明とノイズの変動に対処するため,SNR(Signal-to-Noise Ratio)誘導の地域特徴選択を導入し,高SNR領域の特徴を増強し,イベントから構造情報を抽出して低SNR領域からの特徴を増強する。 時間的情報と時間的コヒーレンスを確保するため,パイプライン全体の繰り返しモジュールと時間的損失を導入する。 我々のSDSDデータセットと合成SDSDデータセットの大規模な実験により、EvLight++は、それぞれ1.37dBと3.71dBの1つの画像ベースとビデオベースの両方で大幅に性能が向上していることが示された。 セマンティックセグメンテーションや単眼深度推定といった下流タスクにおけるその可能性を探るため、ファンデーションモデルによる微妙なアノテーションによる擬似セグメンテーションと深度ラベルを追加することでデータセットを拡張します。 様々な低照度環境下での実験では、強化された結果により、セマンティックセグメンテーションのためのmIoUが15.97%改善された。

Event cameras offer significant advantages for low-light video enhancement, primarily due to their high dynamic range. Current research, however, is severely limited by the absence of large-scale, real-world, and spatio-temporally aligned event-video datasets. To address this, we introduce a large-scale dataset with over 30,000 pairs of frames and events captured under varying illumination. This dataset was curated using a robotic arm that traces a consistent non-linear trajectory, achieving spatial alignment precision under 0.03mm and temporal alignment with errors under 0.01s for 90% of the dataset. Based on the dataset, we propose \textbf{EvLight++}, a novel event-guided low-light video enhancement approach designed for robust performance in real-world scenarios. Firstly, we design a multi-scale holistic fusion branch to integrate structural and textural information from both images and events. To counteract variations in regional illumination and noise, we introduce Signal-to-Noise Ratio (SNR)-guided regional feature selection, enhancing features from high SNR regions and augmenting those from low SNR regions by extracting structural information from events. To incorporate temporal information and ensure temporal coherence, we further introduce a recurrent module and temporal loss in the whole pipeline. Extensive experiments on our and the synthetic SDSD dataset demonstrate that EvLight++ significantly outperforms both single image- and video-based methods by 1.37 dB and 3.71 dB, respectively. To further explore its potential in downstream tasks like semantic segmentation and monocular depth estimation, we extend our datasets by adding pseudo segmentation and depth labels via meticulous annotation efforts with foundation models. Experiments under diverse low-light scenes show that the enhanced results achieve a 15.97% improvement in mIoU for semantic segmentation.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# AUC 0.9 以上の実世界臨床データを用いた乳癌転移の15年リスク予測のためのAI ベース手法の連携

Coalitions of AI-based Methods Predict 15-Year Risks of Breast Cancer Metastasis Using Real-World Clinical Data with AUC up to 0.9 ( http://arxiv.org/abs/2408.16256v1 )

ライセンス: Link先を確認
Xia Jiang, Yijun Zhou, Alan Wells, Adam Brufsky, (参考訳) 乳がんは女性の死亡率が最も高い2つのがんのうちの1つで、米国では毎年約4万2000人が死亡している。 毎年新たに診断された乳がんは30万以上あり、がんのごく一部だけが死亡することを示している。 したがって、ほとんどの女性は局所がんの治癒治療を受けているように思われるが、後に転移性疾患に陥り、現在の治療は大多数で温存されているのみである。 現在の予後指標は局所治療後に治癒したと思われる5人の女性のうち4人の女性にはほとんど効果がなく、多くの女性は不必要に致死性および致死性アジュバント療法に曝され、これらのアジュバント療法は転移再発を3分の1しか減少させる。 したがって、再発し、実際に治療を受けた患者を免れる可能性の高い患者に対して、攻撃的な治療を標的にするためのより良い予後が必要である。 早期に再発を検出するために、分子マーカーや腫瘍マーカーアッセイが多用されているが、これらは時間がかかり、高価であり、実用性に敏感である。 別のアプローチでは、既存のデータを使用して正確な予後を提供する臨床および病理パラメータを決定するために、大規模なデータ技術を使用する。 本稿では、グリッド探索とベイジアンネットワークとともに機械学習について報告し、既存のデータのみを用いて、ROC分析において最大0.9のAUCを示すアルゴリズムを開発する。 このようなアルゴリズムは、定期的な腫瘍評価以上の検査を必要としないため、急速に臨床管理に変換される可能性がある。

Breast cancer is one of the two cancers responsible for the most deaths in women, with about 42,000 deaths each year in the US. That there are over 300,000 breast cancers newly diagnosed each year suggests that only a fraction of the cancers result in mortality. Thus, most of the women undergo seemingly curative treatment for localized cancers, but a significant later succumb to metastatic disease for which current treatments are only temporizing for the vast majority. The current prognostic metrics are of little actionable value for 4 of the 5 women seemingly cured after local treatment, and many women are exposed to morbid and even mortal adjuvant therapies unnecessarily, with these adjuvant therapies reducing metastatic recurrence by only a third. Thus, there is a need for better prognostics to target aggressive treatment at those who are likely to relapse and spare those who were actually cured. While there is a plethora of molecular and tumor-marker assays in use and under-development to detect recurrence early, these are time consuming, expensive and still often un-validated as to actionable prognostic utility. A different approach would use large data techniques to determine clinical and histopathological parameters that would provide accurate prognostics using existing data. Herein, we report on machine learning, together with grid search and Bayesian Networks to develop algorithms that present a AUC of up to 0.9 in ROC analyses, using only extant data. Such algorithms could be rapidly translated to clinical management as they do not require testing beyond routine tumor evaluations.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# 幾何強調グラフ拡散による建築フロアプラン設計の促進

Advancing Architectural Floorplan Design with Geometry-enhanced Graph Diffusion ( http://arxiv.org/abs/2408.16258v1 )

ライセンス: Link先を確認
Sizhe Hu, Wenming Wu, Yuntao Wang, Benzhu Xu, Liping Zheng, (参考訳) 建築フロアプラン設計の自動化は住宅やインテリアデザインにとって不可欠であり、建築家による手作業によるスケッチのより高速で費用対効果の高い代替手段を提供する。 しかし、ルールベースのアプローチや学習ベースのアプローチを含む既存の手法は、広範な後処理を伴う設計の複雑さと制約付き生成の課題に直面し、ミスアライメントや重複、ギャップといった幾何学的不整合が明らかになる傾向がある。 本稿では,構造グラフの幾何学的側面と意味的側面の両方を捉えるために,壁面接合生成と壁面セグメント予測に着目したGSDiffと呼ばれる構造グラフ生成によるベクトルフロアプラン設計のための新しい生成フレームワークを提案する。 生成した構造グラフの幾何学的合理性を改善するために、2つの革新的な幾何学的拡張法を提案する。 壁面接合生成において,幾何整合性を改善する新しいアライメント損失関数を提案する。 壁面セグメント予測では, 全体幾何学的構造に対するモデルの認識を向上し, 合理的な幾何学的構造の生成を促進するために, ランダムな自己超越法を提案する。 拡散モデルとトランスフォーマーモデル,および幾何学的拡張戦略を用いて,壁面接合,壁面セグメント,室内ポリゴンを構造的・意味的情報で生成し,フロアプランを正確に表現する構造グラフを生成する。 大規模な実験により,提案手法は既存の手法を超越し,自由な生成と制約付き生成を可能にし,アーキテクチャ設計における構造生成へのシフトを示す。

Automating architectural floorplan design is vital for housing and interior design, offering a faster, cost-effective alternative to manual sketches by architects. However, existing methods, including rule-based and learning-based approaches, face challenges in design complexity and constrained generation with extensive post-processing, and tend to obvious geometric inconsistencies such as misalignment, overlap, and gaps. In this work, we propose a novel generative framework for vector floorplan design via structural graph generation, called GSDiff, focusing on wall junction generation and wall segment prediction to capture both geometric and semantic aspects of structural graphs. To improve the geometric rationality of generated structural graphs, we propose two innovative geometry enhancement methods. In wall junction generation, we propose a novel alignment loss function to improve geometric consistency. In wall segment prediction, we propose a random self-supervision method to enhance the model's perception of the overall geometric structure, thereby promoting the generation of reasonable geometric structures. Employing the diffusion model and the Transformer model, as well as the geometry enhancement strategies, our framework can generate wall junctions, wall segments and room polygons with structural and semantic information, resulting in structural graphs that accurately represent floorplans. Extensive experiments show that the proposed method surpasses existing techniques, enabling free generation and constrained generation, marking a shift towards structure generation in architectural design.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# 深部宇宙モデルにおけるスペクトルレンズによる時系列トレーニングデータセットの評価

Evaluating Time-Series Training Dataset through Lens of Spectrum in Deep State Space Models ( http://arxiv.org/abs/2408.16261v1 )

ライセンス: Link先を確認
Sekitoshi Kanai, Yasutoshi Ida, Kazuki Adachi, Mihiro Uchida, Tsukasa Yoshida, Shin'ya Yamaguchi, (参考訳) 本研究では,データセット上で訓練された状態空間モデル(深部SSM)を用いて,深部ニューラルネットワーク(DNN)の性能の観点から時系列データセットを評価する手法を検討した。 SSMは時系列データを扱うためにDNN内のコンポーネントとして注目されている。 ディープSSMは強力な表現能力を持つため、トレーニングデータセットは新しいタスクの解決において重要な役割を果たす。 しかし、データセットのトレーニングの有効性は、深いSSMが実際にトレーニングされるまでは分からない。 これにより、必要なパフォーマンスを達成するために、データ収集と時間のかかるトレーニングの試行錯誤プロセスが必要になるため、新しいタスクのためのデータ収集のコストが増大する可能性がある。 ディープSSMの実用化を進めるために、トレーニングの早い段階での性能を推定するデータセットのメトリックが重要な要素である。 そこで本研究では,システム識別に使用されるデータ評価手法について紹介する。 線形力学系のシステム同定において、入力信号のスペクトルを用いてデータセットの有効性を評価する。 本稿ではこの概念を非線形力学系である深部SSMに導入する。 我々は,深部SSMの各層を線形力学系とみなすことができるという事実に着目し,深部SSM内の信号の上位Kスペクトルの和であるKスペクトル計量を提案する。 実験の結果,Kスペクトルは相関係数の絶対値が大きく,トレーニングデータセットの品質評価に利用できることがわかった。

This study investigates a method to evaluate time-series datasets in terms of the performance of deep neural networks (DNNs) with state space models (deep SSMs) trained on the dataset. SSMs have attracted attention as components inside DNNs to address time-series data. Since deep SSMs have powerful representation capacities, training datasets play a crucial role in solving a new task. However, the effectiveness of training datasets cannot be known until deep SSMs are actually trained on them. This can increase the cost of data collection for new tasks, as a trial-and-error process of data collection and time-consuming training are needed to achieve the necessary performance. To advance the practical use of deep SSMs, the metric of datasets to estimate the performance early in the training can be one key element. To this end, we introduce the concept of data evaluation methods used in system identification. In system identification of linear dynamical systems, the effectiveness of datasets is evaluated by using the spectrum of input signals. We introduce this concept to deep SSMs, which are nonlinear dynamical systems. We propose the K-spectral metric, which is the sum of the top-K spectra of signals inside deep SSMs, by focusing on the fact that each layer of a deep SSM can be regarded as a linear dynamical system. Our experiments show that the K-spectral metric has a large absolute value of the correlation coefficient with the performance and can be used to evaluate the quality of training datasets.
翻訳日:2024-08-30 15:05:40 公開日:2024-08-29
# マルコフ決定過程における平均逆Q-ラーニングの収束性について

On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes ( http://arxiv.org/abs/2408.16262v1 )

ライセンス: Link先を確認
Yi Wan, Huizhen Yu, Richard S. Sutton, (参考訳) 本稿では,マルコフ決定過程(MDP)の強化学習(RL)アルゴリズムを,平均回帰基準の下で解析する。 我々は,従来のRVI手法のモデルなし確率的類似体であるRVI(Rexent value iteration)に基づくQ-learningアルゴリズムに着目した。 これらのアルゴリズムはイテレーション当たりの複雑さが低く、大きな状態空間問題に適している。 Abounadi, Bertsekas, Borkar (2001) によって開発された RVI のQ-ラーニングアルゴリズムの概日収束解析をユニチェーンから弱通信 MDP へ拡張する。 この拡張は実用的にも理論的にも重要である: 弱い通信 MDP はユニチェーンの MDP と比較してはるかに広い範囲の応用をカバーし、その最適性方程式はよりリッチな解構造を持ち(自由度が複数ある)、アルゴリズム収束の証明にさらなる複雑さをもたらす。 また、RVI Q-learningアルゴリズムが収束する集合を特徴付け、それらがコンパクトで連結であり、潜在的に非凸であり、平均回帰最適性方程式に対する解からなることを示す。 さらに、我々は、オプションフレームワークを用いて2つのRVIに基づく階層的平均回帰RLアルゴリズムに解析を拡張し、そのほぼ完全な収束を証明し、基礎となるセミマルコフ決定過程が弱い通信であるという仮定の下で、それらの収束の集合を特徴づける。

This paper analyzes reinforcement learning (RL) algorithms for Markov decision processes (MDPs) under the average-reward criterion. We focus on Q-learning algorithms based on relative value iteration (RVI), which are model-free stochastic analogues of the classical RVI method for average-reward MDPs. These algorithms have low per-iteration complexity, making them well-suited for large state space problems. We extend the almost-sure convergence analysis of RVI Q-learning algorithms developed by Abounadi, Bertsekas, and Borkar (2001) from unichain to weakly communicating MDPs. This extension is important both practically and theoretically: weakly communicating MDPs cover a much broader range of applications compared to unichain MDPs, and their optimality equations have a richer solution structure (with multiple degrees of freedom), introducing additional complexity in proving algorithmic convergence. We also characterize the sets to which RVI Q-learning algorithms converge, showing that they are compact, connected, potentially nonconvex, and comprised of solutions to the average-reward optimality equation, with exactly one less degree of freedom than the general solution set of this equation. Furthermore, we extend our analysis to two RVI-based hierarchical average-reward RL algorithms using the options framework, proving their almost-sure convergence and characterizing their sets of convergence under the assumption that the underlying semi-Markov decision process is weakly communicating.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# LoraMap: LoRAコネクションのパワーを損なう

LoraMap: Harnessing the Power of LoRA Connections ( http://arxiv.org/abs/2408.16264v1 )

ライセンス: Link先を確認
Hyeryun Park, Jeongwon Kwak, Dongsuk Jang, Sumin Park, Jinwook Choi, (参考訳) LLM(Large Language Models)は、ファクトチェックによって幻覚を緩和し、ローランド適応(LoRA)のようなパラメータ効率のよい手法でかなりの計算オーバーヘッドを克服する。 複数のLoRAの並列統合について研究する研究もあるが、これらのアプローチはそれらの相互接続に注意が必要である。 本稿では,複数のLoRA間の接続を確立する手法について検討する。 ファクトチェックと微調整の個々のLoRAに適した3つの推論データセットを作成します。 次に、これらのロラを割り当てる戦略を検討し、それらの間の接続をマップするアプローチであるロラマップを導入する。 ファクトチェックタスクの結果は,既存のLoRA合成手法であるLoraHubよりもLoraMapの性能が優れていることを示している。 LoraMapは、LoRAを結合し、さらに微調整するLoraConcatよりもはるかに少ないパラメータでパフォーマンスも向上している。

Large Language Models (LLMs) can benefit from mitigating hallucinations through fact-checking and overcoming substantial computational overhead with parameter-efficient techniques such as Low-Rank Adaptation (LoRA). While some studies have explored the parallel integration of multiple LoRAs, these approaches need attention to the connections between them. This paper investigates methods to establish connections among multiple LoRAs. We create three reasoning datasets tailored to fact-checking and fine-tune individual LoRAs, allowing them to view and reason from diverse perspectives. Then, we explore strategies for allocating these reasoning LoRAs and introduce LoraMap, an approach to map connections between them. The results on the fact-checking task demonstrate that the performance of LoraMap is superior to LoraHub, an existing LoRA composition method. LoraMap also outperforms with significantly fewer parameters than LoraConcat, which concatenates LoRAs and further fine-tunes them.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# クロスドメインリモートセンシング画像分類のための低飽和信頼分布に基づくテスト時間適応

Low Saturation Confidence Distribution-based Test-Time Adaptation for Cross-Domain Remote Sensing Image Classification ( http://arxiv.org/abs/2408.16265v1 )

ライセンス: Link先を確認
Yu Liang, Xiucheng Zhang, Juepeng Zheng, Jianxi Huang, Haohuan Fu, (参考訳) 教師なし領域適応 (Unsupervised Domain Adaptation, UDA) 法は, リモートセンシング画像分類タスクの影響を改善しているが, その多くは, ソースドメイン(SD)データへのアクセスによって制限されている。 ソースフリードメイン適応(SFDA)のような設計は、SDデータの欠如という課題を解決するが、それでも大量のターゲットドメインデータに依存しており、高速な適応を達成できないため、より広いシナリオでのさらなる適用を著しく妨げている。 クロスドメインリモートセンシング画像分類の現実的な応用には、スピードと精度のバランスが同時に必要である。 そこで本研究では,このシナリオをTTAで解決する試みとして,低飽和度分布テスト時間適応法(LSCD-TTA)を提案する。 LSCD-TTAは、異なる最適化方向に集中する3つの主要部分を含む、リモートセンシング画像の分布特性を特に考慮している。 第二に、弱いカテゴリーのクロスエントロピー (WCCE) は、事前知識の少ない分類が困難であるカテゴリの重みを増大させる。 最後に、多様なカテゴリ信頼度(DIV)は、サンプル分布の偏りを軽減するために、カテゴリの多様性を包括的に検討する。 上記の3つのモジュールを重み付けすることで、モデルがターゲットドメインに対して、事前の分布、繰り返しのデータアクセス、手動のアノテーションを使わずに、広く、迅速、正確に適応することができる。 3つのリモートセンシング画像データセット上でLSCD-TTAを評価する。 実験の結果,LSCD-TTAはResnet-50では4.96%-10.51%,Resnet-101では5.33%-12.49%と,他の最先端DA法やTTA法と比較して有意な増加を示した。

Although the Unsupervised Domain Adaptation (UDA) method has improved the effect of remote sensing image classification tasks, most of them are still limited by access to the source domain (SD) data. Designs such as Source-free Domain Adaptation (SFDA) solve the challenge of a lack of SD data, however, they still rely on a large amount of target domain data and thus cannot achieve fast adaptations, which seriously hinders their further application in broader scenarios. The real-world applications of cross-domain remote sensing image classification require a balance of speed and accuracy at the same time. Therefore, we propose a novel and comprehensive test time adaptation (TTA) method -- Low Saturation Confidence Distribution Test Time Adaptation (LSCD-TTA), which is the first attempt to solve such scenarios through the idea of TTA. LSCD-TTA specifically considers the distribution characteristics of remote sensing images, including three main parts that concentrate on different optimization directions: First, low saturation distribution (LSD) considers the dominance of low-confidence samples during the later TTA stage. Second, weak-category cross-entropy (WCCE) increases the weight of categories that are more difficult to classify with less prior knowledge. Finally, diverse categories confidence (DIV) comprehensively considers the category diversity to alleviate the deviation of the sample distribution. By weighting the abovementioned three modules, the model can widely, quickly and accurately adapt to the target domain without much prior target distributions, repeated data access, and manual annotation. We evaluate LSCD-TTA on three remote-sensing image datasets. The experimental results show that LSCD-TTA achieves a significant gain of 4.96%-10.51% with Resnet-50 and 5.33%-12.49% with Resnet-101 in average accuracy compared to other state-of-the-art DA and TTA methods.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# インバージョン球面補間による拡散に基づくデータ拡張の改善

Improving Diffusion-based Data Augmentation with Inversion Spherical Interpolation ( http://arxiv.org/abs/2408.16266v1 )

ライセンス: Link先を確認
Yanghao Wang, Long Chen, (参考訳) Data Augmentation (DA) \ieは、忠実で多様なサンプルを合成し、元のトレーニングセットを拡張することで、様々な視覚的認識タスクを改善するための一般的かつ効果的な戦略である。 強力な画像生成能力により、拡散ベースのDAは、異なるベンチマークで大きなパフォーマンス向上を示した。 本稿では,現在の拡散型DA法を解析し,高品質なサンプルの生成と最終分類性能の向上に欠かせない2つの鍵である,忠実さと多様性を両立できないことを論じる。 そこで本研究では,新しい拡散型逆補間DA法Diff-IIを提案する。 具体的には、Diff-IIは3つの主要なステップから構成される。 1) カテゴリー概念の学習: カテゴリ毎に概念の埋め込みを学習する。 2) インバージョン補間: 各画像のインバージョンを計算し、同じカテゴリからランダムにサンプリングされた2つのインバージョンに対して球面補間を行う。 3)2段階認知: 異なるプロンプトを用いて合成画像を粗く微妙に生成する。 複数の画像分類タスク(グレッグ、少数ショット、ロングテール、アウト・オブ・ディストリビューション)に関する大規模な実験は、最先端拡散に基づくDA法に対する効果を実証している。

Data Augmentation (DA), \ie, synthesizing faithful and diverse samples to expand the original training set, is a prevalent and effective strategy to improve various visual recognition tasks. With the powerful image generation ability, diffusion-based DA has shown strong performance gains on different benchmarks. In this paper, we analyze today's diffusion-based DA methods, and argue that they cannot take account of both faithfulness and diversity, which are two critical keys for generating high-quality samples and boosting final classification performance. To this end, we propose a novel Diffusion-based Inversion Interpolation DA method: Diff-II. Specifically, Diff-II consists of three main steps: 1) Category concepts learning: Learning concept embeddings for each category. 2) Inversion interpolation: Calculating the inversion for each image, and conducting spherical interpolation for two randomly sampled inversions from the same category. 3) Two-stage denoising: Using different prompts to generate synthesized images in a coarse-to-fine manner. Extensive experiments on multiple image classification tasks (\eg, few-shot, long-tailed, and out-of-distribution classification) have demonstrated its effectiveness over state-of-the-art diffusion-based DA methods.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# ノイズ量子回路におけるコヒーレント情報相転移

Coherent Information Phase Transition in a Noisy Quantum Circuit ( http://arxiv.org/abs/2408.16267v1 )

ライセンス: Link先を確認
Dongheng Qian, Jing Wang, (参考訳) コヒーレント情報は、チャネルを介して送信可能な量子情報を定量化し、チャネルの量子容量に直接リンクする。 動的浄化遷移の文脈では、スクランブルダイナミクスは低い測定速度で広範囲かつ正のコヒーレント情報を保持するが、ノイズはそれをゼロまたは負の値に抑制することができる。 ここでは、ノイズの多い量子回路に量子強化演算を導入する。 この回路は、量子チャネルと見なされ、正の値の回復可能な位相から負の値の発見不可能な位相へのコヒーレントな情報の相転移を行う。 この遷移は、ノイズと量子化演算の相対周波数によって変調される。 回復可能な位相の存在は、様々なノイズの存在下で量子化された操作が信頼性の高い量子情報伝達を促進することを示唆している。 ここでは、この位相遷移を特徴付けるリソース効率の高いプロトコルを提案し、量子シミュレーションの全ての実行を活用することにより、選択後の効率よく回避する。 このアプローチは理論的な洞察と実践的な実装のギャップを埋め、現実的なノイズの多い中間量子デバイス上での位相遷移を実証できるようにする。

Coherent information quantifies the transmittable quantum information through a channel and is directly linked to the channel's quantum capacity. In the context of dynamical purification transitions, scrambling dynamics sustain extensive and positive coherent information at low measurement rates, but noises can suppress it to zero or negative values. Here we introduce quantum-enhanced operations into a noisy monitored quantum circuit. This circuit, viewed as a quantum channel, undergoes a phase transition in coherent information from a recoverable phase with positive values to an irrecoverable phase with negative values. This transition is modulated by the relative frequency of noise and quantum-enhanced operations. The existence of a recoverable phase implies that quantum-enhanced operations can facilitate reliable quantum information transmission in the presence of diverse noises. Remarkably, we propose a resource-efficient protocol to characterize this phase transition, effectively avoiding post-selection by utilizing every run of the quantum simulation. This approach bridges the gap between theoretical insights and practical implementation, making the phase transition feasible to demonstrate on realistic noisy intermediate-scale quantum devices.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# UDD:マイニング未利用地域によるデータセット蒸留

UDD: Dataset Distillation via Mining Underutilized Regions ( http://arxiv.org/abs/2408.16268v1 )

ライセンス: Link先を確認
Shiguang Wang, Zhongyu Zhang, Jian Cheng, (参考訳) データセット蒸留は、このセットでトレーニングされたモデルが元のデータセットのパフォーマンスを近似するように、小さなデータセットを合成する。 データセット蒸留の最近の研究は, 勾配整合, 特徴整合, 訓練軌道整合など, 最適化プロセスの設計に重点を置いている。 しかし, 合成画像における未利用領域の問題にはほとんど注意が払われていない。 本稿では,未利用領域を識別・活用し,それらを情報化・識別する新しいアプローチであるUDDを提案し,それによって合成データセットの利用性を向上させる。 技術的には、UDDは異なる条件、すなわちレスポンスベースのポリシーとデータジッタリングベースのポリシーの2つの未使用領域を探索する。 従来の研究と比較すると、これらの2つのポリシーは利用に敏感であり、トレーニングプロセス中に未使用領域を動的に調整する能力を備えている。 さらに,現在のモデル最適化問題を解析し,カテゴリワイドの特徴的損失を設計することにより,異なるカテゴリの識別可能性を高め,既存のマルチフォーム手法の欠点を軽減することができる。 実験により,本手法は,MNIST, FashionMNIST, SVHN, CIFAR-10, CIFAR-100などの各種データセット上で, 合成データセットの利用性を向上し, 最先端の手法よりも優れていた。 例えば、CIFAR-10とCIFAR-100の改善は、未利用領域を採掘することで、次のICC=1の方法よりも4.0\%と3.7\%である。

Dataset distillation synthesizes a small dataset such that a model trained on this set approximates the performance of the original dataset. Recent studies on dataset distillation focused primarily on the design of the optimization process, with methods such as gradient matching, feature alignment, and training trajectory matching. However, little attention has been given to the issue of underutilized regions in synthetic images. In this paper, we propose UDD, a novel approach to identify and exploit the underutilized regions to make them informative and discriminate, and thus improve the utilization of the synthetic dataset. Technically, UDD involves two underutilized regions searching policies for different conditions, i.e., response-based policy and data jittering-based policy. Compared with previous works, such two policies are utilization-sensitive, equipping with the ability to dynamically adjust the underutilized regions during the training process. Additionally, we analyze the current model optimization problem and design a category-wise feature contrastive loss, which can enhance the distinguishability of different categories and alleviate the shortcomings of the existing multi-formation methods. Experimentally, our method improves the utilization of the synthetic dataset and outperforms the state-of-the-art methods on various datasets, such as MNIST, FashionMNIST, SVHN, CIFAR-10, and CIFAR-100. For example, the improvements on CIFAR-10 and CIFAR-100 are 4.0\% and 3.7\% over the next best method with IPC=1, by mining the underutilized regions.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# 不確実性を超えて:ロバストなビデオ時間グラウンドのための証拠的深層学習

Beyond Uncertainty: Evidential Deep Learning for Robust Video Temporal Grounding ( http://arxiv.org/abs/2408.16272v1 )

ライセンス: Link先を確認
Kaijing Ma, Haojian Huang, Jin Chen, Haodong Chen, Pengliang Ji, Xianghao Zang, Han Fang, Chao Ban, Hao Sun, Mulin Chen, Xuelong Li, (参考訳) 既存のビデオ時間グラウンド(VTG)モデルは精度は優れているが、オープン語彙クエリや未トリミングビデオによって引き起こされるオープンワールドの課題を見落としていることが多い。 これは、ノイズ、破損、アウト・オブ・ディストリビューションデータの信頼性の低い予測につながる。 ユーザ入力に基づく不確実性を動的に推定するためにVTGモデルを適用すると、この問題に対処できる。 この目的のために,2段階のクロスモーダルアライメントタスクの恩恵を受ける,堅牢なネットワークモジュールであるSRAMを紹介する。 さらに重要なのは、Dep Evidential Regression(DER)を統合して、トレーニング中の不確実性を明確かつ徹底的に定量化することで、モデルが処理能力以上のシナリオで"私は知らない"と言うことを可能にすることです。 しかし、従来の DER 理論とその正則化器の直接適用は構造的欠陥を明らかにし、VTG のタスクに意図しない制約をもたらす。 これに対し,我々は,不確実性学習フレームワークをゼロから強化する簡易かつ効果的なGeom-regularizerを開発した。 我々の知る限りでは、VTGにおけるDERの試みはこれが初めて成功した。 我々は,VTGタスクにおけるモジュールの有効性,堅牢性,解釈可能性,不確実性学習パラダイムを定量的に検証した。 コードは利用可能になります。

Existing Video Temporal Grounding (VTG) models excel in accuracy but often overlook open-world challenges posed by open-vocabulary queries and untrimmed videos. This leads to unreliable predictions for noisy, corrupted, and out-of-distribution data. Adapting VTG models to dynamically estimate uncertainties based on user input can address this issue. To this end, we introduce SRAM, a robust network module that benefits from a two-stage cross-modal alignment task. More importantly, it integrates Deep Evidential Regression (DER) to explicitly and thoroughly quantify uncertainty during training, thus allowing the model to say "I do not know" in scenarios beyond its handling capacity. However, the direct application of traditional DER theory and its regularizer reveals structural flaws, leading to unintended constraints in VTG tasks. In response, we develop a simple yet effective Geom-regularizer that enhances the uncertainty learning framework from the ground up. To the best of our knowledge, this marks the first successful attempt of DER in VTG. Our extensive quantitative and qualitative results affirm the effectiveness, robustness, and interpretability of our modules and the uncertainty learning paradigm in VTG tasks. The code will be made available.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# SAU: 生成モデルによる長期音声認識を実現するデュアルブランチネットワーク

SAU: A Dual-Branch Network to Enhance Long-Tailed Recognition via Generative Models ( http://arxiv.org/abs/2408.16273v1 )

ライセンス: Link先を確認
Guangxi Li, Yinsheng Song, Mingkai Zheng, (参考訳) 画像認識における長い尾の分布は、多数のサンプルを持つ少数の支配階級と少数のサンプルを持つ少数派階級の間に深刻な不均衡があるため、かなりの課題を生んでいる。 近年, 画像分類のための合成データ作成に大規模な生成モデルが用いられているが, 長距離認識の課題に対処するための合成データの利用は, いまだに未検討である。 本研究では,データ不均衡の影響をなくすために,長い尾のデータセットを補完する合成データを提案する。 この実合成混合データセットに対処するため、Synthetic-AwareおよびUnawareブランチ(SAU)を含む2分岐モデルを設計した。 1) 実データと合成データを混在させ、その区別なしに全てのデータを等しく扱う合成無意識の分類分野である。 2) 特徴抽出器の堅牢性を向上させるために, 実データと合成データを区別し, 相違点を学習する。 広範にわたる実験結果から,本手法は長尺画像認識の精度を向上させることができることが示された。 特に,本手法は最先端のTop-1精度を実現し,CIFAR-10-LTとCIFAR-100-LTのデータセットを様々な不均衡要因で大幅に上回っている。 私たちのコードはhttps://github.com/lgX1123/gm4lt.comから入手可能です。

Long-tailed distributions in image recognition pose a considerable challenge due to the severe imbalance between a few dominant classes with numerous examples and many minority classes with few samples. Recently, the use of large generative models to create synthetic data for image classification has been realized, but utilizing synthetic data to address the challenge of long-tailed recognition remains relatively unexplored. In this work, we proposed the use of synthetic data as a complement to long-tailed datasets to eliminate the impact of data imbalance. To tackle this real-synthetic mixed dataset, we designed a two-branch model that contains Synthetic-Aware and Unaware branches (SAU). The core ideas are (1) a synthetic-unaware branch for classification that mixes real and synthetic data and treats all data equally without distinguishing between them. (2) A synthetic-aware branch for improving the robustness of the feature extractor by distinguishing between real and synthetic data and learning their discrepancies. Extensive experimental results demonstrate that our method can improve the accuracy of long-tailed image recognition. Notably, our approach achieves state-of-the-art Top-1 accuracy and significantly surpasses other methods on CIFAR-10-LT and CIFAR-100-LT datasets across various imbalance factors. Our code is available at https://github.com/lgX1123/gm4lt.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# Rydberg原子を用いた急速断熱流による高忠実かつ頑健な制御Zゲート

High-fidelity and robust controlled-Z gates implemented with Rydberg atoms via echoing rapid adiabatic passage ( http://arxiv.org/abs/2408.16274v1 )

ライセンス: Link先を確認
Ming Xue, Shijie Xu, Xinwei Li, Xiangliang Li, (参考訳) 高忠実でロバストな量子ゲートは量子情報処理に不可欠であり、中性リドバーグ原子は実装のための汎用的なプラットフォームとして機能する光ツイーザーアレイに閉じ込められている。 我々は中性原子Rydbergプラットフォーム上で高忠実性制御Z(CZ)ゲートを実現するための高速断熱路(RAP)方式を提案する。 我々の手法は、グローバルなレーザードレッシングのみを用いることで、リドベルク封鎖機構内の2つの同一のRAPパルスをエコーしてCZゲートを実現し、追加の量子ビットを持つC$^k$Zゲートに容易に拡張することができる。 アルカリ原子パラメータを用いて0.9995以上の忠実度を有するCZゲートと0.999を超える忠実度を有するCCZゲートを予測した。 さらに、エコーRAPパルスの直接利用により、4ビットCCCZゲートを0.996以上の忠実度で実装でき、さらなる最適化はできない。 提案手法は、駆動磁場の変動や現実的なデコヒーレンス効果に非常に頑健であり、将来の量子情報処理応用の可能性を秘めている。

High-fidelity and robust quantum gates are essential for quantum information processing, where neutral Rydberg atoms trapped in optical tweezer arrays serving as a versatile platform for the implementation. We propose a rapid adiabatic passage (RAP) scheme for achieving a high-fidelity controlled-Z (CZ) gate on a neutral atom Rydberg platform. Utilizing only global laser dressing, our scheme involves echoing two identical RAP pulses within the Rydberg blockade regime to realize a CZ gate and can be readily extended to a C$^k$Z gate with additional qubits. We predict a CZ gate with fidelity over 0.9995 using akali-atom parameters, and a CCZ gate with fidelity exceeding 0.999. Moreover, the direct utilization of echoing RAP pulses enables the implementation of a four-bit CCCZ gate at fidelity over 0.996 without further optimization. The proposed scheme, remarkably robust to variations in driving fields and realistic decoherence effects, holds promise for future quantum information processing applications.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# AI駆動型心理学的コンサルテーションの強化 - 大規模言語モデルによる階層型プロンプト

Enhancing AI-Driven Psychological Consultation: Layered Prompts with Large Language Models ( http://arxiv.org/abs/2408.16276v1 )

ライセンス: Link先を確認
Rafael Souza, Jia-Hao Lim, Alexander Davis, (参考訳) 心理学的な相談は精神的な健康と幸福を改善するのに不可欠であるが、資格のある専門家の不足やスケーラビリティの問題といった課題は、そのアクセシビリティを制限している。 これらの課題に対処するために, GPT-4 のような大規模言語モデル (LLM) を用いて心理相談サービスを増強する方法について検討する。 本手法では,ユーザ入力に動的に適応し,包括的かつ関連性の高い情報収集を可能にする新しい階層型プロンプトシステムを提案する。 また,LLMの情緒的知性と治療環境における文脈的理解を高めるために,共感駆動型・シナリオベース・プロンプトを開発した。 我々は,新たに収集した心理相談対話のデータセットを用いて,本手法の有効性を検証し,応答品質の大幅な向上を実証した。 結果は、AI駆動の心理的コンサルティングを強化するために、我々の迅速なエンジニアリング技術の可能性を強調し、メンタルヘルスサポートの需要が増大する中、スケーラブルでアクセスしやすいソリューションを提供する。

Psychological consultation is essential for improving mental health and well-being, yet challenges such as the shortage of qualified professionals and scalability issues limit its accessibility. To address these challenges, we explore the use of large language models (LLMs) like GPT-4 to augment psychological consultation services. Our approach introduces a novel layered prompting system that dynamically adapts to user input, enabling comprehensive and relevant information gathering. We also develop empathy-driven and scenario-based prompts to enhance the LLM's emotional intelligence and contextual understanding in therapeutic settings. We validated our approach through experiments using a newly collected dataset of psychological consultation dialogues, demonstrating significant improvements in response quality. The results highlight the potential of our prompt engineering techniques to enhance AI-driven psychological consultation, offering a scalable and accessible solution to meet the growing demand for mental health support.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# 光コヒーレンス・トモグラフィーによる口臭の微細な分類

Fine-grained Classification of Port Wine Stains Using Optical Coherence Tomography Angiography ( http://arxiv.org/abs/2408.16277v1 )

ライセンス: Link先を確認
Xiaofeng Deng, Defu Chen, Bowen Liu, Xiwan Zhang, Haixia Qiu, Wu Yuan, Hongliang Ren, (参考訳) ポートワインの染色(PWS, 血管奇形)の正確な分類は、その後の治療計画にとって重要である。 しかし, 皮膚外見に基づいてPWSを分類する方法は, PWS病変の血管病理学的多様性を反映することが稀であり, 共通血管標的光線力学的療法(V-PDT)と矛盾する結果が得られた。 逆に、OCTAは、PWSの血管奇形を可視化するための理想的なツールである。 従来の研究では,OCTA定量値とPWSサブタイプとの間に有意な相関はみられなかった。 本研究はOCTとOCTAの両方を用いたPWSの新しい分類手法を提案する。 PWSの皮下組織と血管構造を調べることで,PWSを5つの異なるタイプに分類する細粒度分類法を考案した。 各種PWSサブタイプの血管病理学的差異を評価するために, 血管形態およびPWS病変の深さ情報に関連する6つの指標を解析した。 5つのPWSタイプは、従来のサブタイプと比較して、すべての指標に有意な違いを示す。 病理組織学的分類はPWS病変の多様性を正確に反映していることが示唆された。 この研究は、血管病理学に基づいてPWSを分類する最初の試みであり、PWSのより効果的なサブタイプと治療戦略を導く可能性がある。

Accurate classification of port wine stains (PWS, vascular malformations present at birth), is critical for subsequent treatment planning. However, the current method of classifying PWS based on the external skin appearance rarely reflects the underlying angiopathological heterogeneity of PWS lesions, resulting in inconsistent outcomes with the common vascular-targeted photodynamic therapy (V-PDT) treatments. Conversely, optical coherence tomography angiography (OCTA) is an ideal tool for visualizing the vascular malformations of PWS. Previous studies have shown no significant correlation between OCTA quantitative metrics and the PWS subtypes determined by the current classification approach. This study proposes a new classification approach for PWS using both OCT and OCTA. By examining the hypodermic histopathology and vascular structure of PWS, we have devised a fine-grained classification method that subdivides PWS into five distinct types. To assess the angiopathological differences of various PWS subtypes, we have analyzed six metrics related to vascular morphology and depth information of PWS lesions. The five PWS types present significant differences across all metrics compared to the conventional subtypes. Our findings suggest that an angiopathology-based classification accurately reflects the heterogeneity in PWS lesions. This research marks the first attempt to classify PWS based on angiopathology, potentially guiding more effective subtyping and treatment strategies for PWS.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# 拡張カノニカルポリアディック型テンソルネットワークによるWebサービスQoS予測

Web Service QoS Prediction via Extended Canonical Polyadic-based Tensor Network ( http://arxiv.org/abs/2408.16278v1 )

ライセンス: Link先を確認
Qu Wang, Hao Wu, (参考訳) 現在、同様の機能を持つ多くのWebサービスがインターネットで利用可能である。 ユーザはよくQuality of Service(QoS)を評価して、その中の最良の選択肢を選択する。 これらのWebサービスのQoS値を予測することは、Webサービス分野において重要な課題である。 Canonical Polyadic (CP)ベースのテンソルネットワークモデルは動的QoSデータの予測に効率的であることが証明されている。 しかし、現在のCPベースのテンソルネットワークモデルは、低次元の潜在特徴空間におけるユーザとサービスの相関を考慮せず、モデルの予測能力を制限している。 そこで本研究では,拡張カノニカルポリアディック型テンソルネットワーク(ECTN)モデルを提案する。 低次元空間におけるユーザ特徴とサービス特徴の関係次元を構築してユーザとサービスの相関関係をモデル化し,予測精度を向上させるために拡張CP分解構造を設計する。 2つのパブリックな動的QoSデータを用いて実験を行い、その結果、最先端のQoS予測モデルと比較すると、ECTNは高い予測精度が得られることを示した。

Today, numerous web services with similar functionalities are available on the Internet. Users often evaluate the Quality of Service (QoS) to choose the best option among them. Predicting the QoS values of these web services is a significant challenge in the field of web services. A Canonical Polyadic (CP)-based tensor network model has proven to be efficient for predicting dynamic QoS data. However, current CP-based tensor network models do not consider the correlation of users and services in the low-dimensional latent feature space, thereby limiting model's prediction capability. To tackle this issue, this paper proposes an Extended Canonical polyadic-based Tensor Network (ECTN) model. It models the correlation of users and services via building a relation dimension between user feature and service feature in low-dimensional space, and then designs an extended CP decomposition structure to improve prediction accuracy. Experiments are conducted on two public dynamic QoS data, and the results show that compared with state-of-the-art QoS prediction models, the ECTN obtains higher prediction accuracy.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# 電気通信における顧客チャーン予測の強化--適応型アンサンブル学習アプローチ

Enhancing Customer Churn Prediction in Telecommunications: An Adaptive Ensemble Learning Approach ( http://arxiv.org/abs/2408.16284v1 )

ライセンス: Link先を確認
Mohammed Affan Shaikhsurab, Pramod Magadum, (参考訳) 既存の顧客によるサービス停止である顧客チャーンは、通信業界にとって大きな課題となっている。 本稿では,高精度な顧客チャーン予測のための適応型アンサンブル学習フレームワークを提案する。 このフレームワークは、XGBoost、LightGBM、LSTM、MLP(Multi-Layer Perceptron)ニューラルネットワーク、Support Vector Machine(SVM)など、複数のベースモデルを統合する。 これらのモデルは積み重ねアンサンブル法を用いて戦略的に組み合わせられ、ベースモデル予測からメタ機能生成によりさらに強化される。 厳格なデータ前処理パイプラインは、多面的な機能エンジニアリングアプローチと組み合わせて、モデルパフォーマンスを最適化する。 このフレームワークは3つの公開通信チャーンデータセットで評価されており、最先端技術よりもかなり精度が向上している。 本研究は, 電気通信業界における積極的顧客維持戦略開発における大きな進展を示す, 99.28%の精度を達成している。

Customer churn, the discontinuation of services by existing customers, poses a significant challenge to the telecommunications industry. This paper proposes a novel adaptive ensemble learning framework for highly accurate customer churn prediction. The framework integrates multiple base models, including XGBoost, LightGBM, LSTM, a Multi-Layer Perceptron (MLP) neural network, and Support Vector Machine (SVM). These models are strategically combined using a stacking ensemble method, further enhanced by meta-feature generation from base model predictions. A rigorous data preprocessing pipeline, coupled with a multi-faceted feature engineering approach, optimizes model performance. The framework is evaluated on three publicly available telecom churn datasets, demonstrating substantial accuracy improvements over state-of-the-art techniques. The research achieves a remarkable 99.28% accuracy, signifying a major advancement in churn prediction.The implications of this research for developing proactive customer retention strategies withinthe telecommunications industry are discussed.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# ART: 実際にロバストトレーニング

ART: Actually Robust Training ( http://arxiv.org/abs/2408.16285v1 )

ライセンス: Link先を確認
Sebastian Chwilczyński, Kacper Trębacz, Karol Cyganik, Mateusz Małecki, Dariusz Brzezinski, (参考訳) ディープラーニングへの関心は、多くのプログラマや研究者の注目を集めている。 残念ながら、ディープラーニングモデルを開発するための統一スキーマが欠如していることは、方法論上の矛盾、不明瞭なドキュメント、再現性の問題をもたらす。 いくつかのガイドラインは提案されているが、現在は実践的な実装が欠けている。 さらに、ニューラルネットワークのトレーニングは、しばしば試行錯誤の形で行われ、構造化された思慮深いプロセスが欠如している。 本稿では,これらの問題を緩和するために,ディープラーニングパイプラインを開発しながらルールや標準を自動的に適用するように設計されたPythonライブラリであるArtを紹介する。 アートは、モデル開発を複雑さを増大させる一連の小さなステップに分割し、それぞれがプロセスの解釈可能性と堅牢性を改善する検証チェックで結論付けます。 現在のバージョンのArtには、Andrej Karpathy氏のRecipe for Training Neural Networksにインスパイアされた9つの事前定義されたステップ、視覚化ダッシュボード、Neptuneなどのログとの統合が含まれている。 この論文に関連するコードは、https://github.com/SebChw/Actually-Robust-Training.comで公開されている。

Current interest in deep learning captures the attention of many programmers and researchers. Unfortunately, the lack of a unified schema for developing deep learning models results in methodological inconsistencies, unclear documentation, and problems with reproducibility. Some guidelines have been proposed, yet currently, they lack practical implementations. Furthermore, neural network training often takes on the form of trial and error, lacking a structured and thoughtful process. To alleviate these issues, in this paper, we introduce Art, a Python library designed to help automatically impose rules and standards while developing deep learning pipelines. Art divides model development into a series of smaller steps of increasing complexity, each concluded with a validation check improving the interpretability and robustness of the process. The current version of Art comes equipped with nine predefined steps inspired by Andrej Karpathy's Recipe for Training Neural Networks, a visualization dashboard, and integration with loggers such as Neptune. The code related to this paper is available at: https://github.com/SebChw/Actually-Robust-Training.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# ロバスト制約マルコフ決定過程におけるエピグラフ形式による近似的ポリシー同定

Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form ( http://arxiv.org/abs/2408.16286v1 )

ライセンス: Link先を確認
Toshinori Kitamura, Tadashi Kozuno, Wataru Kumagai, Kenta Hoshino, Yohei Hosoe, Kazumi Kasaura, Masashi Hamaya, Paavo Parmas, Yutaka Matsuo, (参考訳) 不確実な環境に対する安全なポリシーを設計することは、現実世界の制御アプリケーションにおいて不可欠である。 しかし、この課題はマルコフ決定プロセス(MDP)フレームワークの中では不十分である。 本稿では, 環境全体にわたる最悪のシナリオにおける制約を満足しつつ, 累積コストを最小化する, 頑健な制約付きMDP (RCMDP) における準最適ポリシを同定できるアルゴリズムを提案する。 まず、政策勾配法による従来のラグランジアン最大ミン定式化は、その内部最小化問題における目的関数と制約関数との矛盾する勾配の和に遭遇することによって、最適解に閉じ込められることを証明した。 この問題に対処するために、RCMDP問題のエピグラフ形式を活用し、目的あるいは制約のいずれかから単一の勾配を選択することで競合を解決する。 エピグラフ形式に基づいて、ポリシー勾配のサブルーチンを持つバイナリ探索アルゴリズムを提案し、ポリシー評価を$\tilde{\mathcal{O}}(\varepsilon^{-4})$でRCMDPで$\varepsilon$-optimal Policyを識別することを証明した。

Designing a safe policy for uncertain environments is crucial in real-world control applications. However, this challenge remains inadequately addressed within the Markov decision process (MDP) framework. This paper presents the first algorithm capable of identifying a near-optimal policy in a robust constrained MDP (RCMDP), where an optimal policy minimizes cumulative cost while satisfying constraints in the worst-case scenario across a set of environments. We first prove that the conventional Lagrangian max-min formulation with policy gradient methods can become trapped in suboptimal solutions by encountering a sum of conflicting gradients from the objective and constraint functions during its inner minimization problem. To address this, we leverage the epigraph form of the RCMDP problem, which resolves the conflict by selecting a single gradient from either the objective or the constraints. Building on the epigraph form, we propose a binary search algorithm with a policy gradient subroutine and prove that it identifies an $\varepsilon$-optimal policy in an RCMDP with $\tilde{\mathcal{O}}(\varepsilon^{-4})$ policy evaluations.
翻訳日:2024-08-30 14:55:17 公開日:2024-08-29
# 音声認識ソリューションの精度測定

Measuring the Accuracy of Automatic Speech Recognition Solutions ( http://arxiv.org/abs/2408.16287v1 )

ライセンス: Link先を確認
Korbinian Kuhn, Verena Kersken, Benedikt Reuter, Niklas Egger, Gottfried Zimmermann, (参考訳) 難聴者や難聴者(DHH)にとって、キャプションは重要なアクセシビリティツールである。 人工知能(AI)における重要な発展は、現在多くの一般的な応用の一部として、自動音声認識(ASR)が使われていることを意味する。 これによりキャプションの作成が簡単で広く利用可能になるが、文字起こしには高いレベルの精度が必要である。 科学出版物や業界はエラー率を非常に低く報告し、AIは人間のパリティに達したか、手書きの書き起こしよりも優れています。 同時に、DHHコミュニティは、ASRの正確性と信頼性に関する深刻な問題を報告している。 技術革新と、書き起こしに依存している人々の実生活体験の間には、ミスマッチがあるようだ。 ASRの状態を捉えるには、独立して包括的なデータが必要である。 高等教育講座の講義記録を用いて,11種類の一般的なASRサービスの性能を測定した。 我々は,ストリーミング,語彙の使用,言語間の差異といった技術的条件の影響を評価した。 以上の結果から,ベンダー間および個々のオーディオサンプルに対して,精度が広範囲に及んでいることが示唆された。 また,ライブイベントに使用されるASRのストリーミング品質も著しく低下した。 ASRの最近の改良にもかかわらず、一般的なサービスは正確さの信頼性に欠けていた。

For d/Deaf and hard of hearing (DHH) people, captioning is an essential accessibility tool. Significant developments in artificial intelligence (AI) mean that Automatic Speech Recognition (ASR) is now a part of many popular applications. This makes creating captions easy and broadly available - but transcription needs high levels of accuracy to be accessible. Scientific publications and industry report very low error rates, claiming AI has reached human parity or even outperforms manual transcription. At the same time the DHH community reports serious issues with the accuracy and reliability of ASR. There seems to be a mismatch between technical innovations and the real-life experience for people who depend on transcription. Independent and comprehensive data is needed to capture the state of ASR. We measured the performance of eleven common ASR services with recordings of Higher Education lectures. We evaluated the influence of technical conditions like streaming, the use of vocabularies, and differences between languages. Our results show that accuracy ranges widely between vendors and for the individual audio samples. We also measured a significant lower quality for streaming ASR, which is used for live events. Our study shows that despite the recent improvements of ASR, common services lack reliability in accuracy.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# OpenFGL: フェデレーショングラフ学習のための総合ベンチマーク

OpenFGL: A Comprehensive Benchmarks for Federated Graph Learning ( http://arxiv.org/abs/2408.16288v1 )

ライセンス: Link先を確認
Xunkai Li, Yinlin Zhu, Boyang Pang, Guochen Yan, Yeyu Yan, Zening Li, Zhengyu Wu, Wentao Zhang, Rong-Hua Li, Guoren Wang, (参考訳) Federated Graph Learning(FGL)は、直接データ共有なしで複数のローカルシステムにまたがるグラフニューラルネットワークのための、有望な分散トレーニングパラダイムとして登場した。 このアプローチは特にプライバシーに敏感なシナリオで有用であり、大規模グラフ学習におけるスケーラビリティの課題に対処するための新たな視点を提供する。 FGLの普及にもかかわらず、様々な研究背景と実験環境にまたがる実践的応用からの多様なモチベーションは、公正な評価に重大な課題をもたらす。 このギャップを埋めるために、我々は主要なFGLシナリオであるGraph-FLとSubgraph-FL向けに設計された統一ベンチマークOpenFGLを提案する。 具体的には、OpenFGLには、16のアプリケーションドメインからの38のグラフデータセット、グラフプロパティを強調する8つのフェデレーションデータシミュレーション戦略、5つのグラフベースのダウンストリームタスクが含まれている。 さらに、ユーザフレンドリなAPIを通じて18の最近提案されたSOTA FGLアルゴリズムを提供し、その有効性、堅牢性、効率の徹底的な比較と包括的な評価を可能にする。 実証的な結果は、FGLの能力を示すと同時に、その潜在的な限界を明らかにし、この繁栄の分野における将来の探索に貴重な洞察を提供する。

Federated graph learning (FGL) has emerged as a promising distributed training paradigm for graph neural networks across multiple local systems without direct data sharing. This approach is particularly beneficial in privacy-sensitive scenarios and offers a new perspective on addressing scalability challenges in large-scale graph learning. Despite the proliferation of FGL, the diverse motivations from practical applications, spanning various research backgrounds and experimental settings, pose a significant challenge to fair evaluation. To fill this gap, we propose OpenFGL, a unified benchmark designed for the primary FGL scenarios: Graph-FL and Subgraph-FL. Specifically, OpenFGL includes 38 graph datasets from 16 application domains, 8 federated data simulation strategies that emphasize graph properties, and 5 graph-based downstream tasks. Additionally, it offers 18 recently proposed SOTA FGL algorithms through a user-friendly API, enabling a thorough comparison and comprehensive evaluation of their effectiveness, robustness, and efficiency. Empirical results demonstrate the ability of FGL while also revealing its potential limitations, offering valuable insights for future exploration in this thriving field.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# 低ランク分解に基づく畳み込みニューラルネットワーク圧縮

Convolutional Neural Network Compression Based on Low-Rank Decomposition ( http://arxiv.org/abs/2408.16289v1 )

ライセンス: Link先を確認
Yaping He, Linhao Jiang, Di Wu, (参考訳) ディープニューラルネットワークは通常、計算負荷とメモリ消費を著しく要求する。 さらに、大きなパラメータは、組み込みシステムのようなエッジデバイスにモデルをデプロイする際の制約となる。 テンソル分解は、大規模な重みテンソルを圧縮する際の明確な利点を提供する。 しかしながら、低ランク分解の直接利用は、典型的にはかなりの精度の損失をもたらす。 本稿では,変分ベイズ行列因子化(VBMF)と直交正規化を統合するモデル圧縮法を提案する。 当初、モデルは過度なパラメータ化とトレーニングを行い、直交正規化を適用して元のモデルの精度を達成する可能性を高める。 次に、VBMFを用いて各層における重みテンソルのランクを推定する。 我々のフレームワークは、他の畳み込みニューラルネットワークに適用するには十分一般的であり、他のテンソル分解法を組み込むのに容易に適応できる。 その結果, 高圧縮比と低圧縮比では, 圧縮モデルの性能が向上することがわかった。

Deep neural networks typically impose significant computational loads and memory consumption. Moreover, the large parameters pose constraints on deploying the model on edge devices such as embedded systems. Tensor decomposition offers a clear advantage in compressing large-scale weight tensors. Nevertheless, direct utilization of low-rank decomposition typically leads to significant accuracy loss. This paper proposes a model compression method that integrates Variational Bayesian Matrix Factorization (VBMF) with orthogonal regularization. Initially, the model undergoes over-parameterization and training, with orthogonal regularization applied to enhance its likelihood of achieving the accuracy of the original model. Secondly, VBMF is employed to estimate the rank of the weight tensor at each layer. Our framework is sufficiently general to apply to other convolutional neural networks and easily adaptable to incorporate other tensor decomposition methods. Experimental results show that for both high and low compression ratios, our compression model exhibits advanced performance.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# 人工心電図と光胸腺図作成のためのフレキシブルな枠組み

Flexible framework for generating synthetic electrocardiograms and photoplethysmograms ( http://arxiv.org/abs/2408.16291v1 )

ライセンス: Link先を確認
Katri Karhinoja, Antti Vasankari, Jukka-Pekka Sirkiä, Antti Airola, David Wong, Matti Kaisti, (参考訳) 合成バイオシグナーを生成することにより、健康データの量と多様性を増大させることができる。 これは、データ拡張と、より生理学的に妥当なバリエーションをデータに導入することで、機械学習モデルをトレーニングするときに特に有用である。 これらの目的のために、心電図(ECG)と光胸腺図(PPG)の2つの信号の合成生信号モデルを開発した。 このモデルは、呼吸調節や身体的ストレスによる心拍の変化などの生理的効果を考慮に入れた現実的な信号を生成する。 実測値から抽出したビート間隔で不整脈信号を生成することができる。 このモデルには、様々な種類のノイズや信号アーティファクトを追加する柔軟なアプローチも含まれている。 ノイズは、測定されたノイズ信号とモデル化されたパワースペクトルから抽出されたパワースペクトル密度から生成される。 重要なことに、このモデルは、ノイズ、セグメンテーション(例えば、PとT波、QRS複合体、心電図)、アーティファクトのラベルを自動生成する。 我々は,ECGデータやPSGデータに基づいてトレーニングしたモデルの性能を向上させるために,この包括的モデルを実際にどのように利用できるかを評価する。 例えば、LSTMをトレーニングして、MIT-BIH arrythmia セットの実際のECG信号と新しいジェネレータの両方を用いて、ECG R-peaksを検出する。 実データを用いたF1スコアは0.83であり, 生成装置を用いた0.98と比較した。 さらに、このモデルは信号のセグメンテーション、品質検出、ベンチマーキング検出アルゴリズムなどでも利用できる。 モデルコードは \url{https://github.com/UTU-Health-Research/framework_for_synthetic_biosignals} でリリースされた。

By generating synthetic biosignals, the quantity and variety of health data can be increased. This is especially useful when training machine learning models by enabling data augmentation and introduction of more physiologically plausible variation to the data. For these purposes, we have developed a synthetic biosignal model for two signal modalities, electrocardiography (ECG) and photoplethysmography (PPG). The model produces realistic signals that account for physiological effects such as breathing modulation and changes in heart rate due to physical stress. Arrhythmic signals can be generated with beat intervals extracted from real measurements. The model also includes a flexible approach to adding different kinds of noise and signal artifacts. The noise is generated from power spectral densities extracted from both measured noisy signals and modeled power spectra. Importantly, the model also automatically produces labels for noise, segmentation (e.g. P and T waves, QRS complex, for electrocardiograms), and artifacts. We assessed how this comprehensive model can be used in practice to improve the performance of models trained on ECG or PPG data. For example, we trained an LSTM to detect ECG R-peaks using both real ECG signals from the MIT-BIH arrythmia set and our new generator. The F1 score of the model was 0.83 using real data, in comparison to 0.98 using our generator. In addition, the model can be used for example in signal segmentation, quality detection and bench-marking detection algorithms. The model code has been released in \url{https://github.com/UTU-Health-Research/framework_for_synthetic_biosignals}
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# 言語モデルの物理 : 第2部 小学校数学の誤りから学ぶ方法

Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems ( http://arxiv.org/abs/2408.16293v1 )

ライセンス: Link先を確認
Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu, (参考訳) 言語モデルは推論タスクの解決において顕著なパフォーマンスを示しているが、最強のモデルでさえ推論ミスを犯すことがある。 近年, 推論精度の向上を目的とした研究が盛んに行われており, 特に事前学習された言語モデルを用いて, 複数ラウンドのプロンプトによる誤りの「自己修正」を行っている。 本稿では,この一連の作業に追従するが,事前学習段階に直接「エラー訂正」データを組み込むことの有用性の理解に焦点をあてる。 このデータは、即座に修正された誤った解ステップで構成されている。 このタイプの事前学習データは、同じ量の誤りのないデータに対する事前学習と比較して、言語モデルが直接的(つまり、複数ラウンドのプロンプトなしで、単純な自動回帰によって)高い推論精度を達成するのに役立ちます。 また,(1)ビームサーチとどのように異なるか,(2)そのようなデータの作成方法,(3)誤ったトークンにマスキングが必要かどうか,(4)エラーの量,(5)微調整段階まで遅延できるかどうか,など,多くの詳細についても調べる。

Language models have demonstrated remarkable performance in solving reasoning tasks; however, even the strongest models still occasionally make reasoning mistakes. Recently, there has been active research aimed at improving reasoning accuracy, particularly by using pretrained language models to "self-correct" their mistakes via multi-round prompting. In this paper, we follow this line of work but focus on understanding the usefulness of incorporating "error-correction" data directly into the pretraining stage. This data consists of erroneous solution steps immediately followed by their corrections. Using a synthetic math dataset, we show promising results: this type of pretrain data can help language models achieve higher reasoning accuracy directly (i.e., through simple auto-regression, without multi-round prompting) compared to pretraining on the same amount of error-free data. We also delve into many details, such as (1) how this approach differs from beam search, (2) how such data can be prepared, (3) whether masking is needed on the erroneous tokens, (4) the amount of error required, (5) whether such data can be deferred to the fine-tuning stage, and many others.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# マルチモーダル大言語モデルにおける画像検索のためのスパース語彙表現の再考

Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models ( http://arxiv.org/abs/2408.16296v1 )

ライセンス: Link先を確認
Kengo Nakata, Daisuke Miyashita, Youyang Ng, Yasuto Hoshi, Jun Deguchi, (参考訳) 本稿では,画像検索のためのスパース語彙表現を再考する。 視覚的プロンプトをサポートするマルチモーダル大言語モデル(M-LLM)を利用することで、画像の特徴を抽出し、テキストデータに変換することができ、画像検索タスクに自然言語処理に使用される効率的なスパース検索アルゴリズムを利用できる。 画像特徴抽出におけるLCMの補助として,キー展開のためのデータ拡張手法を適用し,画像とテキストデータの関連性を示す指標を用いてその影響を分析する。 キーワードを用いた画像検索シナリオにおいて,MS-COCO,PASCAL VOC,NAS-WIDEデータセットの従来の視覚言語モデルを用いた手法と比較して,画像検索手法の精度とリコール性能を実証的に示す。 また,検索クエリにキーワードを反復的に組み込むことにより,検索性能が向上することを示した。

In this paper, we rethink sparse lexical representations for image retrieval. By utilizing multi-modal large language models (M-LLMs) that support visual prompting, we can extract image features and convert them into textual data, enabling us to utilize efficient sparse retrieval algorithms employed in natural language processing for image retrieval tasks. To assist the LLM in extracting image features, we apply data augmentation techniques for key expansion and analyze the impact with a metric for relevance between images and textual data. We empirically show the superior precision and recall performance of our image retrieval method compared to conventional vision-language model-based methods on the MS-COCO, PASCAL VOC, and NUS-WIDE datasets in a keyword-based image retrieval scenario, where keywords serve as search queries. We also demonstrate that the retrieval performance can be improved by iteratively incorporating keywords into search queries.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# フィードモードを考慮した衛星地上ネットワーク計画のための距離類似性に基づく遺伝的最適化アルゴリズム

A Distance Similarity-based Genetic Optimization Algorithm for Satellite Ground Network Planning Considering Feeding Mode ( http://arxiv.org/abs/2408.16300v1 )

ライセンス: Link先を確認
Yingying Ren, Qiuli Li, Yangyang Guo, Witold Pedrycz, Lining Xing, Anfeng Liu, Yanjie Song, (参考訳) 衛星産業の急速な発展に伴い、通信衛星に基づく情報伝送ネットワークは、徐々に、将来の衛星地上統合ネットワークの重要かつ重要な部分となっている。 しかし、衛星データリレーバックミッションの低送信効率は、現在システムの構築を制約している問題であり、緊急に解決する必要がある。 資源を合理的にスケジューリングすることで、衛星地上ネットワークのタスクを効果的に計画することは、タスクデータの効率的な送信に不可欠である。 本稿では,衛星地上ネットワーク計画において,摂食モード(SGNPFM)を考慮したネットワークタスクの利益を最大化するタスク実行方式を提案する。 SGNPFM問題を解決するために,リンク構築タスクの利得を最大化するための混合整数計画モデルを構築し,衛星の様々な制約をフィードスイッチングモードで考慮する。 本稿では,タスク間の状態特性を考慮した距離類似性に基づく遺伝的最適化アルゴリズム(DSGA)を提案し,タスク間の類似性を決定する重み付きユークリッド距離法を提案する。 より高品質なソリューションを得るために、個人をインテリジェントにスクリーニングするアルゴリズムを支援するために、異なる類似性評価方法が設計されている。 DSGAはまた、類似性メカニズムに基づいた適応的クロスオーバー戦略を使用して、効率的な人口探索を実現するアルゴリズムを誘導する。 また、フィードスイッチングモードを考慮したタスクスケジューリングアルゴリズムは、アルゴリズムをデコードして高品質なスキームを生成するように設計されている。 シミュレーション実験の結果,DSGAはSGNPFM問題を効果的に解くことができることがわかった。

With the rapid development of the satellite industry, the information transmission network based on communication satellites has gradually become a major and important part of the future satellite ground integration network. However, the low transmission efficiency of the satellite data relay back mission has become a problem that is currently constraining the construction of the system and needs to be solved urgently. Effectively planning the task of satellite ground networking by reasonably scheduling resources is crucial for the efficient transmission of task data. In this paper, we hope to provide a task execution scheme that maximizes the profit of the networking task for satellite ground network planning considering feeding mode (SGNPFM). To solve the SGNPFM problem, a mixed-integer planning model with the objective of maximizing the gain of the link-building task is constructed, which considers various constraints of the satellite in the feed-switching mode. Based on the problem characteristics, we propose a distance similarity-based genetic optimization algorithm (DSGA), which considers the state characteristics between the tasks and introduces a weighted Euclidean distance method to determine the similarity between the tasks. To obtain more high-quality solutions, different similarity evaluation methods are designed to assist the algorithm in intelligently screening individuals. The DSGA also uses an adaptive crossover strategy based on similarity mechanism, which guides the algorithm to achieve efficient population search. In addition, a task scheduling algorithm considering the feed-switching mode is designed for decoding the algorithm to generate a high-quality scheme. The results of simulation experiments show that the DSGA can effectively solve the SGNPFM problem.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# 複数の例外点による幾何位相トポロジーの実現

Realization of geometric phase topology induced by multiple exceptional points ( http://arxiv.org/abs/2408.16302v1 )

ライセンス: Link先を確認
Jung-Wan Ryu, Jae-Ho Han, Chang-Hwan Yi, (参考訳) 非エルミート系は、例外点として知られる特異点を持つ複素固有値のリーマン面構造を持つ。 固有状態の幾何学的位相と組み合わせることで、非エルミート系の特異な性質が生まれ、その分類は近年研究されている。 しかしながら、分類のクラスの物理的実現は、少数のモードと例外的な点が関係しているため、比較的限られている。 本研究では、3つのモードの5つのクラス(J.-W. Ryu, et al , Commun. Phys. 7, 109 (2024))が3つの例外点で現れることを示す。 実験では,1マイクロキャビティの2次元パラメータ空間内の例外点の様々な組み合わせを同定し,選択した3つの例外点に基づいて5つの異なる円周ループを定義した。 分類によると、これらのループは異なるモード交換を促進し、例外的な点の断熱的囲みの間に追加の幾何学的位相を取得する。 本結果は,現実的な物理システムにおいて,複数の例外点によって引き起こされる幾何学的位相関連トポロジーの広範な記述を提供する。

Non-Hermitian systems have Riemann surface structures of complex eigenvalues that admit singularities known as exceptional points. Combining with geometric phases of eigenstates gives rise to unique properties of non-Hermitian systems, and their classifications have been studied recently. However, the physical realizations of classes of the classifications have been relatively limited because a small number of modes and exceptional points are involved. In this work, we show in microcavities that all five classes [J.-W. Ryu, et al., Commun. Phys. 7, 109 (2024)] of three modes can emerge with three exceptional points. In demonstrations, we identified various combinations of exceptional points within a two-dimensional parameter space of a single microcavity and defined five distinct encircling loops based on three selected exceptional points. According to the classification, these loops facilitate different mode exchanges and the acquisition of additional geometric phases during the adiabatic encircling of exceptional points. Our results provide a broad description of the geometric phases-associated topology induced by multiple exceptional points in realistic physical systems.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# 画像復元における拡散ブリッジの高機能化

Enhanced Control for Diffusion Bridge in Image Restoration ( http://arxiv.org/abs/2408.16303v1 )

ライセンス: Link先を確認
Conghan Yue, Zhengwei Peng, Junlong Ma, Dongyu Zhang, (参考訳) 画像復元とは、損傷した低品質画像を対応する高品質な画像に復元する過程を指す。 通常、畳み込みニューラルネットワークを用いて、画質の低い画像から画質のよい画像へのマッピングを直接学習する。 近年, 画像復元において, 特殊な拡散ブリッジモデルにより, より高度な結果が得られている。 低画質のイメージから高画質のイメージへと変換し、低画質のイメージを逆のプロセスで復元することができる。 しかし、現在の拡散橋復元モデルは、性能に影響を与える可能性のある条件制御の概念を強調していない。 本稿では,低画質画像を条件として拡散ブリッジの制御性を向上させるECDBモデルを提案する。 さらに, 拡散モデルの特徴として, より大きい値の \(\bm t \) での分解レベルが低いため, 様々なモジュールの条件特徴情報をより効果的に扱う条件付き融合スケジュールも提案する。 実験結果から、ECDBモデルは、デレーニング、塗装、超解像を含む多くの画像復元タスクにおいて、最先端の結果を得たことが証明された。 コードはhttps://github.com/Hammour-steak/ECDBで検証可能である。

Image restoration refers to the process of restoring a damaged low-quality image back to its corresponding high-quality image. Typically, we use convolutional neural networks to directly learn the mapping from low-quality images to high-quality images achieving image restoration. Recently, a special type of diffusion bridge model has achieved more advanced results in image restoration. It can transform the direct mapping from low-quality to high-quality images into a diffusion process, restoring low-quality images through a reverse process. However, the current diffusion bridge restoration models do not emphasize the idea of conditional control, which may affect performance. This paper introduces the ECDB model enhancing the control of the diffusion bridge with low-quality images as conditions. Moreover, in response to the characteristic of diffusion models having low denoising level at larger values of \(\bm t \), we also propose a Conditional Fusion Schedule, which more effectively handles the conditional feature information of various modules. Experimental results prove that the ECDB model has achieved state-of-the-art results in many image restoration tasks, including deraining, inpainting and super-resolution. Code is avaliable at https://github.com/Hammour-steak/ECDB.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# Webフォームによるプライバシノームの理解

Understanding Privacy Norms through Web Forms ( http://arxiv.org/abs/2408.16304v1 )

ライセンス: Link先を確認
Hao Cui, Rahmadi Trimananda, Athina Markopoulou, (参考訳) Webフォームは、個人情報をオンラインで収集する主要な方法の1つだが、それらは比較的研究されていない。 ウェブトラッキングとは異なり、Webフォームによるデータ収集は明示的でコンテキスト化されている。 利用者 (i)特定の個人情報の入力を依頼し、 (二)特定の文脈(すなわち、どのウェブサイトと目的のために)を知ること。 Webフォームがユーザによって信頼されるためには、特定のコンテキスト(すなわちプライバシ規範)内で適切なデータ収集プラクティスの常識標準を満たす必要がある。 本稿では,Web フォームに埋め込まれたプライバシー基準を計測研究により抽出する。 まず、Web上のWebフォームを見つけるための特殊なクローラを構築します。 11,500のWebサイトで運用し、293KのWebフォームのデータセットを作成します。 第2に,大規模な言語モデル (LLM) の助けを借りて学習したテキスト分類器を用いて,フォームタイプと個人情報型でWebフォームに注釈を付けるコスト効率のよい方法を開発した。 第3に、アノテーション付きデータセットを分析して、データ収集プラクティスの共通パターンを明らかにする。 私たちはそれを見つける。 (i)これらのパターンは、機能上の必要と法的義務によって説明され、プライバシーの規範を反映している。 (ii)観測基準からの逸脱は、しばしば不要なデータ収集を示す。 また、Webフォームに付随するプライバシーポリシーも分析する。 広く採用され利用されているにもかかわらず、プライバシーポリシーの開示と観察されたプライバシー規範の間には不一致があることが示されている。

Web forms are one of the primary ways to collect personal information online, yet they are relatively under-studied. Unlike web tracking, data collection through web forms is explicit and contextualized. Users (i) are asked to input specific personal information types, and (ii) know the specific context (i.e., on which website and for what purpose). For web forms to be trusted by users, they must meet the common sense standards of appropriate data collection practices within a particular context (i.e., privacy norms). In this paper, we extract the privacy norms embedded within web forms through a measurement study. First, we build a specialized crawler to discover web forms on websites. We run it on 11,500 popular websites, and we create a dataset of 293K web forms. Second, to process data of this scale, we develop a cost-efficient way to annotate web forms with form types and personal information types, using text classifiers trained with assistance of large language models (LLMs). Third, by analyzing the annotated dataset, we reveal common patterns of data collection practices. We find that (i) these patterns are explained by functional necessities and legal obligations, thus reflecting privacy norms, and that (ii) deviations from the observed norms often signal unnecessary data collection. In addition, we analyze the privacy policies that accompany web forms. We show that, despite their wide adoption and use, there is a disconnect between privacy policy disclosures and the observed privacy norms.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# ディープフェイク検出のためのセマンティック指向型マルチタスク学習:共同埋め込みアプローチ

Semantics-Oriented Multitask Learning for DeepFake Detection: A Joint Embedding Approach ( http://arxiv.org/abs/2408.16305v1 )

ライセンス: Link先を確認
Mian Zou, Baosheng Yu, Yibing Zhan, Siwei Lyu, Kede Ma, (参考訳) 近年、マルチメディア法医学とセキュリティコミュニティは、ディープフェイク(顔偽造)検出のためのマルチタスク学習において顕著な進歩を見せている。 一般的な戦略は、操作指向の補助タスクによって強化されたバイナリ分類問題としてDeepFake検出をフレーム化することである。 この戦略は、顔操作に特有な学習機能に焦点を当て、限定的な一般化性を示す。 本稿では,DeepFake検出のためのセマンティックス指向のマルチタスク学習について深く掘り下げ,関節埋め込みによる顔意味の関連性を活用する。 我々はまず,現在の顔偽造データセットを拡張して,グローバルな顔属性と局所的な顔領域レベルの両方でセマンティクス指向のDeepFake検出タスクをサポートする自動データセット拡張手法を提案する。 さらに,顔画像と対応するラベル(テキストによる記述で示される)を共同埋め込みして予測する。 このアプローチでは、イメージから直接ラベルを予測するのに必要なタスクに依存しないパラメータやタスク固有のパラメータを手動で設定する必要がなくなる。 さらに,各タスクの忠実度損失重み付けを動的にバランスさせるため,二段階最適化方式を採用し,トレーニングプロセスを完全に自動化する。 6つのDeepFakeデータセットに対する大規模な実験により、我々の手法はDeepFake検出の一般化性を向上し、一方で、人間の理解可能な説明を提供することで、ある程度のモデル解釈を行う。

In recent years, the multimedia forensics and security community has seen remarkable progress in multitask learning for DeepFake (i.e., face forgery) detection. The prevailing strategy has been to frame DeepFake detection as a binary classification problem augmented by manipulation-oriented auxiliary tasks. This strategy focuses on learning features specific to face manipulations, which exhibit limited generalizability. In this paper, we delve deeper into semantics-oriented multitask learning for DeepFake detection, leveraging the relationships among face semantics via joint embedding. We first propose an automatic dataset expansion technique that broadens current face forgery datasets to support semantics-oriented DeepFake detection tasks at both the global face attribute and local face region levels. Furthermore, we resort to joint embedding of face images and their corresponding labels (depicted by textual descriptions) for prediction. This approach eliminates the need for manually setting task-agnostic and task-specific parameters typically required when predicting labels directly from images. In addition, we employ a bi-level optimization strategy to dynamically balance the fidelity loss weightings of various tasks, making the training process fully automated. Extensive experiments on six DeepFake datasets show that our method improves the generalizability of DeepFake detection and, meanwhile, renders some degree of model interpretation by providing human-understandable explanations.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# 付加ガウス過程による高次元制御系の安全ベイズ最適化

Safe Bayesian Optimization for High-Dimensional Control Systems via Additive Gaussian Processes ( http://arxiv.org/abs/2408.16307v1 )

ライセンス: Link先を確認
Hongxuan Wang, Xiaocong Li, Adrish Bhaumik, Prahlad Vadakkepat, (参考訳) 制御器のチューニングと最適化は、ロボット工学やメカトロニクスシステムにおいて最も基本的な問題の一つである。 従来の方法論は通常モデルベースであるが、その性能はシステムの正確な数学的モデルに大きく依存している。 複雑なダイナミクスを持つ制御アプリケーションでは、正確なモデルを得ることがしばしば困難であり、データ駆動アプローチに向かっています。 単一コントローラの最適化は様々な研究者によって検討されているが、複数のコントローラが関与している場合、最適コントローラパラメータを安全かつ効率的に取得することは依然として困難である。 本稿では,複数コントローラを同時に安全に最適化するために,加法ガウス法に基づく高次元安全なベイズ最適化法を提案する。 付加的なガウスカーネルは従来の2乗述語カーネルやMat\'ernカーネルを置き換え、ガウス処理が未知の関数に関する情報を更新する効率を高める。 永久磁石同期モータ(PMSM)の実験結果から,既存の安全ベイズ最適化アルゴリズムと比較して,安全性を確保しつつ,最適パラメータをより効率的に取得できることが確認された。

Controller tuning and optimization have been among the most fundamental problems in robotics and mechatronic systems. The traditional methodology is usually model-based, but its performance heavily relies on an accurate mathematical model of the system. In control applications with complex dynamics, obtaining a precise model is often challenging, leading us towards a data-driven approach. While optimizing a single controller has been explored by various researchers, it remains a challenge to obtain the optimal controller parameters safely and efficiently when multiple controllers are involved. In this paper, we propose a high-dimensional safe Bayesian optimization method based on additive Gaussian processes to optimize multiple controllers simultaneously and safely. Additive Gaussian kernels replace the traditional squared-exponential kernels or Mat\'ern kernels, enhancing the efficiency with which Gaussian processes update information on unknown functions. Experimental results on a permanent magnet synchronous motor (PMSM) demonstrate that compared to existing safe Bayesian optimization algorithms, our method can obtain optimal parameters more efficiently while ensuring safety.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# 物体中心学習による分布シフトを考慮したブートストラップ分割基礎モデル

Bootstrap Segmentation Foundation Model under Distribution Shift via Object-Centric Learning ( http://arxiv.org/abs/2408.16310v1 )

ライセンス: Link先を確認
Luyao Tang, Yuxuan Yuan, Chaoqi Chen, Kunze Huang, Xinghao Ding, Yue Huang, (参考訳) ファウンデーションモデルは、ゼロショットや少数ショットの一般化を達成し、迅速なエンジニアリングを活用して、人間の知能の問題解決アプローチを模倣している。 しかし、Segment Anythingのようなファンデーションモデルに関しては、カモフラージュや医療画像など、アウト・オブ・ディストリビューション(out-of-distriion)データの処理には依然として課題がある。 微調整とテストの間に不整合なプロンプトが問題をさらに複雑にし、パフォーマンスが低下した。 人間の認知が新しい環境をどのように処理するかからインスピレーションを得たSlotSAMは、エンコーダの機能を自己教師付きで再構築し、オブジェクト中心の表現を生成する手法である。 これらの表現はファンデーションモデルに統合され、オブジェクトレベルの知覚能力を高めながら、分布に関連する変数の影響を減らす。 SlotSAMの美しさは、その単純さと様々なタスクへの適応性にあるため、基礎モデルの一般化能力を大幅に向上させる汎用的なソリューションである。 ブートストラップ方式でパラメータの微調整を限定することで,新しい環境における一般化の道を開くことができる。 コードはgithub.com/lytang63/SlotSAMで入手できる。

Foundation models have made incredible strides in achieving zero-shot or few-shot generalization, leveraging prompt engineering to mimic the problem-solving approach of human intelligence. However, when it comes to some foundation models like Segment Anything, there is still a challenge in performing well on out-of-distribution data, including camouflaged and medical images. Inconsistent prompting strategies during fine-tuning and testing further compound the issue, leading to decreased performance. Drawing inspiration from how human cognition processes new environments, we introduce SlotSAM, a method that reconstructs features from the encoder in a self-supervised manner to create object-centric representations. These representations are then integrated into the foundation model, bolstering its object-level perceptual capabilities while reducing the impact of distribution-related variables. The beauty of SlotSAM lies in its simplicity and adaptability to various tasks, making it a versatile solution that significantly enhances the generalization abilities of foundation models. Through limited parameter fine-tuning in a bootstrap manner, our approach paves the way for improved generalization in novel environments. The code is available at github.com/lytang63/SlotSAM.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# FA-YOLO:FMDSおよびAGMFモジュールに基づく効率的な特徴選択 YOLO改良アルゴリズムに関する研究

FA-YOLO: Research On Efficient Feature Selection YOLO Improved Algorithm Based On FMDS and AGMF Modules ( http://arxiv.org/abs/2408.16313v1 )

ライセンス: Link先を確認
Yukang Huo, Mingyuan Yao, Qingbin Tian, Tonghao Wang, Ruifeng Wang, Haihua Wang, (参考訳) 過去数年間、YOLOシリーズはオブジェクト検出の領域において支配的な方法論の1つとして現れてきた。 多くの研究は、アーキテクチャを変更し、データ品質を向上し、新しい損失関数を開発することで、これらのベースラインモデルを進化させてきた。 しかし、現在のモデルでは、クロススケールな機能の融合や動的な特徴調整能力に欠ける静的な融合アプローチなど、機能マップの処理に不足がある。 これらの問題に対処するために, より効率的な動的特徴選択と融合法を, 複雑な環境下での小型・中規模・大規模ターゲットの検出精度を大幅に向上させる, FMDSモジュールを提案する。 さらに,AGMFモジュール(Adaptive Gated Multi-branch Focus Fusion Module, AGMFモジュール)を提案する。 このアプローチは、機能融合の包括性、多様性、完全性をさらに強化します。 本稿では,FMDSモジュールであるAGMFモジュールをYolov9に統合し,FA-YOLOという新しいオブジェクト検出モデルを開発した。 大規模な実験の結果、同じ実験条件下では、FA-YOLOはPASCAL VOC 2007データセット上で66.1%の平均平均精度(mAP)を達成し、YOLOv9の65.1%よりも1.0%改善した。 さらに、小、中、大規模ターゲットに対するFA-YOLOの検出精度は44.1%、54.6%、70.8%であり、YOLOv9の42.1%、51.5%、69.9%に比べて2.0%、3.1%、0.9%の改善が見られた。

Over the past few years, the YOLO series of models has emerged as one of the dominant methodologies in the realm of object detection. Many studies have advanced these baseline models by modifying their architectures, enhancing data quality, and developing new loss functions. However, current models still exhibit deficiencies in processing feature maps, such as overlooking the fusion of cross-scale features and a static fusion approach that lacks the capability for dynamic feature adjustment. To address these issues, this paper introduces an efficient Fine-grained Multi-scale Dynamic Selection Module (FMDS Module), which applies a more effective dynamic feature selection and fusion method on fine-grained multi-scale feature maps, significantly enhancing the detection accuracy of small, medium, and large-sized targets in complex environments. Furthermore, this paper proposes an Adaptive Gated Multi-branch Focus Fusion Module (AGMF Module), which utilizes multiple parallel branches to perform complementary fusion of various features captured by the gated unit branch, FMDS Module branch, and TripletAttention branch. This approach further enhances the comprehensiveness, diversity, and integrity of feature fusion. This paper has integrated the FMDS Module, AGMF Module, into Yolov9 to develop a novel object detection model named FA-YOLO. Extensive experimental results show that under identical experimental conditions, FA-YOLO achieves an outstanding 66.1% mean Average Precision (mAP) on the PASCAL VOC 2007 dataset, representing 1.0% improvement over YOLOv9's 65.1%. Additionally, the detection accuracies of FA-YOLO for small, medium, and large targets are 44.1%, 54.6%, and 70.8%, respectively, showing improvements of 2.0%, 3.1%, and 0.9% compared to YOLOv9's 42.1%, 51.5%, and 69.9%.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# ResVG:視覚的接地のための複数のインスタンスにおける関係と意味理解の強化

ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding ( http://arxiv.org/abs/2408.16314v1 )

ライセンス: Link先を確認
Minghang Zheng, Jiahua Zhang, Qingchao Chen, Yuxin Peng, Yang Liu, (参考訳) ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。 近年では進展が進んでいるが、複数の物体(対象物と同じカテゴリの複数の物体)を正確に位置決めすることが大きな課題である。 既存の手法は、画像に複数の注意散らしがある場合、顕著な性能低下を示し、細粒度のセマンティクスとオブジェクト間の空間的関係の理解が不十分であることを示す。 本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。 まず,テキストクエリから得られたセマンティックな事前情報をモデルに注入することで,詳細なセマンティクスの理解を深める。 これは、テキスト・ツー・イメージ生成モデルを利用して、クエリで記述された対象オブジェクトの意味的属性を表す画像を生成する。 第2に,関係性に敏感なデータ拡張手法を導入することで,複数の注意を散らしたトレーニングサンプルの欠如に対処する。 同一カテゴリの複数のオブジェクトを含む画像と、それらの空間関係に基づいて擬似クエリを合成することにより、追加のトレーニングデータを生成する。 提案したReSVGモデルは、オブジェクトの意味論と空間関係の両方を理解する能力を大幅に向上させ、視覚的グラウンド化タスク、特にマルチインスタンス障害のあるシナリオにおけるパフォーマンスを向上させる。 5つのデータセット上で,提案手法の有効性を検証するため,広範囲な実験を行った。 コードはhttps://github.com/minghangz/ResVG.comで入手できる。

Visual grounding aims to localize the object referred to in an image based on a natural language query. Although progress has been made recently, accurately localizing target objects within multiple-instance distractions (multiple objects of the same category as the target) remains a significant challenge. Existing methods demonstrate a significant performance drop when there are multiple distractions in an image, indicating an insufficient understanding of the fine-grained semantics and spatial relationships between objects. In this paper, we propose a novel approach, the Relation and Semantic-sensitive Visual Grounding (ResVG) model, to address this issue. Firstly, we enhance the model's understanding of fine-grained semantics by injecting semantic prior information derived from text queries into the model. This is achieved by leveraging text-to-image generation models to produce images representing the semantic attributes of target objects described in queries. Secondly, we tackle the lack of training samples with multiple distractions by introducing a relation-sensitive data augmentation method. This method generates additional training data by synthesizing images containing multiple objects of the same category and pseudo queries based on their spatial relationships. The proposed ReSVG model significantly improves the model's ability to comprehend both object semantics and spatial relations, leading to enhanced performance in visual grounding tasks, particularly in scenarios with multiple-instance distractions. We conduct extensive experiments to validate the effectiveness of our methods on five datasets. Code is available at https://github.com/minghangz/ResVG.
翻訳日:2024-08-30 14:43:40 公開日:2024-08-29
# 高自動走行車における脳波信号に基づく乗客の危険認識

Passenger hazard perception based on EEG signals for highly automated driving vehicles ( http://arxiv.org/abs/2408.16315v1 )

ライセンス: Link先を確認
Ashton Yu Xuan Tan, Yingkai Yang, Xiaofei Zhang, Bowen Li, Xiaorong Gao, Sifa Zheng, Jianqiang Wang, Xinyu Gu, Jun Li, Yang Zhao, Yuxin Zhang, Tania Stathaki, (参考訳) 自動運転車の安全性を高めることは、特に最近の自動システムの事故を考えると、非常に重要である。 これらの車両の乗客は、人間の感覚知覚と意思決定を自律システムに統合して安全性を向上させることができる。 本研究では,客車間相互作用の神経機構を解明し,客車認知モデル(PCM)と客車脳波復号戦略(PEDS)の開発に繋がる。 Central to PEDSは、空間的および時間的脳波データパターンをキャプチャする新しい畳み込みリカレントニューラルネットワーク(CRNN)である。 CRNNはスタックアルゴリズムと組み合わせて、85.0\% \pm 3.18\%$の精度を達成している。 我々の研究は、事前観測された脳波データの予測能力、危険シナリオの検出の強化、より安全な自動運転車のためのネットワーク駆動型フレームワークの提供を強調した。

Enhancing the safety of autonomous vehicles is crucial, especially given recent accidents involving automated systems. As passengers in these vehicles, humans' sensory perception and decision-making can be integrated with autonomous systems to improve safety. This study explores neural mechanisms in passenger-vehicle interactions, leading to the development of a Passenger Cognitive Model (PCM) and the Passenger EEG Decoding Strategy (PEDS). Central to PEDS is a novel Convolutional Recurrent Neural Network (CRNN) that captures spatial and temporal EEG data patterns. The CRNN, combined with stacking algorithms, achieves an accuracy of $85.0\% \pm 3.18\%$. Our findings highlight the predictive power of pre-event EEG data, enhancing the detection of hazardous scenarios and offering a network-driven framework for safer autonomous vehicles.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# 決定木更新時の監査変更の最小化

Minimising changes to audit when updating decision trees ( http://arxiv.org/abs/2408.16321v1 )

ライセンス: Link先を確認
Anj Simmons, Scott Barnett, Anupam Chaudhuri, Sankhya Singh, Shangeetha Sivasothy, (参考訳) 解釈可能なモデルは重要だが、新しいトレーニングデータでモデルが更新されたらどうなるのか? そこで,本研究では,人間が監査しなければならない木の変化数を最小化しながら,決定木を更新するアルゴリズムを提案する。 目的関数の一部としてツリーの変更数を組み込んだ,欲求的なアプローチでこれを実現する。 我々はアルゴリズムを既存の手法と比較し、最終的な精度と監査対象の変更数との間にスイートスポットにあることを示す。

Interpretable models are important, but what happens when the model is updated on new training data? We propose an algorithm for updating a decision tree while minimising the number of changes to the tree that a human would need to audit. We achieve this via a greedy approach that incorporates the number of changes to the tree as part of the objective function. We compare our algorithm to existing methods and show that it sits in a sweet spot between final accuracy and number of changes to audit.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# BEVal:自動走行のためのBEVセグメンテーションモデルのクロスデータセット評価

BEVal: A Cross-dataset Evaluation Study of BEV Segmentation Models for Autononomous Driving ( http://arxiv.org/abs/2408.16322v1 )

ライセンス: Link先を確認
Manuel Alejandro Diaz-Zapata, Wenqian Liu, Robin Baruffa, Christian Laugier, (参考訳) 自律運転のためのセマンティック・バードズ・アイ・ビュー・セグメンテーションの現在の研究は、単一のデータセット(典型的にはnuScenes)を使用してニューラルネットワークモデルを最適化することに集中している。 このプラクティスは、異なる環境やセンサーのセットアップに直面したときに失敗する可能性のある、高度に専門化されたモデルの開発につながります。 本稿では,最新のBEVセグメンテーションモデルを包括的にクロスデータセットで評価し,異なるトレーニングとテストデータセット,セットアップ,および異なるセマンティックカテゴリ間での性能を評価する。 本稿では,カメラやLiDARなどの異なるセンサが,モデルが様々な状況やシナリオに一般化する能力に与える影響について検討する。 さらに,モデルにおけるBEVセグメンテーション性能を,シングルデータセットトレーニングと比較して向上させるマルチデータセットトレーニング実験を実施している。 我々の研究は、データセット間の検証の下でのBEVセグメンテーションモデルの評価におけるギャップに対処する。 また,より堅牢で信頼性の高いBEVセグメンテーションアプローチを自律運転アプリケーションに適用するために,モデル一般化可能性と適応性を高めることの重要性を強調した。

Current research in semantic bird's-eye view segmentation for autonomous driving focuses solely on optimizing neural network models using a single dataset, typically nuScenes. This practice leads to the development of highly specialized models that may fail when faced with different environments or sensor setups, a problem known as domain shift. In this paper, we conduct a comprehensive cross-dataset evaluation of state-of-the-art BEV segmentation models to assess their performance across different training and testing datasets and setups, as well as different semantic categories. We investigate the influence of different sensors, such as cameras and LiDAR, on the models' ability to generalize to diverse conditions and scenarios. Additionally, we conduct multi-dataset training experiments that improve models' BEV segmentation performance compared to single-dataset training. Our work addresses the gap in evaluating BEV segmentation models under cross-dataset validation. And our findings underscore the importance of enhancing model generalizability and adaptability to ensure more robust and reliable BEV segmentation approaches for autonomous driving applications.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# P2Pブリッジ:3Dポイントクラウドデノイングのための拡散ブリッジ

P2P-Bridge: Diffusion Bridges for 3D Point Cloud Denoising ( http://arxiv.org/abs/2408.16325v1 )

ライセンス: Link先を確認
Mathias Vogel, Keisuke Tateno, Marc Pollefeys, Federico Tombari, Marie-Julie Rakotosaona, Francis Engelmann, (参考訳) 本研究では、Diffusion Schr\"odinger Bridgesをポイントクラウドに適応させる新しいフレームワークを通じて、ポイントクラウドをデノナイズするタスクに取り組む。 点特徴や学習した雑音分布から点方向の変位を予測する従来の手法とは異なり、本手法は対点雲間の最適な輸送計画を学ぶ。 PU-NetのようなオブジェクトデータセットとScanNet++やARKitScenesのような現実世界のデータセットの実験は、P2P-Bridgeが既存のメソッドよりも大幅に改善されていることを示している。 提案手法は点座標のみを用いて強い結果を示すが,色情報や点次DINOv2といった付加的な特徴を取り入れることで,性能がさらに向上することを示す。 コードと事前訓練されたモデルはhttps://p2p-bridge.github.io.comで入手できる。

In this work, we tackle the task of point cloud denoising through a novel framework that adapts Diffusion Schr\"odinger bridges to points clouds. Unlike previous approaches that predict point-wise displacements from point features or learned noise distributions, our method learns an optimal transport plan between paired point clouds. Experiments on object datasets like PU-Net and real-world datasets such as ScanNet++ and ARKitScenes show that P2P-Bridge achieves significant improvements over existing methods. While our approach demonstrates strong results using only point coordinates, we also show that incorporating additional features, such as color information or point-wise DINOv2 features, further enhances the performance. Code and pretrained models are available at https://p2p-bridge.github.io.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# Critic-CoT: Chain-of-thinkts Criticによる大規模言語モデルの推論能力向上

Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic ( http://arxiv.org/abs/2408.16326v1 )

ライセンス: Link先を確認
Xin Zheng, Jie Lou, Boxi Cao, Xueru Wen, Yuqiu Ji, Hongyu Lin, Yaojie Lu, Xianpei Han, Debing Zhang, Le Sun, (参考訳) 自己批判はLLMの推論性能を高める重要なメカニズムとなっている。 しかし、近年のアプローチは、過度に単純化され、精度が制限される基本的プロンプトを主に含んでいるが、その一方で、LCMの批判能力と課題解決性能の関係について、詳細な調査は行われていないため、人間のアノテーションを必要とせず、段階的にCoT推論フォーマットと遠隔スーパービジョンデータ構築を介し、ILMをシステム2のような批判能力に推し進める新しいフレームワークであるCrytic-CoTを提案する。 GSM8K と MATH の実験により,無効解のフィルタリングや反復改善により,改良されたモデルによりタスク解決性能が向上し,本手法の有効性が示された。 さらに,批判と改善の訓練だけで世代を改善できることが判明した。 LLMの推論と批判能力を改善するための今後の研究に光を当てることを願っています。

Self-critic has become an important mechanism for enhancing the reasoning performance of LLMs. However, current approaches mainly involve basic prompts without further training, which tend to be over-simplified, leading to limited accuracy.Moreover, there is a lack of in-depth investigation of the relationship between LLM's ability to criticism and its task-solving performance.To address these issues, we propose Critic-CoT, a novel framework that pushes LLMs toward System-2-like critic capability, via step-wise CoT reasoning format and distant-supervision data construction, without the need for human annotation. Experiments on GSM8K and MATH show that via filtering out invalid solutions or iterative refinement, our enhanced model boosts task-solving performance, which demonstrates the effectiveness of our method. Further, we find that training on critique and refinement alone improves the generation. We hope our work could shed light on future research on improving the reasoning and critic ability of LLMs.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# 古典的通信による分散量子機械学習

Distributed quantum machine learning via classical communication ( http://arxiv.org/abs/2408.16327v1 )

ライセンス: Link先を確認
Kiwmann Hwang, Hyang-Tag Lim, Yong-Su Kim, Daniel K. Park, Yosep Kim, (参考訳) 量子機械学習は、データエンコーディングと処理の方法が異なるため、量子コンピューティングの有望な応用として現れつつある。 大規模量子機械学習は古典的な機械学習に比べて大きな優位性を示すと考えられているが、信頼性の高いスケールアップは量子システムの脆弱な性質によって妨げられている。 ここでは、古典的な通信を通じて量子プロセッサユニットを統合する、実験的にアクセス可能な分散量子機械学習方式を提案する。 実演として,2つの4ビットプロセッサをエミュレートし,量子畳み込みニューラルネットワークを用いて8次元合成データセットのデータ分類タスクを行う。 その結果,古典的コミュニケーションを取り入れることで,コミュニケーションのないスキームに比べて分類精度が向上することが示唆された。 さらに, 実験回路深度では, 古典的通信の精度は量子通信の精度に劣らない。 我々の研究は、現在利用可能な中間回路計測によって実装可能な古典的な通信を活用して、中間スケールの量子プロセッサ上で大規模量子機械学習を実証するための実践的な道筋を提供する。

Quantum machine learning is emerging as a promising application of quantum computing due to its distinct way of encoding and processing data. It is believed that large-scale quantum machine learning demonstrates substantial advantages over classical counterparts, but a reliable scale-up is hindered by the fragile nature of quantum systems. Here we present an experimentally accessible distributed quantum machine learning scheme that integrates quantum processor units via classical communication. As a demonstration, we perform data classification tasks on 8-dimensional synthetic datasets by emulating two 4-qubit processors and employing quantum convolutional neural networks. Our results indicate that incorporating classical communication notably improves classification accuracy compared to schemes without communication. Furthermore, at the tested circuit depths, we observe that the accuracy with classical communication is no less than that achieved with quantum communication. Our work provides a practical path to demonstrating large-scale quantum machine learning on intermediate-scale quantum processors by leveraging classical communication that can be implemented through currently available mid-circuit measurements.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# 光電子特性における推定エンハンシング:軌道干渉パラメータとタイト結合を用いた新しいアプローチ

Estimation Enhancing in Optoelectronic Property: A Novel Approach Using Orbital Interaction Parameters and Tight-Binding ( http://arxiv.org/abs/2408.16329v1 )

ライセンス: Link先を確認
Ali Haji Ebrahim Zargar, Ali Amini, Ahmad Ayatollahi, (参考訳) 本稿では,Tight-Binding (TB) 理論を用いて量子構造の光電子特性を推定する革新的な手法を提案する。 推定特性と実特性の比較分析に基づいて,提案手法の有効性を検証し,特にバンドギャップエネルギーの計算に焦点を当てた。 先行する手法は、超格子や量子井戸のような複雑な構造を予測する際に制限された精度を提供する。 このギャップに対処するために、軌道相互作用パラメータ(OIP)とTB理論を用いた3つの異なる位相を含む方法論を提案する。 この研究はアルミアセナイド(AlAs)とガリウムアセナイド(GaAs)を主バルク材料として用いた。 我々の新しい手法は、まずバルク計算に焦点を当てた計算フレームワークを導入し、その後超格子構造へと拡張する。 本研究は, 予測光電子特性, 特にカットオフ波長の精度について有望な結果を示した。 本研究は今後の研究の道筋を辿り、提案手法の精度と量子光学分野への応用範囲を拡大する可能性がある。

This paper advocates for an innovative approach designed for estimating optoelectronic properties of quantum structures utilizing Tight-Binding (TB) theory. Predicated on the comparative analysis between estimated and actual properties, the study strives to validate the efficacy of this proposed technique; focusing notably on the computation of bandgap energy. It is observed that preceding methodologies offered a restricted accuracy when predicting complex structures like super-lattices and quantum wells. To address this gap, we propose a methodology involving three distinct phases using orbital interaction parameters (OIPs) and the TB theory. The research employed Aluminium Arsenide (AlAs) and Gallium Arsenide (GaAs) as the primary bulk materials. Our novel approach introduces a computation framework that first focuses on bulk computation, subsequently expanding to super-lattice structures. The findings of this research demonstrate promising results regarding the accuracy of predicated optoelectronic properties, particularly the cut-off wavelength. This study paves the way for future research, potentially enhancing the precision of the proposed methodology and its application scope within the field of quantum optoelectronics.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# Guided Reasoning - 非技術的入門

Guided Reasoning: A Non-Technical Introduction ( http://arxiv.org/abs/2408.16331v1 )

ライセンス: Link先を確認
Gregor Betz, (参考訳) Guided Reasoningの概念とデフォルトの実装を紹介します。 マルチエージェントシステム(マルチエージェントシステム、英: multi-agent system)とは、1つのエージェント(ガイド)が推論品質を改善するために主に他のエージェントと相互作用するガイド推論システムである。 非技術的用語で、Logikonのデフォルト実装である Guided Reasoningについて説明する。 これは、より詳細な情報と例を徐々に豊かにする生きたドキュメントです。 コード:https://github.com/logikon-ai/logikon

We introduce the concept and a default implementation of Guided Reasoning. A multi-agent system is a Guided Reasoning system iff one agent (the guide) primarily interacts with other agents in order to improve reasoning quality. We describe Logikon's default implementation of Guided Reasoning in non-technical terms. This is a living document we'll gradually enrich with more detailed information and examples. Code: https://github.com/logikon-ai/logikon
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# 合成データを用いた自己改善拡散モデル

Self-Improving Diffusion Models with Synthetic Data ( http://arxiv.org/abs/2408.16333v1 )

ライセンス: Link先を確認
Sina Alemohammad, Ahmed Imtiaz Humayun, Shruti Agarwal, John Collomosse, Richard Baraniuk, (参考訳) 人工知能(AI)の世界は、ますます大きな生成モデルを訓練するために、実際のデータを使い果たしている。 残念なことに、現在または過去の生成モデルから合成データを用いて新しい生成モデルをトレーニングすると、自己消費ループが生成され、モデルオートファジー障害(MAD)と呼ばれる合成データの品質と/または多様性が低下し、モデル崩壊する。 モデルオートファジーに関する現在の考え方は、システムはMADnessに劣化するモデルトレーニングのために合成データを避けることを推奨している。 本稿では,実データと異なる合成データを扱うタックを取り上げる。 Synthetic Data (SIMS) を用いた自己改善拡散モデル(Self-improving diffusion model)は、自己合成データを用いた拡散モデルの新たなトレーニング概念である。 CIFAR-10 と ImageNet-64 生成のための Fr'echet inception distance (FID) 測定値に基づいて新たなレコードを作成し,FFHQ-64 と ImageNet-512 の競合結果を得る。 さらに、SIMSは、私たちの知る限り、MADを使わずに自己生成された合成データに対して反復的に訓練できる最初の予防的生成AIアルゴリズムである。 ボーナスとして、SIMSは拡散モデルの合成データ分布を任意のドメイン内のターゲット分布に合わせるように調整し、バイアスを緩和し公平性を確保する。

The artificial intelligence (AI) world is running out of real data for training increasingly large generative models, resulting in accelerating pressure to train on synthetic data. Unfortunately, training new generative models with synthetic data from current or past generation models creates an autophagous (self-consuming) loop that degrades the quality and/or diversity of the synthetic data in what has been termed model autophagy disorder (MAD) and model collapse. Current thinking around model autophagy recommends that synthetic data is to be avoided for model training lest the system deteriorate into MADness. In this paper, we take a different tack that treats synthetic data differently from real data. Self-IMproving diffusion models with Synthetic data (SIMS) is a new training concept for diffusion models that uses self-synthesized data to provide negative guidance during the generation process to steer a model's generative process away from the non-ideal synthetic data manifold and towards the real data distribution. We demonstrate that SIMS is capable of self-improvement; it establishes new records based on the Fr\'echet inception distance (FID) metric for CIFAR-10 and ImageNet-64 generation and achieves competitive results on FFHQ-64 and ImageNet-512. Moreover, SIMS is, to the best of our knowledge, the first prophylactic generative AI algorithm that can be iteratively trained on self-generated synthetic data without going MAD. As a bonus, SIMS can adjust a diffusion model's synthetic data distribution to match any desired in-domain target distribution to help mitigate biases and ensure fairness.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# GL-TSVM:保護損失関数付きロバストでスムーズなサポートベクターマシン

GL-TSVM: A robust and smooth twin support vector machine with guardian loss function ( http://arxiv.org/abs/2408.16336v1 )

ライセンス: Link先を確認
Mushir Akhtar, M. Tanveer, Mohd. Arshad, (参考訳) サポートベクターマシン (SVM) の変種であるツインサポートベクターマシン (TSVM) は、SVMに比べて3/4ドルの計算複雑性が低いため、大きな注目を集めている。 しかし、ヒンジ損失関数の利用により、TSVMは外れ値やノイズに敏感である。 そこで本研究では,非対称,有界,スムーズな特徴を特徴とする新規な損失関数であるG-lossを導入する。 次に、提案したG-loss関数をTSVMに融合し、GL-TSVMと呼ばれる頑健で滑らかな分類子を生成する。 さらに、構造的リスク最小化(SRM)の原則に準拠し、オーバーフィッティングを低減するため、正規化項をGL-TSVMの目的関数に組み込む。 GL-TSVMの最適化問題に対処するため,効率的な反復アルゴリズムを提案する。 UCIデータセットとKEELデータセットの実験的解析は、ベースラインモデルと比較して提案したGL-TSVMの有効性を裏付けるものである。 さらに, バイオメディカル領域におけるGL-TSVMの有効性を示すために, 乳癌 (BreaKHis) と統合失調症データセットを用いて検討した。 これらの結果は,ベースラインモデルに対するGL-TSVMの競合性を強く示している。

Twin support vector machine (TSVM), a variant of support vector machine (SVM), has garnered significant attention due to its $3/4$ times lower computational complexity compared to SVM. However, due to the utilization of the hinge loss function, TSVM is sensitive to outliers or noise. To remedy it, we introduce the guardian loss (G-loss), a novel loss function distinguished by its asymmetric, bounded, and smooth characteristics. We then fuse the proposed G-loss function into the TSVM and yield a robust and smooth classifier termed GL-TSVM. Further, to adhere to the structural risk minimization (SRM) principle and reduce overfitting, we incorporate a regularization term into the objective function of GL-TSVM. To address the optimization challenges of GL-TSVM, we devise an efficient iterative algorithm. The experimental analysis on UCI and KEEL datasets substantiates the effectiveness of the proposed GL-TSVM in comparison to the baseline models. Moreover, to showcase the efficacy of the proposed GL-TSVM in the biomedical domain, we evaluated it on the breast cancer (BreaKHis) and schizophrenia datasets. The outcomes strongly demonstrate the competitiveness of the proposed GL-TSVM against the baseline models.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# グラフニューラルネットワークは高エントロピー合金に有効か?

Do Graph Neural Networks Work for High Entropy Alloys? ( http://arxiv.org/abs/2408.16337v1 )

ライセンス: Link先を確認
Hengrui Zhang, Ruishu Huang, Jie Chen, James M. Rondinelli, Wei Chen, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ表現の表現性から、結晶と分子の予測モデリングに優れています。 しかし、高エントロピー合金(HEA)は化学的な長距離秩序を欠き、現在のグラフ表現の適用性を制限している。 この課題を克服するために,ローカル環境(LE)グラフの集合として,HEAの表現を提案する。 この表現に基づいて,HEA特性予測のための正確かつ解釈可能なGNNであるLESets機械学習モデルを導入する。 第四紀HEAの力学特性のモデル化におけるLESetsの精度を示す。 分析と解釈を通じて,HEAのモデリングと設計に関する知見をさらに抽出する。 より広い意味では、LESetsは多様な構成成分と柔軟な構成によって形成される組合せ複雑性を持つ乱れた材料に対するGNNの潜在的な適用性を拡張している。

Graph neural networks (GNNs) have excelled in predictive modeling for both crystals and molecules, owing to the expressiveness of graph representations. High-entropy alloys (HEAs), however, lack chemical long-range order, limiting the applicability of current graph representations. To overcome this challenge, we propose a representation of HEAs as a collection of local environment (LE) graphs. Based on this representation, we introduce the LESets machine learning model, an accurate, interpretable GNN for HEA property prediction. We demonstrate the accuracy of LESets in modeling the mechanical properties of quaternary HEAs. Through analyses and interpretation, we further extract insights into the modeling and design of HEAs. In a broader sense, LESets extends the potential applicability of GNNs to disordered materials with combinatorial complexity formed by diverse constituents and their flexible configurations.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# 階層的変分オートエンコーダを用いた学習画像伝送

Learned Image Transmission with Hierarchical Variational Autoencoder ( http://arxiv.org/abs/2408.16340v1 )

ライセンス: Link先を確認
Guangyi Zhang, Hanlei Li, Yunlong Cai, Qiyu Hu, Guanding Yu, Runmin Zhang, (参考訳) 本稿では,階層型可変オートエンコーダ(VAE)を用いて,画像伝送のための革新的な階層型共振器符号化(HJSCC)フレームワークを提案する。 提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。 これらの表現は、JSCCエンコーダによって送信されるチャネルシンボルに直接マッピングされる。 我々は,この枠組みを,フィードバックリンク付きシナリオに拡張し,確率的サンプリングプロセスとしてノイズチャネル上での送信をモデル化し,フィードバック付きJSCCの新しい生成形式を導出する。 既存の手法と比較して,提案するHJSCCは伝送帯域幅を動的に調整し,これらの表現を様々なチャネルシンボルに符号化することで適応性を向上させる。 さらに,JSCCエンコーダを誘導するレートアテンションモジュールを導入し,事前情報に基づいて符号化戦略を最適化する。 様々な解像度の画像に対する大規模な実験により、提案モデルが既存のベースラインよりも高い速度歪み性能を示し、チャネルノイズに対するロバスト性を維持していることが示された。

In this paper, we introduce an innovative hierarchical joint source-channel coding (HJSCC) framework for image transmission, utilizing a hierarchical variational autoencoder (VAE). Our approach leverages a combination of bottom-up and top-down paths at the transmitter to autoregressively generate multiple hierarchical representations of the original image. These representations are then directly mapped to channel symbols for transmission by the JSCC encoder. We extend this framework to scenarios with a feedback link, modeling transmission over a noisy channel as a probabilistic sampling process and deriving a novel generative formulation for JSCC with feedback. Compared with existing approaches, our proposed HJSCC provides enhanced adaptability by dynamically adjusting transmission bandwidth, encoding these representations into varying amounts of channel symbols. Additionally, we introduce a rate attention module to guide the JSCC encoder in optimizing its encoding strategy based on prior information. Extensive experiments on images of varying resolutions demonstrate that our proposed model outperforms existing baselines in rate-distortion performance and maintains robustness against channel noise.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# 統合型マルチモーダル学習によるアルツハイマー病のロバスト早期検出に向けて

Toward Robust Early Detection of Alzheimer's Disease via an Integrated Multimodal Learning Approach ( http://arxiv.org/abs/2408.16343v1 )

ライセンス: Link先を確認
Yifei Chen, Shenghao Zhu, Zhaojie Fang, Chang Liu, Binfeng Zou, Yuhe Wang, Shuo Chang, Fan Jia, Feiwei Qin, Jin Fan, Yong Peng, Changmiao Wang, (参考訳) アルツハイマー病(英: Alzheimer's Disease、AD)は、記憶障害、執行機能障害、性格変化を特徴とする複雑な神経変性疾患である。 早期診断は、微妙な症状や様々な提示が原因で困難であり、多くの場合、その範囲が限られているため、従来の一過性診断法と誤診される。 本研究では,臨床,認知,神経画像,脳波データを統合して診断精度を高める,高度なマルチモーダル分類モデルを提案する。 このモデルは、表形式のデータコーディングアーキテクチャを備えた機能タグを組み込み、TimesBlockモジュールを使用して、脳波(EEG)データ中の複雑な時間パターンをキャプチャする。 クロスモーダルアテンションアグリゲーションモジュールを用いることで、脳波時間データとMRI空間情報を効果的に融合させ、AD、軽度認知障害、正常認知の区別を大幅に改善する。 同時に、脳波、MRI、表データという3つのモードを含む最初のAD分類データセットを構築した。 我々の革新的なアプローチは早期診断と介入を促進することであり、ADの進行を遅らせる可能性がある。 ソースコードとプライベートADMCデータセットはhttps://github.com/JustlfC03/MSTNet.comで公開されています。

Alzheimer's Disease (AD) is a complex neurodegenerative disorder marked by memory loss, executive dysfunction, and personality changes. Early diagnosis is challenging due to subtle symptoms and varied presentations, often leading to misdiagnosis with traditional unimodal diagnostic methods due to their limited scope. This study introduces an advanced multimodal classification model that integrates clinical, cognitive, neuroimaging, and EEG data to enhance diagnostic accuracy. The model incorporates a feature tagger with a tabular data coding architecture and utilizes the TimesBlock module to capture intricate temporal patterns in Electroencephalograms (EEG) data. By employing Cross-modal Attention Aggregation module, the model effectively fuses Magnetic Resonance Imaging (MRI) spatial information with EEG temporal data, significantly improving the distinction between AD, Mild Cognitive Impairment, and Normal Cognition. Simultaneously, we have constructed the first AD classification dataset that includes three modalities: EEG, MRI, and tabular data. Our innovative approach aims to facilitate early diagnosis and intervention, potentially slowing the progression of AD. The source code and our private ADMC dataset are available at https://github.com/JustlfC03/MSTNet.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# テキスト記憶の誤りに対する核サンプリングの不可逆的効果

The Unreasonable Ineffectiveness of Nucleus Sampling on Mitigating Text Memorization ( http://arxiv.org/abs/2408.16345v1 )

ライセンス: Link先を確認
Luka Borec, Philipp Sadler, David Schlangen, (参考訳) 本研究は,大規模言語モデル(LLM)の核サンプリング時のテキスト記憶挙動を解析する。 核サンプリングのような確率的復号法は、通常、最大化に基づく復号法でしばしば観察される単調なテキスト生成や反復的なテキスト生成のような問題を克服するために適用される。 核サンプリングは暗記配列以外のトークンの選択につながる可能性があるため、暗記パターンの発生を減少させる可能性があると仮定する。 この仮説をテストするために、重複の既知の分布を持つ診断データセットを作成し、トレーニングデータの特定の部分の記憶の可能性をある程度制御する。 このデータセットを微調整した2つのGPT-Neoモデルの解析は興味深い。 (i)核の大きさの増大は暗記のみを緩やかに減らし、 (ii)モデルが「ハード」な記憶(トレーニングサンプルの冗長な再現)に関与していない場合でも、トレーニングデータに類似した出力を生成するが、完全な1対1の類似性がないため、"ソフト"な記憶を表示する可能性がある。

This work analyses the text memorization behavior of large language models (LLMs) when subjected to nucleus sampling. Stochastic decoding methods like nucleus sampling are typically applied to overcome issues such as monotonous and repetitive text generation, which are often observed with maximization-based decoding techniques. We hypothesize that nucleus sampling might also reduce the occurrence of memorization patterns, because it could lead to the selection of tokens outside the memorized sequence. To test this hypothesis we create a diagnostic dataset with a known distribution of duplicates that gives us some control over the likelihood of memorization of certain parts of the training data. Our analysis of two GPT-Neo models fine-tuned on this dataset interestingly shows that (i) an increase of the nucleus size reduces memorization only modestly, and (ii) even when models do not engage in "hard" memorization -- a verbatim reproduction of training samples -- they may still display "soft" memorization whereby they generate outputs that echo the training data but without a complete one-by-one resemblance.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# 熱帯波予測器を用いた北熱帯アフリカにおける日降雨予測のための機械学習モデル

Machine learning models for daily rainfall forecasting in Northern Tropical Africa using tropical wave predictors ( http://arxiv.org/abs/2408.16349v1 )

ライセンス: Link先を確認
Athul Rasheeda Satheesh, Peter Knippertz, Andreas H. Fink, (参考訳) 数値気象予報 (NWP) モデルは, 統計処理後においても, 北熱帯アフリカにおけるより単純な気候学に基づく降水予測と比較すると, 性能が劣ることが多い。 AIベースの予測モデルは、将来性を示しているが、複雑さのために降水を避けている。 アフリカ東部波やその他の熱帯波 (TW) のような複合的なスケールの強制力は、熱帯アフリカにおける予測可能性にとって重要であるが、毎日の降雨を予測する価値は未解明のままである。 本研究では,衛星ベースGPM IMERGデータからTW予測器に学習したガンマ回帰モデルと畳み込みニューラルネットワーク(CNN)を用いて,7~9月のモンスーンシーズンの日降雨を予測する。 予測変数は、7つのTWの局所振幅と位相情報から1度の空間分解能で、ターゲットと上流の隣接する格子から導出される。 MLモデルはEasy Uncertainty Quantification (EasyUQ)と組み合わせて、キャリブレーションされた確率予測を生成し、拡張確率気候学(EPC15)、ECMWFオペレーショナルアンサンブル予測(ENS)、EasyUQ(CTRL EasyUQ)を用いたENSコントロールメンバーからの確率予測の3つのベンチマークと比較される。 この研究は、下流の予測変数が最も高い予測可能性を示し、下流の熱帯低気圧(TD)型波ベースの予測変数が最も重要であることを示している。 混合ロスビー重力波(MRG)、ケルビン波、慣性重力波などの他の波も大きく寄与するが、地域的な嗜好を示す。 Sensor予測は誤診によるスキルの低下を示す。 CTRL EasyUQ は ENS よりも改善し, EPC15 より限界拡張を示した。 ガンマ回帰とCNNの予測は、熱帯アフリカでのベンチマークで大きく上回っている。 本研究は、熱帯アフリカにおける日降量の予測を改善するために、TWベースの予測器で訓練されたMLモデルの可能性を強調した。

Numerical weather prediction (NWP) models often underperform compared to simpler climatology-based precipitation forecasts in northern tropical Africa, even after statistical postprocessing. AI-based forecasting models show promise but have avoided precipitation due to its complexity. Synoptic-scale forcings like African easterly waves and other tropical waves (TWs) are important for predictability in tropical Africa, yet their value for predicting daily rainfall remains unexplored. This study uses two machine-learning models--gamma regression and a convolutional neural network (CNN)--trained on TW predictors from satellite-based GPM IMERG data to predict daily rainfall during the July-September monsoon season. Predictor variables are derived from the local amplitude and phase information of seven TW from the target and up-and-downstream neighboring grids at 1-degree spatial resolution. The ML models are combined with Easy Uncertainty Quantification (EasyUQ) to generate calibrated probabilistic forecasts and are compared with three benchmarks: Extended Probabilistic Climatology (EPC15), ECMWF operational ensemble forecast (ENS), and a probabilistic forecast from the ENS control member using EasyUQ (CTRL EasyUQ). The study finds that downstream predictor variables offer the highest predictability, with downstream tropical depression (TD)-type wave-based predictors being most important. Other waves like mixed-Rossby gravity (MRG), Kelvin, and inertio-gravity waves also contribute significantly but show regional preferences. ENS forecasts exhibit poor skill due to miscalibration. CTRL EasyUQ shows improvement over ENS and marginal enhancement over EPC15. Both gamma regression and CNN forecasts significantly outperform benchmarks in tropical Africa. This study highlights the potential of ML models trained on TW-based predictors to improve daily precipitation forecasts in tropical Africa.
翻訳日:2024-08-30 14:32:51 公開日:2024-08-29
# DetectBERT:Androidマルウェア検出のための完全なアプリレベル表現学習を目指す

DetectBERT: Towards Full App-Level Representation Learning to Detect Android Malware ( http://arxiv.org/abs/2408.16353v1 )

ライセンス: Link先を確認
Tiezhu Sun, Nadia Daoudi, Kisub Kim, Kevin Allix, Tegawendé F. Bissyandé, Jacques Klein, (参考訳) MLとDLの最近の進歩は、Androidのマルウェア検出を大幅に改善しているが、多くの方法論は、複雑な悪意のある振る舞いをキャプチャできないような基本的な静的解析、バイトコード、関数コールグラフに依存している。 DexBERTは、Android表現学習に適した、事前訓練されたBERTライクなモデルで、APKから抽出されたSmaliコードを解析することによって、クラスレベルの表現を充実させる。 しかし、その機能は複数のSmaliクラスを同時に処理できないことによる制約がある。 本稿では,Android マルウェアの高次元性と可変性を扱うために,相関型多重インスタンス学習 (c-MIL) と DexBERT を統合し,効果的なアプリレベルの検出を可能にする DetectBERT を提案する。 クラスレベルの機能をMILバッグ内のインスタンスとして扱うことで、T DetectBERTはこれらを包括的なアプリレベルの表現に集約する。 評価の結果,T DetectBERT は既存の最先端検出手法に勝るだけでなく,マルウェアの脅威の進展にも適応していることがわかった。 さらに、T DetectBERTフレームワークの汎用性は、アプリケーションレベルの分析やその他のソフトウェアエンジニアリングタスクにおいて、より広範なアプリケーションに対して有望な可能性を秘めている。

Recent advancements in ML and DL have significantly improved Android malware detection, yet many methodologies still rely on basic static analysis, bytecode, or function call graphs that often fail to capture complex malicious behaviors. DexBERT, a pre-trained BERT-like model tailored for Android representation learning, enriches class-level representations by analyzing Smali code extracted from APKs. However, its functionality is constrained by its inability to process multiple Smali classes simultaneously. This paper introduces DetectBERT, which integrates correlated Multiple Instance Learning (c-MIL) with DexBERT to handle the high dimensionality and variability of Android malware, enabling effective app-level detection. By treating class-level features as instances within MIL bags, DetectBERT aggregates these into a comprehensive app-level representation. Our evaluation demonstrates that DetectBERT not only surpasses existing state-of-the-art detection methods but also adapts to evolving malware threats. Moreover, the versatility of the DetectBERT framework holds promising potential for broader applications in app-level analysis and other software engineering tasks, offering new avenues for research and development.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# NeRF-CA : 超軽視的X線冠動脈造影像の動的再構成

NeRF-CA: Dynamic Reconstruction of X-ray Coronary Angiography with Extremely Sparse-views ( http://arxiv.org/abs/2408.16355v1 )

ライセンス: Link先を確認
Kirsten W. H. Maas, Danny Ruijters, Anna Vilanova, Nicola Pezzotti, (参考訳) 2次元X線冠動脈造影(CA)による動的3次元再建(4D)は重要な臨床的問題である。 課題としては、スパースビューの設定、スキャン内動作、構造空間や背景閉塞のような複雑な血管形態などがある。 既存のCA再構成手法では、広範なユーザインタラクションや大規模なトレーニングデータセットが必要になることが多い。 一方,ニューラル・レージアンス・フィールド(NeRF)は,自然・医療シーンの高忠実な静的シーンの再構築に成功している。 しかし、最近の研究は、X線血管造影の文脈でNeRFを適用する際に、スパースビュー、背景閉塞、ダイナミックスが依然として課題であることを示した。 一方、自然界における多くの成功作品において、ダイナミックスを扱うためのスパースビュー再構成やシーン分解の規則化が提案されている。 しかし、これらの手法は、課題と背景排除の両方が重要であるCAコンテキストに直接翻訳するわけではない。 本報告では4次元CA再建法の第1段階であるNeRF-CAについて紹介する。 冠動脈の運動を利用してシーンをダイナミックな冠動脈成分と静的な背景に分離する。 このシーンの分解と調整された正規化手法を組み合わせる。 これらの技術は、ダイナミックな構造空間とシーンの滑らかさを強制することにより、冠動脈の背景からの分離を強制する。 これらの手法を一意に組み合わせることで,4つの血管造影シークエンスから4次元再構成を行うことができる。 この設定は臨床ワークフローと一致し、最先端のX線スパースビューNeRF再構成技術より優れている。 我々は,4次元ファントムデータセットとアブレーション研究を用いて,定量的かつ定性的にアプローチを検証する。

Dynamic three-dimensional (4D) reconstruction from two-dimensional X-ray coronary angiography (CA) remains a significant clinical problem. Challenges include sparse-view settings, intra-scan motion, and complex vessel morphology such as structure sparsity and background occlusion. Existing CA reconstruction methods often require extensive user interaction or large training datasets. On the other hand, Neural Radiance Field (NeRF), a promising deep learning technique, has successfully reconstructed high-fidelity static scenes for natural and medical scenes. Recent work, however, identified that sparse-views, background occlusion, and dynamics still pose a challenge when applying NeRF in the X-ray angiography context. Meanwhile, many successful works for natural scenes propose regularization for sparse-view reconstruction or scene decomposition to handle dynamics. However, these techniques do not directly translate to the CA context, where both challenges and background occlusion are significant. This paper introduces NeRF-CA, the first step toward a 4D CA reconstruction method that achieves reconstructions from sparse coronary angiograms with cardiac motion. We leverage the motion of the coronary artery to decouple the scene into a dynamic coronary artery component and static background. We combine this scene decomposition with tailored regularization techniques. These techniques enforce the separation of the coronary artery from the background by enforcing dynamic structure sparsity and scene smoothness. By uniquely combining these approaches, we achieve 4D reconstructions from as few as four angiogram sequences. This setting aligns with clinical workflows while outperforming state-of-the-art X-ray sparse-view NeRF reconstruction techniques. We validate our approach quantitatively and qualitatively using 4D phantom datasets and ablation studies.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# 集合作用素に沿った絡み合いの測定

Measuring entanglement along collective operators ( http://arxiv.org/abs/2408.16356v1 )

ライセンス: Link先を確認
Éloi Descamps, Arne Keller, Pérola Milman, (参考訳) 本稿では,集団変数の挙動を解析し,多党間の絡み合いを研究するための枠組みを提案する。 原稿全体を通して,集合可観測体のゆらぎによって検出できる,特定の種類の多人数絡みを探索する。 我々は、その特性と、それを既存の文献の文脈に配置しながら、どのように混合状態に拡張できるかを徹底的に分析する。 このアプローチの斬新さは、グラフィカルな視点を示すという事実にも関係しています。 これは、エンタングルメント量子化器の様々な性質が直接ピクトロリアル解釈を持つスペクトル空間を導入することで実現される。 特にこのアプローチは、以前に確立された不等式を拡張する能力を示すため、$k$-絡み合いを評価するのに特に有効である。 理解を深めるために、このフレームワークが有限次元ケースと無限次元システムの両方を含む特定のシナリオにどのように適用されるかを示す。

We introduce a framework for the study of multiparty entanglement by analyzing the behavior of collective variables. Throughout the manuscript, we explore a specific type of multiparty entanglement which can be detected through the fluctuation of a collective observable. We thoroughly analyze its properties and how it can be extended to mixed states while placing it within the context of the existing literature. The novelty of our approach also lies in the fact that we present a graphical point of view. This is done by introducing a spectral space on which the various properties of our entanglement quantifier have a direct pictorial interpretation. Notably, this approach proves particularly effective for assessing $k$-entanglement, as we show its ability to extend previously established inequalities. To enhance understanding, we also demonstrate how this framework applies to specific scenarios, encompassing both finite-dimensional cases and infinite-dimensional systems, the latter being exemplified by the time-frequency modal degree of freedom of co-propagating single photons.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# MLLMにおける視覚表現法

Law of Vision Representation in MLLMs ( http://arxiv.org/abs/2408.16357v1 )

ライセンス: Link先を確認
Shijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu, (参考訳) マルチモーダル大言語モデル(MLLM)における「視覚表現の法」について述べる。 クロスモーダルアライメント, 視覚表現の対応, MLLM性能の組合せは強い相関関係を示す。 クロスモーダルアライメントと対応スコア(ACスコア)を用いて2つの因子を定量化する。 8つのベンチマークにおいて、13の異なる視覚表現設定と評価を含む広範囲な実験により、ACスコアがモデル性能と線形に相関していることが判明した。 この関係を利用することで、最適な視覚表現を識別し、訓練することができるが、言語モデルを微調整する必要がないため、計算コストは99.7%削減される。

We present the "Law of Vision Representation" in multimodal large language models (MLLMs). It reveals a strong correlation between the combination of cross-modal alignment, correspondence in vision representation, and MLLM performance. We quantify the two factors using the cross-modal Alignment and Correspondence score (AC score). Through extensive experiments involving thirteen different vision representation settings and evaluations across eight benchmarks, we find that the AC score is linearly correlated to model performance. By leveraging this relationship, we are able to identify and train the optimal vision representation only, which does not require finetuning the language model every time, resulting in a 99.7% reduction in computational cost.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# 広帯域における高信号-雑音比改善による小型フットプリント移動波パラメトリック増幅器

A small footprint travelling-wave parametric amplifier with a high Signal-to-Noise Ratio improvement in a wide band ( http://arxiv.org/abs/2408.16366v1 )

ライセンス: Link先を確認
Hampus Renberg Nilsson, Liangyu Chen, Giovanna Tancredi, Robert Rehammar, Daryoush Shiri, Filip Nilsson, Amr Osman, Vitaly Shumeiko, Per Delsing, (参考訳) 小型フットプリントトラベル波パラメトリック増幅器(TWPA)を特徴付ける。 TWPAは磁束可変超伝導非対称誘導素子(SNAIL)とパラレルプレートコンデンサを備える。 共振位相マッチング(RPM)を備えた3波混合(3WM)、単位セル当たりの高利得のための小さな遮断周波数、大帯域インピーダンスマッチングのためのインピーダンスマッチングネットワークを実装している。 この装置は200個の単位セルと1.1mm^2の物理フットプリントしか持たないが、3GHz帯で平均19dBのパラメトリックゲイン、平均10dBの有効信号対雑音比の改善、およびキュービット読み出し時間の明確な高速化を示す。

We characterise a small footprint travelling-wave parametric amplifier (TWPA). The TWPA is built with magnetically flux-tunable superconducting nonlinear asymmetric inductive elements (SNAILs) and parallel-plate capacitors. It implements three-wave mixing (3WM) with resonant phase matching (RPM), a small cutoff frequency for high gain per unitcell and impedance matching networks for large bandwidth impedance matching. The device has 200 unitcells and a physical footprint of only 1.1 mm^2, yet demonstrates an average parametric gain of 19 dB over a 3 GHz bandwidth, an average effective signal-to-noise ratio improvement of 10 dB and a clear speedup of qubit readout time.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# 定数深さの有界多項式しきい値回路から無条件に$\mathsf{QNC}^0$を分離する

Unconditionally separating noisy $\mathsf{QNC}^0$ from bounded polynomial threshold circuits of constant depth ( http://arxiv.org/abs/2408.16378v1 )

ライセンス: Link先を確認
Min-Hsiu Hsieh, Leandro Mendes, Michael de Oliveira, Sathyawageeswar Subramanian, (参考訳) 制限多項式しきい値関数を計算するゲートを持つ定数深さ回路のクラスについて、最近[Kum23]により、$\mathsf{AC}^0$を厳密に一般化する族として導入された。 これらの回路群を$\mathsf{bPTFC}^0[k]$ for $\textit{bounded polynomial threshold circuits}$パラメータ化すると、これらのクラスを定数深さ量子回路(\mathsf{QNC}^0$)から分離する3つの硬度結果が証明される。 $\hspace{2em}$ - パリティ半減算問題 [WKS+19] は qubits 上の$\mathsf{QNC}^0$ が確実に解けることを証明し、多項式サイズに対して $\mathsf{bPTFC}^0[k]$ の平均ケースハードは、すべての$k=\mathcal{O}(n^{1/(5d)})$ に対して残る。 $\hspace{2em}$ - 計算量$\mathsf{mod}\ p$を各素数$p>2$に対して構築し、高次元量子システム(`qupits')上の$\mathsf{QNC}^0$回路と、上記の次数有界パラメータに対する$\mathsf{bPTFC}^0[k]$回路との分離を証明する。 $\hspace{2em}$ - どちらの結果も局所確率的ノイズモデルの下でノイズロスであることを証明するため、非Clifford $\mathsf{QNC}^0/|\overline{T^{1/p}}>のフォールトトレラントな実装を導入する。 $\mathsf{bPTFC}^0[k]$回路は、ポリノミアル閾値関数(PTF)のある種のクラスを計算できる。 さらに、$k$, $\mathsf{bPTFC}^0[k]$は、サブクラスとして$\mathsf{TC}^0$を含む。 私たちが克服する主な課題は、古典的な平均ケースの下限の確立、勝利確率における量子古典的ギャップを持つ非局所ゲームの設計、量子ビットを超えて高次元に拡張するために必要なノイズ耐性の非クリフォード量子回路の開発である。

We study classes of constant-depth circuits with gates that compute restricted polynomial threshold functions, recently introduced by [Kum23] as a family that strictly generalizes $\mathsf{AC}^0$. Denoting these circuit families $\mathsf{bPTFC}^0[k]$ for $\textit{bounded polynomial threshold circuits}$ parameterized by an integer-valued degree-bound $k$, we prove three hardness results separating these classes from constant-depth quantum circuits ($\mathsf{QNC}^0$). $\hspace{2em}$ - We prove that the parity halving problem [WKS+19], which $\mathsf{QNC}^0$ over qubits can solve with certainty, remains average-case hard for polynomial size $\mathsf{bPTFC}^0[k]$ circuits for all $k=\mathcal{O}(n^{1/(5d)})$. $\hspace{2em}$ - We construct a new family of relation problems based on computing $\mathsf{mod}\ p$ for each prime $p>2$, and prove a separation of $\mathsf{QNC}^0$ circuits over higher dimensional quantum systems (`qupits') against $\mathsf{bPTFC}^0[k]$ circuits for the same degree-bound parameter as above. $\hspace{2em}$ - We prove that both foregoing results are noise-robust under the local stochastic noise model, by introducing fault-tolerant implementations of non-Clifford $\mathsf{QNC}^0/|\overline{T^{1/p}}>$ circuits, that use logical magic states as advice. $\mathsf{bPTFC}^0[k]$ circuits can compute certain classes of Polynomial Threshold Functions (PTFs), which in turn serve as a natural model for neural networks and exhibit enhanced expressivity and computational capabilities. Furthermore, for large enough values of $k$, $\mathsf{bPTFC}^0[k]$ contains $\mathsf{TC}^0$ as a subclass. The main challenges we overcome include establishing classical average-case lower bounds, designing non-local games with quantum-classical gaps in winning probabilities and developing noise-resilient non-Clifford quantum circuits necessary to extend beyond qubits to higher dimensions.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# TG-PhyNN:時空間データの予測のための物理認識型グラフニューラルネットワークフレームワーク

TG-PhyNN: An Enhanced Physically-Aware Graph Neural Network framework for forecasting Spatio-Temporal Data ( http://arxiv.org/abs/2408.16379v1 )

ライセンス: Link先を確認
Zakaria Elabid, Lena Sasal, Daniel Busby, Abdenour Hadid, (参考訳) トラフィックフローや病気の拡散といったグラフ上の動的プロセスを正確に予測することは、依然として課題である。 グラフニューラルネットワーク(GNN)は時空間データのモデリングと予測に優れているが、基礎となる物理法則を直接組み込む能力に欠けることが多い。 この研究は、新しいテンポラルグラフ物理インフォームドニューラルネットワークフレームワークであるTG-PhyNNを提示する。 TG-PhyNNは、グラフベースのモデリングにGNNのパワーを活用しながら、トレーニング中に物理的な制約を指針原理として組み込む。 これは、GNNアーキテクチャ内の物理方程式微分の計算を可能にする2段階の予測戦略によって達成される。 以上の結果から,TG-PhyNNはPedalMe(交通流)やCOVID-19の拡散,Chickenpoxの発生といった実世界の時空間データセットにおいて,従来の予測モデル(GRU,LSTM,GAT)よりも有意に優れていた。 TG-PhyNNは、物理的プロセスがデータのダイナミクスを制御しているさまざまな領域において、より信頼性が高く正確な予測を提供するために効果的に活用する。 これは、交通流の予測、疫病の発生予測、そして物理学が重要な役割を果たす可能性のある他の分野における予測を改善するための道を開く。

Accurately forecasting dynamic processes on graphs, such as traffic flow or disease spread, remains a challenge. While Graph Neural Networks (GNNs) excel at modeling and forecasting spatio-temporal data, they often lack the ability to directly incorporate underlying physical laws. This work presents TG-PhyNN, a novel Temporal Graph Physics-Informed Neural Network framework. TG-PhyNN leverages the power of GNNs for graph-based modeling while simultaneously incorporating physical constraints as a guiding principle during training. This is achieved through a two-step prediction strategy that enables the calculation of physical equation derivatives within the GNN architecture. Our findings demonstrate that TG-PhyNN significantly outperforms traditional forecasting models (e.g., GRU, LSTM, GAT) on real-world spatio-temporal datasets like PedalMe (traffic flow), COVID-19 spread, and Chickenpox outbreaks. These datasets are all governed by well-defined physical principles, which TG-PhyNN effectively exploits to offer more reliable and accurate forecasts in various domains where physical processes govern the dynamics of data. This paves the way for improved forecasting in areas like traffic flow prediction, disease outbreak prediction, and potentially other fields where physics plays a crucial role.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# ビデオ中の会話グループの検出と次の話者の予測のための時間情報公開

Exploiting temporal information to detect conversational groups in videos and predict the next speaker ( http://arxiv.org/abs/2408.16380v1 )

ライセンス: Link先を確認
Lucrezia Tosato, Victor Fortier, Isabelle Bloch, Catherine Pelachaud, (参考訳) ヒトの相互作用の研究は、社会的相互作用における参加者の空間配置を記述するためにF形成の概念を導入した。 本論文には2つの目的がある。 ビデオシーケンス中のF生成を検出し、グループ会話における次の話者を予測することを目的としている。 提案手法はビデオシーケンス中の時間情報と人間のマルチモーダル信号を利用する。 特に、グループに属する人々のエンゲージメントレベルを測定することに頼っています。 我々のアプローチでは、会話グループで誰が話者のターンを取るかを予測するために、再帰的ニューラルネットワークであるLong Short Term Memory(LSTM)を使用している。 MatchNMingleデータセットの実験では、グループ検出において85%の正が、次の話者を予測する上で98%の精度が得られた。

Studies in human human interaction have introduced the concept of F formation to describe the spatial arrangement of participants during social interactions. This paper has two objectives. It aims at detecting F formations in video sequences and predicting the next speaker in a group conversation. The proposed approach exploits time information and human multimodal signals in video sequences. In particular, we rely on measuring the engagement level of people as a feature of group belonging. Our approach makes use of a recursive neural network, the Long Short Term Memory (LSTM), to predict who will take the speaker's turn in a conversation group. Experiments on the MatchNMingle dataset led to 85% true positives in group detection and 98% accuracy in predicting the next speaker.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# 畳み込みニューラルネットワークを用いた効率的,スケーラブル,セキュアな画像推論のためのMoTION2NXの高速化

Enhancing MOTION2NX for Efficient, Scalable and Secure Image Inference using Convolutional Neural Networks ( http://arxiv.org/abs/2408.16387v1 )

ライセンス: Link先を確認
Haritha K, Ramya Burra, Srishti Mittal, Sarthak Sharma, Abhilash Venkatesh, Anshoo Tandon, (参考訳) この研究は、適度な計算資源を持つマシン上で、効率的でスケーラブルなオープンソースのセキュア・マルチパーティ・コンピューティング(SMPC)プロトコルの開発に寄与する。 我々は,C++ベースのMOTION2NXフレームワーク上に実装されたABY2.0 SMPCプロトコルを用いて,半正直なセキュリティを備えたセキュア畳み込みニューラルネットワーク(CNN)推論アプリケーションを開発した。 コントリビューションのリストは以下の通りです。 まず、アダマール積、インジケータ関数、argmax関数を含むいくつかの原始関数のテンソル化バージョンを提供することにより、MOTION2NXを強化する。 ベースラインMOTION2NX実装で利用可能なセキュアなRelu関数を利用する新しいアプローチに基づくセキュアなインジケータ関数の設計。 セキュアなインジケータ関数は、新しいセキュアなargmaxの実装のためのビルディングブロックとして使用される。 第二に、各CNN層における計算を複数の構成可能なチャンクに分割し、RAM使用量を大幅に削減する。 第3に、効率的な畳み込み計算のために既存のヘルパーノードアルゴリズムをABY2.0プロトコルと併用して適用する。 このアルゴリズムは実行時間を短縮するだけでなく、CNNモデルの実行に必要なRAM使用量を削減します。 さらに,本論文で提示したアイデアは,ニューラルネットワークのセキュアなトレーニングにも適用可能である。

This work contributes towards the development of an efficient and scalable open-source Secure Multi-Party Computation (SMPC) protocol on machines with moderate computational resources. We use the ABY2.0 SMPC protocol implemented on the C++ based MOTION2NX framework for secure convolutional neural network (CNN) inference application with semi-honest security. Our list of contributions are as follows. Firstly, we enhance MOTION2NX by providing a tensorized version of several primitive functions including the Hadamard product, indicator function and argmax function. Our design of secure indicator function based on a novel approach that uses secure Relu function available in the baseline MOTION2NX implementation. The secure indicator function is used, in turn, as a building block for a novel implementation of secure argmax. Secondly, we also develop a novel splitting of the computations at each CNN layer into multiple configurable chunks thereby resulting in significant reduction in RAM usage. Thirdly, we adapt an existing Helper node algorithm, working in tandem with the ABY2.0 protocol, for efficient convolution computation. This algorithm not only reduces execution time but also reduces the RAM usage required to execute CNN models, but comes at a cost of an additional compute server. Moreover, the ideas presented in this paper can also be applied to secure neural network training.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# ニューラルネットワーク文学におけるKARTとUATの共通解釈

Addressing Common Misinterpretations of KART and UAT in Neural Network Literature ( http://arxiv.org/abs/2408.16389v1 )

ライセンス: Link先を確認
Vugar Ismailov, (参考訳) このノートは、KART(Kolmogorov-Arnold Representation Theorem)とUAT(Universal Approximation Theorem)に言及し、ニューラルネットワーク近似に関するいくつかの論文で共通の誤解に焦点を当てている。 我々の発言は、ニューラルネットワークの専門家の間でのKARTとUATのより正確な理解を支援することを目的としています。

This note addresses the Kolmogorov-Arnold Representation Theorem (KART) and the Universal Approximation Theorem (UAT), focusing on their common misinterpretations in some papers related to neural network approximation. Our remarks aim to support a more accurate understanding of KART and UAT among neural network specialists.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# MQM-Chat:チャット翻訳のための多次元品質メトリクス

MQM-Chat: Multidimensional Quality Metrics for Chat Translation ( http://arxiv.org/abs/2408.16390v1 )

ライセンス: Link先を確認
Yunmeng Li, Jun Suzuki, Makoto Morishita, Kaori Abe, Kentaro Inui, (参考訳) チャットの複雑さは、機械翻訳モデルに重大な課題をもたらす。 チャット翻訳の課題に対処するための正確な評価基準の必要性を認識し, チャット翻訳のための多次元品質指標(MQM-Chat)を提案する。 MQM-Chatを用いた5つのモデルの実験により,全てのモデルが何らかの根本的な誤りを発生させるのに対し,各モデルには欠落,曖昧なソース内容の過度な修正,バズワードの問題など,異なる欠点があることがわかった。 本研究は,チャット翻訳評価におけるMQM-Chatの有効性を実証し,今後の研究における文体化コンテンツの重要性と対話の整合性を強調した。

The complexities of chats pose significant challenges for machine translation models. Recognizing the need for a precise evaluation metric to address the issues of chat translation, this study introduces Multidimensional Quality Metrics for Chat Translation (MQM-Chat). Through the experiments of five models using MQM-Chat, we observed that all models generated certain fundamental errors, while each of them has different shortcomings, such as omission, overly correcting ambiguous source content, and buzzword issues, resulting in the loss of stylized information. Our findings underscore the effectiveness of MQM-Chat in evaluating chat translation, emphasizing the importance of stylized content and dialogue consistency for future studies.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# TempoKGAT: 時間グラフ解析のための新しいグラフ注意ネットワークアプローチ

TempoKGAT: A Novel Graph Attention Network Approach for Temporal Graph Analysis ( http://arxiv.org/abs/2408.16391v1 )

ライセンス: Link先を確認
Lena Sasal, Daniel Busby, Abdenour Hadid, (参考訳) グラフニューラルネットワーク(GNN)は構造化データを扱う上で重要な機能を示しているが、その動的かつ時間的なデータへの応用は限定的だ。 本稿では,時間遅延重みと空間領域上の選択的な隣接集約機構を組み合わせた新しいグラフアテンションネットワークであるTempoKGATを提案する。 このアプローチでは,グラフデータの進化的特徴を表現するために,エッジ重みに基づくトップk近傍の選択を導入する。 本研究では, 時空間データを含む交通, エネルギー, 健康部門から得られた複数のデータセットを用いたTempoKGATの性能評価を行った。 提案手法の性能を,いくつかのオープンソースデータセットの文献に見られるいくつかの最先端手法と比較した。 提案手法は,全データセットに対して高い精度を示す。 これらの結果から,TempoKGATは予測精度を最適化し,時間的文脈におけるモデル解釈に新たな洞察を与えるため,既存の手法に基づいていることが示唆された。

Graph neural networks (GNN) have shown significant capabilities in handling structured data, yet their application to dynamic, temporal data remains limited. This paper presents a new type of graph attention network, called TempoKGAT, which combines time-decaying weight and a selective neighbor aggregation mechanism on the spatial domain, which helps uncover latent patterns in the graph data. In this approach, a top-k neighbor selection based on the edge weights is introduced to represent the evolving features of the graph data. We evaluated the performance of our TempoKGAT on multiple datasets from the traffic, energy, and health sectors involving spatio-temporal data. We compared the performance of our approach to several state-of-the-art methods found in the literature on several open-source datasets. Our method shows superior accuracy on all datasets. These results indicate that TempoKGAT builds on existing methodologies to optimize prediction accuracy and provide new insights into model interpretation in temporal contexts.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# ブラックボックス最適化におけるダイバーシティ・フィールド・トレードオフのイルミネーション

Illuminating the Diversity-Fitness Trade-Off in Black-Box Optimization ( http://arxiv.org/abs/2408.16393v1 )

ライセンス: Link先を確認
Maria Laura Santoni, Elena Raponi, Aneta Neumann, Frank Neumann, Mike Preuss, Carola Doerr, (参考訳) 現実世界のアプリケーションでは、ユーザーは1つの高品質なソリューションよりも構造的に多様な設計選択を好むことが多い。 したがって、意思決定者が追加基準に基づいて比較し、さらに探求できるソリューションを考えることが重要である。 本稿では, 進化的多様性最適化, 品質多様性, マルチモーダル最適化の既存アプローチと並行して, 平均品質を最大化しつつ, 所定の閾値を超えるペア方向の解数を求める問題を考えることにより, この問題に対する新たな視点を示す。 本研究は,多種多様な探索ヒューリスティックの探索軌跡のサブセット選択を行うことにより,これらの目的に対する最初の洞察を得る。 我々は、我々の研究の主目的は、新しいアルゴリズムを提示することではなく、より根本的で理論的な方法で問題を考察することである、と強調する。 これらの知見は、上述したアプローチのベンチマークアルゴリズムに役立てられる最適化問題の性質に関する一般的な主張を行う方法を提供する。 実験的な研究の驚くべき結果は、一様ランダムサンプリングが我々の問題にとって非常に強力なベースラインを確立することであり、考慮されたヒューリスティクスの探索軌跡にはほとんど見劣りしないことである。 我々はこれらの結果を,高平均品質の多様な解を生成するアルゴリズムを開発する動機と解釈する。

In real-world applications, users often favor structurally diverse design choices over one high-quality solution. It is hence important to consider more solutions that decision-makers can compare and further explore based on additional criteria. Alongside the existing approaches of evolutionary diversity optimization, quality diversity, and multimodal optimization, this paper presents a fresh perspective on this challenge by considering the problem of identifying a fixed number of solutions with a pairwise distance above a specified threshold while maximizing their average quality. We obtain first insight into these objectives by performing a subset selection on the search trajectories of different well-established search heuristics, whether specifically designed with diversity in mind or not. We emphasize that the main goal of our work is not to present a new algorithm but to look at the problem in a more fundamental and theoretically tractable way by asking the question: What trade-off exists between the minimum distance within batches of solutions and the average quality of their fitness? These insights also provide us with a way of making general claims concerning the properties of optimization problems that shall be useful in turn for benchmarking algorithms of the approaches enumerated above. A possibly surprising outcome of our empirical study is the observation that naive uniform random sampling establishes a very strong baseline for our problem, hardly ever outperformed by the search trajectories of the considered heuristics. We interpret these results as a motivation to develop algorithms tailored to produce diverse solutions of high average quality.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# IBO: 病理組織学における説明可能な人工知能評価の促進を目的とした塗布による排除

IBO: Inpainting-Based Occlusion to Enhance Explainable Artificial Intelligence Evaluation in Histopathology ( http://arxiv.org/abs/2408.16395v1 )

ライセンス: Link先を確認
Pardis Afshar, Sajjad Hashembeiki, Pouya Khani, Emad Fatemizadeh, Mohammad Hossein Rohban, (参考訳) 病理組織像解析は正確な癌診断と治療計画に不可欠である。 ディープラーニングモデル、特に畳み込みニューラルネットワークはこの分野を前進させてきたが、その"ブラックボックス"な性質は、解釈可能性と信頼性に関する懸念を引き起こす。 説明可能な人工知能(XAI)技術はこれらの懸念に対処することを目的としているが、その効果を評価することは依然として難しい。 現在のオクルージョンベースのXAI手法の大きな問題は、しばしばOoD(Out-of-Distribution)サンプルを生成し、不正確な評価をもたらすことである。 Inpainting-based Occlusion (IBO) は,Denoising Diffusion Probabilistic Model(DDD)を用いて,組織像に閉塞領域を塗布する新しいオクルージョン戦略である。 IBOは癌領域を現実的で非癌組織に置き換えることで、OoDアーティファクトを最小化し、データの完全性を維持する。 我々は,CAMELYON16データセット上で,まず学習された知覚的イメージパッチ類似度(LPIPS)測定値を用いて知覚的類似性を評価する。 以上の結果から,IBOは知覚の忠実度を有意に向上させ,LPIPSスコアの2倍近い改善を達成できた。 さらに、IBOは従来の手法に比べて、XAI性能予測の精度を42%から71%に向上させた。 これらの結果は、IBOがXAI技術の評価をより信頼性の高いものにし、病理学やその他の応用に役立てる可能性を示している。 この研究のソースコードはhttps://github.com/a-fsh-r/IBO.comで公開されている。

Histopathological image analysis is crucial for accurate cancer diagnosis and treatment planning. While deep learning models, especially convolutional neural networks, have advanced this field, their "black-box" nature raises concerns about interpretability and trustworthiness. Explainable Artificial Intelligence (XAI) techniques aim to address these concerns, but evaluating their effectiveness remains challenging. A significant issue with current occlusion-based XAI methods is that they often generate Out-of-Distribution (OoD) samples, leading to inaccurate evaluations. In this paper, we introduce Inpainting-Based Occlusion (IBO), a novel occlusion strategy that utilizes a Denoising Diffusion Probabilistic Model to inpaint occluded regions in histopathological images. By replacing cancerous areas with realistic, non-cancerous tissue, IBO minimizes OoD artifacts and preserves data integrity. We evaluate our method on the CAMELYON16 dataset through two phases: first, by assessing perceptual similarity using the Learned Perceptual Image Patch Similarity (LPIPS) metric, and second, by quantifying the impact on model predictions through Area Under the Curve (AUC) analysis. Our results demonstrate that IBO significantly improves perceptual fidelity, achieving nearly twice the improvement in LPIPS scores compared to the best existing occlusion strategy. Additionally, IBO increased the precision of XAI performance prediction from 42% to 71% compared to traditional methods. These results demonstrate IBO's potential to provide more reliable evaluations of XAI techniques, benefiting histopathology and other applications. The source code for this study is available at https://github.com/a-fsh-r/IBO.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# ハイパーエンタングル型複雑量子ネットワークの工学

Engineering of Hyperentangled Complex Quantum Networks ( http://arxiv.org/abs/2408.16397v1 )

ライセンス: Link先を確認
Murad Ahmad, Liaqat Ali, Muhammad Imran, Rameez-ul-Islam, Manzoor Ikram, Rafi Ud Din, Ashfaq Ahmad, Iftikhar Ahmad, (参考訳) ハイパーエンタングル状態は極めて効率的で資源経済である。 これは、物理資源を最小限に保ちながら、同じ量子実体の1度以上の自由の相関関係により量子情報の符号化能力を高めるためである。 したがって、当初、フォトニック超絡み合った状態は広範囲に探索されてきたが、原子の対向状態の生成とそれぞれの操作は、まだ少数の提案に限られている。 本研究では,量子生物学と量子通信の複雑な量子ネットワーク利用への応用を目的とした,原子超絡み合いクラスタとリンググラフ状態のキャビティQED技術を実現するための,新しい実現可能な手法を提案する。 これらの状態は、外部共鳴および共鳴ブラッグ回折(ABD)技術の下で、外部量子化モーメント状態と中性原子のエネルギー準位の両方を用いて設計される。 動的キャパシティとポテンシャル効率の研究は、これらの状態の有用性の範囲を確実に強化した。 現実的な騒音環境下での運転挙動をシミュレートし,提案した状態の持続可能性を示す。 さらに, 空洞QED研究シナリオにおいて, 提案手法の有効性について実験的に検討した。

Hyperentangled states are highly efficient and resource economical. This is because they enhance the quantum information encoding capabilities due to the correlated engagement of more than one degree of freedom of the same quantum entity while keeping the physical resources at their minimum. Therefore, initially the photonic hyperentangled states have been explored extensively but the generation and respective manipulation of the atomic counterpart states are still limited to only few proposals. In this work, we propose a new and feasible scheme to engineer the atomic hyperentangled cluster and ring graph states invoking cavity QED technique for applicative relevance to quantum biology and quantum communications utilizing the complex quantum networks. These states are engineered using both external quantized momenta states and energy levels of neutral atoms under off-resonant and resonant Atomic Bragg Diffraction (ABD) technique. The study of dynamical capacity and potential efficiency have certainly enhanced the range of usefulness of these states. In order to assess the operational behavior of such states when subjected to a realistic noise environment has also been simulated, demonstrating long enough sustainability of the proposed states. Moreover, experimental feasibility of the proposed scheme has also been elucidated under the prevailing cavity-QED research scenario.
翻訳日:2024-08-30 14:22:45 公開日:2024-08-29
# 快適ゾーン外:ソフトウェア脆弱性検出におけるLCM機能の解析

Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection ( http://arxiv.org/abs/2408.16400v1 )

ライセンス: Link先を確認
Yuejun Guo, Constantinos Patsakis, Qiang Hu, Qiang Tang, Fran Casino, (参考訳) 自動化と開発ライフサイクルの高速化によるソフトウェア生産の大幅な増加は、ソフトウェア脆弱性の急増につながった。 並行して、ソフトウェア脆弱性検出の進化する状況は、従来のメソッドから機械学習と大規模言語モデル(LLM)への移行を強調し、リソース要求の計算コストで大きなチャンスを提供する。 本稿では,LLMのソースコード中の脆弱性検出能力について,通常のセキュリティタスクにおける可能性を研究するために,通常のアプリケーション以外のモデルをテストすることによって,徹底的に解析する。 我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能評価を行った。 私たちのデータセットは、最先端の5つのベンチマークデータセットとともに、バイナリ分類タスクを活用するパイプラインの作成に使用しました。 この結果は、ベンチマーク間での分類精度の有意な違いを浮き彫りにし、より大型のLSMの検出能力を高めるための微調整の重大な影響を明らかにしたが、訓練された特定のシナリオに限られていた。 さらなる実験と分析は、現在のベンチマークデータセット、特にミスラベルとモデルトレーニングとパフォーマンスへの影響に関する問題を浮き彫りにしている。 また、モデルトレーニングとデータセットのキュレーションを改善するための戦略を提案する。

The significant increase in software production driven by automation and faster development lifecycles has resulted in a corresponding surge in software vulnerabilities. In parallel, the evolving landscape of software vulnerability detection, highlighting the shift from traditional methods to machine learning and large language models (LLMs), provides massive opportunities at the cost of resource-demanding computations. This paper thoroughly analyses LLMs' capabilities in detecting vulnerabilities within source code by testing models beyond their usual applications to study their potential in cybersecurity tasks. We evaluate the performance of six open-source models that are specifically trained for vulnerability detection against six general-purpose LLMs, three of which were further fine-tuned on a dataset that we compiled. Our dataset, alongside five state-of-the-art benchmark datasets, were used to create a pipeline to leverage a binary classification task, namely classifying code into vulnerable and non-vulnerable. The findings highlight significant variations in classification accuracy across benchmarks, revealing the critical influence of fine-tuning in enhancing the detection capabilities of small LLMs over their larger counterparts, yet only in the specific scenarios in which they were trained. Further experiments and analysis also underscore the issues with current benchmark datasets, particularly around mislabeling and their impact on model training and performance, which raises concerns about the current state of practice. We also discuss the road ahead in the field suggesting strategies for improved model training and dataset curation.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# JINet:誰でも簡単に安全にプライベートデータ分析ができる

JINet: easy and secure private data analysis for everyone ( http://arxiv.org/abs/2408.16402v1 )

ライセンス: Link先を確認
Giada Lalli, James Collier, Yves Moreau, Daniele Raimondi, (参考訳) JINetは、先進的な臨床およびゲノムデータ解析ソフトウェアへのアクセスを民主化するためのWebブラウザベースのプラットフォームである。 データはマシンを離れることなく、各ユーザのWebブラウザの安全で実行される多数のデータ分析アプリケーションをホストしている。 JINetは、データではなくスクリプトを共有し、ユーザとデータ分析ツールがJINetの相互運用性プリミティブによって対話する、自己持続的なコミュニティを構築することで、コラボレーション、標準化、再現性を促進する。

JINet is a web browser-based platform intended to democratise access to advanced clinical and genomic data analysis software. It hosts numerous data analysis applications that are run in the safety of each User's web browser, without the data ever leaving their machine. JINet promotes collaboration, standardisation and reproducibility by sharing scripts rather than data and creating a self-sustaining community around it in which Users and data analysis tools developers interact thanks to JINets interoperability primitives.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# DeepSPoC: カオスの逐次伝播によるディープラーニングベースのPDEソリューション

DeepSPoC: A Deep Learning-Based PDE Solver Governed by Sequential Propagation of Chaos ( http://arxiv.org/abs/2408.16403v1 )

ライセンス: Link先を確認
Kai Du, Yongle Xie, Tao Zhou, Yuancheng Zhou, (参考訳) カオスの逐次伝播(SPoC)は、平均場確率微分方程式とその関連する非線形フォッカー・プランク方程式を解くために最近開発されたツールである。 SPoCの理論に基づいて,SPoCの相互作用粒子系と深層学習を組み合わせた新しい手法(deepSPoC)を提案する。 DeepSPoCの枠組みの下では、よく使われるディープモデルの2つのクラスは、完全に接続されたニューラルネットワークと正規化フローを含む。 高次元問題に対しては、深部SPoCの精度と効率をより高めるために空間適応法が設計されている。 我々は,いくつかの簡易な条件下でのディープSPoCのフレームワークの収束を解析し,アルゴリズムの後方誤差推定を提供する。 最後に,この手法を様々な種類の平均場方程式で検証する。

Sequential propagation of chaos (SPoC) is a recently developed tool to solve mean-field stochastic differential equations and their related nonlinear Fokker-Planck equations. Based on the theory of SPoC, we present a new method (deepSPoC) that combines the interacting particle system of SPoC and deep learning. Under the framework of deepSPoC, two classes of frequently used deep models include fully connected neural networks and normalizing flows are considered. For high-dimensional problems, spatial adaptive method are designed to further improve the accuracy and efficiency of deepSPoC. We analysis the convergence of the framework of deepSPoC under some simplified conditions and also provide a posterior error estimation for the algorithm. Finally, we test our methods on a wide range of different types of mean-field equations.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# 量子回路と古典回路の指数分離への応用による回路下界の改善

Improved Circuit Lower Bounds With Applications to Exponential Separations Between Quantum and Classical Circuits ( http://arxiv.org/abs/2408.16406v1 )

ライセンス: Link先を確認
Sabee Grewal, Vinayak M. Kumar, (参考訳) Kumar は AC^0 だけでなく、指数サイズの TC^0 回路を必要とする単一のゲート演算関数を持つ回路クラス GC^0 に対して指数サイズの下界を証明するためにスイッチング補題を使用した。 主な結果は、GC^0が指数サイズのTC^0回路を必要とするにもかかわらず、パラメータが失われることなくAC^0リフトをGC^0に切り替えることである。 直交的に、GC^0 は AC^0 であり、十分に小さなハミング球の内部で任意に振る舞う非有界ファンインゲートを持つ。 本稿では,GC^0[p](MODpゲート付きGC^0)と多項式法について類似した結果を示す。 具体的には,AC^0[p] を GC^0[p] に昇降させる多項式法の下界がパラメータの損失を伴わないことを示す。 応用として、Majorityは270Omega(n^{1/2(d-1)})}$の深さd GC^0[p]回路を必要とすることを証明し、AC^0[p]の最先端下界と一致する。 また、E^NP は指数サイズの GCC^0 回路(すべての m に対して GC^0[m] の結合)を必要とすることを示し、ウィリアムズの結果を拡張した。 スイッチング補題、多項式法、アルゴリズム法はすべてGC^0関連クラスに一般化され、最初の2つのメソッドは損失を伴わない。 1) BQP が多項式階層から Rz と Tal の相対化された BQP の分離を一般化し、サイズが 2^{n^{O(1)}}$ GC^0 の均一な族で決定できる言語群に含まれないオラクルが存在する。 2) 指数型GC^0回路ではQNC^0回路は解けるが, 平均ケースハードは難しい。 3) QNC^0/qpoly回路は, 指数型GC^0[p]回路では, 平均ケースハードで解くことができる。 4) QNC^0 回路では解けるが指数サイズの GC^0[p] 回路では解けない。

Kumar used a switching lemma to prove exponential-size lower bounds for a circuit class GC^0 that not only contains AC^0 but can--with a single gate--compute functions that require exponential-size TC^0 circuits. His main result was that switching-lemma lower bounds for AC^0 lift to GC^0 with no loss in parameters, even though GC^0 requires exponential-size TC^0 circuits. Informally, GC^0 is AC^0 with unbounded-fan-in gates that behave arbitrarily inside a sufficiently small Hamming ball but must be constant outside it. We show an analogous result for GC^0[p] (GC^0 with MODp gates) and the polynomial method. Specifically, we show that polynomial-method lower bounds for AC^0[p] lift to GC^0[p] with no loss in parameters. As an application, we prove Majority requires depth-d GC^0[p] circuits of size $2^{\Omega(n^{1/2(d-1)})}$, matching the state-of-the-art lower bounds for AC^0[p]. We also show that E^NP requires exponential-size GCC^0 circuits (the union of GC^0[m] for all m), extending the result of Williams. It is striking that the switching lemma, polynomial method, and algorithmic method all generalize to GC^0-related classes, with the first two methods doing so without any loss. We also establish the strongest known unconditional separations between quantum and classical circuits: 1. There's an oracle relative to which BQP is not contained in the class of languages decidable by uniform families of size-$2^{n^{O(1)}}$ GC^0 circuits, generalizing Raz and Tal's relativized separation of BQP from the polynomial hierarchy. 2. There's a search problem that QNC^0 circuits can solve but average-case hard for exponential-size GC^0 circuits. 3. There's a search problem that QNC^0/qpoly circuits can solve but average-case hard for exponential-size GC^0[p] circuits. 4. There's an interactive problem that QNC^0 circuits can solve but exponential-size GC^0[p] circuits cannot.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# 相互運用性の定義:ユニバーサル標準

Defining Interoperability: a universal standard ( http://arxiv.org/abs/2408.16411v1 )

ライセンス: Link先を確認
Giada Lalli, (参考訳) 相互運用性は近代的な科学的進歩には不可欠であるが、ドメイン間の断片化された定義は研究者の報酬を効果的に享受する能力を妨げている。 本稿では、相互運用性の進化をトレースし、様々な定義によって生じる課題を特定することによって、新しい普遍的な定義を提案する。 この定義はこれらの矛盾に対処し、様々な分野に適用可能な堅牢なソリューションを提供する。 この統一されたアプローチを採用することで、グローバルなコラボレーションが強化され、矛盾や不完全な定義によって生じる相互運用性の障害を取り除くことでイノベーションが促進される。

Interoperability is crucial for modern scientific advancement, yet its fragmented definitions across domains hinder researchers' ability to effectively reap the rewards. This paper proposes a new, universal definition by tracing the evolution of interoperability and identifying challenges posed by varying definitions. This definition addresses these inconsistencies, offering a robust solution applicable across diverse fields. Adopting this unified approach will enhance global collaboration and drive innovation by removing obstacles to interoperability posed by conflicting or incomplete definitions.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# テキスト強化ゼロショット動作認識:トレーニング不要アプローチ

Text-Enhanced Zero-Shot Action Recognition: A training-free approach ( http://arxiv.org/abs/2408.16412v1 )

ライセンス: Link先を確認
Massimo Bosetti, Shibingfeng Zhang, Bendetta Liberatori, Giacomo Zara, Elisa Ricci, Paolo Rota, (参考訳) 視覚言語モデル(VLM)は、視覚的およびテキスト的表現の合同学習を活用することで、様々な視覚的タスクにおいて顕著な性能を示した。 これらのモデルは、ゼロショット画像タスクにおいて優れているが、アクションの動的および時間的性質のため、ゼロショットビデオアクション認識(ZSVAR)への応用は依然として困難である。 ZS-VARの既存の方法は、通常、特定のデータセットを広範囲にトレーニングする必要がある。 本研究では,ZS-VARに対する簡単なアプローチであるテキスト強化行動認識(TEAR)を提案する。 近年の視覚学・言語学の知見から着想を得て,ゼロショット・アクション認識を向上するために,動作記述子を分解と文脈情報に利用した。 UCF101, HMDB51, Kinetics-600データセットの実験を通じて,ZS-VARの課題に対処するための提案手法の有効性と適用性を示す。

Vision-language models (VLMs) have demonstrated remarkable performance across various visual tasks, leveraging joint learning of visual and textual representations. While these models excel in zero-shot image tasks, their application to zero-shot video action recognition (ZSVAR) remains challenging due to the dynamic and temporal nature of actions. Existing methods for ZS-VAR typically require extensive training on specific datasets, which can be resource-intensive and may introduce domain biases. In this work, we propose Text-Enhanced Action Recognition (TEAR), a simple approach to ZS-VAR that is training-free and does not require the availability of training data or extensive computational resources. Drawing inspiration from recent findings in vision and language literature, we utilize action descriptors for decomposition and contextual information to enhance zero-shot action recognition. Through experiments on UCF101, HMDB51, and Kinetics-600 datasets, we showcase the effectiveness and applicability of our proposed approach in addressing the challenges of ZS-VAR.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# フーリエ分光インフォームドニューラルネットワーク : 効率的かつ低メモリのPINN

Fourier Spectral Physics Informed Neural Network: An Efficient and Low-Memory PINN ( http://arxiv.org/abs/2408.16414v1 )

ライセンス: Link先を確認
Tianchi Yu, Yiming Qi, Ivan Oseledets, Shiyi Chen, (参考訳) 物理インフォームドニューラルネットワーク(PINN)による偏微分方程式の解法の研究が進み、科学計算の実際的な要求を満たすためには、より正確で効率的なPINNが必要である。 現在のPINNのボトルネックの1つは、しばしばかなりの計算資源を必要とする自動微分による高次微分の計算である。 本稿では,空間微分の自動微分の除去に焦点をあて,微分演算子を乗法で置き換えるスペクトルベースニューラルネットワークを提案する。 PINNと比較して、我々のアプローチはメモリの削減とトレーニング時間の短縮を必要とする。 スペクトル基底の指数収束により、我々のアプローチはより正確である。 さらに、物理領域とスペクトル領域の異なる状況を扱うために、スペクトル情報を用いてネットワークを訓練する2つの戦略を提供する。 一連の総合実験を通じて,提案したネットワークのメリットを検証した。

With growing investigations into solving partial differential equations by physics-informed neural networks (PINNs), more accurate and efficient PINNs are required to meet the practical demands of scientific computing. One bottleneck of current PINNs is computing the high-order derivatives via automatic differentiation which often necessitates substantial computing resources. In this paper, we focus on removing the automatic differentiation of the spatial derivatives and propose a spectral-based neural network that substitutes the differential operator with a multiplication. Compared to the PINNs, our approach requires lower memory and shorter training time. Thanks to the exponential convergence of the spectral basis, our approach is more accurate. Moreover, to handle the different situations between physics domain and spectral domain, we provide two strategies to train networks by their spectral information. Through a series of comprehensive experiments, We validate the aforementioned merits of our proposed network.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# ウイルス感染リスク分析のための3次元トポロジカルモデリングとマルチエージェント運動シミュレーション

3D Topological Modeling and Multi-Agent Movement Simulation for Viral Infection Risk Analysis ( http://arxiv.org/abs/2408.16417v1 )

ライセンス: Link先を確認
Wassim Jabi, Yidan Xue, Thomas E. Woolley, Katerina Kaouri, (参考訳) 本稿では, コンピュータ支援モデル, マルチエージェント移動シミュレーション, 航空機によるウイルス感染モデルを統合することで, 室内空間の設計と内部の人々の移動が病気の拡散に与える影響について検討する。 トポロジカルな空間設計と解析ソフトウェアは、屋内環境をモデル化し、空間を接続し、ナビゲーショングラフを構築するために使用される。 歩行速度,感染状況,活動などの特徴を持つエージェントの経路を,このグラフを用いて計算する。 エージェントは特定の場所と時刻のイベントのスケジュールに従う。 ソフトウェアは、歩行速度とイベント開始時間に基づいて「タイム・トゥ・リーブ」を算出し、エージェントはナビゲーショングラフ内の最短経路に沿って移動し、障害物、ドアウェイ、壁を正確に考慮する。 この設定により、エージェント間の高精度距離計算が可能となる。 その後、反応拡散方程式を用いてウイルスエアロゾル濃度を計算、可視化し、ウェルズ-ライリーアンザッツの拡張により各薬剤の感染リスクを決定する。 感染リスクシミュレーションは、この時空間的およびトポロジカルなアプローチによって改善され、現実的な人間の行動と空間的ダイナミクスが組み込まれている。 ソフトウェアは、政策立案者、施設管理者、ステークホルダー、アーキテクト、エンジニアのための迅速な意思決定支援ツールとして設計され、既存の建物に広がる病気を軽減し、新しい建物の設計を知らせる。 ソフトウェアの有効性は、携帯電話とオープンなオフィスプランのレイアウトの比較分析によって示される。

In this paper, a method to study how the design of indoor spaces and people's movement within them affect disease spread is proposed by integrating computer-aided modeling, multi-agent movement simulation, and airborne viral transmission modeling. Topologicpy spatial design and analysis software is used to model indoor environments, connect spaces, and construct a navigation graph. Pathways for agents, each with unique characteristics such as walking speed, infection status, and activities, are computed using this graph. Agents follow a schedule of events with specific locations and times. The software calculates "time-to-leave" based on walking speed and event start times, and agents are moved along the shortest path within the navigation graph, accurately considering obstacles, doorways, and walls. Precise distance calculations between agents are enabled by this setup. Viral aerosol concentration is then computed and visualized using a reaction-diffusion equation, and each agent's infection risk is determined with an extension of the Wells-Riley ansatz. Infection risk simulations are improved by this spatio-temporal and topological approach, incorporating realistic human behavior and spatial dynamics. The resulting software is designed as a rapid decision-support tool for policymakers, facility managers, stakeholders, architects, and engineers to mitigate disease spread in existing buildings and inform the design of new ones. The software's effectiveness is demonstrated through a comparative analysis of cellular and open commercial office plan layouts.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# ハイパーパラメータチューニング法の比較検討

A Comparative Study of Hyperparameter Tuning Methods ( http://arxiv.org/abs/2408.16425v1 )

ライセンス: Link先を確認
Subhasis Dasgupta, Jaydip Sen, (参考訳) この研究は、特にハイパーパラメータ最適化が複雑さを増大させるにつれて、バイアスと分散の間の最適なトレードオフを見つけるという課題を強調している。 実験解析により, 木構造パーゼン推定器(TPE), 遺伝的検索, ランダム探索の3つのハイパーパラメータチューニングアルゴリズムを回帰および分類作業で評価した。 その結果、適切に調整されたハイパーパラメータを持つ非線形モデルは、線形モデルよりも著しく優れていた。 興味深いことに、ランダム検索は回帰タスクに優れ、TPEは分類タスクに効果的であった。 これは、タスクやモデルタイプによって異なるアルゴリズムがより良いパフォーマンスを発揮するため、すべてのソリューションが一様でないことを示唆している。 この結果は、適切なチューニング方法を選択することの重要性を強調し、特に検索空間が拡大するにつれて、機械学習モデルの最適化にかかわる計算上の課題を強調している。

The study emphasizes the challenge of finding the optimal trade-off between bias and variance, especially as hyperparameter optimization increases in complexity. Through empirical analysis, three hyperparameter tuning algorithms Tree-structured Parzen Estimator (TPE), Genetic Search, and Random Search are evaluated across regression and classification tasks. The results show that nonlinear models, with properly tuned hyperparameters, significantly outperform linear models. Interestingly, Random Search excelled in regression tasks, while TPE was more effective for classification tasks. This suggests that there is no one-size-fits-all solution, as different algorithms perform better depending on the task and model type. The findings underscore the importance of selecting the appropriate tuning method and highlight the computational challenges involved in optimizing machine learning models, particularly as search spaces expand.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# COIN:人間とカメラの運動推定に先立つ制御・塗装拡散

COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation ( http://arxiv.org/abs/2408.16426v1 )

ライセンス: Link先を確認
Jiefeng Li, Ye Yuan, Davis Rempe, Haotian Zhang, Pavlo Molchanov, Cewu Lu, Jan Kautz, Umar Iqbal, (参考訳) 人やカメラの動きが絡み合っているため、動くカメラから地球規模の人間の動きを推定することは困難である。 あいまいさを軽減するため、既存の手法では学習された人間の動きの先行を活用できるが、2Dプロジェクションのずれを伴う過度な動きをもたらすことが多い。 この問題に対処するために,人やカメラの動作を細粒度に制御できるコントロール・インポーティング・モーション拡散手法であるCOINを提案する。 事前学習された動き拡散モデルは、リッチな動き先行を符号化するが、そのような知識を活用してRGBビデオからグローバルな動き推定を導くことは容易ではない。 COINは, 共同最適化フレームワーク内での拡散による高精度, 整合性, 高品質な動作を保証するために, 新規な制御着色点蒸留法を導入している。 さらに,人間,カメラ,シーン間の一貫性を保ち,スケールのあいまいさを軽減するために,新たな人間とシーンの関係損失を導入する。 3つの挑戦的なベンチマーク実験により、COINの有効性が実証された。これは、グローバルな人間の動き推定とカメラの動き推定において最先端の手法より優れている。 実証的な例として、COINはRICHデータセット上の世界共同位置誤差(W-MPJPE)を33%向上させる。

Estimating global human motion from moving cameras is challenging due to the entanglement of human and camera motions. To mitigate the ambiguity, existing methods leverage learned human motion priors, which however often result in oversmoothed motions with misaligned 2D projections. To tackle this problem, we propose COIN, a control-inpainting motion diffusion prior that enables fine-grained control to disentangle human and camera motions. Although pre-trained motion diffusion models encode rich motion priors, we find it non-trivial to leverage such knowledge to guide global motion estimation from RGB videos. COIN introduces a novel control-inpainting score distillation sampling method to ensure well-aligned, consistent, and high-quality motion from the diffusion prior within a joint optimization framework. Furthermore, we introduce a new human-scene relation loss to alleviate the scale ambiguity by enforcing consistency among the humans, camera, and scene. Experiments on three challenging benchmarks demonstrate the effectiveness of COIN, which outperforms the state-of-the-art methods in terms of global human motion estimation and camera motion estimation. As an illustrative example, COIN outperforms the state-of-the-art method by 33% in world joint position error (W-MPJPE) on the RICH dataset.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# 条件付き混合ネットワークを用いた勾配自由変分学習

Gradient-free variational learning with conditional mixture networks ( http://arxiv.org/abs/2408.16429v1 )

ライセンス: Link先を確認
Conor Heins, Hao Wu, Dimitrije Markovic, Alexander Tschantz, Jeff Beck, Christopher Buckley, (参考訳) 頑健な予測性能と計算効率のバランスをとることは、教師あり学習、特に重要な応用において重要である。 標準的なディープラーニングモデルは正確でスケーラブルだが、校正された予測や不確実性定量化のような確率的特徴を欠くことが多い。 ベイジアン法はこれらの問題に対処するが、モデルやデータの複雑さが増大するにつれて計算コストが増大する可能性がある。 これまでの研究では、高速変動法は勾配計算やサンプリングを不要にすることでベイズ法の計算要求を減らすことができるが、単純なモデルに制限されることが多かった。 条件付き混合ネットワーク (CMN) は, 条件付き混合モデル(MoE) の確率的変種であり, 高速で勾配のない推論に適しており, 複雑な分類処理を解くことができることを示す。 CMNは線形エキスパートとソフトマックスゲーティングネットワークを採用している。 条件共役とP'olya-Gamma拡張を利用して、線形専門家とゲーティングネットワークの両方の重み付けについてガウス的可能性を示す。 これにより、従来の勾配に基づく最適化を避けるため、座標アセント変分推論(CAVI)を用いた効率的な変分更新が可能となる。 UCIレポジトリから標準ベンチマークで2層CMNをトレーニングすることで、このアプローチを検証する。 提案手法であるCAVI-CMNは,全てのモデルパラメータに対する競合ランタイムと完全な後続分布を維持しつつ,バックプロパゲーションを伴う最大推定値(MLE)と比較して,競合的かつしばしば優れた予測精度を実現する。 さらに、入力サイズや専門家の数が増加するにつれて、計算時間はMLEや他のブラックボックス変分推論(BBVI)のような勾配ベースのソリューションと競合し、CAVI-CMNは深い、速く、勾配のないベイズネットワークのための有望なツールとなる。

Balancing computational efficiency with robust predictive performance is crucial in supervised learning, especially for critical applications. Standard deep learning models, while accurate and scalable, often lack probabilistic features like calibrated predictions and uncertainty quantification. Bayesian methods address these issues but can be computationally expensive as model and data complexity increase. Previous work shows that fast variational methods can reduce the compute requirements of Bayesian methods by eliminating the need for gradient computation or sampling, but are often limited to simple models. We demonstrate that conditional mixture networks (CMNs), a probabilistic variant of the mixture-of-experts (MoE) model, are suitable for fast, gradient-free inference and can solve complex classification tasks. CMNs employ linear experts and a softmax gating network. By exploiting conditional conjugacy and P\'olya-Gamma augmentation, we furnish Gaussian likelihoods for the weights of both the linear experts and the gating network. This enables efficient variational updates using coordinate ascent variational inference (CAVI), avoiding traditional gradient-based optimization. We validate this approach by training two-layer CMNs on standard benchmarks from the UCI repository. Our method, CAVI-CMN, achieves competitive and often superior predictive accuracy compared to maximum likelihood estimation (MLE) with backpropagation, while maintaining competitive runtime and full posterior distributions over all model parameters. Moreover, as input size or the number of experts increases, computation time scales competitively with MLE and other gradient-based solutions like black-box variational inference (BBVI), making CAVI-CMN a promising tool for deep, fast, and gradient-free Bayesian networks.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# レコメンダシステムはローカル音楽を促進するか?音楽ストリーミングデータを用いた再現性の検討

Do Recommender Systems Promote Local Music? A Reproducibility Study Using Music Streaming Data ( http://arxiv.org/abs/2408.16430v1 )

ライセンス: Link先を確認
Kristina Matrosova, Lilian Marey, Guillaume Salha-Galvan, Thomas Louail, Olivier Bodini, Manuel Moussallam, (参考訳) 本稿では,LFM-2b公開データセットに関する実証的研究から,レコメンダシステムによる局所的な音楽表現への影響について考察する。 この先行研究は、異なるレコメンデーターシステムは、音楽の消費を局地的コンテンツにシフトさせるアルゴリズム的バイアスを示すと主張した。 しかし、LFM-2bのユーザーは音楽ストリーミングサービスの多様なオーディエンスを反映していない。 本研究の結果のロバスト性を評価するため,グローバル音楽ストリーミングサービスの独自リスニングデータを用いて比較分析を行い,本論文と共に公開する。 その結果, LFM-2bのみに基づく局所音楽の結論を導出する場合, LFM-2bとデータセット間の局所音楽消費パターンの有意な差異を観察し, 注意が必要であることを示唆した。 さらに、本研究で得られたアルゴリズムバイアスはデータセットによって異なることを示し、探索されていないモデルパラメータがこれらのバイアスに大きく影響し、両方のデータセットにおける研究の結論に影響を及ぼすことを示した。 最後に、ローカル音楽の正確なラベル付けの複雑さについて論じ、信頼できない、偏見のない、あるいは不完全なラベルによる誤った結論のリスクを強調した。 さらなる研究を奨励し、再現性を確保するため、データセットとコードを公開しました。

This paper examines the influence of recommender systems on local music representation, discussing prior findings from an empirical study on the LFM-2b public dataset. This prior study argued that different recommender systems exhibit algorithmic biases shifting music consumption either towards or against local content. However, LFM-2b users do not reflect the diverse audience of music streaming services. To assess the robustness of this study's conclusions, we conduct a comparative analysis using proprietary listening data from a global music streaming service, which we publicly release alongside this paper. We observe significant differences in local music consumption patterns between our dataset and LFM-2b, suggesting that caution should be exercised when drawing conclusions on local music based solely on LFM-2b. Moreover, we show that the algorithmic biases exhibited in the original work vary in our dataset, and that several unexplored model parameters can significantly influence these biases and affect the study's conclusion on both datasets. Finally, we discuss the complexity of accurately labeling local music, emphasizing the risk of misleading conclusions due to unreliable, biased, or incomplete labels. To encourage further research and ensure reproducibility, we have publicly shared our dataset and code.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# 識別型空間セマンティックVOSソリューション:第6回SVOSにおける第1位ソリューション

Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS ( http://arxiv.org/abs/2408.16431v1 )

ライセンス: Link先を確認
Deshui Miao, Yameng Gu, Xin Li, Zhenyu He, Yaowei Wang, Ming-Hsuan Yang, (参考訳) ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題であるが、現在のVOSメソッドは複雑なシーンと長い物体の動きに悩まされている。 これらの課題に対処するため、MOSEデータセットは複雑な環境におけるオブジェクトの認識と識別を強化することを目的としており、LVOSデータセットは長期的な複雑な動きを示すセグメンテーションオブジェクトに焦点を当てている。 本稿では,識別対象の特徴を問合せ表現として利用する空間時空間VOSモデルを提案する。 空間意味的モジュールの意味的理解により、オブジェクトの部分を認識することができる。 我々のモデルは、VOSトラックの第6回LSVOSチャレンジのテストセットにおいて、VOSデータセットに基づいてトレーニングされ、第1位(\textbf{80.90\%} $\mathcal{J \&F}$)を達成した。 コードは \href{https://github.com/yahooo-m/VOS-Solution}{code} で入手できる。

Video object segmentation (VOS) is a crucial task in computer vision, but current VOS methods struggle with complex scenes and prolonged object motions. To address these challenges, the MOSE dataset aims to enhance object recognition and differentiation in complex environments, while the LVOS dataset focuses on segmenting objects exhibiting long-term, intricate movements. This report introduces a discriminative spatial-temporal VOS model that utilizes discriminative object features as query representations. The semantic understanding of spatial-semantic modules enables it to recognize object parts, while salient features highlight more distinctive object characteristics. Our model, trained on extensive VOS datasets, achieved first place (\textbf{80.90\%} $\mathcal{J \& F}$) on the test set of the 6th LSVOS challenge in the VOS Track, demonstrating its effectiveness in tackling the aforementioned challenges. The code will be available at \href{https://github.com/yahooo-m/VOS-Solution}{code}.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# 医学領域における機械翻訳のための指導学習型大規模言語モデル

Instruction-tuned Large Language Models for Machine Translation in the Medical Domain ( http://arxiv.org/abs/2408.16440v1 )

ライセンス: Link先を確認
Miguel Rios, (参考訳) 大規模言語モデル(LLM)は、高リソース言語ペアとドメインに対する機械翻訳において有望な結果を示している。 しかし、専門分野(例えば医療分野)では、LLMは標準的なニューラルマシン翻訳モデルよりも性能が低い。 用語の機械翻訳における一貫性は、専門分野のユーザ、研究者、翻訳者にとって不可欠である。 本研究では,医学領域におけるベースラインLLMと命令調整LLMのパフォーマンスを比較した。 さらに, 専門医用辞書の用語を, 微調整 LLM のための命令形式データセットに導入する。 命令調整されたLLMは、自動メトリクスでベースラインモデルよりも大幅に優れていた。

Large Language Models (LLMs) have shown promising results on machine translation for high resource language pairs and domains. However, in specialised domains (e.g. medical) LLMs have shown lower performance compared to standard neural machine translation models. The consistency in the machine translation of terminology is crucial for users, researchers, and translators in specialised domains. In this study, we compare the performance between baseline LLMs and instruction-tuned LLMs in the medical domain. In addition, we introduce terminology from specialised medical dictionaries into the instruction formatted datasets for fine-tuning LLMs. The instruction-tuned LLMs significantly outperform the baseline models with automatic metrics.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# グラフ畳み込みネットワークとトランスフォーマーアーキテクチャにおける最適パラメータによる人間の活動認識機能の統合

Integrating Features for Recognizing Human Activities through Optimized Parameters in Graph Convolutional Networks and Transformer Architectures ( http://arxiv.org/abs/2408.16442v1 )

ライセンス: Link先を確認
Mohammad Belal, Taimur Hassan, Abdelfatah Hassan, Nael Alsheikh, Noureldin Elhendawi, Irfan Hussain, (参考訳) 人間の行動認識は、人間の行動の分類にコンピュータビジョン、機械ビジョン、深層学習技術を用いる主要な研究分野である。 ディープラーニングの分野は、人間のダイナミクスを捉えるのに非常に効果的なアーキテクチャによって、大きな進歩を遂げた。 本研究は,特徴融合が行動認識の精度に与える影響を強調した。 本手法は,空間的特徴や時間的特徴を理解する能力に限界があるため,活動を特定するのに困難を伴う従来のモデルの限界に対処する。 この技術は、HuGaDB、PKU-MMD、LARa、TUGの4つの公開データセットから得られた知覚データを利用する。 これらのデータセットを用いて、2つのディープラーニングモデル、特にトランスフォーマーモデルとパラメータ最適化グラフ畳み込みネットワーク(PO-GCN)の精度とF1スコアを評価した。 特徴融合技術は両方のモデルから最終層の特徴を統合し、それらを分類器に入力した。 実証的な証拠は、PO-GCNが活性認識の標準モデルより優れていることを示している。 HuGaDBは精度が2.3%向上し、F1スコアが2.2%向上した。 TUGの精度は5%上昇し、F1スコアは0.5%上昇した。 一方,LARaとPKU-MMDはいずれも64%,PKU-MMDは69%であった。 このことは、機能の統合によってTransformerモデルとPO-GCNの性能が向上したことを示している。

Human activity recognition is a major field of study that employs computer vision, machine vision, and deep learning techniques to categorize human actions. The field of deep learning has made significant progress, with architectures that are extremely effective at capturing human dynamics. This study emphasizes the influence of feature fusion on the accuracy of activity recognition. This technique addresses the limitation of conventional models, which face difficulties in identifying activities because of their limited capacity to understand spatial and temporal features. The technique employs sensory data obtained from four publicly available datasets: HuGaDB, PKU-MMD, LARa, and TUG. The accuracy and F1-score of two deep learning models, specifically a Transformer model and a Parameter-Optimized Graph Convolutional Network (PO-GCN), were evaluated using these datasets. The feature fusion technique integrated the final layer features from both models and inputted them into a classifier. Empirical evidence demonstrates that PO-GCN outperforms standard models in activity recognition. HuGaDB demonstrated a 2.3% improvement in accuracy and a 2.2% increase in F1-score. TUG showed a 5% increase in accuracy and a 0.5% rise in F1-score. On the other hand, LARa and PKU-MMD achieved lower accuracies of 64% and 69% respectively. This indicates that the integration of features enhanced the performance of both the Transformer model and PO-GCN.
翻訳日:2024-08-30 14:12:45 公開日:2024-08-29
# サーベイサム:複数の学術論文をサーベイセクションに要約するためのデータセット

SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section ( http://arxiv.org/abs/2408.16444v1 )

ライセンス: Link先を確認
Leandro Carísio Fernandes, Gustavo Bartz Guedes, Thiago Soares Laitz, Thales Sales Almeida, Rodrigo Nogueira, Roberto Lotufo, Jayr Pereira, (参考訳) 文書要約は、テキストを簡潔で情報的な要約に短縮するタスクである。 本稿では,複数の学術論文を要約した新しいデータセットについて紹介する。 筆者らの貢献は,(1)ドメイン固有の要約ツールのギャップに対処する新しいデータセットであるサーベイサム,(2)科学論文を1つのセクションにまとめる2つの特定のパイプライン,(3)これらのパイプラインの評価を複数の指標を用いて比較することである。 本研究は,高品質な検索ステージの重要性と,異なる構成が生成した要約の質に与える影響を明らかにするものである。

Document summarization is a task to shorten texts into concise and informative summaries. This paper introduces a novel dataset designed for summarizing multiple scientific articles into a section of a survey. Our contributions are: (1) SurveySum, a new dataset addressing the gap in domain-specific summarization tools; (2) two specific pipelines to summarize scientific articles into a section of a survey; and (3) the evaluation of these pipelines using multiple metrics to compare their performance. Our results highlight the importance of high-quality retrieval stages and the impact of different configurations on the quality of generated summaries.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# Mismatched: 画像マッチングアプローチとベンチマークの限界を評価する

Mismatched: Evaluating the Limits of Image Matching Approaches and Benchmarks ( http://arxiv.org/abs/2408.16445v1 )

ライセンス: Link先を確認
Sierra Bonilla, Chiara Di Vece, Rema Daher, Xinwei Ju, Danail Stoyanov, Francisco Vasconcelos, Sophia Bano, (参考訳) 2次元画像からの3次元再構成は、ナビゲーションや物体追跡からセグメンテーション、三次元モデリングまで、コンピュータビジョンにおける活発な研究分野である。 伝統的にこの作業にはパラメトリック技術が用いられてきた。 しかし、近年の進歩は学習ベースの方法にシフトしている。 研究の迅速化と新しい画像マッチング手法の頻繁な導入を考えると,これらを評価することが不可欠である。 本稿では,移動パイプライン構造を用いた様々な画像マッチング手法の総合評価を行う。 ドメイン内およびドメイン外両方のデータセットにおいて、これらのメソッドの性能を評価し、メソッドとベンチマークの両方において重要な制限を識別する。 また,前処理ステップとしてのエッジ検出の影響についても検討した。 分析の結果,3次元再構成のための画像マッチングは依然としてオープンな課題であり,特定のシナリオに対するモデルの選択とチューニングを慎重に行うとともに,メトリクスがメソッドのパフォーマンスをどのように表現しているかのミスマッチも強調する。

Three-dimensional (3D) reconstruction from two-dimensional images is an active research field in computer vision, with applications ranging from navigation and object tracking to segmentation and three-dimensional modeling. Traditionally, parametric techniques have been employed for this task. However, recent advancements have seen a shift towards learning-based methods. Given the rapid pace of research and the frequent introduction of new image matching methods, it is essential to evaluate them. In this paper, we present a comprehensive evaluation of various image matching methods using a structure-from-motion pipeline. We assess the performance of these methods on both in-domain and out-of-domain datasets, identifying key limitations in both the methods and benchmarks. We also investigate the impact of edge detection as a pre-processing step. Our analysis reveals that image matching for 3D reconstruction remains an open challenge, necessitating careful selection and tuning of models for specific scenarios, while also highlighting mismatches in how metrics currently represent method performance.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# テキストの正規化は中世の憲章の分類に関係しているか?

Is text normalization relevant for classifying medieval charters? ( http://arxiv.org/abs/2408.16446v1 )

ライセンス: Link先を確認
Florian Atzenhofer-Baumgartner, Tamás Kovács, (参考訳) 本研究は,古文書の正規化が中世チャーターの分類に与える影響について考察する。 デジタルアーカイブから中高ドイツのチャーターのデータセットを用いて,従来のモデルやトランスフォーマーモデルを含む様々な分類器を正規化なしで評価する。 以上の結果から,与えられた正規化はタスクの配置を最小限に改善するが,デートの精度は低下し,本来のテキストが正規化に欠かせない重要な特徴を含んでいることが示唆された。 このケースでは, ベクトルマシンのサポートや勾配が他のモデルより優れており, 変圧器の効率性に疑問が呈される。 その結果, 文書解析における分類作業において重要なテキストの特徴を保存することの重要性を強調し, 歴史的テキスト正規化への選択的アプローチが示唆された。

This study examines the impact of historical text normalization on the classification of medieval charters, specifically focusing on document dating and locating. Using a data set of Middle High German charters from a digital archive, we evaluate various classifiers, including traditional and transformer-based models, with and without normalization. Our results indicate that the given normalization minimally improves locating tasks but reduces accuracy for dating, implying that original texts contain crucial features that normalization may obscure. We find that support vector machines and gradient boosting outperform other models, questioning the efficiency of transformers for this use case. Results suggest a selective approach to historical text normalization, emphasizing the significance of preserving some textual characteristics that are critical for classification tasks in document analysis.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# 偽陰性除去による音源定位の強化

Enhancing Sound Source Localization via False Negative Elimination ( http://arxiv.org/abs/2408.16448v1 )

ライセンス: Link先を確認
Zengjie Song, Jiangshe Zhang, Yuxi Wang, Junsong Fan, Zhaoxiang Zhang, (参考訳) 音源のローカライゼーションは、視覚的なシーンで音を発する物体をローカライズすることを目的としている。 印象的な結果を得る最近の研究は、典型的には対照的な学習に依存している。 しかし、先行技術におけるランダムサンプリングの一般的な実践は、視覚的インスタンスと意味論的に類似した音を陰性としてサンプリングし、視覚的アンカー/クエリから誤って押し出された偽陰性問題に繋がる。 結果として、このオーディオと視覚的特徴の相違は、性能が劣る可能性がある。 この問題に対処するために,自己教師付き予測学習(SSPL)と意味認識型コントラスト学習(SACL)の2つの個別学習スキームをインスタンス化した新しい音声視覚学習フレームワークを提案する。 SSPLは、音声と視覚の特徴のセマンティックコヒーレントな類似性を発見するために、画像と音声の正のペアのみを探索する。 この場合、SSPLは偽陰性を排除するために負のフリーな方法として機能する。 対照的に、SACLは視覚的特徴をコンパクトにし、偽陰性を取り除くように設計されており、コントラストに対して信頼性の高い視覚的アンカーとオーディオ陰性を提供する。 SSPLと異なり、SACLは同じ目標を達成するための効果的な代替手段を提供する。 総合的な実験は、最先端技術に対する我々のアプローチの優位性を実証している。 さらに,音声・視覚的事象分類や物体検出タスクへのアプローチを拡張することで,学習表現の汎用性を強調した。 コードとモデルは、https://github.com/zjsong/SACL.comで入手できる。

Sound source localization aims to localize objects emitting the sound in visual scenes. Recent works obtaining impressive results typically rely on contrastive learning. However, the common practice of randomly sampling negatives in prior arts can lead to the false negative issue, where the sounds semantically similar to visual instance are sampled as negatives and incorrectly pushed away from the visual anchor/query. As a result, this misalignment of audio and visual features could yield inferior performance. To address this issue, we propose a novel audio-visual learning framework which is instantiated with two individual learning schemes: self-supervised predictive learning (SSPL) and semantic-aware contrastive learning (SACL). SSPL explores image-audio positive pairs alone to discover semantically coherent similarities between audio and visual features, while a predictive coding module for feature alignment is introduced to facilitate the positive-only learning. In this regard SSPL acts as a negative-free method to eliminate false negatives. By contrast, SACL is designed to compact visual features and remove false negatives, providing reliable visual anchor and audio negatives for contrast. Different from SSPL, SACL releases the potential of audio-visual contrastive learning, offering an effective alternative to achieve the same goal. Comprehensive experiments demonstrate the superiority of our approach over the state-of-the-arts. Furthermore, we highlight the versatility of the learned representation by extending the approach to audio-visual event classification and object detection tasks. Code and models are available at: https://github.com/zjsong/SACL.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# 保存すべきもの、転送すべきもの:忠実でアイデンティティを保った拡散に基づくヘアスタイル転送

What to Preserve and What to Transfer: Faithful, Identity-Preserving Diffusion-based Hairstyle Transfer ( http://arxiv.org/abs/2408.16450v1 )

ライセンス: Link先を確認
Chaeyeon Chung, Sunghyun Park, Jeongho Kim, Jaegul Choo, (参考訳) ヘアスタイル転送は、画像編集領域において、他の外観や背景の特徴を保ちながら、所定の顔画像のヘアスタイルを変更する難しいタスクである。 既存のヘアスタイルのトランスファーアプローチはStyleGANに大きく依存している。 そのため、頭部ポーズの極端な変化や焦点距離といった困難な条件下での一般化に苦慮する。 この問題に対処するために,実世界のシナリオに適用可能な一段階のヘアスタイル転写拡散モデルであるHairFusionを提案する。 具体的には、毛髪情報を完全に排除したモデルの入力として、毛髪非依存の表現を慎重に設計する。 次に,顔形状の違いを考慮しつつ,基準髪型と顔画像とを正確に整列する毛髪整列クロスアテンション(Align-CA)を導入する。 顔画像の本来の特徴の保存性を高めるために, 顔画像の非毛髪領域と混入したAlign-CAのクロスアテンションマップを用いて, 出力の毛髪領域を推定する推論において, 適応的な毛髪ブレンディングを利用する。 提案手法は, ヘアスタイルと周辺特性の整合性を保ちながら, 従来の手法と比較して, 最先端性能を達成できることを実験的に示す。 コードはhttps://github.com/cychungg/HairFusion.comで公開されている。

Hairstyle transfer is a challenging task in the image editing field that modifies the hairstyle of a given face image while preserving its other appearance and background features. The existing hairstyle transfer approaches heavily rely on StyleGAN, which is pre-trained on cropped and aligned face images. Hence, they struggle to generalize under challenging conditions such as extreme variations of head poses or focal lengths. To address this issue, we propose a one-stage hairstyle transfer diffusion model, HairFusion, that applies to real-world scenarios. Specifically, we carefully design a hair-agnostic representation as the input of the model, where the original hair information is thoroughly eliminated. Next, we introduce a hair align cross-attention (Align-CA) to accurately align the reference hairstyle with the face image while considering the difference in their face shape. To enhance the preservation of the face image's original features, we leverage adaptive hair blending during the inference, where the output's hair regions are estimated by the cross-attention map in Align-CA and blended with non-hair areas of the face image. Our experimental results show that our method achieves state-of-the-art performance compared to the existing methods in preserving the integrity of both the transferred hairstyle and the surrounding features. The codes are available at https://github.com/cychungg/HairFusion.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# 歯のマーク付き舌の自動認識のための弱監視対象検出

Weakly Supervised Object Detection for Automatic Tooth-marked Tongue Recognition ( http://arxiv.org/abs/2408.16451v1 )

ライセンス: Link先を確認
Yongcun Zhang, Jiajun Xu, Yina He, Shaozi Li, Zhiming Luo, Huangwei Lei, (参考訳) 伝統中国医学(TCM)における舌の診断は、個人の健康状態を反映する重要な診断方法である。 歯印のある舌を識別する伝統的な方法は、実践者の経験に依存しているため主観的で矛盾する。 本稿では,視覚変換器と複数インスタンス学習WSVMを用いた,舌抽出と歯印付き舌認識のための完全自動化Weakly Supervised法を提案する。 本手法はまず,臨床画像から舌領域を正確に検出し,抽出し,無関係な背景情報を除去する。 そこで本研究では,オブジェクト検出手法をエンド・ツー・エンドに実装する。 我々はViT(Vision Transformer)を用いて舌のイメージをパッチで処理し、複数インスタンスの損失を利用して画像レベルのアノテーションだけで歯印付き領域を識別する。 WSVMは歯印舌分類において高い精度を達成し、これらの領域をピンポイントする効果を可視化実験により実証した。 この自動的アプローチは、歯印舌診断の客観性と精度を高める。 TCMの実践者が正確な診断と治療勧告を行うのを支援することで、重要な臨床的価値を提供する。 コードはhttps://github.com/yc-zh/WSVM.comで入手できる。

Tongue diagnosis in Traditional Chinese Medicine (TCM) is a crucial diagnostic method that can reflect an individual's health status. Traditional methods for identifying tooth-marked tongues are subjective and inconsistent because they rely on practitioner experience. We propose a novel fully automated Weakly Supervised method using Vision transformer and Multiple instance learning WSVM for tongue extraction and tooth-marked tongue recognition. Our approach first accurately detects and extracts the tongue region from clinical images, removing any irrelevant background information. Then, we implement an end-to-end weakly supervised object detection method. We utilize Vision Transformer (ViT) to process tongue images in patches and employ multiple instance loss to identify tooth-marked regions with only image-level annotations. WSVM achieves high accuracy in tooth-marked tongue classification, and visualization experiments demonstrate its effectiveness in pinpointing these regions. This automated approach enhances the objectivity and accuracy of tooth-marked tongue diagnosis. It provides significant clinical value by assisting TCM practitioners in making precise diagnoses and treatment recommendations. Code is available at https://github.com/yc-zh/WSVM.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# jscefr: JavaScriptのコード習熟度を評価するフレームワーク

jscefr: A Framework to Evaluate the Code Proficiency for JavaScript ( http://arxiv.org/abs/2408.16452v1 )

ライセンス: Link先を確認
Chaiyong Ragkhitwetsagul, Komsan Kongwongsupak, Thanakrit Maneesawas, Natpichsinee Puttiwarodom, Ruksit Rojpaisarnkit, Morakot Choetkiertikul, Raula Gaikovina Kula, Thanwadee Sunetnanta, (参考訳) 本稿では,JavaScript (JS) 言語の異なる要素の使用を検出するツールである jscefr (jes-cee-fer) について述べる。 pycefrツールをベースとして、このツールはJavaScript要素と有名な共通ヨーロッパ言語フレームワーク(CEFR)を組み込んでおり、Mozilla Developer Networkから公式のECMAScript JavaScriptドキュメントを利用している。 jscefrはJSコードを6つのレベルに分類する。 jscefrは138の異なるJavaScriptコード構造を検出し、分類することができる。 評価のために、NPMエコシステムの3つのJavaScriptプロジェクトにツールを適用し、興味深い結果を得た。 ツールの可用性と使用状況を示すビデオはhttps://youtu.be/Ehh-Prq59Pcで公開されている。

In this paper, we present jscefr (pronounced jes-cee-fer), a tool that detects the use of different elements of the JavaScript (JS) language, effectively measuring the level of proficiency required to comprehend and deal with a fragment of JavaScript code in software maintenance tasks. Based on the pycefr tool, the tool incorporates JavaScript elements and the well-known Common European Framework of Reference for Languages (CEFR) and utilizes the official ECMAScript JavaScript documentation from the Mozilla Developer Network. jscefr categorizes JS code into six levels based on proficiency. jscefr can detect and classify 138 different JavaScript code constructs. To evaluate, we apply our tool to three JavaScript projects of the NPM ecosystem, with interesting results. A video demonstrating the tool's availability and usage is available at https://youtu.be/Ehh-Prq59Pc.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# J1-J2ハイゼンベルク二階位相量子マグネットの位相図

Phase diagram of the J1-J2 Heisenberg second-order topological quantum magnet ( http://arxiv.org/abs/2408.16453v1 )

ライセンス: Link先を確認
Pascal M. Vecsei, Jose L. Lado, (参考訳) 量子磁石における競合相互作用は、秩序相、ネマティック磁石、量子スピン液体を含む様々な創発状態をもたらす。 その中でも、トポロジカル量子マグネットは、バルク多体励起ギャップによって保護されるトポロジカル励起を生成するための有望なプラットフォームである。 ここでは, 強磁性体J1-J2-ハイゼンベルク模型の位相図を作成し, 秩序状態と高次トポロジカル量子マグネット状態の両方を特徴付ける。 ニューラルネットワークの量子状態とテンソルネットワークに基づく正確な多体法を用いて、ストリップ秩序とトポロジカル量子マグネットの間の第1次相転移と、ニール秩序と量子マグネット位相の間の第2次相転移の存在を判定し、さらに多体ギャップの計算によって相関する。 補助フェルミオンパルトンフォーマリズムを用いて,親ハイゼンベルクモデルの呼吸順序パラメータから生じるトポロジカルスピノンコーナーモードの出現を示す。 MgO の Ti 格子で最近実現されたようなトポロジカル量子磁性を設計するためのパラダイムシステムとして,呼吸フラストレーションを持つ正方格子ハイゼンベルクモデルを確立した。

Competing interactions in quantum magnets lead to a variety of emergent states, including ordered phases, nematic magnets and quantum spin liquids. Among them, topological quantum magnets represent a promising platform to create topological excitations protected by the bulk many-body excitation gap. Here we establish the phase diagram of a breathing frustrated antiferromagnetic J1-J2-Heisenberg model, featuring both ordered states and a higher-order topological quantum magnet state. Using exact many-body methods based on neural network quantum states and tensor networks, we determine the existence of a first order phase transition between stripe order and the topological quantum magnet and the second order phase transition between the Neel order and quantum magnet phase, further corroborated by calculations of the many-body gap. Using an auxiliary fermion parton formalism, we show the emergence of topological spinon corner modes stemming from the breathing order parameter of the parent Heisenberg model. Our results establish the breathing frustrated square lattice Heisenberg model as a paradigmatic system to engineer topological quantum magnetism, as recently realized in Ti lattices at MgO.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# HYGENE:拡散型ハイパーグラフ生成法

HYGENE: A Diffusion-based Hypergraph Generation Method ( http://arxiv.org/abs/2408.16457v1 )

ライセンス: Link先を確認
Dorian Gailhard, Enzo Tartaglione, Lirida Naviner De Barros, Jhony H. Giraldo, (参考訳) ハイパーグラフは、ソーシャルネットワーク、バイオインフォマティクス、レコメンデーションシステムなど、様々な領域における複雑な高次関係をモデル化できる強力な数学的構造である。 しかし、本質的な複雑さと効果的な生成モデルがないため、現実的で多様なハイパーグラフを生成することは依然として困難である。 本稿では,これらの課題に対処する拡散型ハイパーグラフ生成(HYGENE)手法を提案する。 HYGENEはハイパーグラフの2部表現に取り組み、1対の接続ノードから始まり、それを反復的に拡張してターゲットハイパーグラフを形成する。 各ステップにおいて、ノードとハイパーエッジは局所的な方法でデノナイジング拡散プロセスによって追加され、局所的な詳細を精製する前にグローバル構造を構築することができる。 実験ではハイジェネの有効性を実証し、ハイパーグラフの様々な特性を忠実に模倣する能力を示した。 我々の知る限りでは、これはハイパーグラフ生成にディープラーニングモデルを採用する最初の試みであり、我々の研究はこの分野における将来の研究の基盤となることを目的としている。

Hypergraphs are powerful mathematical structures that can model complex, high-order relationships in various domains, including social networks, bioinformatics, and recommender systems. However, generating realistic and diverse hypergraphs remains challenging due to their inherent complexity and lack of effective generative models. In this paper, we introduce a diffusion-based Hypergraph Generation (HYGENE) method that addresses these challenges through a progressive local expansion approach. HYGENE works on the bipartite representation of hypergraphs, starting with a single pair of connected nodes and iteratively expanding it to form the target hypergraph. At each step, nodes and hyperedges are added in a localized manner using a denoising diffusion process, which allows for the construction of the global structure before refining local details. Our experiments demonstrated the effectiveness of HYGENE, proving its ability to closely mimic a variety of properties in hypergraphs. To the best of our knowledge, this is the first attempt to employ deep learning models for hypergraph generation, and our work aims to lay the groundwork for future research in this area.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# コードに基づくクリプトアナリシスのための量子シービングとISDの限界

Quantum Sieving for Code-Based Cryptanalysis and Its Limitations for ISD ( http://arxiv.org/abs/2408.16458v1 )

ライセンス: Link先を確認
Lynn Engelberts, Simona Etinski, Johanna Loyer, (参考訳) BDGL16] と量子 [BCSS23] の両方の設定において、最も短いベクトル問題に対して、現在の最適なランタイムが得られる。 近年、シービングはコードベースの暗号解析において重要なツールとなっている。 具体的には,[GJN23, DEEK24] は,暗号的に関連する復号問題を攻撃するためによく用いられる情報集合復号(ISD)フレームワークの変種を示した。 その結果,[BJMM12, BM18] などの復号化問題に対して,最も高性能な古典的アルゴリズムに近い複雑性が得られた。 したがって、量子バージョンの性能を問うのは自然である。 本研究では、上記のサブルーチンの量子変種を設計し、コードシービングのための最初の量子アルゴリズムを紹介する。 特に、量子ウォーク法を用いて、Groverのアルゴリズム [Gro96] を用いて、[DEEK24] および変種から最もよく知られた古典的アルゴリズムを高速化する。 我々の量子ウォークアルゴリズムは,[CL21]から得られる格子を探索するための量子ウォークアルゴリズムに着想を得て,局所性に敏感なフィルタリング層を付加することにより,基礎となる探索問題の構造を利用する。 我々は、量子アルゴリズムの漸近解析と数値計算結果を補完し、コードシービングのための量子スピードアップが格子シービングで観測されたものと同様に振る舞うことを観察する。 さらに,Sieving-based ISD framework の自然量子アナログは,最初の量子 ISD アルゴリズム [Ber10] の高速化を提供していないことを示す。 我々の分析は、このフレームワークが量子ICDアルゴリズム(KT17, Kir18]の最先端技術を上回るように適応されるべきであることを強調している。

Sieving using near-neighbor search techniques is a well-known method in lattice-based cryptanalysis, yielding the current best runtime for the shortest vector problem in both the classical [BDGL16] and quantum [BCSS23] setting. Recently, sieving has also become an important tool in code-based cryptanalysis. Specifically, using a sieving subroutine, [GJN23, DEEK24] presented a variant of the information-set decoding (ISD) framework, which is commonly used for attacking cryptographically relevant instances of the decoding problem. The resulting sieving-based ISD framework yields complexities close to the best-performing classical algorithms for the decoding problem such as [BJMM12, BM18]. It is therefore natural to ask how well quantum versions perform. In this work, we introduce the first quantum algorithms for code sieving by designing quantum variants of the aforementioned sieving subroutine. In particular, using quantum-walk techniques, we provide a speed-up over the best known classical algorithm from [DEEK24] and over a variant using Grover's algorithm [Gro96]. Our quantum-walk algorithm exploits the structure of the underlying search problem by adding a layer of locality-sensitive filtering, inspired by the quantum-walk algorithm for lattice sieving from [CL21]. We complement our asymptotic analysis of the quantum algorithms with numerical results, and observe that our quantum speed-ups for code sieving behave similarly as those observed in lattice sieving. In addition, we show that a natural quantum analog of the sieving-based ISD framework does not provide any speed-up over the first presented quantum ISD algorithm [Ber10]. Our analysis highlights that the framework should be adapted in order to outperform the state-of-the-art of quantum ISD algorithms [KT17, Kir18].
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# 中国の心理支援ホットラインにおける後続の自殺行為予測のための探索的深層学習アプローチ

An Exploratory Deep Learning Approach for Predicting Subsequent Suicidal Acts in Chinese Psychological Support Hotlines ( http://arxiv.org/abs/2408.16463v1 )

ライセンス: Link先を確認
Changwei Song, Qing Zhao, Jianqiang Li, Yining Chen, Yongsheng Tong, Guanghui Fu, (参考訳) 心理的サポートホットライン(英: Psychological Support hotlines)は、一般的に個人リスクスコアを予測するために、自殺リスク評価尺度を使用する専門家に頼っている効果的な自殺予防対策である。 しかし,自殺リスク評価の尺度に基づく予測手法の精度は,作業者の専門性によって大きく異なる可能性がある。 この制限は、より信頼性の高い方法の必要性を強調し、心理学的支援ホットラインの文脈における自殺リスク予測の正確性と効率を改善するために、この研究が人工知能の使用を革新的に探求するきっかけとなった。 調査には、2015-2017年に中国で精神支援ホットラインに接触した1,549人の被験者からのデータが含まれていた。 各被験者は自殺行為の事例を特定するために12ヶ月間追跡された。 本研究では,大規模事前学習モデルWhisperを特徴抽出に利用し,自殺リスクを予測しながら心理的な尺度に適合するマルチタスク学習手法を提案する。 提案手法は,心理学的尺度に基づく従来の手動アプローチに比べてF1スコアが2.4 %向上した。 我々のモデルは、他の8つの人気モデルと比較して優れた性能を示した。 本研究は,中国における自殺リスクを予測するために,長期音声データにディープラーニングを適用した最初の事例であり,臨床応用の可能性を示している。 ソースコードは: \url{https://github.com/songchangwei/Suicide-Risk-Prediction}で公開されている。

Psychological support hotlines are an effective suicide prevention measure that typically relies on professionals using suicide risk assessment scales to predict individual risk scores. However, the accuracy of scale-based predictive methods for suicide risk assessment can vary widely depending on the expertise of the operator. This limitation underscores the need for more reliable methods, prompting this research's innovative exploration of the use of artificial intelligence to improve the accuracy and efficiency of suicide risk prediction within the context of psychological support hotlines. The study included data from 1,549 subjects from 2015-2017 in China who contacted a psychological support hotline. Each participant was followed for 12 months to identify instances of suicidal behavior. We proposed a novel multi-task learning method that uses the large-scale pre-trained model Whisper for feature extraction and fits psychological scales while predicting the risk of suicide. The proposed method yields a 2.4\% points improvement in F1-score compared to the traditional manual approach based on the psychological scales. Our model demonstrated superior performance compared to the other eight popular models. To our knowledge, this study is the first to apply deep learning to long-term speech data to predict suicide risk in China, indicating grate potential for clinical applications. The source code is publicly available at: \url{https://github.com/songchangwei/Suicide-Risk-Prediction}.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# 滑らかな領域壁における位相零モードと有界モード:正確な解と双対性

Topological zero modes and bounded modes at smooth domain walls: exact solutions and dualities ( http://arxiv.org/abs/2408.16466v1 )

ライセンス: Link先を確認
Pasquale Marra, Angela Nigro, (参考訳) トポロジーは連続的な変形の下での大域的な量不変性(例えば位相境界における初等励起の数など)を詳細に記述することなく記述する。 逆に、これらの励起の物理的性質、例えばその局在や空間的挙動を理解するためには微分法則が必要である。 例えば、トポロジーは、トポロジカル絶縁体と超伝導体のトポロジカルに等価でない位相の間の領域壁におけるソリトニックゼロエネルギーモードの存在を規定している。 しかし、これらのモードの空間的依存は、シャープなドメインウォールの理想化された(そして非現実的な)ケースでのみ知られている。 ここでは、滑らかで指数関数的に定義されたドメインウォールを仮定して、これらの零モードの分析解を求める。 これにより、領域壁幅、指数減衰長、発振波長など、いくつかの長さスケールでゼロモードを特徴づけることができる。 これらの量では、鋭い領域壁における「毛なし」の特徴のないモード、滑らかな領域壁における「毛なし」の非機能的なモード、すなわち長距離における「毛なし」、あらゆる長さスケールにおける「毛なし」という特徴のないモードをそれぞれ定義している。 これにより、ゼロモードのバルク励起ギャップ、崩壊速度、振動運動量の間の普遍的な関係を確立し、実験的に測定可能な物理量の観点からバルク境界対応を定量化する。 さらに、トポロジカルゼロモードとショックレーモードの予期せぬ双対性を明らかにし、トポロジカル保護された非トポロジカル境界モードの理解を統一する。 これらの発見は、トポロジカル絶縁体におけるエッジモードの局在特性と、トポロジカル超伝導体におけるマヨラナゼロモード、およびこれらの系におけるトポロジカルおよび非トポロジカルゼロモードの差と類似性について、いくつかの新しい光を当てた。

Topology describes global quantities invariant under continuous deformations, such as the number of elementary excitations at a phase boundary, without detailing specifics. Conversely, differential laws are needed to understand the physical properties of these excitations, such as their localization and spatial behavior. For instance, topology mandates the existence of solitonic zero-energy modes at the domain walls between topologically inequivalent phases in topological insulators and superconductors. However, the spatial dependence of these modes is only known in the idealized (and unrealistic) case of a sharp domain wall. Here, we find the analytical solutions of these zero-modes by assuming a smooth and exponentially-confined domain wall. This allows us to characterize the zero-modes using a few length scales: the domain wall width, the exponential decay length, and oscillation wavelength. These quantities define distinct regimes: featureless modes with "no hair" at sharp domain walls, and nonfeatureless modes at smooth domain walls, respectively, with "short hair", i.e., featureless at long distances, and "long hair", i.e., nonfeatureless at all length scales. We thus establish a universal relation between the bulk excitation gap, decay rate, and oscillation momentum of the zero modes, which quantifies the bulk-boundary correspondence in terms of experimentally measurable physical quantities. Additionally, we reveal an unexpected duality between topological zero modes and Shockley modes, unifying the understanding of topologically-protected and nontopological boundary modes. These findings shed some new light on the localization properties of edge modes in topological insulators and Majorana zero modes in topological superconductors and on the differences and similarities between topological and nontopological zero modes in these systems.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# スパイキング拡散モデル

Spiking Diffusion Models ( http://arxiv.org/abs/2408.16467v1 )

ライセンス: Link先を確認
Jiahang Cao, Hanzhong Guo, Ziqing Wang, Deming Zhou, Hao Cheng, Qiang Zhang, Renjing Xu, (参考訳) 近年、スパイキングニューラルネットワーク(SNN)は、従来のニューラルネットワーク(ANN)と比較して、超低エネルギー消費と高い生物学的妥当性に注目されている。 これらの特徴にもかかわらず、計算集約的な画像生成分野におけるSNNの適用はまだ検討中である。 本稿では, エネルギー消費を大幅に削減した高品質な試料の創出に優れたSNNベース生成モデルの革新的ファミリであるSpking Diffusion Models (SDMs)を提案する。 特に,SNNが生体可塑性の観点からより時間的特徴を捉えることのできるTSM(Temporal-wise Spiking Mechanism)を提案する。 さらに,新たなトレーニングを必要とせずに,最大16.7%の性能向上を実現するためのしきい値誘導戦略を提案する。 また、SNNベースの生成タスクにANN-SNNアプローチを使用するための最初の試みを行う。 実験結果から, 提案手法は, スパイク時間ステップが少ないANNと同等の性能を示すだけでなく, 従来のSNNベース生成モデルよりも高い性能を示すことが明らかとなった。 さらに,大規模なデータセット,例えばLSUN寝室において,SDMの高品質な生成能力を示す。 この開発は、SNNベースの生成能力の重要な進歩であり、低エネルギーで低レイテンシな生成的応用を実現するための将来の研究の道を開いた。 私たちのコードはhttps://github.com/AndyCao1125/SDMで利用可能です。

Recent years have witnessed Spiking Neural Networks (SNNs) gaining attention for their ultra-low energy consumption and high biological plausibility compared with traditional Artificial Neural Networks (ANNs). Despite their distinguished properties, the application of SNNs in the computationally intensive field of image generation is still under exploration. In this paper, we propose the Spiking Diffusion Models (SDMs), an innovative family of SNN-based generative models that excel in producing high-quality samples with significantly reduced energy consumption. In particular, we propose a Temporal-wise Spiking Mechanism (TSM) that allows SNNs to capture more temporal features from a bio-plasticity perspective. In addition, we propose a threshold-guided strategy that can further improve the performances by up to 16.7% without any additional training. We also make the first attempt to use the ANN-SNN approach for SNN-based generation tasks. Extensive experimental results reveal that our approach not only exhibits comparable performance to its ANN counterpart with few spiking time steps, but also outperforms previous SNN-based generative models by a large margin. Moreover, we also demonstrate the high-quality generation ability of SDM on large-scale datasets, e.g., LSUN bedroom. This development marks a pivotal advancement in the capabilities of SNN-based generation, paving the way for future research avenues to realize low-energy and low-latency generative applications. Our code is available at https://github.com/AndyCao1125/SDM.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# パノラマセマンティックセマンティックセグメンテーションのためのマルチソースドメイン適応

Multi-source Domain Adaptation for Panoramic Semantic Segmentation ( http://arxiv.org/abs/2408.16469v1 )

ライセンス: Link先を確認
Jing Jiang, Sicheng Zhao, Jiankun Zhu, Wenbo Tang, Zhaopan Xu, Jidong Yang, Pengfei Xu, Hongxun Yao, (参考訳) パノラマ的セマンティックセグメンテーションは、その360度視野が包括的であるため、近年広く注目を集めている。 しかし、そのような画像のラベル付けには、ピンホール画像よりも大きなリソースが必要である。 その結果、実際のピンホール画像や低コストな合成パノラマ画像を利用して、パノラマセマンティックセマンティックセグメンテーションのための多くの教師なしドメイン適応手法が出現した。 しかし, このセグメンテーションモデルでは, 実際のピンホール画像のみを利用する場合にパノラマ構造を理解することができず, 合成パノラマ画像のみを用いる場合, 現実のシーンを知覚することができない。 そこで本研究では,パノラマ・セマンティック・セマンティック・セマンティック・セマンティクスのためのマルチソース・ドメイン・アダプティブ・タスクを提案する。 さらに,パノラマ・セマンティック・セマンティック・セグメンテーション(DTA4PASS)のための変形変換アリグナーを提案する。 具体的には、DTA4PASSは、Unpaired Semantic Morphing (USM)とDistortion Gating Alignment (DGA)の2つの主要コンポーネントから構成される。 第一に、USMでは、セマンティックデュアルビュー判別器(SDD)が微分変形ネットワークのトレーニングを支援し、ペアパノラマビューのないピンホール画像の効果的な変換を可能にする。 第二に、DGAはピンホールのような特徴とパノラマ的な特徴をゲーティングによって各画像に割り当て、不確実性推定によってこれら2つの特徴を整列させる。 DTA4PASSは、屋外および屋内のマルチソースドメイン適応シナリオにおいて、それぞれ1.92%と2.19%という従来の最先端手法よりも優れていた。 ソースコードはリリースされます。

Panoramic semantic segmentation has received widespread attention recently due to its comprehensive 360\degree field of view. However, labeling such images demands greater resources compared to pinhole images. As a result, many unsupervised domain adaptation methods for panoramic semantic segmentation have emerged, utilizing real pinhole images or low-cost synthetic panoramic images. But, the segmentation model lacks understanding of the panoramic structure when only utilizing real pinhole images, and it lacks perception of real-world scenes when only adopting synthetic panoramic images. Therefore, in this paper, we propose a new task of multi-source domain adaptation for panoramic semantic segmentation, aiming to utilize both real pinhole and synthetic panoramic images in the source domains, enabling the segmentation model to perform well on unlabeled real panoramic images in the target domain. Further, we propose Deformation Transform Aligner for Panoramic Semantic Segmentation (DTA4PASS), which converts all pinhole images in the source domains into panoramic-like images, and then aligns the converted source domains with the target domain. Specifically, DTA4PASS consists of two main components: Unpaired Semantic Morphing (USM) and Distortion Gating Alignment (DGA). Firstly, in USM, the Semantic Dual-view Discriminator (SDD) assists in training the diffeomorphic deformation network, enabling the effective transformation of pinhole images without paired panoramic views. Secondly, DGA assigns pinhole-like and panoramic-like features to each image by gating, and aligns these two features through uncertainty estimation. DTA4PASS outperforms the previous state-of-the-art methods by 1.92% and 2.19% on the outdoor and indoor multi-source domain adaptation scenarios, respectively. The source code will be released.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# CooTest: V2X通信システムの自動テストアプローチ

CooTest: An Automated Testing Approach for V2X Communication Systems ( http://arxiv.org/abs/2408.16470v1 )

ライセンス: Link先を確認
An Guo, Xinyu Gao, Zhenyu Chen, Yuan Xiao, Jiakai Liu, Xiuting Ge, Weisong Sun, Chunrong Fang, (参考訳) 複雑な運転環境を正確に把握することは、自動運転車の安全な運転に不可欠である。 深層学習とコミュニケーション技術の飛躍的な進歩により、V2X(Vager-to-Everything)コラボレーションは、遠く離れた物体を遠ざける際の限界に対処し、単一エージェントの知覚システムに対する閉塞に対処する可能性がある。 しかし、目覚ましい進歩にもかかわらず、複数のコミュニケーション課題は、複数車両の協調認識の有効性を損なう可能性がある。 ディープニューラルネットワーク(DNN)の低解釈性と通信機構の複雑さにより、従来のテスト技術は自律運転システム(ADS)の協調認識には適用できない。 さらに、手動のデータ収集とラベル付けに依存する既存のテスト技術は、時間がかかり、違法に高価になる。 本稿では,V2X指向協調認識モジュールの最初の自動テストツールであるCooTestの設計と実装を行う。 CooTestは、V2X固有の変成関係を考案し、様々な協調駆動要因の影響を反映して変換シーンを生成する通信と気象変化演算子を装備する。 さらに,変換されたシーン生成プロセスに対して,V2X指向のガイダンス戦略を採用し,テスト効率を向上する。 我々は,異なる融合方式で複数の協調認識モデルを用いてCooTestを実験し,その性能を異なるタスクで評価する。 実験の結果,CooTestは様々なV2X駆動条件下での誤動作を効果的に検出できることがわかった。 また,CooTestは検出平均精度を向上し,生成シーンと再トレーニングすることで,ミスリード協調エラーを低減できることを確認した。

Perceiving the complex driving environment precisely is crucial to the safe operation of autonomous vehicles. With the tremendous advancement of deep learning and communication technology, Vehicle-to-Everything (V2X) collaboration has the potential to address limitations in sensing distant objects and occlusion for a single-agent perception system. However, despite spectacular progress, several communication challenges can undermine the effectiveness of multi-vehicle cooperative perception. The low interpretability of Deep Neural Networks (DNNs) and the high complexity of communication mechanisms make conventional testing techniques inapplicable for the cooperative perception of autonomous driving systems (ADS). Besides, the existing testing techniques, depending on manual data collection and labeling, become time-consuming and prohibitively expensive. In this paper, we design and implement CooTest, the first automated testing tool of the V2X-oriented cooperative perception module. CooTest devises the V2X-specific metamorphic relation and equips communication and weather transformation operators that can reflect the impact of the various cooperative driving factors to produce transformed scenes. Furthermore, we adopt a V2X-oriented guidance strategy for the transformed scene generation process and improve testing efficiency. We experiment CooTest with multiple cooperative perception models with different fusion schemes to evaluate its performance on different tasks. The experiment results show that CooTest can effectively detect erroneous behaviors under various V2X-oriented driving conditions. Also, the results confirm that CooTest can improve detection average precision and decrease misleading cooperation errors by retraining with the generated scenes.
翻訳日:2024-08-30 14:02:47 公開日:2024-08-29
# 生物物理学的動機付け細胞合成による3次元深層学習セグメンテーションの改善

Improving 3D deep learning segmentation with biophysically motivated cell synthesis ( http://arxiv.org/abs/2408.16471v1 )

ライセンス: Link先を確認
Roman Bruch, Mario Vitacolonna, Elina Nürnberg, Simeon Sauer, Rüdiger Rudolf, Markus Reischl, (参考訳) 生体医学の研究はますます3D細胞培養モデルに依存しており、AIに基づく分析は単一の細胞レベルで詳細な正確な特徴抽出を促進する可能性がある。 しかし、これは3Dセルデータセットの正確なセグメンテーションを必要とする。 手動アノテーションは、地上の真実データのための金の標準であり、時間を要するため、大規模な3Dトレーニングデータセットの生成には有効ではない。 そこで本研究では,現実的な細胞形状とアライメントのための生体物理モデリングを統合した3次元トレーニングデータを生成する新しいフレームワークを提案する。 提案手法により,コヒーレント膜と核信号のシリコ生成が可能となり,両チャネルを用いたセグメンテーションモデルの訓練が可能となり,性能が向上した。 さらに、画像データだけでなく、マッチングラベルも生成する新しいGANトレーニング手法を提案する。 定量的評価は,生物物理学的動機付け型総合訓練データの優れた性能を示し,手動アノテーションや事前訓練モデルよりも優れていた。 このことは、合成トレーニングデータの品質向上に生物物理モデリングを組み込むことの可能性を示している。

Biomedical research increasingly relies on 3D cell culture models and AI-based analysis can potentially facilitate a detailed and accurate feature extraction on a single-cell level. However, this requires for a precise segmentation of 3D cell datasets, which in turn demands high-quality ground truth for training. Manual annotation, the gold standard for ground truth data, is too time-consuming and thus not feasible for the generation of large 3D training datasets. To address this, we present a novel framework for generating 3D training data, which integrates biophysical modeling for realistic cell shape and alignment. Our approach allows the in silico generation of coherent membrane and nuclei signals, that enable the training of segmentation models utilizing both channels for improved performance. Furthermore, we present a new GAN training scheme that generates not only image data but also matching labels. Quantitative evaluation shows superior performance of biophysical motivated synthetic training data, even outperforming manual annotation and pretrained models. This underscores the potential of incorporating biophysical modeling for enhancing synthetic training data quality.
翻訳日:2024-08-30 13:52:40 公開日:2024-08-29
# 視覚オドメトリーによる複数視点の組み合わせによるブドウの分節点雲の作成

Creating a Segmented Pointcloud of Grapevines by Combining Multiple Viewpoints Through Visual Odometry ( http://arxiv.org/abs/2408.16472v1 )

ライセンス: Link先を確認
Michael Adlerstein, Angelo Bratta, João Carlos Virgolino Soares, Giovanni Dessy, Miguel Fernandes, Matteo Gatti, Claudio Semini, (参考訳) グラーペヴィンの冬刈りは労働集約的で反復的な工程であり、ブドウの収穫の品質と量に大きな影響を及ぼし、次のシーズンのワインを生産する。 カットすべきポイントを慎重に専門家が検出する必要がある。 その複雑さ、反復的な性質、時間の制約のため、そのタスクは訓練が必要な熟練した労働力を必要とします。 この拡張抽象化は、プロジェクトVinumで採用されているコンピュータビジョンパイプラインを、セグメンテーションネットワークとしてSentron2を使用し、キーポイントビジュアルオドメトリーを使用して、異なる観察をインフォームドプルーニング決定に使用する単一のポイントクラウドにマージする。

Grapevine winter pruning is a labor-intensive and repetitive process that significantly influences the quality and quantity of the grape harvest and produced wine of the following season. It requires a careful and expert detection of the point to be cut. Because of its complexity, repetitive nature and time constraint, the task requires skilled labor that needs to be trained. This extended abstract presents the computer vision pipeline employed in project Vinum, using detectron2 as a segmentation network and keypoint visual odometry to merge different observation into a single pointcloud used to make informed pruning decisions.
翻訳日:2024-08-30 13:52:40 公開日:2024-08-29
# MICDrop: ドメイン適応セマンティックセマンティックセグメンテーションのための補完ドロップアウトによるマスキング画像と深さ特徴

MICDrop: Masking Image and Depth Features via Complementary Dropout for Domain-Adaptive Semantic Segmentation ( http://arxiv.org/abs/2408.16478v1 )

ライセンス: Link先を確認
Linyan Yang, Lukas Hoyer, Mark Weber, Tobias Fischer, Dengxin Dai, Laura Leal-Taixé, Marc Pollefeys, Daniel Cremers, Luc Van Gool, (参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメイン、例えば合成データ、ラベルなしターゲットドメインの間のドメインギャップを埋めるタスクである。 現状のUDA法は, 微細構造に対して劣った結果を示し, 曖昧な外観でオブジェクトを重畳する傾向にある。 これらの欠点に対処するために、深度不連続性はしばしばセグメンテーション境界と一致するため、幾何学的情報、すなわち深度予測を活用することを提案する。 我々は,現在のUDA手法に奥行きを深く組み込むことで,この補完的な情報の可能性を完全には活用できないことを示す。 この目的のために,画像エンコーダの特徴を逆マスキングしながら,画像エンコーダの特徴をマスキングすることで,共同特徴表現を学習するMICDropを提案する。 この単純かつ効果的な補完的なマスキング戦略により,共同特徴表現を学習する際の両モードの使用を強制する。 このプロセスを支援するために,深度予測におけるエラーに対して堅牢でありながら,グローバルおよびローカル情報共有の両方を改善する機能融合モジュールを提案する。 提案手法は, 各種UDA手法にプラグインし, 標準UDAベンチマークで連続的に結果を改善し, 新たな最先端性能が得られることを示す。

Unsupervised Domain Adaptation (UDA) is the task of bridging the domain gap between a labeled source domain, e.g., synthetic data, and an unlabeled target domain. We observe that current UDA methods show inferior results on fine structures and tend to oversegment objects with ambiguous appearance. To address these shortcomings, we propose to leverage geometric information, i.e., depth predictions, as depth discontinuities often coincide with segmentation boundaries. We show that naively incorporating depth into current UDA methods does not fully exploit the potential of this complementary information. To this end, we present MICDrop, which learns a joint feature representation by masking image encoder features while inversely masking depth encoder features. With this simple yet effective complementary masking strategy, we enforce the use of both modalities when learning the joint feature representation. To aid this process, we propose a feature fusion module to improve both global as well as local information sharing while being robust to errors in the depth predictions. We show that our method can be plugged into various recent UDA methods and consistently improve results across standard UDA benchmarks, obtaining new state-of-the-art performances.
翻訳日:2024-08-30 13:52:40 公開日:2024-08-29
# データアートエキシビションによる創造的な可視化スキルの育成

Fostering Creative Visualisation Skills Through Data-Art Exhibitions ( http://arxiv.org/abs/2408.16479v1 )

ライセンス: Link先を確認
Jonathan C. Roberts, (参考訳) データアート展覧会は、学生の間で創造的な視覚化スキルを育むために、ユニークで現実的な設定を提供する。 学生が自分の仕事を見せるための現実世界のプラットフォームとして機能し、教室での学習とプロの実践のギャップを埋める。 学生は、技術的なソリューションを開発し、コンテキストを把握し、公開プレゼンテーションに適した仕事を作らなければならない。 このシナリオは革新的思考の促進、トピックへの関与、技術的熟練度の向上に役立つ。 本稿では,3年制の学生を対象に,コンピュータカリキュラムにおけるデータアートエキシビションの実施について紹介する。 学生は選択したデータセットからアートベースの可視化を作成し、公開展示会で作品を展示する。 このイニシアチブは、異なるコホートを持つ2年間にわたって利用され、学生の学習と創造性への影響を反映しています。

Data-art exhibitions offer a unique and real-world setting to foster creative visualisation skills among students. They serve as real-world platform for students to display their work, bridging the gap between classroom learning and professional practice. Students must develop a technical solution, grasp the context, and produce work that is appropriate for public presentation. This scenario helps to encourage innovative thinking, engagement with the topic, and helps to enhance technical proficiency. We present our implementation of a data-art exhibition within a computing curriculum, for third-year degree-level students. Students create art-based visualisations from selected datasets and present their work in a public exhibition. We have used this initiative over the course of two academic years with different cohorts, and reflect on its impact on student learning and creativity.
翻訳日:2024-08-30 13:52:40 公開日:2024-08-29
# Deep-Learning-based Lable-free No-Reference Image Quality Assessment Metric: Application in Sodium MRI Denoising (特集:一般セッション)

A Deep-Learning-Based Lable-free No-Reference Image Quality Assessment Metric: Application in Sodium MRI Denoising ( http://arxiv.org/abs/2408.16481v1 )

ライセンス: Link先を確認
Shuaiyu Yuan, Tristan Whitmarsh, Dimitri A Kessler, Otso Arponen, Mary A McLean, Gabrielle Baxter, Frank Riemer, Aneurin J Kennerley, William J Brackenbury, Fiona J Gilbert, Joshua D Kaggie, (参考訳) ナトリウムMRIのような新しい多核MRI技術は、本質的に低信号のため、画像品質が低下することが多い。 画像のデノナイジングのような後処理手法は、画像の強調のために開発されている。 しかし,これらの強調画像の評価は,特にナトリウムMRIのような高解像度・高信号画像が参照されていない場合を考えると困難である。 非参照画像品質評価(NR-IQA)メトリクスは、この問題を解決するためのアプローチである。 既存の学習ベースのNR-IQAメトリクスは、主観的な人間の意見から派生したラベルや、SNR(Signal-to-Noise Ratio)のようなメトリクスに依存している。 深層学習(DL)モデルは特徴的トレーニングセットに特化している点に特有な特徴があることに留意する。 そこで本研究では,新しいDLベースのNR-IQAメトリックであるモデルスペシャライゼーション・メトリック(MSM)を提案する。 MSMは、入力画像の品質を評価するために、入力画像とモデルの予測との差を測定する。 陽子-陽子-陽子-重み付きMR画像および陽子-陽子-陽子-陽子-陽子-陽子-陽子-陽子-陽子-陽子-陽子-陽子-陽子-陽子-陽子-陽子-陽子-陽子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子-光子 MSMはまた、専門家の評価とかなりの合意を結び、コーエンのカッパ係数の0.6528を達成し、既存のNR-IQA測定値を上回った。

New multinuclear MRI techniques, such as sodium MRI, generally suffer from low image quality due to an inherently low signal. Postprocessing methods, such as image denoising, have been developed for image enhancement. However, the assessment of these enhanced images is challenging especially considering when there is a lack of high resolution and high signal images as reference, such as in sodium MRI. No-reference Image Quality Assessment (NR-IQA) metrics are approaches to solve this problem. Existing learning-based NR-IQA metrics rely on labels derived from subjective human opinions or metrics like Signal-to-Noise Ratio (SNR), which are either time-consuming or lack accurate ground truths, resulting in unreliable assessment. We note that deep learning (DL) models have a unique characteristic in that they are specialized to a characteristic training set, meaning that deviations between the input testing data from the training data will reduce prediction accuracy. Therefore, we propose a novel DL-based NR-IQA metric, the Model Specialization Metric (MSM), which does not depend on ground-truth images or labels. MSM measures the difference between the input image and the model's prediction for evaluating the quality of the input image. Experiments conducted on both simulated distorted proton T1-weighted MR images and denoised sodium MR images demonstrate that MSM exhibits a superior evaluation performance on various simulated noises and distortions. MSM also has a substantial agreement with the expert evaluations, achieving an averaged Cohen's Kappa coefficient of 0.6528, outperforming the existing NR-IQA metrics.
翻訳日:2024-08-30 13:52:40 公開日:2024-08-29
# 自己アライメント:インコンテキスト学習によるLLMにおける文化的価値のアライメント改善

Self-Alignment: Improving Alignment of Cultural Values in LLMs via In-Context Learning ( http://arxiv.org/abs/2408.16482v1 )

ライセンス: Link先を確認
Rochelle Choenni, Ekaterina Shutova, (参考訳) エンコードする文化的価値に関して、LLM(Large Language Models)のアライメントを改善することが、ますます重要なトピックになりつつある。 本研究では,文化価値プローブに対するモデル応答を調整するために,推定時に既存の文化的価値に関する知識を活用できるかどうかを検討する。 In-context Learning(ICL)とヒューマンサーベイデータを組み合わせた簡易で安価な手法を提案し、英語と多言語の両方のLLMを含む5つのモデルにおいて、文化的価値との整合性を改善することができることを示す。 重要なことは、我々の手法が英語以外のテスト言語で有用であることを証明し、文化的に多様な国に対応する文化的価値観の整合性を向上できることである。

Improving the alignment of Large Language Models (LLMs) with respect to the cultural values that they encode has become an increasingly important topic. In this work, we study whether we can exploit existing knowledge about cultural values at inference time to adjust model responses to cultural value probes. We present a simple and inexpensive method that uses a combination of in-context learning (ICL) and human survey data, and show that we can improve the alignment to cultural values across 5 models that include both English-centric and multilingual LLMs. Importantly, we show that our method could prove useful in test languages other than English and can improve alignment to the cultural values that correspond to a range of culturally diverse countries.
翻訳日:2024-08-30 13:52:40 公開日:2024-08-29
# テスト時間プロンプトチューニングによる視覚言語モデルのオープンクラス適応

Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning ( http://arxiv.org/abs/2408.16486v1 )

ライセンス: Link先を確認
Zhengqing Gao, Xiang Ao, Xu-Yao Zhang, Cheng-Lin Liu, (参考訳) 学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。 視覚言語モデルはテキストモダリティの知識を十分に探求し、様々なオープンセット問題に自然に適合する強力なゼロショット認識性能を示す。 最近では、そのようなモデルを下流タスクに微調整することに焦点を当てている研究もある。 プロンプトチューニング手法は、数ショットデータ上でコンテキストベクトルを学習することで、大幅な改善を実現した。 しかし、新しいクラスを含むテストデータを用いたオープンセット適応設定による評価により、学習プロンプトが手作りプロンプトよりもより悪い一般化能力を持つジレンマが存在することがわかった。 本稿では,両者の利点を組み合わせて,最大概念マッチング(MCM)スコアを動的重みとして活用し,テスト中の各画像に対して入力条件付きプロンプトを生成するテスト時プロンプトチューニング手法を提案する。 提案手法は,11種類のデータセットに対する広範な実験により,基本クラスと新クラスの両方を考慮した平均比較法よりも優れた性能を示した。 コードはhttps://github.com/gaozhengqing/TTPTで公開されている。

Adapting pre-trained models to open classes is a challenging problem in machine learning. Vision-language models fully explore the knowledge of text modality, demonstrating strong zero-shot recognition performance, which is naturally suited for various open-set problems. More recently, some research focuses on fine-tuning such models to downstream tasks. Prompt tuning methods achieved huge improvements by learning context vectors on few-shot data. However, through the evaluation under open-set adaptation setting with the test data including new classes, we find that there exists a dilemma that learned prompts have worse generalization abilities than hand-crafted prompts. In this paper, we consider combining the advantages of both and come up with a test-time prompt tuning approach, which leverages the maximum concept matching (MCM) scores as dynamic weights to generate an input-conditioned prompt for each image during test. Through extensive experiments on 11 different datasets, we show that our proposed method outperforms all comparison methods on average considering both base and new classes. The code is available at https://github.com/gaozhengqing/TTPT
翻訳日:2024-08-30 13:52:40 公開日:2024-08-29
# 透過電子顕微鏡における電子スピン共鳴分光

Electron Spin Resonance Spectroscopy in a Transmission Electron Microscope ( http://arxiv.org/abs/2408.16492v1 )

ライセンス: Link先を確認
Antonín Jaroš, Johann Toyfl, Andrea Pupić, Benjamin Czasch, Giovanni Boero, Isobel C. Bicket, Philipp Haslinger, (参考訳) 核磁気共鳴(NMR)や電子スピン共鳴(ESR)分光のようなコヒーレントスピン共鳴法は、スペクトル的に高感度で非侵襲的な量子イメージング技術をもたらし、医学、生物学、物理学などの分野において画期的な応用をもたらした。 一方、透過電子顕微鏡(TEM)は、サブ原子分解能の詳細な研究を提供するが、しばしば大きな放射線損傷を引き起こす。 ここでは、シナジーを利用して、TEMにおけるESR分光の統合について報告する。 標準TEM試料ホルダ上の小型ESR装置は、TEM極の強磁場を利用してスピン状態の配向とエネルギー的分離を行う。 この統合はスピン系とその力学、量子材料、ラジカル、電気化学反応、放射線損傷のその場での研究を促進する。 さらに、この発展は、ナノスケールで高度に制御された電子プローブを用いたマイクロ波制御量子スピン研究への重要な技術的進歩を示す。

Coherent spin resonance methods such as nuclear magnetic resonance (NMR) and electron spin resonance (ESR) spectroscopy have led to spectrally highly sensitive, non-invasive quantum imaging techniques with groundbreaking applications in fields such as medicine, biology, and physics. Meanwhile, transmission electron microscopy (TEM) offers detailed investigations with sub-atomic resolution, but often inflicts significant radiation damage. Here we exploit synergies and report on an integration of ESR spectroscopy in a TEM. Our miniaturized ESR setup on a standard TEM sample holder leverages the strong magnetic field of the TEM polepiece to align and energetically separate spin states. This integration will facilitate in-situ studies of spin systems and their dynamics, quantum materials, radicals, electrochemical reactions, and radiation damage - properties previously mainly invisible to electron microscopic tools. Moreover, this development marks a significant technological advancement toward microwave-controlled quantum spin studies with a highly controlled electron probe at the nanoscale.
翻訳日:2024-08-30 13:52:40 公開日:2024-08-29
# ジェネレーティブバイオメディカルエンティティリンクにおける負のサンプルからの学習

Learning from Negative Samples in Generative Biomedical Entity Linking ( http://arxiv.org/abs/2408.16493v1 )

ライセンス: Link先を確認
Chanhwi Kim, Hyunjae Kim, Sihyeon Park, Jiwoo Lee, Mujeen Sung, Jaewoo Kang, (参考訳) バイオメディカル・エンティティ・リンク (BioEL) では, 優れた性能と効率的なメモリ使用量のため, 生成モデルが広く利用されている。 しかしながら、これらのモデルは、通常、正のサンプル(入力参照の識別子にマッチするエンティティ)でのみ訓練され、硬い負のサンプルから明示的には学習されない。 この制限に対処するために、陰性サンプルを用いた生成バイオELモデルをトレーニングする最初のフレームワークであるANGEL(Generative Biomedical Entity Linkingにおける負のサンプルからの学習)を導入する。 具体的には、生成モデルは、まず、与えられた入力エンティティの知識ベースから正のサンプルを生成するように訓練される。 その後、モデルのトップk予測から正しい出力と間違った出力の両方を収集する。 モデルを更新して、直接選好最適化によって正しい予測を優先順位付けする。 ANGELで微調整したモデルでは,5つのベンチマークで平均1.4%の精度で,従来の最良ベースラインモデルよりも優れていた。 我々のフレームワークを事前トレーニングに組み込むと、パフォーマンスがさらに1.7%向上し、事前トレーニングと微調整の両方でその効果が示された。 私たちのコードはhttps://github.com/dmis-lab/ANGELで公開されています。

Generative models have become widely used in biomedical entity linking (BioEL) due to their excellent performance and efficient memory usage. However, these models are usually trained only with positive samples--entities that match the input mention's identifier--and do not explicitly learn from hard negative samples, which are entities that look similar but have different meanings. To address this limitation, we introduce ANGEL (Learning from Negative Samples in Generative Biomedical Entity Linking), the first framework that trains generative BioEL models using negative samples. Specifically, a generative model is initially trained to generate positive samples from the knowledge base for given input entities. Subsequently, both correct and incorrect outputs are gathered from the model's top-k predictions. The model is then updated to prioritize the correct predictions through direct preference optimization. Our models fine-tuned with ANGEL outperform the previous best baseline models by up to an average top-1 accuracy of 1.4% on five benchmarks. When incorporating our framework into pre-training, the performance improvement further increases to 1.7%, demonstrating its effectiveness in both the pre-training and fine-tuning stages. Our code is available at https://github.com/dmis-lab/ANGEL.
翻訳日:2024-08-30 13:52:39 公開日:2024-08-29
# オンデバイスAI: 時系列におけるトランスフォーマーの量子化対応トレーニング

On-device AI: Quantization-aware Training of Transformers in Time-Series ( http://arxiv.org/abs/2408.16495v1 )

ライセンス: Link先を確認
Tianheng Ling, Gregor Schiele, (参考訳) 広範コンピューティングにおける時系列の人工知能(AI)モデルは、ますます大きく、より複雑になってきている。 Transformerモデルは、これらのAIモデルの中で最も魅力的だ。 しかし、そのような大規模なモデルを限られた資源を持つセンサデバイスに展開する際には、所望の性能を得るのは難しい。 私の研究は、時系列予測タスクのためのTransformerモデルを最適化することに焦点を当てています。 最適化されたモデルは、組み込みフィールドプログラマブルゲートアレイ(FPGA)上にハードウェアアクセラレータとしてデプロイされる。 FPGAの利点を最大化しつつ、そのサイズと実行時のメモリフットプリントを削減するために、Transformerモデルに量子化対応トレーニングを適用することの影響について検討する。

Artificial Intelligence (AI) models for time-series in pervasive computing keep getting larger and more complicated. The Transformer model is by far the most compelling of these AI models. However, it is difficult to obtain the desired performance when deploying such a massive model on a sensor device with limited resources. My research focuses on optimizing the Transformer model for time-series forecasting tasks. The optimized model will be deployed as hardware accelerators on embedded Field Programmable Gate Arrays (FPGAs). I will investigate the impact of applying Quantization-aware Training to the Transformer model to reduce its size and runtime memory footprint while maximizing the advantages of FPGAs.
翻訳日:2024-08-30 13:52:39 公開日:2024-08-29
# コード生成タスクにおける大規模言語モデルの評価に関する調査

A Survey on Evaluating Large Language Models in Code Generation Tasks ( http://arxiv.org/abs/2408.16498v1 )

ライセンス: Link先を確認
Liguo Chen, Qi Guo, Hongrui Jia, Zhengran Zeng, Xin Wang, Yijiang Xu, Jian Wu, Yidong Wang, Qing Gao, Jindong Wang, Wei Ye, Shikun Zhang, (参考訳) 本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。 自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。 この論文は、LLMの歴史的発展とそのコード生成への応用をレビューすることから始まる。 次に、専門家のレビューとユーザエクスペリエンスに基づいて、コードの正確性、効率性、可読性、評価方法など、LCMのコード生成能力を評価するための様々な方法とメトリクスを詳述する。 また、広く使われているベンチマークデータセットを評価し、それらの制限を特定し、今後の改善に向けた方向性を提案する。 具体的には、コードコンパイル/解釈成功率、単体テストパス率、性能および効率指標などの複数の評価指標を組み合わせて、コード生成におけるLLMの実用的応用を総合的に評価することにより、異なるタスク間でコード生成モデルの性能を分析する。 最後に、コード生成におけるLCMの評価における課題、特に評価手法の包括性と精度の確保方法、そしてソフトウェア開発の進化的プラクティスへの適応方法について論じる。 これらの分析と議論は、コード生成タスクにおけるLLMのさらなる最適化と改善のための貴重な洞察を提供する。

This paper provides a comprehensive review of the current methods and metrics used to evaluate the performance of Large Language Models (LLMs) in code generation tasks. With the rapid growth in demand for automated software development, LLMs have demonstrated significant potential in the field of code generation. The paper begins by reviewing the historical development of LLMs and their applications in code generation. Next, it details various methods and metrics for assessing the code generation capabilities of LLMs, including code correctness, efficiency, readability, and evaluation methods based on expert review and user experience. The paper also evaluates the widely used benchmark datasets, identifying their limitations and proposing directions for future improvements. Specifically, the paper analyzes the performance of code generation models across different tasks by combining multiple evaluation metrics, such as code compilation/interpretation success rates, unit test pass rates, and performance and efficiency metrics, to comprehensively assess the practical application of LLMs in code generation. Finally, the paper discusses the challenges faced in evaluating LLMs in code generation, particularly how to ensure the comprehensiveness and accuracy of evaluation methods and how to adapt to the evolving practices of software development. These analyses and discussions provide valuable insights for further optimizing and improving the application of LLMs in code generation tasks.
翻訳日:2024-08-30 13:52:39 公開日:2024-08-29
# CogVLM2:画像とビデオの理解のためのビジュアル言語モデル

CogVLM2: Visual Language Models for Image and Video Understanding ( http://arxiv.org/abs/2408.16500v1 )

ライセンス: Link先を確認
Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang, (参考訳) VisualGLM と CogVLM から始まり、視覚言語融合の強化、効率的な高解像度アーキテクチャ、より広範なモダリティと応用を追求し、引き続き VLM を探求しています。 本稿では,CagVLM2,CagVLM2-Video,GLM-4Vを含む画像および映像理解のための次世代ビジュアル言語モデルであるCagVLM2ファミリを提案する。 画像理解モデルとして、CogVLM2は、トレーニング前とトレーニング後の両方でトレーニングレシピを改善し、1344 \times 1344$ピクセルまでの入力解像度をサポートすることで、ビジュアルエキスパートアーキテクチャを継承する。 ビデオ理解モデルとして、CogVLM2-Videoはマルチフレーム入力とタイムスタンプを統合し、時間的グラウンドの自動構築を提案する。 特に、CagVLM2ファミリはMMBench、MM-Vet、TextVQA、MVBench、VCGBenchといったベンチマークで最先端の結果を得た。 すべてのモデルはhttps://github.com/THUDM/CogVLM2とhttps://github.com/THUDM/GLM-4でオープンソース化されており、この分野の発展に寄与している。

Beginning with VisualGLM and CogVLM, we are continuously exploring VLMs in pursuit of enhanced vision-language fusion, efficient higher-resolution architecture, and broader modalities and applications. Here we propose the CogVLM2 family, a new generation of visual language models for image and video understanding including CogVLM2, CogVLM2-Video and GLM-4V. As an image understanding model, CogVLM2 inherits the visual expert architecture with improved training recipes in both pre-training and post-training stages, supporting input resolution up to $1344 \times 1344$ pixels. As a video understanding model, CogVLM2-Video integrates multi-frame input with timestamps and proposes automated temporal grounding data construction. Notably, CogVLM2 family has achieved state-of-the-art results on benchmarks like MMBench, MM-Vet, TextVQA, MVBench and VCGBench. All models are open-sourced in https://github.com/THUDM/CogVLM2 and https://github.com/THUDM/GLM-4, contributing to the advancement of the field.
翻訳日:2024-08-30 13:52:39 公開日:2024-08-29
# UAVを用いた静止地図作成のための人体検出器の選択と融合

UAV-Based Human Body Detector Selection and Fusion for Geolocated Saliency Map Generation ( http://arxiv.org/abs/2408.16501v1 )

ライセンス: Link先を確認
Piotr Rudol, Patrick Doherty, Mariusz Wzorek, Chattrakul Sombattheera, (参考訳) 無人航空機(UAV)を用いた探索や救助など、多くの応用分野において、異なるクラスの物体をソフトリアルタイムで確実に検出・位置決めする問題は不可欠である。 本研究は,UAVのチームによる検出結果の融合に加えて,システムコンテキストの視覚に基づく検知器の選択,割り当て,実行の相補的な問題に対処する。 オフラインのステップでは、まず、システムの観点から、視覚ベースの検出器のアプリケーション非依存の評価を行う。 この評価に基づき、各プラットフォームに対して最も適切なオンラインオブジェクト検出アルゴリズムがミッション前に自動的に選択され、利用可能な通信リンク、使用されるビデオ圧縮、利用可能な計算資源など、実用的なシステム考慮事項が考慮される。 検出結果は,新しいセンサモデルを利用して,正と負の両方の観測を視覚ベースで検出する,有意な位置の地図を構築する手法を用いて融合される。 シミュレーションおよび実飛行実験も実施し,提案手法の有効性を検証した。

The problem of reliably detecting and geolocating objects of different classes in soft real-time is essential in many application areas, such as Search and Rescue performed using Unmanned Aerial Vehicles (UAVs). This research addresses the complementary problems of system contextual vision-based detector selection, allocation, and execution, in addition to the fusion of detection results from teams of UAVs for the purpose of accurately and reliably geolocating objects of interest in a timely manner. In an offline step, an application-independent evaluation of vision-based detectors from a system perspective is first performed. Based on this evaluation, the most appropriate algorithms for online object detection for each platform are selected automatically before a mission, taking into account a number of practical system considerations, such as the available communication links, video compression used, and the available computational resources. The detection results are fused using a method for building maps of salient locations which takes advantage of a novel sensor model for vision-based detections for both positive and negative observations. A number of simulated and real flight experiments are also presented, validating the proposed method.
翻訳日:2024-08-30 13:52:39 公開日:2024-08-29
# LLMs vs. Established Text Augmentation Techniques for Classification: the Benefits Outweight the Costs?

LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs? ( http://arxiv.org/abs/2408.16502v1 )

ライセンス: Link先を確認
Jan Cegin, Jakub Simko, Peter Brusilovsky, (参考訳) 生成型大規模言語モデル (LLMs) は、テキストサンプルを LLM で表現し、次に分類器の微調整に使用するデータ拡張タスクにますます使われている。 しかし、より確立された拡張法よりもLCMの明確な費用対効果を裏付ける研究はほとんど欠落している。 LLMをベースとした拡張法が有効であるかどうか(そしていつ)を調べるため,最近のLLM拡張法と確立した手法を6つのデータセット,3つの分類器,2つの微調整法で比較した。 また,下流モデル精度空間をよりよく探索するため,種子数や試料の採取量も変化した。 最後に,LLM法はごく少数の種子を用いる場合にのみ適用可能であることを示す。 さらに、多くの場合、確立された手法は類似またはより良いモデルアキュラシーをもたらす。

The generative large language models (LLMs) are increasingly being used for data augmentation tasks, where text samples are LLM-paraphrased and then used for classifier fine-tuning. However, a research that would confirm a clear cost-benefit advantage of LLMs over more established augmentation methods is largely missing. To study if (and when) is the LLM-based augmentation advantageous, we compared the effects of recent LLM augmentation methods with established ones on 6 datasets, 3 classifiers and 2 fine-tuning methods. We also varied the number of seeds and collected samples to better explore the downstream model accuracy space. Finally, we performed a cost-benefit analysis and show that LLM-based methods are worthy of deployment only when very small number of seeds is used. Moreover, in many cases, established methods lead to similar or better model accuracies.
翻訳日:2024-08-30 13:52:39 公開日:2024-08-29
# 集中病害虫計数のための局所的グループ化とスケールガイド型注意

Locally Grouped and Scale-Guided Attention for Dense Pest Counting ( http://arxiv.org/abs/2408.16503v1 )

ライセンス: Link先を確認
Chang-Hwan Son, (参考訳) 本研究は,デジタルトラップによって捕獲された密集した害虫を予測するための,新たな密集した害虫計数問題を提案する。 わずかに分散したオブジェクトに対する従来の検出ベースカウントモデルとは異なり、トラップベースの害虫カウントは、密集した害虫分布に対処し、重度の閉塞、広いポーズの変化、色やテクスチャの類似した外観といった課題に対処する必要がある。 これらの問題に対処するためには、局所的に重要かつ重要でない領域を特定して、局所的にグループ化された特徴を学習し、識別性能を高めるローカルアテンション機構を導入することが不可欠である。 そこで本研究では,局所的なグループ化とスケール誘導による注意をマルチスケールのCenterNetフレームワークに統合する新しい設計を提案する。 局所的な特徴を類似した属性でグループ化するために、ペストセントロイド情報を含む1時間ガラスで予測されるヒートマップを用いて簡単な手法を導入し、複雑なクラスタリングモデルの必要性を排除した。 注意力を高めるため、画素アテンションモジュールはヒートマップを学習可能なマップに変換する。 その後、オブジェクトと背景の特徴をより識別し、マルチスケールな特徴融合を実現するために、スケール誘導された注意が配置される。 実験により,局所的なグループ化と識別的特徴強調学習に基づく対象特徴の強化が検証された。 さらに, 本モデルでは, 密集害虫計数に好適なオクルージョン問題を克服し, 変動問題を生じさせるのに極めて有効である。 特に、提案したモデルは、密度の高い害虫数に顕著な貢献をしながら、最先端のモデルを大きなマージンで上回る。

This study introduces a new dense pest counting problem to predict densely distributed pests captured by digital traps. Unlike traditional detection-based counting models for sparsely distributed objects, trap-based pest counting must deal with dense pest distributions that pose challenges such as severe occlusion, wide pose variation, and similar appearances in colors and textures. To address these problems, it is essential to incorporate the local attention mechanism, which identifies locally important and unimportant areas to learn locally grouped features, thereby enhancing discriminative performance. Accordingly, this study presents a novel design that integrates locally grouped and scale-guided attention into a multiscale CenterNet framework. To group local features with similar attributes, a straightforward method is introduced using the heatmap predicted by the first hourglass containing pest centroid information, which eliminates the need for complex clustering models. To enhance attentiveness, the pixel attention module transforms the heatmap into a learnable map. Subsequently, scale-guided attention is deployed to make the object and background features more discriminative, achieving multiscale feature fusion. Through experiments, the proposed model is verified to enhance object features based on local grouping and discriminative feature attention learning. Additionally, the proposed model is highly effective in overcoming occlusion and pose variation problems, making it more suitable for dense pest counting. In particular, the proposed model outperforms state-of-the-art models by a large margin, with a remarkable contribution to dense pest counting.
翻訳日:2024-08-30 13:52:39 公開日:2024-08-29
# パノプティカルセグメンテーションのためのシンプルで汎用的なアプローチ

A Simple and Generalist Approach for Panoptic Segmentation ( http://arxiv.org/abs/2408.16504v1 )

ライセンス: Link先を確認
Nedyalko Prisadnikov, Wouter Van Gansbeke, Danda Pani Paudel, Luc Van Gool, (参考訳) 汎用的なビジョンモデルは、様々なビジョンタスクのための1つの同じアーキテクチャを目指している。 このような共有アーキテクチャは魅力的に思えるかも知れないが、一般的なモデルは、特に汎視的セグメンテーションの場合、その好奇心に勝る傾向にある。 一般モデルの望ましい性質を損なうことなく、2つの重要なコントリビューションを導入することでこの問題に対処する。 これらの貢献は以下のとおりである。 i) 中心性退縮の改善のための位置埋め込み(PE)に基づく損失 (ii) インスタンス境界のより良い分離のためのエッジ距離サンプリング(EDS)。 PEベースの損失は、関連するインスタンスのセントロイドのピクセル単位のレグレッションを改善するのに対して、EDSは(ラベルの欠如による)空白領域と小さなインスタンスを慎重に扱うことで貢献する。 これら2つの単純かつ効果的な修正は、確立されたベースラインを著しく改善し、すべての一般解の最先端の結果を達成する。 より具体的には、COCOデータセット上で52.5の汎光学品質(PQ)を達成し、同様のアプローチ(Painter)でベストモデルよりも10点向上し、最高の拡散法Pix2Seq-$\mathcal{D}$に対して2よりも優れている。 さらに、徹底的な実験を通じて、コントリビューションに関する洞察と詳細な分析を提供する。 ソースコードとモデルの重み付けを公開します。

Generalist vision models aim for one and the same architecture for a variety of vision tasks. While such shared architecture may seem attractive, generalist models tend to be outperformed by their bespoken counterparts, especially in the case of panoptic segmentation. We address this problem by introducing two key contributions, without compromising the desirable properties of generalist models. These contributions are: (i) a positional-embedding (PE) based loss for improved centroid regressions; (ii) Edge Distance Sampling (EDS) for the better separation of instance boundaries. The PE-based loss facilitates a better per-pixel regression of the associated instance's centroid, whereas EDS contributes by carefully handling the void regions (caused by missing labels) and smaller instances. These two simple yet effective modifications significantly improve established baselines, while achieving state-of-the-art results among all generalist solutions. More specifically, our method achieves a panoptic quality(PQ) of 52.5 on the COCO dataset, which is an improvement of 10 points over the best model with similar approach (Painter), and is superior by 2 to the best performing diffusion-based method Pix2Seq-$\mathcal{D}$. Furthermore, we provide insights into and an in-depth analysis of our contributions through exhaustive experiments. Our source code and model weights will be made publicly available.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# アライメントは必要なものすべて:Pose-Guidedビデオ生成のためのトレーニング不要のアライメント戦略

Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation ( http://arxiv.org/abs/2408.16506v1 )

ライセンス: Link先を確認
Xiaoyu Jin, Zunnan Xu, Mingwen Ou, Wenming Yang, (参考訳) キャラクターアニメーションはコンピュータグラフィックスとビジョンの変換フィールドであり、静的画像から動的でリアルなビデオアニメーションを可能にする。 進歩にもかかわらず、アニメーションにおける外観の整合性を維持することは依然として課題である。 提案手法は,2つのアライメント戦略により,参照画像の微妙さ(物理値や比例値など)を確実に保存する,トレーニング不要なフレームワークを導入することで,この問題に対処する。 我々は、骨格と動きの先行情報をポーズ情報から切り離し、アニメーション生成の正確な制御を可能にする。 また、基準文字からの条件制御のための画素レベルのアライメントを改善し、アニメーションの時間的一貫性と視覚的凝集性を高める。 提案手法は,大規模なデータセットや高価な計算資源を必要とせず,映像生成の質を大幅に向上させる。

Character animation is a transformative field in computer graphics and vision, enabling dynamic and realistic video animations from static images. Despite advancements, maintaining appearance consistency in animations remains a challenge. Our approach addresses this by introducing a training-free framework that ensures the generated video sequence preserves the reference image's subtleties, such as physique and proportions, through a dual alignment strategy. We decouple skeletal and motion priors from pose information, enabling precise control over animation generation. Our method also improves pixel-level alignment for conditional control from the reference character, enhancing the temporal consistency and visual cohesion of animations. Our method significantly enhances the quality of video generation without the need for large datasets or expensive computational resources.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# カラフルなコンポーネント問題に対するブランチ・アンド・カットアルゴリズム

Branch-and-cut algorithms for colorful components problems ( http://arxiv.org/abs/2408.16508v1 )

ライセンス: Link先を確認
Claudia Archetti, Martina Cerulli, Carmine Sorgente, (参考訳) 我々は,各ノードに色を割り当てる色付きグラフを,カラフルな連結成分に分割しなければならない3つの最適化問題に取り組む。 コンポーネントは、各色が最大で一度だけ現れる場合、カラフルなものとして定義される。 問題は目的関数で異なり、どの分割が最適かを決定する。 これらの問題は、コミュニティ検出、サイバーセキュリティ、バイオインフォマティクスに応用されている。 整数非線型定式化(英語版)を行い、標準手法を用いて線形化する。 これらの定式化を解決するために,正当性不等式,変数数制限境界,ウォームスタート・プリプロセッシングといった様々な改良手法を組み込んだ,正確な分岐・カットアルゴリズムを開発した。 ベンチマークインスタンスの大規模な計算テストでは,提案手法の有効性が示されている。 ブランチ・アンド・カットのアルゴリズムは、合理的なサイズのインスタンスを効率的に解くことができる。 我々の知る限りでは、これらの問題を解決するための正確なアルゴリズムを最初に提案する。

We tackle three optimization problems in which a colored graph, where each node is assigned a color, must be partitioned into colorful connected components. A component is defined as colorful if each color appears at most once. The problems differ in the objective function, which determines which partition is the best one. These problems have applications in community detection, cybersecurity, and bioinformatics. We present integer non-linear formulations, which are then linearized using standard techniques. To solve these formulations, we develop exact branch-and-cut algorithms, embedding various improving techniques, such as valid inequalities, bounds limiting the number of variables, and warm-start and preprocessing techniques. Extensive computational tests on benchmark instances demonstrate the effectiveness of the proposed procedures. The branch-and-cut algorithms can solve reasonably sized instances efficiently. To the best of our knowledge, we are the first to propose an exact algorithm for solving these problems.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# CanCal: 産業環境におけるリアルタイム・軽量ランサムウェア検出と応答を目指して

CanCal: Towards Real-time and Lightweight Ransomware Detection and Response in Industrial Environments ( http://arxiv.org/abs/2408.16515v1 )

ライセンス: Link先を確認
Shenao Wang, Feng Dong, Hangfeng Yang, Jingheng Xu, Haoyu Wang, (参考訳) ランサムウェア攻撃は、サイバーセキュリティの最も重要な脅威の1つとして浮上している。 多くの検出と防御手法が提案されているにもかかわらず、既存のアプローチは大規模産業用途において2つの基本的な制限に直面している。 これらの課題に対処するために,リアルタイムかつ軽量なランサムウェア検出システムであるCanCalを提案する。 具体的には、CanCalは監視層によって不審なプロセスを選択的にフィルタリングし、詳細な動作分析を行い、ランサムウェアアクティビティを良質な操作から分離し、軽量な計算とストレージオーバーヘッドを確保しながらアラート疲労を最小限にする。 大規模産業環境(約1,761件のランサムウェア,約300万件のイベント,5ヶ月にわたる連続試験)の実験結果から,CanCalは最先端技術と同じくらい有効であり,30ms以内の高速推論と3秒以内のリアルタイム応答が可能であった。 CanCalは、平均CPU使用率を91.04%(6.7%から0.6%)、ピークCPU使用率を76.69%(26.6%から6.2%)、ピークCPU使用率を76.50%(3,192から750まで)削減している。 この執筆時点で、CanCalは商用製品に統合され、1年以上にわたって332万のエンドポイントにデプロイされた。 2023年3月から2024年4月まで、CanCalは61件のランサムウェア攻撃を検出し、阻止し、現実世界のシナリオで洗練されたランサムウェア脅威と戦うCanCalの有効性を実証した。

Ransomware attacks have emerged as one of the most significant cybersecurity threats. Despite numerous proposed detection and defense methods, existing approaches face two fundamental limitations in large-scale industrial applications: intolerable system overheads and notorious alert fatigue. To address these challenges, we propose CanCal, a real-time and lightweight ransomware detection system. Specifically, CanCal selectively filters suspicious processes by the monitoring layers and then performs in-depth behavioral analysis to isolate ransomware activities from benign operations, minimizing alert fatigue while ensuring lightweight computational and storage overhead. The experimental results on a large-scale industrial environment~(1,761 ransomware, ~3 million events, continuous test over 5 months) indicate that CanCal is as effective as state-of-the-art techniques while enabling rapid inference within 30ms and real-time response within a maximum of 3 seconds. CanCal dramatically reduces average CPU utilization by 91.04% (from 6.7% to 0.6%) and peak CPU utilization by 76.69% (from 26.6% to 6.2%), while avoiding 76.50% (from 3,192 to 750) of the inspection efforts from security analysts. By the time of this writing, CanCal has been integrated into a commercial product and successfully deployed on 3.32 million endpoints for over a year. From March 2023 to April 2024, CanCal successfully detected and thwarted 61 ransomware attacks, demonstrating the effectiveness of CanCal in combating sophisticated ransomware threats in real-world scenarios.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# タスクヒューリスティックモデリングによる適応的変分連続学習

Adaptive Variational Continual Learning via Task-Heuristic Modelling ( http://arxiv.org/abs/2408.16517v1 )

ライセンス: Link先を確認
Fan Yang, (参考訳) 変分連続学習(VCL)は、最高の連続学習モデルの中で最先端のパフォーマンスを持つターンキー学習アルゴリズムである。 本稿では,情報学習とモデル最適化のためのタスクヒューリスティックスを組み合わせた,一般化変分連続学習(GVCL)モデルの拡張について検討する。 提案手法は,従来のタスクと比較して,入力タスクの難易度と類似度に基づいて,ハイパーパラメータの自動調整の恩恵を受けながら,固定されたハイパーパラメータによる標準GVCLよりも優れていることを示す。

Variational continual learning (VCL) is a turn-key learning algorithm that has state-of-the-art performance among the best continual learning models. In our work, we explore an extension of the generalized variational continual learning (GVCL) model, named AutoVCL, which combines task heuristics for informed learning and model optimization. We demonstrate that our model outperforms the standard GVCL with fixed hyperparameters, benefiting from the automatic adjustment of the hyperparameter based on the difficulty and similarity of the incoming task compared to the previous tasks.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# CNIMA:第2言語対話の評価のための普遍的評価フレームワークと自動アプローチ

CNIMA: A Universal Evaluation Framework and Automated Approach for Assessing Second Language Dialogues ( http://arxiv.org/abs/2408.16518v1 )

ライセンス: Link先を確認
Rena Gao, Jingxuan Wu, Carsten Roever, Xuetong Wu, Jing Wu, Long Lv, Jey Han Lau, (参考訳) CNIMA (China Non-Native Interactive Measurement and Automation) は10K対話を用いた中国語と中国語のラベル付きデータセットである。 マイクロレベルの特徴(例えば、バックチャネル)とマクロレベルの対話性ラベル(例えば、トピック管理)を評価し、そのフレームワークの英語から中国語への変換性をテストする。 言語間で頑健なフレームワークが発見され,マイクロレベルとマクロレベルの共通性と言語固有の関係が明らかになった。 次に、評価を自動化し、高い性能を得るためのアプローチを提案し、第2言語の自動評価のための新しいツールを作成する。 我々のシステムは、大規模言語モデルを使用するため、容易に他の言語に適応できるため、大規模な注釈付きトレーニングデータを必要としない。

We develop CNIMA (Chinese Non-Native Interactivity Measurement and Automation), a Chinese-as-a-second-language labelled dataset with 10K dialogues. We annotate CNIMA using an evaluation framework -- originally introduced for English-as-a-second-language dialogues -- that assesses micro-level features (e.g.\ backchannels) and macro-level interactivity labels (e.g.\ topic management) and test the framework's transferability from English to Chinese. We found the framework robust across languages and revealed universal and language-specific relationships between micro-level and macro-level features. Next, we propose an approach to automate the evaluation and find strong performance, creating a new tool for automated second language assessment. Our system can be adapted to other languages easily as it uses large language models and as such does not require large-scale annotated training data.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# エントロピー規則分布アライメントを用いたモダリティ非依存なラベル効率セグメンテーションに向けて

Towards Modality-agnostic Label-efficient Segmentation with Entropy-Regularized Distribution Alignment ( http://arxiv.org/abs/2408.16520v1 )

ライセンス: Link先を確認
Liyao Tang, Zhe Chen, Shanshan Zhao, Chaoyue Wang, Dacheng Tao, (参考訳) ラベル効率のセグメンテーションは、訓練のためにスパースラベルと限定接地トラスラベルのみを使用して、入力データに対して効果的なセグメンテーションを行うことを目的としている。 この話題は,2次元画像におけるコスト効率の良いセグメンテーションにも不可欠であると同時に,注釈点雲の密集化の難しさから,3次元点雲セグメンテーションにおいて広く研究されている。 最近まで、擬似ラベルは限られた接地木ラベルでの訓練を促進するために広く使われており、2Dと3Dのセグメンテーションで有望な進歩が見られた。 しかし、既存の擬似ラベルのアプローチは、学習中に生成された擬似ラベルと現在のモデル予測との間に大きな相違をもたらすような、重複のないデータのノイズやバリエーションに悩まされる可能性がある。 モデル学習プロセスは2次元と3次元の両モードのラベル効率学習において共有的な問題であることを示す。 そこで本研究では,学習用擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭める学習手法を提案する。 具体的には、ラベル効率のよい学習のためのエントロピー正規化損失と分布アライメント損失を導入し、ERDA学習戦略を実現する。 興味深いことに、分配アライメント損失をKL距離で定式化することにより、ERDAは擬似ラベル生成モジュールとセグメンテーションモデルの両方を同時に最適化する、知覚的に単純なクロスエントロピーベースの損失に還元する。 さらに,2次元データモダリティと3次元データモダリティの両面において,ERDAを一貫して有効にするために,擬似ラベル生成を革新する。 単純さとモダリティに依存しない擬似ラベル生成を楽しみながら、本手法は、未ラベルデータポイントをすべて活用してトレーニングを行ない、優れた性能を示してきた。

Label-efficient segmentation aims to perform effective segmentation on input data using only sparse and limited ground-truth labels for training. This topic is widely studied in 3D point cloud segmentation due to the difficulty of annotating point clouds densely, while it is also essential for cost-effective segmentation on 2D images. Until recently, pseudo-labels have been widely employed to facilitate training with limited ground-truth labels, and promising progress has been witnessed in both the 2D and 3D segmentation. However, existing pseudo-labeling approaches could suffer heavily from the noises and variations in unlabelled data, which would result in significant discrepancies between generated pseudo-labels and current model predictions during training. We analyze that this can further confuse and affect the model learning process, which shows to be a shared problem in label-efficient learning across both 2D and 3D modalities. To address this issue, we propose a novel learning strategy to regularize the pseudo-labels generated for training, thus effectively narrowing the gaps between pseudo-labels and model predictions. More specifically, our method introduces an Entropy Regularization loss and a Distribution Alignment loss for label-efficient learning, resulting in an ERDA learning strategy. Interestingly, by using KL distance to formulate the distribution alignment loss, ERDA reduces to a deceptively simple cross-entropy-based loss which optimizes both the pseudo-label generation module and the segmentation model simultaneously. In addition, we innovate in the pseudo-label generation to make our ERDA consistently effective across both 2D and 3D data modalities for segmentation. Enjoying simplicity and more modality-agnostic pseudo-label generation, our method has shown outstanding performance in fully utilizing all unlabeled data points for training across ...
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# 分子基底状態エネルギーに対するマルチ参照UCCSD変分量子アルゴリズム

Multi-Reference UCCSD Variational Quantum Algorithm for Molecular Ground State Energies ( http://arxiv.org/abs/2408.16523v1 )

ライセンス: Link先を確認
Di Wu, C. L. Bai, H. Sagawa, H. Q. Zhang, (参考訳) 我々は、LH、BeH$_2$、H$_6$の基底状態エネルギーを研究するために、粒子数を保存する量子回路を用いて、Multi-Reference Unitary Coupled Cluster Singles and Doubles(MR-UCCSD)モデルを実装した。 このアプローチは、量子コンピューティング技術を統合することでMR-UCCSD計算を単純化し、その複雑さを低減する。 MR-UCCSDアプローチは,より優れたMR状態の利益として,単一参照UCCSDアプローチの最大精度である10$^{-5}=Hartree以下の既定誤差を系統的に満たし,計算精度と量子リソース削減の要件を満たす。

We implement the Multi-Reference Unitary Coupled Cluster Singles and Doubles (MR-UCCSD) model with a quantum circuit that conserves the particle number to study the ground state energies of LiH, BeH$_2$, and H$_6$. This approach simplifies the MR-UCCSD computation by integrating quantum computing techniques, and reduces its complexity. As a profit of the better MR states, our MR-UCCSD approach satisfies systematically the predefined errors below 10$^{-5}$ Hartree,which is the highest precision of single reference UCCSD approach, along the whole bond length with only hundreds of CNOT gates, and meets satisfactory the requirements of both computational precision and quantum resource reduction.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# 単一イオン異方性を持つ高スピン強磁性鎖における2磁気バウンド状態の進化:完全解

Evolution of two-magnon bound states in a higher-spin ferromagnetic chain with single-ion anisotropy: A complete solution ( http://arxiv.org/abs/2408.16526v1 )

ライセンス: Link先を確認
Xinlan Lou, Jiawei Li, Ning Wu, (参考訳) 量子スピン鎖におけるほとんどマグノン結合状態は長い間研究され、近年では注目されている。 単一イオン異方性を持つ高スピン強磁性XXZ鎖については, 異なる波数を持つ低層二磁気境界状態の進化に関するいくつかの特徴が文献で観察された。 しかし、これらの観察のほとんどは、分析ツールの欠如のため、質的にのみ理解されている。 正確な2つのマグノンブロッホ状態と平面波アンサッツを組み合わせることで、そのような系における2つのマグノン問題の完全な解が得られる。 代数方程式によって定義される境界を持つ2つのマグノン境界状態の異なるタイプをサポートするパラメータ領域を同定する。 2つの単一イオン境界状態が共存する狭い領域を初めて発見する。 異なる波動数に対する位相図は互いに類似していることを示し、これにより、再スケールされた位相図において、与えられたパラメータに対する代表点の直線運動に境界状態の進化をマッピングすることができる。 このダイナミックな図は観察された特徴を定量的に解釈する。

Few-magnon bound states in quantum spin chains have been long studied and attracted much recent attentions. For a higher-spin ferromagnetic XXZ chain with single-ion anisotropy, several features regarding the evolution of the low-lying two-magnon bound states with varying wave number were observed in the literature. However, most of these observations are only qualitatively understood due to the lack of analytical tools. By combining a set of exact two-magnon Bloch states and a plane-wave ansatz, we achieve a complete solution of the two-magnon problem in such a system. We identify parameter regions that support different types of two-magnon bound states, with the boundaries defined by algebraic equations. We discover for the first time a narrow region in which two single-ion bound states coexist. We show that the phase diagrams for distinct wave numbers are similar to each other, which enables us to map the evolution of the bound states to the rectilinear movement of a representative point for given parameters in a rescaled phase diagram. This dynamic picture provides quantitative interpretations of the observed features.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# マルチタスク学習による歪み検出の精度向上--動的波動タンクによる研究

Multitask learning for improved scour detection: A dynamic wave tank study ( http://arxiv.org/abs/2408.16527v1 )

ライセンス: Link先を確認
Simon M. Brealy, Aidan J. Hughes, Tina A. Dardeno, Lawrence A. Bull, Robin S. Mills, Nikolaos Dervilis, Keith Worden, (参考訳) 人口ベース構造健康モニタリング(PBSHM)は、人口間で情報を共有することを目的としている。 オフショア・ウィンド・ファーム(OW)は、名目上同定された風車構造の人口と見なすことができる。 しかし、幾何、海底条件、温度差など、メンバー間での良質なバリエーションは存在する。 これらの因子は構造特性や動的応答に影響を与える可能性があるため、従来のSHM技術による構造問題の検出がより困難になる。 本稿では,マルチタスク学習の手段としてベイズ階層モデルを用いて,人口および地域レベルの基盤剛性分布パラメータを推定する。 これを実現するために, 数値モデルと実験モデルの両方から, 構造物群からの自然振動の観測を行った。 これらの観測は、基礎剛性パラメーターを推測するために、構造体の代理FEモデルとタンデムの部分的にプールされたベイズ階層モデルで使用された。 最後に,学習パラメータをベースとして,より堅牢な異常検出を行う方法を示す。

Population-based structural health monitoring (PBSHM), aims to share information between members of a population. An offshore wind (OW) farm could be considered as a population of nominally-identical wind-turbine structures. However, benign variations exist among members, such as geometry, sea-bed conditions and temperature differences. These factors could influence structural properties and therefore the dynamic response, making it more difficult to detect structural problems via traditional SHM techniques. This paper explores the use of a Bayesian hierarchical model as a means of multitask learning, to infer foundation stiffness distribution parameters at both population and local levels. To do this, observations of natural frequency from populations of structures were first generated from both numerical and experimental models. These observations were then used in a partially-pooled Bayesian hierarchical model in tandem with surrogate FE models of the structures to infer foundation stiffness parameters. Finally, it is demonstrated how the learned parameters may be used as a basis to perform more robust anomaly detection (as compared to a no-pooling approach) e.g. as a result of scour.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# S3C2 Summit 2023-11: 業界の安全なサプライチェーンサミット

S3C2 Summit 2023-11: Industry Secure Supply Chain Summit ( http://arxiv.org/abs/2408.16529v1 )

ライセンス: Link先を確認
Nusrat Zahan, Yasemin Acar, Michel Cukier, William Enck, Christian Kästner, Alexandros Kapravelos, Dominik Wermke, Laurie Williams, (参考訳) SolarWindsやLog4jインシデントといったソフトウェアサプライチェーンを利用したサイバー攻撃は、何千もの企業や顧客に影響し、業界と政府の利害関係者から注目を集めた。 オープンな対話を促進し、相互の共有を促進し、ソフトウェアサプライチェーンの確保においてステークホルダが直面する課題を議論するために、NSFが支援するセキュアソフトウェアサプライチェーンセンター(S3C2)の研究者たちは、セキュアサプライチェーンサミットを利害関係者と組織した。 本稿は,2023年11月16日に開催された産業安全サプライチェーンサミットをまとめたものである。 パネルにはオープンな質問が盛り込まれており、SBOM(Software Bills of Materials)のトピック、脆弱性のある依存関係、悪意のあるコミット、インフラストラクチャの構築とデプロイ、大規模な脆弱性のクラス全体の削減、ソフトウェアサプライチェーンの確保に熱心な企業文化のサポートなどが含まれていた。 このサミットの目的は、オープンな議論、相互共有を可能にし、ソフトウェアサプライチェーンの確保において実践経験のある業界実践者が直面する共通の課題に光を当てることだった。

Cyber attacks leveraging or targeting the software supply chain, such as the SolarWinds and the Log4j incidents, affected thousands of businesses and their customers, drawing attention from both industry and government stakeholders. To foster open dialogue, facilitate mutual sharing, and discuss shared challenges encountered by stakeholders in securing their software supply chain, researchers from the NSF-supported Secure Software Supply Chain Center (S3C2) organize Secure Supply Chain Summits with stakeholders. This paper summarizes the Industry Secure Supply Chain Summit held on November 16, 2023, which consisted of \panels{} panel discussions with a diverse set of \participants{} practitioners from the industry. The individual panels were framed with open-ended questions and included the topics of Software Bills of Materials (SBOMs), vulnerable dependencies, malicious commits, build and deploy infrastructure, reducing entire classes of vulnerabilities at scale, and supporting a company culture conductive to securing the software supply chain. The goal of this summit was to enable open discussions, mutual sharing, and shedding light on common challenges that industry practitioners with practical experience face when securing their software supply chain.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# Krawtchouk鎖におけるフェルミオン対数否定性

Fermionic logarithmic negativity in the Krawtchouk chain ( http://arxiv.org/abs/2408.16531v1 )

ライセンス: Link先を確認
Gabrielle Blanchet, Gilles Parez, Luc Vinet, (参考訳) 非補体領域の絡み合いは、フェルミオン対数ネガティビティのレンズを介して不均一な自由フェルミオン鎖で研究される。 クラウチョーク連鎖(Krawtchouk chain)は、同名の直交多項式との関係により、ある相関関数の正確な対角化と解析的な計算が可能となる。 隣り合う地域では、負性スケーリングは、クローチョーク連鎖における二部鎖の絡み合いに関する以前の研究と一致して、中心電荷$c=1$の共形場理論のそれに対応する。 解離した地域については,各地域が1つの場所に縮小する骨格体制に焦点をあてる。 この体制は、遠くで先導的な行動を取り出すのに十分である。 バルクにおいて、負性は$d^{-4 \Delta_f}$と$\Delta_f=1/2$で崩壊する。 これは、自由ディラックフェルミオンの1次元における均質な結果と一致する。 驚いたことに、あるサイトが境界に近いとき、この指数は$m=0,1,2,\dots$と$\Delta_f^{\textrm{even}}=3/8$と$\Delta_f^{\textrm{odd}}=5/8$のパリティに依存する。 結果は数値計算と解析計算によって支えられている。

The entanglement of non-complementary regions is investigated in an inhomogeneous free-fermion chain through the lens of the fermionic logarithmic negativity. Focus is on the Krawtchouk chain, whose relation to the eponymous orthogonal polynomials allows for exact diagonalization and analytical calculations of certain correlation functions. For adjacent regions, the negativity scaling corresponds to that of a conformal field theory with central charge $c=1$, in agreement with previous studies on bipartite entanglement in the Krawtchouk chain. For disjoint regions, we focus on the skeletal regime where each region reduces to a single site. This regime is sufficient to extract the leading behaviour at large distances. In the bulk, the negativity decays as $d^{-4 \Delta_f}$ with $\Delta_f=1/2$, where $d$ is the separation between the regions. This is in agreement with the homogeneous result of free Dirac fermions in one dimension. Surprisingly, when one site is close to the boundary, this exponent changes and depends on the parity of the boundary site $m=0,1,2,\dots$, with $\Delta_f^{\textrm{even}}=3/8$ and $\Delta_f^{\textrm{odd}}=5/8$. The results are supported by numerics and analytical calculations.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# WavTokenizer: 音声言語モデリングのための高能率音響離散コーデックトケナイザ

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling ( http://arxiv.org/abs/2408.16532v1 )

ライセンス: Link先を確認
Shengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao, (参考訳) 言語モデルは、画像、ビデオ、音声、音声などの自然信号のモデリングに効果的に適用されている。 これらのモデルの重要な構成要素はコーデック・トークンーザであり、これは高次元の自然信号を低次元の離散トークンに圧縮する。 本稿では,音声領域における従来のSOTA音響コーデックモデルよりもいくつかの利点があるWavTokenizerを紹介する。 量子化器の層と離散コーデックの時間次元を圧縮することにより、24kHzサンプリングレートの1秒のオーディオは、40または75のトークンを持つ単一の量子化器のみを必要とする。 2)主観的質の向上。 トークン数の減少にもかかわらず、WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を達成し、本質的によりリッチなセマンティック情報を含んでいる。 具体的には、より広いVQ空間を設計し、コンテキストウィンドウを拡張し、アテンションネットワークを改善し、強力なマルチスケール判別器と逆フーリエ変換構造を導入した。 音声,音声,音楽の領域で広範囲にわたる再建実験を行った。 WavTokenizerは、最先端のモデルと比較して、様々な客観的、主観的な指標で強いパフォーマンスを示した。 また、意味情報、VQ利用、生成モデルへの適応性についても検証した。 包括的アブレーション研究は、WavTokenizerの各モジュールの必要性を裏付ける。 関連するコード、デモ、事前トレーニングされたモデルはhttps://github.com/jishengpeng/WavTokenizer.comで入手できる。

Language models have been effectively applied to modeling natural signals, such as images, video, speech, and audio. A crucial component of these models is the codec tokenizer, which compresses high-dimensional natural signals into lower-dimensional discrete tokens. In this paper, we introduce WavTokenizer, which offers several advantages over previous SOTA acoustic codec models in the audio domain: 1)extreme compression. By compressing the layers of quantizers and the temporal dimension of the discrete codec, one-second audio of 24kHz sampling rate requires only a single quantizer with 40 or 75 tokens. 2)improved subjective quality. Despite the reduced number of tokens, WavTokenizer achieves state-of-the-art reconstruction quality with outstanding UTMOS scores and inherently contains richer semantic information. Specifically, we achieve these results by designing a broader VQ space, extended contextual windows, and improved attention networks, as well as introducing a powerful multi-scale discriminator and an inverse Fourier transform structure. We conducted extensive reconstruction experiments in the domains of speech, audio, and music. WavTokenizer exhibited strong performance across various objective and subjective metrics compared to state-of-the-art models. We also tested semantic information, VQ utilization, and adaptability to generative models. Comprehensive ablation studies confirm the necessity of each module in WavTokenizer. The related code, demos, and pre-trained models are available at https://github.com/jishengpeng/WavTokenizer.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# TinyTNAS: TinyML時系列分類のためのGPUフリー、タイムバウンド、ハードウェア対応ニューラルアーキテクチャ検索

TinyTNAS: GPU-Free, Time-Bound, Hardware-Aware Neural Architecture Search for TinyML Time Series Classification ( http://arxiv.org/abs/2408.16535v1 )

ライセンス: Link先を確認
Bidyut Saha, Riya Samanta, Soumya K. Ghosh, Ram Babu Roy, (参考訳) 本稿では,TinyML時系列分類に特化して設計されたハードウェア対応多目的ニューラルアーキテクチャサーチ(NAS)ツールであるTinyTNASを紹介する。 GPU機能に依存する従来のNASメソッドとは異なり、TinyTNASはCPU上で効率的に動作し、幅広いアプリケーションにアクセスできる。 ユーザはRAM、FLASH、MAC操作の制約を定義して、これらのパラメータ内で最適なニューラルネットワークアーキテクチャを見つけることができる。 さらに、このツールはタイムバウンド検索を可能にし、ユーザーが指定した期間内に最高のモデルを見つけることができる。 UCI HAR、PAMAP2、WISDM、MIT BIH、TB診断ECG Databas TinyTNASのベンチマークデータセットを実験することで、RAM、FLASH、MAC使用率、レイテンシを大幅に削減した最先端の精度を実証することができる。 例えば、UCI HARデータセットでは、TinyTNASはRAM使用率の12倍、MAC操作の144倍、FLASHメモリの78倍、精度の向上とレイテンシの149倍の削減を実現している。 同様に、PAMAP2とWISDMデータセットでは、RAM使用量の6倍の削減、MAC操作の40倍の削減、FLASHの83倍の削減、レイテンシの67倍の削減を実現している。 特に、検索プロセスはCPU環境で10分以内に完了する。 これらの結果は、リソース制約のあるTinyMLアプリケーションに対して、ニューラルネットワークアーキテクチャを効果的に最適化するTinyTNASの機能を強調し、効率性と高性能を両立させる。 TinyTNASのコードはGitHubリポジトリから入手でき、https://github.com/BidyutSaha/TinyTNAS.gitでアクセスできる。

In this work, we present TinyTNAS, a novel hardware-aware multi-objective Neural Architecture Search (NAS) tool specifically designed for TinyML time series classification. Unlike traditional NAS methods that rely on GPU capabilities, TinyTNAS operates efficiently on CPUs, making it accessible for a broader range of applications. Users can define constraints on RAM, FLASH, and MAC operations to discover optimal neural network architectures within these parameters. Additionally, the tool allows for time-bound searches, ensuring the best possible model is found within a user-specified duration. By experimenting with benchmark dataset UCI HAR, PAMAP2, WISDM, MIT BIH, and PTB Diagnostic ECG Databas TinyTNAS demonstrates state-of-the-art accuracy with significant reductions in RAM, FLASH, MAC usage, and latency. For example, on the UCI HAR dataset, TinyTNAS achieves a 12x reduction in RAM usage, a 144x reduction in MAC operations, and a 78x reduction in FLASH memory while maintaining superior accuracy and reducing latency by 149x. Similarly, on the PAMAP2 and WISDM datasets, it achieves a 6x reduction in RAM usage, a 40x reduction in MAC operations, an 83x reduction in FLASH, and a 67x reduction in latency, all while maintaining superior accuracy. Notably, the search process completes within 10 minutes in a CPU environment. These results highlight TinyTNAS's capability to optimize neural network architectures effectively for resource-constrained TinyML applications, ensuring both efficiency and high performance. The code for TinyTNAS is available at the GitHub repository and can be accessed at https://github.com/BidyutSaha/TinyTNAS.git.
翻訳日:2024-08-30 13:42:55 公開日:2024-08-29
# SFR-GNN: 構造攻撃に対する単純かつ高速なロバストGNN

SFR-GNN: Simple and Fast Robust GNNs against Structural Attacks ( http://arxiv.org/abs/2408.16537v1 )

ライセンス: Link先を確認
Xing Ai, Guanyu Zhu, Yulin Zhu, Yu Zheng, Gaolei Li, Jianhua Li, Kai Zhou, (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データに対する可換性を示す。 しかし、GNNはグラフトポロジに依存しているため、しばしば敵対的な構造攻撃に対して脆弱である。 既存の取り組みは、悪意ある改変された構造を浄化したり、適応的なアグリゲーションを適用し、敵の構造物攻撃に対する堅牢性を高めることを目的としている。 修正された構造に関する事前知識が欠如しているため、ディフェンダーが重い計算コストを消費することは避けられない。 そこで我々は,SFR-GNN (Simple and Fast Robust Graph Neural Network) と呼ばれる,相互情報理論に支えられた効率的な防御手法を提案する。 SFR-GNNは、まずノード属性を使用してGNNモデルを事前訓練し、修正された構造と適応的なアグリゲーションを浄化することができない対照的な学習法で修正されたグラフを微調整し、高い効率向上を達成する。 その結果、SFR-GNNは、高度なロバストモデルと比較して24%--162%のスピードアップを示し、ノード分類タスクに優れたロバスト性を示す。

Graph Neural Networks (GNNs) have demonstrated commendable performance for graph-structured data. Yet, GNNs are often vulnerable to adversarial structural attacks as embedding generation relies on graph topology. Existing efforts are dedicated to purifying the maliciously modified structure or applying adaptive aggregation, thereby enhancing the robustness against adversarial structural attacks. It is inevitable for a defender to consume heavy computational costs due to lacking prior knowledge about modified structures. To this end, we propose an efficient defense method, called Simple and Fast Robust Graph Neural Network (SFR-GNN), supported by mutual information theory. The SFR-GNN first pre-trains a GNN model using node attributes and then fine-tunes it over the modified graph in the manner of contrastive learning, which is free of purifying modified structures and adaptive aggregation, thus achieving great efficiency gains. Consequently, SFR-GNN exhibits a 24%--162% speedup compared to advanced robust models, demonstrating superior robustness for node classification tasks.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# GRPose: Pose Priorsを用いた人体画像生成のためのグラフ関係学習

GRPose: Learning Graph Relations for Human Image Generation with Pose Priors ( http://arxiv.org/abs/2408.16540v1 )

ライセンス: Link先を確認
Xiangchen Yin, Donglin Di, Lei Fan, Hao Li, Chen Wei, Xiaofei Gou, Yang Song, Xiao Sun, Xun Yang, (参考訳) 拡散モデルを用いた最近の手法は、ポーズ前のような様々な付加的な制御により、人間の画像生成に大きな進歩をもたらした。 しかし、既存のアプローチは、一貫性のあるポーズアライメントを備えた高品質な画像を生成するのに依然として苦労している。 本稿では,人間の画像生成のための制御情報を提供するために,ポーズ先行のグラフ関係を探索するフレームワークを提案する。 主な考え方は、ポーズ先と拡散モデルの潜在表現の間のグラフ位相構造を確立して、異なるポーズ部分間の固有の関連を捉えることである。 プログレッシブグラフ積分器(PGI)は、ポーズ先行とグラフ構造との空間的関係を学習し、アダプタ内の階層的戦略を採用して、異なるポーズ部分間で情報を徐々に伝播させるように設計されている。 さらに、事前訓練されたポーズ推定ネットワークに基づいてポーズ知覚損失を導入し、ポーズ差を最小限にする。 また,Human-ArtデータセットとLAION-Humanデータセットを用いた大規模定性的・定量的実験により,最新のベンチマークモデルと比較して,ポーズ平均精度が9.98%向上した。 コードは*******でリリースされる。

Recent methods using diffusion models have made significant progress in human image generation with various additional controls such as pose priors. However, existing approaches still struggle to generate high-quality images with consistent pose alignment, resulting in unsatisfactory outputs. In this paper, we propose a framework delving into the graph relations of pose priors to provide control information for human image generation. The main idea is to establish a graph topological structure between the pose priors and latent representation of diffusion models to capture the intrinsic associations between different pose parts. A Progressive Graph Integrator (PGI) is designed to learn the spatial relationships of the pose priors with the graph structure, adopting a hierarchical strategy within an Adapter to gradually propagate information across different pose parts. A pose perception loss is further introduced based on a pretrained pose estimation network to minimize the pose differences. Extensive qualitative and quantitative experiments conducted on the Human-Art and LAION-Human datasets demonstrate that our model achieves superior performance, with a 9.98% increase in pose average precision compared to the latest benchmark model. The code is released on *******.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# SALSA:高速ASR-LLM同期アグリゲーション

SALSA: Speedy ASR-LLM Synchronous Aggregation ( http://arxiv.org/abs/2408.16542v1 )

ライセンス: Link先を確認
Ashish Mittal, Darshan Prabhu, Sunita Sarawagi, Preethi Jyothi, (参考訳) ASRシステム、特に低リソース言語を改善するために事前訓練されたLLMは、現在、新たな研究領域となっている。 既存の手法は、ALSエラー訂正にLLMを使うことから、ALSデコーダをLSMに置き換える密結合システムまで様々である。 これらのアプローチはデコード時間を増やすか、クロスアテンションレイヤの高価なトレーニングを必要とする。 本研究では,ASRのデコーダ層をLLMデコーダに結合し,両デコーダを同期的に進行させるSALSAを提案する。 このような結合は、最後のデコーダ状態の単純なプロジェクションで実行され、したがって、以前のアプローチよりもはるかに訓練効率が高い。 提案手法の課題は, LLM と ASR システムのトークン化器間のミスマッチ処理である。 LLMとASRの語彙に対するカスケードトークン化を用いて、このミスマッチを処理する。 FLEURSベンチマークでは,8つの低リソース言語上でSALSAを評価し,最大38%のWER削減を実現した。

Harnessing pre-trained LLMs to improve ASR systems, particularly for low-resource languages, is now an emerging area of research. Existing methods range from using LLMs for ASR error correction to tightly coupled systems that replace the ASR decoder with the LLM. These approaches either increase decoding time or require expensive training of the cross-attention layers. We propose SALSA, which couples the decoder layers of the ASR to the LLM decoder, while synchronously advancing both decoders. Such coupling is performed with a simple projection of the last decoder state, and is thus significantly more training efficient than earlier approaches. A challenge of our proposed coupling is handling the mismatch between the tokenizers of the LLM and ASR systems. We handle this mismatch using cascading tokenization with respect to the LLM and ASR vocabularies. We evaluate SALSA on 8 low-resource languages in the FLEURS benchmark, yielding substantial WER reductions of up to 38%.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# 正規化カーネル・コールバック・リーブラー発散の統計的および幾何学的性質

Statistical and Geometrical properties of regularized Kernel Kullback-Leibler divergence ( http://arxiv.org/abs/2408.16543v1 )

ライセンス: Link先を確認
Clémentine Chazal, Anna Korba, Francis Bach, (参考訳) 本稿では,Bach [2022] が導入したカーネル共分散演算子 (KKL) を用いたKullback-Leibler分散の統計的および幾何学的性質について検討する。 密度比を含む古典的なクルバック・リーブラー(KL)の発散とは異なり、KKLは再現可能な核ヒルベルト空間(RKHS)における共分散作用素(埋め込み)による確率分布を比較し、クルバック・リーブラー量子発散を計算する。 この斬新な発散は、確率分布と最大平均誤差のようなカーネル埋め込みメトリクスの間の標準クルバック・リーバーと平行だが異なる側面を共有する。 元の KKL の発散に直面する制限は、不連結な支持を持つ分布に対して定義できないことである。 この問題を解決するため,本論文では,分散がすべての分布に対して適切に定義されていることを保証する正規化変種を提案する。 我々は、正規化された KKL の原点への偏差と有限サンプル境界を定量化する境界を導出する。 さらに、正規化された KKL に対して閉形式表現を提供し、その分布が有限個の点からなる場合に特に適用でき、実装可能である。 さらに、離散分布の場合のKKL分散のワッサーシュタイン勾配降下スキームを導出し、その性質を実証的に研究し、点の集合を対象分布へ輸送する。

In this paper, we study the statistical and geometrical properties of the Kullback-Leibler divergence with kernel covariance operators (KKL) introduced by Bach [2022]. Unlike the classical Kullback-Leibler (KL) divergence that involves density ratios, the KKL compares probability distributions through covariance operators (embeddings) in a reproducible kernel Hilbert space (RKHS), and compute the Kullback-Leibler quantum divergence. This novel divergence hence shares parallel but different aspects with both the standard Kullback-Leibler between probability distributions and kernel embeddings metrics such as the maximum mean discrepancy. A limitation faced with the original KKL divergence is its inability to be defined for distributions with disjoint supports. To solve this problem, we propose in this paper a regularised variant that guarantees that the divergence is well defined for all distributions. We derive bounds that quantify the deviation of the regularised KKL to the original one, as well as finite-sample bounds. In addition, we provide a closed-form expression for the regularised KKL, specifically applicable when the distributions consist of finite sets of points, which makes it implementable. Furthermore, we derive a Wasserstein gradient descent scheme of the KKL divergence in the case of discrete distributions, and study empirically its properties to transport a set of points to a target distribution.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# 局所幾何を用いたスパース表面再構成

Spurfies: Sparse Surface Reconstruction using Local Geometry Priors ( http://arxiv.org/abs/2408.16544v1 )

ライセンス: Link先を確認
Kevin Raj, Christopher Wewer, Raza Yunus, Eddy Ilg, Jan Eric Lenssen, (参考訳) Spurfiesは、合成データに基づいて訓練された局所幾何学的先行情報を活用するために、外観や幾何学的情報を歪曲するスパースビュー表面再構成の新しい手法である。 近年の研究では、高密度なマルチビュー設定を用いた3次元再構成に重点を置いており、通常は数百枚の画像を必要とする。 しかし、これらの手法は、しばしば少数のシナリオで苦労する。 既存のスパースビュー再構築技術は、しばしば大量のデータから幾何学と外観のジョイント先行を学習する必要があるマルチビューステレオネットワークに依存している。 対照的に、我々は、合成ShapeNetデータセットのサブセットを使用する前に、局所的な幾何学を訓練するために、幾何学と外観を歪ませる神経点表現を導入する。 推測では, この表面を, 異なるボリュームレンダリングによるスパース入力ビューからの表面・外観再構成の制約として利用し, 可能な解の空間を制限している。 提案手法の有効性をDTUデータセット上で検証し,従来の技術水準を35%上回りながら,競争力のある新規なビュー合成品質を実現していることを示す。 また,従来の手法とは対照的に,Mip-NeRF 360のような大規模で非有界なシーンにも適用することができる。

We introduce Spurfies, a novel method for sparse-view surface reconstruction that disentangles appearance and geometry information to utilize local geometry priors trained on synthetic data. Recent research heavily focuses on 3D reconstruction using dense multi-view setups, typically requiring hundreds of images. However, these methods often struggle with few-view scenarios. Existing sparse-view reconstruction techniques often rely on multi-view stereo networks that need to learn joint priors for geometry and appearance from a large amount of data. In contrast, we introduce a neural point representation that disentangles geometry and appearance to train a local geometry prior using a subset of the synthetic ShapeNet dataset only. During inference, we utilize this surface prior as additional constraint for surface and appearance reconstruction from sparse input views via differentiable volume rendering, restricting the space of possible solutions. We validate the effectiveness of our method on the DTU dataset and demonstrate that it outperforms previous state of the art by 35% in surface quality while achieving competitive novel view synthesis quality. Moreover, in contrast to previous works, our method can be applied to larger, unbounded scenes, such as Mip-NeRF 360.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# OP-Align: 自己教師付きカテゴリーレベルのArticulated Object Pose推定のためのオブジェクトレベルと部分レベルアライメント

OP-Align: Object-level and Part-level Alignment for Self-supervised Category-level Articulated Object Pose Estimation ( http://arxiv.org/abs/2408.16547v1 )

ライセンス: Link先を確認
Yuchen Che, Ryo Furukawa, Asako Kanezaki, (参考訳) カテゴリーレベルの調音オブジェクトのポーズ推定は、既知のカテゴリ内の未知の調音オブジェクトのポーズ推定に焦点を当てる。 その重要性にもかかわらず、オブジェクトのさまざまな形状とポーズ、高価なデータセットアノテーションコスト、複雑な現実世界環境のために、このタスクは依然として困難である。 本稿では,この課題を解決するために,単一フレームの点群を利用した新たな自己教師型アプローチを提案する。 本モデルでは,入力対象全体の標準的ポーズとジョイントステートとを連続的に生成し,全体のポーズのばらつきを低減させるオブジェクトレベルのポーズと,入力の各部分を対応する部分と整合させる部分レベルのポーズを推定する。 実験により,本手法は従来の自己監督手法よりも有意に優れており,最先端指導手法に匹敵するものであることが示された。 実世界のシナリオにおけるモデルの性能を評価するため、我々は新しい実世界のオブジェクトベンチマークデータセットも導入した。

Category-level articulated object pose estimation focuses on the pose estimation of unknown articulated objects within known categories. Despite its significance, this task remains challenging due to the varying shapes and poses of objects, expensive dataset annotation costs, and complex real-world environments. In this paper, we propose a novel self-supervised approach that leverages a single-frame point cloud to solve this task. Our model consistently generates reconstruction with a canonical pose and joint state for the entire input object, and it estimates object-level poses that reduce overall pose variance and part-level poses that align each part of the input with its corresponding part of the reconstruction. Experimental results demonstrate that our approach significantly outperforms previous self-supervised methods and is comparable to the state-of-the-art supervised methods. To assess the performance of our model in real-world scenarios, we also introduce a new real-world articulated object benchmark dataset.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# 沿岸シミュレーションのための超解像加工

Super-Resolution works for coastal simulations ( http://arxiv.org/abs/2408.16553v1 )

ライセンス: Link先を確認
Zhi-Song Liu, Markus Buttner, Vadym Aizinger, Andreas Rupp, (参考訳) 粗い表現から沿岸海洋シミュレーションの詳細な詳細を学習することは難しい課題である。 現実の応用には、津波や暴風による洪水を予測するために、多くの沿岸プロセスの理解を深めるために、高解像度のシミュレーションが必要である。 本稿では,高分解能数値解を効率的に学習するための時空間拡張のためのDNCSR(Deep Network for Coastal Super-Resolution)を提案する。 低多項式次不連続なガレルキン離散化と粗い時間分解能を用いた低分解能計算メッシュ上で生成した沿岸シミュレーションの画像から,提案したDNCSRは時間と空間の両方で高分解能な表面の標高と速度の可視化を学習する。 時間と空間の動的変化を効率的にモデル化するため,非局所的特徴マッチングのための時空間領域に時間的特徴を投影するグリッド対応時空間注意法を提案する。 また、座標情報を位置符号化により利用する。 最終再構成では、時空間双線形演算を用いて、欠落したフレームを補間し、特徴写像を周波数領域に拡張し、残像マッピングを行う。 データ駆動損失に加えて、物理インフォームド損失は勾配の一貫性と運動量変化を保証する。 これらの組み合わせは、RMSEの全体的な24%の改善に寄与する。 提案するモデルを評価するため,大規模な沿岸シミュレーションデータセットを提案し,モデル最適化と評価に利用した。 提案手法は,最先端の手法と比較して,高精細度で高速な計算が可能である。

Learning fine-scale details of a coastal ocean simulation from a coarse representation is a challenging task. For real-world applications, high-resolution simulations are necessary to advance understanding of many coastal processes, specifically, to predict flooding resulting from tsunamis and storm surges. We propose a Deep Network for Coastal Super-Resolution (DNCSR) for spatiotemporal enhancement to efficiently learn the high-resolution numerical solution. Given images of coastal simulations produced on low-resolution computational meshes using low polynomial order discontinuous Galerkin discretizations and a coarse temporal resolution, the proposed DNCSR learns to produce high-resolution free surface elevation and velocity visualizations in both time and space. To efficiently model the dynamic changes over time and space, we propose grid-aware spatiotemporal attention to project the temporal features to the spatial domain for non-local feature matching. The coordinate information is also utilized via positional encoding. For the final reconstruction, we use the spatiotemporal bilinear operation to interpolate the missing frames and then expand the feature maps to the frequency domain for residual mapping. Besides data-driven losses, the proposed physics-informed loss guarantees gradient consistency and momentum changes. Their combination contributes to the overall 24% improvements in RMSE. To train the proposed model, we propose a large-scale coastal simulation dataset and use it for model optimization and evaluation. Our method shows superior super-resolution quality and fast computation compared to the state-of-the-art methods.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# RGB画像と多機能融合に基づくAndroidマルウェア検出

Android Malware Detection Based on RGB Images and Multi-feature Fusion ( http://arxiv.org/abs/2408.16555v1 )

ライセンス: Link先を確認
Zhiqiang Wang, Qiulong Yu, Sicheng Yuan, (参考訳) スマートフォンの普及により、Androidのマルウェアはモバイルデバイスのセキュリティ分野において大きな課題となっている。 現在のAndroidのマルウェア検出手法は、動的または静的な機能を構築するために、しばしば機能工学に依存し、学習に使用される。 しかし、静的な機能ベースのメソッドはコードの難読化、パッケージング、署名技術に対抗するのに苦労する一方で、動的な機能ベースのメソッドは機能抽出に時間を要する。 Androidのマルウェア検出のためのイメージベース手法は、マルウェアの変種や多型マルウェアに対するレジリエンスを向上する。 本稿では,RGB画像と多機能融合に基づくエンドツーエンドのAndroidマルウェア検出手法を提案する。 このアプローチでは、Dalvik Executable (DEX)ファイル、AndroidManifest.xmlファイル、APKファイルからのAPI呼び出しを抽出し、それらをグレースケールのイメージに変換し、Canny edge Detection、 histogram equalization、Adaptive thresholding Techniqueを使ってそれらのテクスチャ機能を強化する。 これらのグレースケール画像を多機能融合情報を含むRGB画像に結合し、Androidマルウェア検出の主流画像分類モデルを用いて解析する。 大規模な実験により,提案手法はAndroidのマルウェア特性を効果的に把握し,97.25%の精度を達成し,DECファイルのみを分類機能とする既存の検出方法よりも優れていることが示された。 さらに、アブレーション実験により、提案手法における特徴表現に3つのキーファイルを使用することの有効性を確認した。

With the widespread adoption of smartphones, Android malware has become a significant challenge in the field of mobile device security. Current Android malware detection methods often rely on feature engineering to construct dynamic or static features, which are then used for learning. However, static feature-based methods struggle to counter code obfuscation, packing, and signing techniques, while dynamic feature-based methods involve time-consuming feature extraction. Image-based methods for Android malware detection offer better resilience against malware variants and polymorphic malware. This paper proposes an end-to-end Android malware detection technique based on RGB images and multi-feature fusion. The approach involves extracting Dalvik Executable (DEX) files, AndroidManifest.xml files, and API calls from APK files, converting them into grayscale images, and enhancing their texture features using Canny edge detection, histogram equalization, and adaptive thresholding techniques. These grayscale images are then combined into an RGB image containing multi-feature fusion information, which is analyzed using mainstream image classification models for Android malware detection. Extensive experiments demonstrate that the proposed method effectively captures Android malware characteristics, achieving an accuracy of up to 97.25%, outperforming existing detection methods that rely solely on DEX files as classification features. Additionally, ablation experiments confirm the effectiveness of using the three key files for feature representation in the proposed approach.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# 超強結合レジームにおける回路QED発光スペクトルのキャビティQEDとの差について

Circuit QED Emission Spectra in the Ultrastrong Coupling Regime: How They Differ from Cavity QED ( http://arxiv.org/abs/2408.16558v1 )

ライセンス: Link先を確認
Samuel Napoli, Alberto Mercurio, Daniele Lamberto, Andrea Zappalà, Omar Di Stefano, Salvatore Savasta, (参考訳) キャビティ量子電磁力学(Cavity quantum Electrodynamics, QED)は、光子の量子の性質が関係している条件下で、共振器で満たされた放射と自然原子や他の公式に等価な量子励起との相互作用を研究する。 キャビティQEDで研究された現象は、超伝導人工原子と超伝導共振器におけるマイクロ波光子を用いても探索できる。 これらの回路QEDシステムは、天然の原子とは異なり、個々の人工原子と超強結合状態に達する可能性がある。 この状態において、光物質結合速度は系内の素共鳴周波数のかなりの割合に達する。 本稿では,LC共振器と相互作用するフラックス量子ビットからなる回路QED系における放射スペクトルを慎重に解析する。 これらの系は量子ラビモデル(英語版)によって記述できるが、対応する空洞QEDモデル(英語版)は、システムが出力ポートとどのように結合されているかによって特徴を見出す。

Cavity quantum electrodynamics (QED) studies the interaction between resonator-confined radiation and natural atoms or other formally equivalent quantum excitations, under conditions where the quantum nature of photons is relevant. Phenomena studied in cavity QED can also be explored using superconducting artificial atoms and microwave photons in superconducting resonators. These circuit QED systems offer the possibility to reach the ultrastrong coupling regime with individual artificial atoms, unlike their natural counterparts. In this regime, the light-matter coupling rate reaches a considerable fraction of the bare resonance frequencies in the system. Here, we provide a careful analysis of the emission spectra in circuit QED systems consisting of a flux qubit interacting with an LC resonator. Despite these systems can be described by the quantum Rabi model, as the corresponding cavity QED ones, we find distinctive features, depending on how the system is coupled with the output port, which become evident in the ultrastrong coupling regime.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# DroneWiS: 現実的な風条件下での小型無人航空システムの自動シミュレーション試験

DroneWiS: Automated Simulation Testing of small Unmanned Aerial Systems in Realistic Windy Conditions ( http://arxiv.org/abs/2408.16559v1 )

ライセンス: Link先を確認
Bohan Zhang, Ankit Agrawal, (参考訳) 小型無人航空システム(sUAS)の継続的な進化は、現実世界における安全で信頼性の高い運用を保証するために高度な試験手法を必要とする。 現実的な環境でのsUASシミュレーションテストの境界を推し進めるため、我々は以前DroneReqValidator (DRV)プラットフォームを開発した。 本稿では,Drone WiS(Drone Wind Simulation)と呼ばれる新しいコンポーネントを紹介するDRV 2.0を提案する。 DroneWiSは、sUAS開発者が現実的な風の条件を自動的にシミュレートし、sUASの風に対するレジリエンスをテストすることを可能にする。 基本的な風条件をシミュレートするGazeboやAirSimのような現在の最先端のシミュレーションツールとは異なり、DroneWiSは計算流体力学(CFD)を利用して、建物や不均一な地形などの環境における物体との風の相互作用に起因する一意の風の流れを計算する。 このシミュレーション機能は、難解で現実的な風の条件下でのsUASのナビゲーション能力について、開発者に深い洞察を提供する。 DroneWiSは、現実世界におけるsUASの信頼性と安全性をテスト、デバッグ、改善するための強力なツールをsUAS開発者に提供する。 動作デモはhttps://youtu.be/khBHEBST8Wcで公開されている。

The continuous evolution of small Unmanned Aerial Systems (sUAS) demands advanced testing methodologies to ensure their safe and reliable operations in the real-world. To push the boundaries of sUAS simulation testing in realistic environments, we previously developed the DroneReqValidator (DRV) platform, allowing developers to automatically conduct simulation testing in digital twin of earth. In this paper, we present DRV 2.0, which introduces a novel component called DroneWiS (Drone Wind Simulation). DroneWiS allows sUAS developers to automatically simulate realistic windy conditions and test the resilience of sUAS against wind. Unlike current state-of-the-art simulation tools such as Gazebo and AirSim that only simulate basic wind conditions, DroneWiS leverages Computational Fluid Dynamics (CFD) to compute the unique wind flows caused by the interaction of wind with the objects in the environment such as buildings and uneven terrains. This simulation capability provides deeper insights to developers about the navigation capability of sUAS in challenging and realistic windy conditions. DroneWiS equips sUAS developers with a powerful tool to test, debug, and improve the reliability and safety of sUAS in real-world. A working demonstration is available at https://youtu.be/khBHEBST8Wc
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# MST-KD:フェアフェイス認識のための複数の専門教員の知識蒸留

MST-KD: Multiple Specialized Teachers Knowledge Distillation for Fair Face Recognition ( http://arxiv.org/abs/2408.16563v1 )

ライセンス: Link先を確認
Eduarda Caldeira, Jaime S. Cardoso, Ana F. Sequeira, Pedro C. Neto, (参考訳) 学校では、すべての科目をカバーする1人の教師は、生徒に等しく堅牢な情報を蒸留するには不十分である。 そのため、各科目は高度に専門化された教師によって教えられる。 同様の哲学を踏襲して,学生ネットワークに知識を抽出する複数の専門教師フレームワークを提案する。 本手法では, 顔認証のユースケースを対象とし, 4人の教師を1つの特定の民族で訓練し, 高度に専門化され, 偏見のある4人の教師を指導する。 我々の戦略は、これらの4人の教師のプロジェクトを共通の空間に学習し、その情報を学生ネットワークに蒸留する。 その結果,すべての実験において,性能の向上とバイアスの低減が示された。 さらに、バランスの取れた4人の教師から知識を抽出した場合よりも、私たちのアプローチがより良い結果が得られることを示すことで、偏見のある教員を持つことが重要であることも示している。 我々のアプローチは、民族特有の特徴の重要性を理解するための一歩である。

As in school, one teacher to cover all subjects is insufficient to distill equally robust information to a student. Hence, each subject is taught by a highly specialised teacher. Following a similar philosophy, we propose a multiple specialized teacher framework to distill knowledge to a student network. In our approach, directed at face recognition use cases, we train four teachers on one specific ethnicity, leading to four highly specialized and biased teachers. Our strategy learns a project of these four teachers into a common space and distill that information to a student network. Our results highlighted increased performance and reduced bias for all our experiments. In addition, we further show that having biased/specialized teachers is crucial by showing that our approach achieves better results than when knowledge is distilled from four teachers trained on balanced datasets. Our approach represents a step forward to the understanding of the importance of ethnicity-specific features.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# 視界からの地すべり物理パラメータの同定 -物理パラメータを考慮したロコモーションとナビゲーションに向けて-

Identifying Terrain Physical Parameters from Vision -- Towards Physical-Parameter-Aware Locomotion and Navigation ( http://arxiv.org/abs/2408.16567v1 )

ライセンス: Link先を確認
Jiaqi Chen, Jonas Frey, Ruyi Zhou, Takahiro Miki, Georg Martius, Marco Hutter, (参考訳) 周囲の環境の物理的特性を特定することは、滑りやすい地形や変形可能な地形などの非幾何学的危険に対処するためにロボットの移動とナビゲーションに不可欠である。 ロボットが接触する前にこれらの極端な物理的特性を予想することは大きな利益になるでしょうが、視覚から環境物理的パラメータを推定することは依然としてオープンな課題です。 動物は、これまでの経験と、自分が見たものや、どのように感じているかを知ることで、これを達成することができる。 本研究では,視覚に基づく環境パラメータ推定のための自己指導型クロスモーダル学習フレームワークを提案する。 シミュレーションで訓練された既存のポリシーと視覚からの物理地形パラメータの同定のギャップを埋める。 我々は,マルチモーダル入力から摩擦や剛性を予測するために,物理デコーダをシミュレーションで訓練することを提案する。 トレーニングされたネットワークは、物理的パラメータによる実世界のイメージのラベル付けを可能にし、デプロイメント中に視覚ネットワークをさらに訓練することで、画像データから摩擦や剛性を密に予測することができる。 シミュレーションおよび実世界における物理デコーダの検証には,既存のベースライン法よりも優れた4足歩行型ANYmalロボットを用いた。 我々の視覚ネットワークは、新しい環境に迅速に適応しながら、屋内および屋外の実験における物理的特性を予測できることを示す。

Identifying the physical properties of the surrounding environment is essential for robotic locomotion and navigation to deal with non-geometric hazards, such as slippery and deformable terrains. It would be of great benefit for robots to anticipate these extreme physical properties before contact; however, estimating environmental physical parameters from vision is still an open challenge. Animals can achieve this by using their prior experience and knowledge of what they have seen and how it felt. In this work, we propose a cross-modal self-supervised learning framework for vision-based environmental physical parameter estimation, which paves the way for future physical-property-aware locomotion and navigation. We bridge the gap between existing policies trained in simulation and identification of physical terrain parameters from vision. We propose to train a physical decoder in simulation to predict friction and stiffness from multi-modal input. The trained network allows the labeling of real-world images with physical parameters in a self-supervised manner to further train a visual network during deployment, which can densely predict the friction and stiffness from image data. We validate our physical decoder in simulation and the real world using a quadruped ANYmal robot, outperforming an existing baseline method. We show that our visual network can predict the physical properties in indoor and outdoor experiments while allowing fast adaptation to new environments.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# 予測可能性の最大化と語順調和の起源

Predictability maximization and the origins of word order harmony ( http://arxiv.org/abs/2408.16570v1 )

ライセンス: Link先を確認
Ramon Ferrer-i-Cancho, (参考訳) 本稿では,情報理論の観点から,頭部の逐次配置とその依存関係の言語的問題に対処する。 特に、シーケンスの予測可能性を最大化するヘッドの最適配置について検討する。 係り受けは, 自由選択原理と依存文法の中核的な仮定に従って, 頭部に対して統計的に独立であると仮定する。 我々は、頭部を最後に配置すると頭部の予測可能性が最大になるのに対して、頭部を最初に配置すると依存者の予測可能性が最大になるという調和秩序の最適性を示す。 また,頭部の延期が予測可能性の最大化のための最適戦略であり,さらに,依存者の予測可能性の最大化のための最適戦略であることを示す。 我々は,依存者の予測可能性の最大化よりも,頭部の予測可能性の最大化という戦略の利点を明らかにする。 以上の結果から,実言語で採用される頭部の配置や,異なる種類の実験で現れる頭部の配置が明らかになった。

We address the linguistic problem of the sequential arrangement of a head and its dependents from an information theoretic perspective. In particular, we consider the optimal placement of a head that maximizes the predictability of the sequence. We assume that dependents are statistically independent given a head, in line with the open-choice principle and the core assumptions of dependency grammar. We demonstrate the optimality of harmonic order, i.e., placing the head last maximizes the predictability of the head whereas placing the head first maximizes the predictability of dependents. We also show that postponing the head is the optimal strategy to maximize its predictability while bringing it forward is the optimal strategy to maximize the predictability of dependents. We unravel the advantages of the strategy of maximizing the predictability of the head over maximizing the predictability of dependents. Our findings shed light on the placements of the head adopted by real languages or emerging in different kinds of experiments.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# 動的通信ネットワークの埋め込みのためのテンソルモデルの適応的潜在因子化

An Adaptive Latent Factorization of Tensors Model for Embedding Dynamic Communication Network ( http://arxiv.org/abs/2408.16573v1 )

ライセンス: Link先を確認
Xin Liao, Qicong Hu, Peng Tang, (参考訳) Dynamic Communication Network (DCN)は、様々な通信ノード間の時間的相互作用を記述し、ビッグデータアプリケーションにおいてデータソースとして広く使われている。 通信ノードの数が増えて時間スロットが蓄積されるにつれて、各ノードは与えられた時間スロット内の少数のノードとのみ相互作用し、DCNは高次元スパーステンソル(HDS)で表される。 本稿では,DCNのHDSテンソルからリッチな動作パターンを抽出するために,適応的テンソル依存テンソル低ランク表現(ATT)モデルを提案する。 3倍のアプローチを採用しています。 イ 時相的特徴行列を再構築するための時相依存的手法を設計し、したがって、時相的パターンを捉えてデータを正確に表現すること。 ロ 退屈な過度パラメータ調整を避けるため、差分進化アルゴリズム(DEA)を介してモデルの過度パラメータ適応を達成すること。 c) モデルパラメータに対して非負の学習スキームを用いて、HDSデータに固有の非負性を扱う。 実世界のDCN4つの実験結果から,提案したATTモデルは,予測誤差と収束ラウンドの両方において,最先端のモデルを著しく上回っていることが示された。

The Dynamic Communication Network (DCN) describes the interactions over time among various communication nodes, and it is widely used in Big-data applications as a data source. As the number of communication nodes increases and temporal slots accumulate, each node interacts in with only a few nodes in a given temporal slot, the DCN can be represented by an High-Dimensional Sparse (HDS) tensor. In order to extract rich behavioral patterns from an HDS tensor in DCN, this paper proposes an Adaptive Temporal-dependent Tensor low-rank representation (ATT) model. It adopts a three-fold approach: a) designing a temporal-dependent method to reconstruct temporal feature matrix, thereby precisely represent the data by capturing the temporal patterns; b) achieving hyper-parameters adaptation of the model via the Differential Evolutionary Algorithms (DEA) to avoid tedious hyper-parameters tuning; c) employing nonnegative learning schemes for the model parameters to effectively handle an the nonnegativity inherent in HDS data. The experimental results on four real-world DCNs demonstrate that the proposed ATT model significantly outperforms several state-of-the-art models in both prediction errors and convergence rounds.
翻訳日:2024-08-30 13:33:01 公開日:2024-08-29
# マルチモーダル表現学習における十分性と必要因果関係の考察

Seeking the Sufficiency and Necessity Causal Features in Multimodal Representation Learning ( http://arxiv.org/abs/2408.16577v1 )

ライセンス: Link先を確認
Boyu Chen, Junjie Liu, Zhu Li, Mengyue yang, (参考訳) PNS(Probability of Necessary and Sufficient Causes)の高い学習表現は、深層学習モデルの能力を高めることが示されている。 このタスクでは、十分な(結果の保証)と必要な(結果が得られない)因果的特徴を特定する。 しかし、現在の研究では、主に一助データに焦点をあて、マルチモーダル設定にPSN学習を拡張することが大きな課題となっている。 PNS識別可能性、異種性、モノトニック性の条件は、十分な因果的特徴が異なるモダリティに分散しているマルチモーダルな文脈で再考する必要があるため、この課題が生じる。 そこで我々はまず,モーダリティ不変成分とモーダリティ固有成分からなるマルチモーダル表現の概念化を提案する。 次に,各コンポーネントのPSS識別性を解析し,非自明なPSS推定を確実にする。 最後に,マルチモーダルモデルで高PNS表現を学習可能なトラクタブルな最適化目標を定式化し,その予測性能を向上する。 実験により,本手法が合成データと実世界のデータの両方に与える影響を実証した。

Learning representations with a high Probability of Necessary and Sufficient Causes (PNS) has been shown to enhance deep learning models' ability. This task involves identifying causal features that are both sufficient (guaranteeing the outcome) and necessary (without which the outcome cannot occur). However, current research predominantly focuses on unimodal data, and extending PNS learning to multimodal settings presents significant challenges. The challenges arise as the conditions for PNS identifiability, Exogeneity and Monotonicity, need to be reconsidered in a multimodal context, where sufficient and necessary causal features are distributed across different modalities. To address this, we first propose conceptualizing multimodal representations as comprising modality-invariant and modality-specific components. We then analyze PNS identifiability for each component, while ensuring non-trivial PNS estimation. Finally, we formulate tractable optimization objectives that enable multimodal models to learn high-PNS representations, thereby enhancing their predictive performance. Experiments demonstrate the effectiveness of our method on both synthetic and real-world data.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# ACT-R: Repeat-Aware and Sequential Listening Session Recommendation

Transformers Meet ACT-R: Repeat-Aware and Sequential Listening Session Recommendation ( http://arxiv.org/abs/2408.16578v1 )

ライセンス: Link先を確認
Viet-Anh Tran, Guillaume Salha-Galvan, Bruno Sguerra, Romain Hennequin, (参考訳) 音楽ストリーミングサービスは、しばしばシーケンシャルなレコメンデーションシステムを活用して、過去のリスニングセッションのシーケンスに基づいてユーザーに見せるのに最適な音楽を予測する。 それでも、ほとんどのシーケンシャルなレコメンデーションメソッドは繰り返しの振る舞いを無視したり、不十分に説明したりする。 これは音楽レコメンデーションにとって極めて重要な制限であり、同じ曲を繰り返し聴くことは、ユーザーがこの曲を知覚する方法を変えることさえできる共通の現象である。 本稿では,この制限を克服するセッションレベルのシーケンシャルレコメンデータシステムである PISA を紹介する。 PISAは、アンダーソンのACT-R(Adaptive Control of Thought-Rational)にインスパイアされた注意機構を使用して、聴取セッションとユーザの埋め込み表現を学習するトランスフォーマーアーキテクチャを採用している。 このアプローチにより、ユーザの行動から動的かつ反復的なパターンをキャプチャし、その後のセッションで聴く曲を、繰り返したとしても新しいものであっても、効果的に予測することができる。 我々は、Last.fmの公開リスニングデータとグローバル音楽ストリーミングサービスDeezerのプロプライエタリデータの両方を用いて、PISAの実証的妥当性を実証し、シーケンシャルリスニングセッションレコメンデーションにおける繰り返しモデリングの重要性を確認する。 本稿では,この分野での今後の研究を促進するための独自のデータセットと,その将来的な利用を促進するためのPISAのソースコードを公開する。

Music streaming services often leverage sequential recommender systems to predict the best music to showcase to users based on past sequences of listening sessions. Nonetheless, most sequential recommendation methods ignore or insufficiently account for repetitive behaviors. This is a crucial limitation for music recommendation, as repeatedly listening to the same song over time is a common phenomenon that can even change the way users perceive this song. In this paper, we introduce PISA (Psychology-Informed Session embedding using ACT-R), a session-level sequential recommender system that overcomes this limitation. PISA employs a Transformer architecture learning embedding representations of listening sessions and users using attention mechanisms inspired by Anderson's ACT-R (Adaptive Control of Thought-Rational), a cognitive architecture modeling human information access and memory dynamics. This approach enables us to capture dynamic and repetitive patterns from user behaviors, allowing us to effectively predict the songs they will listen to in subsequent sessions, whether they are repeated or new ones. We demonstrate the empirical relevance of PISA using both publicly available listening data from Last.fm and proprietary data from Deezer, a global music streaming service, confirming the critical importance of repetition modeling for sequential listening session recommendation. Along with this paper, we publicly release our proprietary dataset to foster future research in this field, as well as the source code of PISA to facilitate its future use.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# FastForensics:リアルタイム画像操作検出のための効率的な2ストリーム設計

FastForensics: Efficient Two-Stream Design for Real-Time Image Manipulation Detection ( http://arxiv.org/abs/2408.16582v1 )

ライセンス: Link先を確認
Yangxiang Zhang, Yuezun Li, Ao Luo, Jiaran Zhou, Junyu Dong, (参考訳) 携帯端末の普及に伴い、ソーシャルメディア上での偽造メディアの普及が激化している。 これは、正確な内容のタイムリーな識別を必要とする。 しかし、ほとんどの先進的な検出手法は計算的に重く、リアルタイムの応用を妨げる。 本稿では,リアルタイム画像操作検出のための効率的な2ストリームアーキテクチャについて述べる。 本手法は,認知的視点と検査的視点を対象とする2流分枝から構成される。 本稿では,ウェーブレット誘導型トランスフォーマーブロックを提案する。 本ブロックは、ウェーブレット変換と効率的な注意設計を統合し、検査部からの知識と相互作用する対話型ウェーブレット誘導自己注意モジュールを含む。 インスペクティブブランチは、微細なトレースをキャプチャし、相互サポートを提供するためにTransformerブロックと双方向に対話する単純な畳み込みで構成されている。 提案手法は軽量($8M)だが,他の多くの手法と比較して競争性能が向上し,画像操作検出の有効性と携帯型統合の可能性を示す。

With the rise in popularity of portable devices, the spread of falsified media on social platforms has become rampant. This necessitates the timely identification of authentic content. However, most advanced detection methods are computationally heavy, hindering their real-time application. In this paper, we describe an efficient two-stream architecture for real-time image manipulation detection. Our method consists of two-stream branches targeting the cognitive and inspective perspectives. In the cognitive branch, we propose efficient wavelet-guided Transformer blocks to capture the global manipulation traces related to frequency. This block contains an interactive wavelet-guided self-attention module that integrates wavelet transformation with efficient attention design, interacting with the knowledge from the inspective branch. The inspective branch consists of simple convolutions that capture fine-grained traces and interact bidirectionally with Transformer blocks to provide mutual support. Our method is lightweight ($\sim$ 8M) but achieves competitive performance compared to many other counterparts, demonstrating its efficacy in image manipulation detection and its potential for portable integration.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# Werewolfゲームにおける対話生成の状況分析と説得戦略による強化

Enhancing Dialogue Generation in Werewolf Game Through Situation Analysis and Persuasion Strategies ( http://arxiv.org/abs/2408.16586v1 )

ライセンス: Link先を確認
Zhiyang Qi, Michimasa Inaba, (参考訳) 自然言語処理の最近の進歩、特にGPT-4のような大規模言語モデル(LLM)は、対話システムを大幅に強化し、より自然で流動的な会話を生成できるようになった。 これらの改善にもかかわらず、継続的な対話の管理、メモリ保持、幻覚の最小化といった課題が続いている。 AIWolfDial2024は、複雑なインタラクティブ環境でLLMの能力をテストするために、不完全な情報ゲームであるWerewolf Gameを使用することによって、これらの課題に対処する。 本稿では,LLMをベースとしたWerewolf Game AIを提案する。 また、オオカミの役割については、論理的魅力、信用的魅力、感情的魅力など様々な説得戦略が採用され、他のプレイヤーが効果的に行動に沿うように説得する。

Recent advancements in natural language processing, particularly with large language models (LLMs) like GPT-4, have significantly enhanced dialogue systems, enabling them to generate more natural and fluent conversations. Despite these improvements, challenges persist, such as managing continuous dialogues, memory retention, and minimizing hallucinations. The AIWolfDial2024 addresses these challenges by employing the Werewolf Game, an incomplete information game, to test the capabilities of LLMs in complex interactive environments. This paper introduces a LLM-based Werewolf Game AI, where each role is supported by situation analysis to aid response generation. Additionally, for the werewolf role, various persuasion strategies, including logical appeal, credibility appeal, and emotional appeal, are employed to effectively persuade other players to align with its actions.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# Heisenberg-Limited Spin-Mechanical Gravimetry

Heisenberg-Limited Spin-Mechanical Gravimetry ( http://arxiv.org/abs/2408.16587v1 )

ライセンス: Link先を確認
Victor Montenegro, (参考訳) 重力加速度の精密測定(重力測定)は物理理論のテストを可能にし、測地学や宇宙探査に多くの応用を見出すことができる。 量子効果を利用することで、高精度センサーは、同じ数のセンシングリソースを使用する場合、従来のセンサーよりもはるかに高い感度と精度を達成することができる。 したがって、量子化感度を持つ重力計の開発は、理論と応用物理学の進歩に不可欠である。 この目的のために新しい量子重力計がすでに提案されているが、ハイゼンベルク極限と呼ばれる最終的な知覚精度は、大半が解明されている。 ここでは, 条件付きスピン・メカニカル・システムにおける重力計の精度が, スピン数とともに2次的に増加することを示す。 一般に、重力パラメータは、絡み合ったスピン-メカニカルプローブ全体に動的に符号化される。 しかし、ある特定の時点では、機械的な自由度はスピンサブシステムから切り離され、重力加速度に関する全ての情報をスピンサブシステムに転送する。 したがって, スピン磁化測定により, 遠ざかる時間に, 究極の重力計の精度が明らかになる。 最後に,提案システムはスピン-機械的カップリング異方性に対して頑健であることを示す。

Precision measurements of gravitational acceleration, or gravimetry, enable the testing of physical theories and find numerous applications in geodesy and space exploration. By harnessing quantum effects, high-precision sensors can achieve sensitivity and accuracy far beyond their classical counterparts when using the same number of sensing resources. Therefore, developing gravimeters with quantum-enhanced sensitivity is essential for advancing theoretical and applied physics. While novel quantum gravimeters have already been proposed for this purpose, the ultimate sensing precision, known as the Heisenberg limit, remains largely elusive. Here, we demonstrate that the gravimetry precision in a conditional displacement spin-mechanical system increases quadratically with the number of spins: a Heisenberg-limited spin-mechanical gravimeter. In general, the gravitational parameter is dynamically encoded into the entire entangled spin-mechanical probe. However, at some specific times, the mechanical degree of freedom disentangles from the spin subsystem, transferring all the information about the gravitational acceleration to the spin subsystem. Hence, we prove that a feasible spin magnetization measurement can reveal the ultimate gravimetry precision at such disentangling times. Finally, we demonstrate that the proposed system is robust against spin-mechanical coupling anisotropies.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# CrisperWhisper: Verbatim音声文の正確なタイムスタンプ

CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions ( http://arxiv.org/abs/2408.16589v1 )

ライセンス: Link先を確認
Laurin Wagner, Bernhard Thallinger, Mario Zusag, (参考訳) 我々は,Whisper音声認識モデルのトークン化を慎重に調整することで,デコーダのクロスアテンションスコアに動的時間ワープを適用する際の単語レベルのタイムスタンプの精度が大幅に向上することを示した。 我々は、より冗長な音声書き起こしを生成するためにモデルを微調整し、複数の話者に対するロバスト性や背景雑音を高めるためにいくつかの手法を用いる。 これらの調整は、動詞音声の書き起こし、単語のセグメンテーション、およびフィラーイベントのタイムド検出のためのベンチマークで最先端のパフォーマンスを達成し、さらに書き起こし幻覚を緩和することができる。 コードはhttps://github.com/nyrahealth/CrisperWhisper.comで公開されている。

We demonstrate that carefully adjusting the tokenizer of the Whisper speech recognition model significantly improves the precision of word-level timestamps when applying dynamic time warping to the decoder's cross-attention scores. We fine-tune the model to produce more verbatim speech transcriptions and employ several techniques to increase robustness against multiple speakers and background noise. These adjustments achieve state-of-the-art performance on benchmarks for verbatim speech transcription, word segmentation, and the timed detection of filler events, and can further mitigate transcription hallucinations. The code is available open https://github.com/nyrahealth/CrisperWhisper.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# 加速度同期並列確率勾配による高次元スパースデータ低ランク表現

High-Dimensional Sparse Data Low-rank Representation via Accelerated Asynchronous Parallel Stochastic Gradient Descent ( http://arxiv.org/abs/2408.16592v1 )

ライセンス: Link先を確認
Qicong Hu, Hao Wu, (参考訳) 高次元性と空間性によって特徴づけられるデータは、実世界のノードの相互作用を記述するために一般的に使用される。 低ランク表現(LR)は、高次元スパース(HDS)データを低次元の特徴空間にマッピングし、潜在関連データをモデル化することでノード間相互作用を推論することができる。 残念ながら、既存のLRモデルの最適化アルゴリズムは計算的に非効率であり、大規模データセット上で徐々に収束している。 この問題に対処するために,3つの折り畳みイデアを持つ高次元スパースデータ低ランク表現のための非同期並列確率勾配勾配A2PSGDを提案する。 a) 複数のスレッドからのスケジューリング要求に同時に応答するロックフリースケジューラを確立すること。 ロ スレッド間の計算負荷のバランスをとるための欲求アルゴリズムに基づく負荷分散戦略を導入すること。 c) モデル収束を加速する学習スキームにネステロフの加速勾配を組み込む。 実験的研究により、A2PSGDはHDSデータLRの既存の最適化アルゴリズムを精度とトレーニング時間の両方で上回っていることが示された。

Data characterized by high dimensionality and sparsity are commonly used to describe real-world node interactions. Low-rank representation (LR) can map high-dimensional sparse (HDS) data to low-dimensional feature spaces and infer node interactions via modeling data latent associations. Unfortunately, existing optimization algorithms for LR models are computationally inefficient and slowly convergent on large-scale datasets. To address this issue, this paper proposes an Accelerated Asynchronous Parallel Stochastic Gradient Descent A2PSGD for High-Dimensional Sparse Data Low-rank Representation with three fold-ideas: a) establishing a lock-free scheduler to simultaneously respond to scheduling requests from multiple threads; b) introducing a greedy algorithm-based load balancing strategy for balancing the computational load among threads; c) incorporating Nesterov's accelerated gradient into the learning scheme to accelerate model convergence. Empirical studies show that A2PSGD outperforms existing optimization algorithms for HDS data LR in both accuracy and training time.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# 上肢多関節運動のモデリングのためのsEMG駆動物理インフォームドGated Recurrent Networks

sEMG-Driven Physics-Informed Gated Recurrent Networks for Modeling Upper Limb Multi-Joint Movement Dynamics ( http://arxiv.org/abs/2408.16599v1 )

ライセンス: Link先を確認
Rajnish Kumar, Anand Gupta, Suriya Prakash Muthukrishnan, Lalan Kumar, Sitikantha Roy, (参考訳) 外骨格とリハビリテーションシステムは、運動力学に適応する高度なヒューマンマシンインタフェース(HMI)を通して、人間の強度と回復を高める大きな可能性をもたらす。 しかし、物理インフォームドニューラルネットワーク(PINN)のリアルタイム適用は、一定の入力長と代理モデルに依存しているため制限される。 本研究では,表面筋電図(sEMG)データを用いた多関節トルク予測のための物理インフォームドGated Recurrent Network(PiGRN)を提案する。 PiGRNモデルは、時系列sEMG入力をマルチジョイントキネマティクスと外部負荷に変換するためにGRU(Gated Recurrent Unit)を使用しており、物理法則との整合性を確保するために運動方程式に統合される。 肘屈曲・伸展作業を行う5人の被験者のsEMGデータによる実験的検証の結果, RMSE値が4.02\%から11.40\%, 相関係数が0.87から0.98であった。 これらの知見は、PiGRNのリアルタイム外骨格およびリハビリテーションへの応用の可能性を示している。 今後の研究は、より多様なデータセットを探索し、筋骨格モデルを改善し、教師なし学習方法を検討する。

Exoskeletons and rehabilitation systems offer great potential for enhancing human strength and recovery through advanced human-machine interfaces (HMIs) that adapt to movement dynamics. However, the real-time application of physics-informed neural networks (PINNs) is limited by their reliance on fixed input lengths and surrogate models. This study introduces a novel physics-informed Gated Recurrent Network (PiGRN) designed to predict multi-joint torques using surface electromyography (sEMG) data. The PiGRN model employs a Gated Recurrent Unit (GRU) to convert time-series sEMG inputs into multi-joint kinematics and external loads, which are then integrated into an equation of motion to ensure consistency with physical laws. Experimental validation with sEMG data from five participants performing elbow flexion-extension tasks showed that the PiGRN model accurately predicted joint torques for 10 unfamiliar movements, with RMSE values between 4.02\% and 11.40\% and correlation coefficients ranging from 0.87 to 0.98. These findings highlight the PiGRN's potential for real-time exoskeleton and rehabilitation applications. Future research will explore more diverse datasets, improve musculoskeletal models, and investigate unsupervised learning methods.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# 大規模言語モデルによるコード生成の検討

Examination of Code generated by Large Language Models ( http://arxiv.org/abs/2408.16601v1 )

ライセンス: Link先を確認
Robin Beer, Alexander Feix, Tim Guttzeit, Tamara Muras, Vincent Müller, Maurice Rauscher, Florian Schäffler, Welf Löwe, (参考訳) ChatGPTやCopilotのような大規模言語モデル(LLM)は、コード生成を自動化してソフトウェア開発を変革し、間違いなく、迅速なプロトタイピング、教育のサポート、生産性の向上を実現している。 したがって、生成されたコードの正確さと品質は、手書きのコードと同等であるべきです。 高品質なコードを生成する際のLLMの現状を評価するために,ChatGPT と Copilot を用いて制御実験を行った。我々は LLM に対して,対応するユニットテストとともに Java と Python で簡単なアルゴリズムを生成させ,生成した(テスト) コードの品質(カバレッジ)と正確性を評価した。 言語間, アルゴリズムとテストコード間, 時間とともに, LLM間で有意な差異が認められた。 本稿では,これらの結果と実験手法を併用して,より多くのアルゴリズム,言語,LLMに対して,繰り返しかつ同等のアセスメントを可能にする手法について報告する。

Large language models (LLMs), such as ChatGPT and Copilot, are transforming software development by automating code generation and, arguably, enable rapid prototyping, support education, and boost productivity. Therefore, correctness and quality of the generated code should be on par with manually written code. To assess the current state of LLMs in generating correct code of high quality, we conducted controlled experiments with ChatGPT and Copilot: we let the LLMs generate simple algorithms in Java and Python along with the corresponding unit tests and assessed the correctness and the quality (coverage) of the generated (test) codes. We observed significant differences between the LLMs, between the languages, between algorithm and test codes, and over time. The present paper reports these results together with the experimental methods allowing repeated and comparable assessments for more algorithms, languages, and LLMs over time.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# 埋め込み複雑度と量子回路体積

Embedded Complexity and Quantum Circuit Volume ( http://arxiv.org/abs/2408.16602v1 )

ライセンス: Link先を確認
Zhenyu Du, Zi-Wen Liu, Xiongfeng Ma, (参考訳) 量子回路複雑性は、量子情報、量子多体物理学、高エネルギー物理学において重要な概念である。 閉系に対しては広範囲に研究されているが、測定支援状態の準備を含む大規模系に組み込まれている場合において、回路複雑性の特性とダイナミクスはほとんど理解されていない。 このギャップに対処するために,システム拡張と測定の両方を考慮に入れた組込み複雑性の概念を導入する。 サブシステム内の投影状態の複雑性を,その補数を測定した後に検討し,ランダム回路において,組込み複雑度は回路体積によって低くなっており,サブシステムと補数の両方に影響を与えるゲートの総数であることがわかった。 この結果から, 一般の補助量子ビットと測定値を活用することにより, 投射状態を作成するための総コストを削減できないことが示唆された。 本結果は, 発生した状態の組込み複雑性を特徴付けるため, 回路体積の操作的意味を裏付けるものである。 具体的には、ランダム回路やクリフォード回路に対して、ランダムゲートテレポーテーション手法を用いて回路体積をサブシステムに集中させる時空変換を実演する。 システムがより大きなシステムと広範囲に相互作用する深熱化のシナリオでは、その結果の投影状態は高い複雑性を示すことが示唆されている。 さらに,アシラリーランダム状態とベル状態測定のみを利用するシャドウトモグラフィープロトコルを導入し,入力状態の進化を回避し,実験的な制御を簡素化する。

Quantum circuit complexity is a pivotal concept in quantum information, quantum many-body physics, and high-energy physics. While extensively studied for closed systems, the characterization and dynamics of circuit complexity are little understood for the situation where the system is embedded within a larger system, which encompasses measurement-assisted state preparation. To address this gap, we introduce the notion of embedded complexity, which accounts for both system extensions and measurements. We study the complexity of projected states in a subsystem after measuring its complement and find that in random circuits, the embedded complexity is lower-bounded by the circuit volume -- the total number of gates affecting both the subsystem and its complement. This finding indicates that the total cost of preparing the projected state cannot be reduced by leveraging ancillary qubits and measurements in general. Our result underscores the operational meaning of circuit volume, as it characterizes the embedded complexity of the generated state. Specifically, for random circuits or Clifford circuits, we demonstrate a spacetime conversion that concentrates circuit volume onto a subsystem via a random gate teleportation approach. In scenarios of deep thermalization where the system interacts extensively with a larger system, our analysis suggests that the resulting projected states exhibit high complexity. Additionally, we introduce a shadow tomography protocol that employs only ancillary random states and Bell state measurements, circumventing the need to evolve the input state and thereby simplifying experimental controls.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# センサよりも多くのソースをローカライズするスパースリニアアレイのサブスペース表現学習:深層学習方法論

Subspace Representation Learning for Sparse Linear Arrays to Localize More Sources than Sensors: A Deep Learning Methodology ( http://arxiv.org/abs/2408.16605v1 )

ライセンス: Link先を確認
Kuan-Lin Chen, Bhaskar D. Rao, (参考訳) スパース線形アレイ(SLA)を用いたセンサよりも多くのソースをローカライズすることは、2つの共分散行列間の距離を最小化することに依存しており、最近のアルゴリズムは半定値プログラミング(SDP)を利用することが多い。 ディープニューラルネットワーク(DNN)ベースの手法は、新しい代替手段を提供するが、それでも共分散行列の適合に依存している。 本稿では、SLAのサンプル共分散からコアレイ部分空間を推定する新しい手法を開発する。 我々の手法は、ベースの選択に不変な信号とノイズ部分空間表現を学ぶためにDNNを訓練する。 このような表現を学習するために、所望部分空間と推定部分空間との分離を測る損失関数を提案する。 特に、グラスマンの和集合上で見た部分空間間の最短経路の長さを測定する損失を提案し、DNNが信号部分空間を近似することが可能であることを証明した。 異なる次元の学習部分空間の計算は、一貫した階数サンプリングと呼ばれる新しいバッチサンプリング戦略によって加速される。 この手法は、幾何学に依存しないデータ駆動の性質のため、配列の不完全性に対して堅牢である。 さらに,部分空間法をバイパスする可能性を研究するために,角度を直接学習する完全エンドツーエンドのグリッドレス手法を提案する。 数値的な結果から,そのような部分空間表現の学習は,共分散や角度の学習よりも有益であることが示唆された。 スパース・パラメトリック・アプローチ(SPA)や既存のDNNベースの共分散再構成手法といった従来のSDPベースの手法よりも、幅広い信号対雑音比(SNR)、スナップショット、および完璧な配列と不完全な配列のソース数に優れる。

Localizing more sources than sensors with a sparse linear array (SLA) has long relied on minimizing a distance between two covariance matrices and recent algorithms often utilize semidefinite programming (SDP). Although deep neural network (DNN)-based methods offer new alternatives, they still depend on covariance matrix fitting. In this paper, we develop a novel methodology that estimates the co-array subspaces from a sample covariance for SLAs. Our methodology trains a DNN to learn signal and noise subspace representations that are invariant to the selection of bases. To learn such representations, we propose loss functions that gauge the separation between the desired and the estimated subspace. In particular, we propose losses that measure the length of the shortest path between subspaces viewed on a union of Grassmannians, and prove that it is possible for a DNN to approximate signal subspaces. The computation of learning subspaces of different dimensions is accelerated by a new batch sampling strategy called consistent rank sampling. The methodology is robust to array imperfections due to its geometry-agnostic and data-driven nature. In addition, we propose a fully end-to-end gridless approach that directly learns angles to study the possibility of bypassing subspace methods. Numerical results show that learning such subspace representations is more beneficial than learning covariances or angles. It outperforms conventional SDP-based methods such as the sparse and parametric approach (SPA) and existing DNN-based covariance reconstruction methods for a wide range of signal-to-noise ratios (SNRs), snapshots, and source numbers for both perfect and imperfect arrays.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# ハドロン熱量計の異常検出における伝達学習によるデータ品質モニタリング

Data Quality Monitoring through Transfer Learning on Anomaly Detection for the Hadron Calorimeters ( http://arxiv.org/abs/2408.16612v1 )

ライセンス: Link先を確認
Mulugeta Weldezgina Asres, Christian Walter Omlin, Long Wang, Pavel Parygin, David Yu, Jay Dittmann, The CMS-HCAL Collaboration, (参考訳) センサーの拡散は、監視、診断、予後学の応用を含む様々な目的のために、多くの領域で大量の時空間(ST)データをもたらす。 データキュレーションは大量のデータを扱うのに時間を要するプロセスであり、新しい環境にデータ分析プラットフォームをデプロイすることは困難で費用がかかる。 トランスファーラーニング(TL)メカニズムは、新しいタスクに事前訓練されたモデルを利用することで、データのスパーシリティとモデルの複雑さを軽減することを約束する。 コンピュータビジョンや自然言語処理といった分野におけるTLの勝利にもかかわらず、異常検出(AD)アプリケーションのための複雑なSTモデルへの取り組みは限られている。 本研究では,CERNにおけるコンパクトミューオンソレノイド実験のハドロン熱量計について,ADの文脈におけるTLの可能性を示す。 我々は、あるカロリーメータから収集したデータに基づいて訓練されたSTADモデルを別のカロリーメータに転送した。 我々は,STADモデルの半教師付きオートエンコーダ上でのTLの異なる構成について検討した。 実験の結果,TLは対象のサブ検出器上でのモデル学習精度を効果的に向上することが示された。 TLは、ADモデルのトレーニング可能なパラメータを大幅に削減しつつ、有望なデータ再構成とAD性能を達成する。 また、半教師付きADモデルのトレーニングデータセットにおける異常汚染に対する堅牢性も向上する。

The proliferation of sensors brings an immense volume of spatio-temporal (ST) data in many domains for various purposes, including monitoring, diagnostics, and prognostics applications. Data curation is a time-consuming process for a large volume of data, making it challenging and expensive to deploy data analytics platforms in new environments. Transfer learning (TL) mechanisms promise to mitigate data sparsity and model complexity by utilizing pre-trained models for a new task. Despite the triumph of TL in fields like computer vision and natural language processing, efforts on complex ST models for anomaly detection (AD) applications are limited. In this study, we present the potential of TL within the context of AD for the Hadron Calorimeter of the Compact Muon Solenoid experiment at CERN. We have transferred the ST AD models trained on data collected from one part of a calorimeter to another. We have investigated different configurations of TL on semi-supervised autoencoders of the ST AD models -- transferring convolutional, graph, and recurrent neural networks of both the encoder and decoder networks. The experiment results demonstrate that TL effectively enhances the model learning accuracy on a target subdetector. The TL achieves promising data reconstruction and AD performance while substantially reducing the trainable parameters of the AD models. It also improves robustness against anomaly contamination in the training data sets of the semi-supervised AD models.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# 改良型マスク時系列生成のための低レベル・高レベル時系列解析

Blending Low and High-Level Semantics of Time Series for Better Masked Time Series Generation ( http://arxiv.org/abs/2408.16613v1 )

ライセンス: Link先を確認
Johan Vik Mathisen, Erlend Lokna, Daesoo Lee, Erlend Aune, (参考訳) TimeVQVAEのような時系列生成(TSG)における最先端のアプローチは、ベクトル量子化に基づくトークン化を利用して、時系列の複雑な分布を効果的にモデル化する。 これらのアプローチはまず時系列を離散潜在ベクトルの列に変換することを学習し、その後、先行モデルを学習してシーケンスをモデル化する。 しかし、離散潜在ベクトルは低レベル意味論(\textit{e g ,} 形状)のみをキャプチャする。 我々は、高忠実度時系列は、低次および高次セマンティクス(\textit{e g ,} 特性ダイナミクス)を含むより情報的な離散潜在ベクトルの事前モデルを訓練することによって生成できると仮定する。 本稿では、NC-VQVAEと呼ばれる新しいフレームワークを導入し、これらTSG手法に自己教師付き学習を統合することにより、低レベルのセマンティクスがキャプチャーされる離散潜在空間を導出する。 NC-VQVAEは, 合成試料の品質を著しく向上させることを示した。

State-of-the-art approaches in time series generation (TSG), such as TimeVQVAE, utilize vector quantization-based tokenization to effectively model complex distributions of time series. These approaches first learn to transform time series into a sequence of discrete latent vectors, and then a prior model is learned to model the sequence. The discrete latent vectors, however, only capture low-level semantics (\textit{e.g.,} shapes). We hypothesize that higher-fidelity time series can be generated by training a prior model on more informative discrete latent vectors that contain both low and high-level semantics (\textit{e.g.,} characteristic dynamics). In this paper, we introduce a novel framework, termed NC-VQVAE, to integrate self-supervised learning into those TSG methods to derive a discrete latent space where low and high-level semantics are captured. Our experimental results demonstrate that NC-VQVAE results in a considerable improvement in the quality of synthetic samples.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# 超伝導量子ビットにおける共振器誘起相によるLong-Range$ZZ$相互作用

Long-Range $ZZ$ Interaction via Resonator-Induced Phase in Superconducting Qubits ( http://arxiv.org/abs/2408.16617v1 )

ライセンス: Link先を確認
Xiang Deng, Wen Zheng, Xudong Liao, Haoyu Zhou, Yangyang Ge, Jie Zhao, Dong Lan, Xinsheng Tan, Yu Zhang, Shaoxiong Li, Yang Yu, (参考訳) 超伝導量子コンピューティングは、量子優位性を達成するための主要な候補の1つとして出現する。 しかし、一般的な課題は、超伝導量子ビット間の最も近い隣り合うカップリングによって制約される、量子接続の制限によるコーディングオーバーヘッドである。 本稿では、共振器誘起位相ゲートに基づく3つの共振器と二次マイクロ波で駆動される2つの共振器を用いて、量子ビット間の相互作用距離を$ZZ$に拡張する新しい多モード結合方式を提案する。 我々は、フリースペクトル範囲(FSR)が1.3GHzの160 ns以内で99.9\%を超えるCZゲート忠実度を示し、運転パルスを最適化することにより、残り光子を0.2GHzのFSRで100 ns以内の10^{-3}$に削減する。 これにより、サブメーターに達する分離を超越した長距離CZゲートが実現され、量子ビット接続が大幅に向上し、量子プロセッサのスケーラブルな統合とモジュール化に向けた実用的なステップが実現される。 具体的には、フォールトトレラントな量子コンピューティングを実現するための、低密度パリティチェックコードなど、高接続性を必要とする量子エラー訂正符号の実装を支援する。

Superconducting quantum computing emerges as one of leading candidates for achieving quantum advantage. However, a prevailing challenge is the coding overhead due to limited quantum connectivity, constrained by nearest-neighbor coupling among superconducting qubits. Here, we propose a novel multimode coupling scheme using three resonators driven by in-phase and quadrature microwaves, based on the resonator-induced phase gate, to extend the $ZZ$ interaction distance between qubits. We demonstrate a CZ gate fidelity exceeding 99.9\% within 160 ns at free spectral range (FSR) of 1.3 GHz, and by optimizing driving pulses, we further reduce the residual photon to nearly $10^{-3}$ within 100 ns at FSR of 0.2 GHz. These facilitate the long-range CZ gate over separations reaching sub-meters, thus significantly enhancing qubit connectivity and making a practical step towards the scalable integration and modularization of quantum processors. Specifically, our approach supports the implementation of quantum error correction codes requiring high connectivity, such as low-density parity check codes that paves the way to achieving fault-tolerant quantum computing.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# 超次元ベクトルタセリンマシンとシーケンス学習・生成への応用

Hyperdimensional Vector Tsetlin Machines with Applications to Sequence Learning and Generation ( http://arxiv.org/abs/2408.16620v1 )

ライセンス: Link先を確認
Christian D. Blakely, (参考訳) 我々は,バニラ・テトリンマシンと高速かつ競合する逐次データを学習・生成するための2層モデルを構築し,多くの利点を生んでいる。 超次元ベクトル計算(HVC)代数とTsetlinマシン節構造を用いることで、両者の組み合わせによって、HVCのデータ符号化と復号化の一般化と、Tsetlinマシンの高速解釈可能な性質を継承し、強力な機械学習モデルが得られることを示した。 提案手法は,予測,新しいシーケンス生成,分類の2分野に適用する。 後者については、UCR Time Series Archiveの全結果から導出し、標準ベンチマークと比較して、時系列分類における手法の競い合いについて検討する。

We construct a two-layered model for learning and generating sequential data that is both computationally fast and competitive with vanilla Tsetlin machines, adding numerous advantages. Through the use of hyperdimensional vector computing (HVC) algebras and Tsetlin machine clause structures, we demonstrate that the combination of both inherits the generality of data encoding and decoding of HVC with the fast interpretable nature of Tsetlin machines to yield a powerful machine learning model. We apply the approach in two areas, namely in forecasting, generating new sequences, and classification. For the latter, we derive results for the entire UCR Time Series Archive and compare with the standard benchmarks to see how well the method competes in time series classification.
翻訳日:2024-08-30 13:23:15 公開日:2024-08-29
# 減算ドライバ検出のための補助知識の注入に向けて

Towards Infusing Auxiliary Knowledge for Distracted Driver Detection ( http://arxiv.org/abs/2408.16621v1 )

ライセンス: Link先を確認
Ishwar B Balappanawar, Ashmit Chamoli, Ruwan Wickramarachchi, Aditya Mishra, Ponnurangam Kumaraguru, Amit P. Sheth, (参考訳) 引き離された運転は世界中の道路事故の主要な原因である。 気を散らす運転の識別には、車内カメラのフィードから様々な種類のドライバーの気晴らし(例えば、テキストメッセージ、食事、車内機器の使用など)を確実に検出し、分類し、道路の安全性を高めることが含まれる。 このタスクは、広範なアノテートデータセットを必要とせずに、さまざまなドライバ動作に一般化可能な堅牢なモデルを必要とするため、難しい。 本稿では,シーン内のエンティティ間の意味的関係とドライバのポーズの構造的構成に関する補助的知識を注入することで,運転者検出(DDD)の新たな手法であるKiD3を提案する。 具体的には、シーングラフを統合した統合フレームワークを構築し、ドライバが映像フレーム内の視覚的手がかりと情報を合成してドライバの動作の全体像を作成することで、KiD3が視覚情報に補助知識を組み込むことで、視覚のみのベースラインに対して13.64%の精度向上を実現していることを示す。

Distracted driving is a leading cause of road accidents globally. Identification of distracted driving involves reliably detecting and classifying various forms of driver distraction (e.g., texting, eating, or using in-car devices) from in-vehicle camera feeds to enhance road safety. This task is challenging due to the need for robust models that can generalize to a diverse set of driver behaviors without requiring extensive annotated datasets. In this paper, we propose KiD3, a novel method for distracted driver detection (DDD) by infusing auxiliary knowledge about semantic relations between entities in a scene and the structural configuration of the driver's pose. Specifically, we construct a unified framework that integrates the scene graphs, and driver pose information with the visual cues in video frames to create a holistic representation of the driver's actions.Our results indicate that KiD3 achieves a 13.64% accuracy improvement over the vision-only baseline by incorporating such auxiliary knowledge with visual information.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# $\ell_p$トータル変分を用いた低光子数バイオメディカルイメージングのためのスパース信号再構成

Sparse Signal Reconstruction for Overdispersed Low-photon Count Biomedical Imaging Using $\ell_p$ Total Variation ( http://arxiv.org/abs/2408.16622v1 )

ライセンス: Link先を確認
Yu Lu, Roummel F. Marcia, (参考訳) ポアソン分布モデルを一般化した負二項モデルは、医用画像を含む低光子信号の回復を含む応用で見られる。 最近の研究では、0 < p < 1$, $\ell_1$ norm の $\ell_p$ quasi-norm や、信号回復における空間性を促進するための総変分(TV) quasi-seminorm など、負二項モデルに対するいくつかの正規化項が検討されている。 これらのペナルティ条件は、画像再構成の結果を改善することが示されている。 本稿では、負二項統計モデルの枠組みの中で、等方性と異方性の両方を持つ$\ell_p$ quasi-seminormについて検討する。 この問題を最適化問題として定式化することができる。 我々は、$\ell_p$ TV quasi-seminorm を用いた負二項統計モデルとポアソン統計モデルの比較を行った。 提案手法の有効性を実験的に明らかにした。

The negative binomial model, which generalizes the Poisson distribution model, can be found in applications involving low-photon signal recovery, including medical imaging. Recent studies have explored several regularization terms for the negative binomial model, such as the $\ell_p$ quasi-norm with $0 < p < 1$, $\ell_1$ norm, and the total variation (TV) quasi-seminorm for promoting sparsity in signal recovery. These penalty terms have been shown to improve image reconstruction outcomes. In this paper, we investigate the $\ell_p$ quasi-seminorm, both isotropic and anisotropic $\ell_p$ TV quasi-seminorms, within the framework of the negative binomial statistical model. This problem can be formulated as an optimization problem, which we solve using a gradient-based approach. We present comparisons between the negative binomial and Poisson statistical models using the $\ell_p$ TV quasi-seminorm as well as common penalty terms. Our experimental results highlight the efficacy of the proposed method.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# 物理深層学習を用いたビデオからの乱流強度$C_n^2$推定

Turbulence Strength $C_n^2$ Estimation from Video using Physics-based Deep Learning ( http://arxiv.org/abs/2408.16623v1 )

ライセンス: Link先を確認
Ripon Kumar Saha, Esen Salcin, Jihoo Kim, Joseph Smith, Suren Jayasuriya, (参考訳) 長距離から撮影された画像は、ランダムな温度の空気セルの乱流によるダイナミックな画像歪みに悩まされ、屈折率が低下する。 画像ダンスとして知られるこの現象は、その屈折率-指数構造定数$C_n^2$を乱流強度の尺度として特徴付ける。 大気予測モデル、長距離/天文学イメージング、航空安全、光通信技術などの多くの応用において、C_n^2$推定は乱流環境を正確に検知するために重要である。 これまでの$C_n^2$推定方法は、単点測定のための気象データ(温度、相対湿度、風のせん断など)からの推定、パス平均の$C_n^2$の光学シンチロメーターによる2方向のパス長測定、そして最近では、低コストでハードウェアの複雑な受動ビデオカメラから$C_n^2$を推定する。 本稿では,C_n^2$推定のための古典的画像勾配法と,畳み込みニューラルネットワークを利用した最新の深層学習法の比較分析を行う。 これを実現するために、地上の真実の基準シンチロメーター測定とともにビデオキャプチャーのデータセットを収集し、このユニークなデータセットを科学コミュニティに公開する。 ディープラーニングの手法は、類似したデータで訓練すると精度が向上するが、従来の手法に比べ、一般化誤差が低い。 このトレードオフを克服するために、学習した畳み込み層と、画像データセット間で一般化可能ながら高い精度を維持した微分可能な画像勾配法を組み合わせた、新しい物理ベースのネットワークアーキテクチャを提案する。

Images captured from a long distance suffer from dynamic image distortion due to turbulent flow of air cells with random temperatures, and thus refractive indices. This phenomenon, known as image dancing, is commonly characterized by its refractive-index structure constant $C_n^2$ as a measure of the turbulence strength. For many applications such as atmospheric forecast model, long-range/astronomy imaging, and aviation safety, optical communication technology, $C_n^2$ estimation is critical for accurately sensing the turbulent environment. Previous methods for $C_n^2$ estimation include estimation from meteorological data (temperature, relative humidity, wind shear, etc.) for single-point measurements, two-ended pathlength measurements from optical scintillometer for path-averaged $C_n^2$, and more recently estimating $C_n^2$ from passive video cameras for low cost and hardware complexity. In this paper, we present a comparative analysis of classical image gradient methods for $C_n^2$ estimation and modern deep learning-based methods leveraging convolutional neural networks. To enable this, we collect a dataset of video capture along with reference scintillometer measurements for ground truth, and we release this unique dataset to the scientific community. We observe that deep learning methods can achieve higher accuracy when trained on similar data, but suffer from generalization errors to other, unseen imagery as compared to classical methods. To overcome this trade-off, we present a novel physics-based network architecture that combines learned convolutional layers with a differentiable image gradient method that maintains high accuracy while being generalizable across image datasets.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# 複素サドル点からの量子デコヒーレンス

Quantum decoherence from complex saddle points ( http://arxiv.org/abs/2408.16627v1 )

ライセンス: Link先を確認
Jun Nishimura, Hiromasa Watanabe, (参考訳) 量子デコヒーレンス(quantum decoherence)は、量子物理学をよく理解された古典物理学に橋渡しする効果である。 そのため、例えばシュリンガーの猫に代表される量子物理学の神秘的な性質を理解する上で重要な役割を担っている。 量子デコヒーレンス(quantum decoherence)は、量子コンピューティングや量子技術に基づく様々な実験においてよく制御されなければならない量子ノイズの源でもある。 ここでは、量子デコヒーレンスをファインマン経路積分における$\textit{complex}$ Sadle 点で捉えることができ、量子トンネルをインスタントンで捉えるのとほとんど同じようにすることができることを指摘する。 特に,Caldeira-Leggettモデルにおいて,温度や関心システムとの結合といった環境のパラメータに関して,量子デコヒーレンスのスケーリング挙動を予測的に再現する第一原理計算について述べる。 我々はまた、最近開発された手法を用いてモンテカルロ計算により一般的なモデルに作業を拡張する方法についても論じる。

Quantum decoherence is the effect that bridges quantum physics to well-understood classical physics. As such, it plays a crucial role in understanding the mysterious nature of quantum physics represented by Schr\"odinger's cat, for example. Quantum decoherence is also a source of quantum noise that has to be well under control in quantum computing and in various experiments based on quantum technologies. Here we point out that quantum decoherence can be captured by $\textit{complex}$ saddle points in the Feynman path integral in much the same way as quantum tunneling can be captured by instantons. In particular, we present some first-principle calculations in the Caldeira-Leggett model, which reproduce the predicted scaling behavior of quantum decoherence with respect to the parameters of the environment such as the temperature and the coupling to the system of interest. We also discuss how to extend our work to general models by Monte Carlo calculations using a recently developed method to overcome the sign problem.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# LLMは構造的にリアルなソーシャルネットワークを生成するが、政治的ホモフィリを過大評価する

LLMs generate structurally realistic social networks but overestimate political homophily ( http://arxiv.org/abs/2408.16629v1 )

ライセンス: Link先を確認
Serina Chang, Alicja Chaszczewicz, Emma Wang, Maya Josifovska, Emma Pierson, Jure Leskovec, (参考訳) ソーシャルネットワークの生成は、疫病モデルや社会シミュレーションなど、多くのアプリケーションにとって不可欠である。 従来のアプローチでは、トレーニングのために多くの観測ネットワークを必要とするディープラーニングモデルや、その現実性と柔軟性に制限のあるスタイル化されたモデルが対象だった。 対照的に、LLMはゼロショットとフレキシブルなネットワーク生成の可能性を秘めている。 しかし、2つの重要な疑問は、(1) LLMが生成するネットワークは現実的なものか、(2) 社会関係形成における人口動態の重要性を考えると、バイアスのリスクは何か? これらの疑問に答えるために、ネットワーク生成のための3つのプロンプト手法を開発し、生成されたネットワークを実際のソーシャルネットワークと比較する。 より現実的なネットワークは、LLMが1つのペルソナの関係を一度に構築する"ローカル"な手法で生成され、同時にネットワーク全体を構成する"グローバル"な手法と比較して、より現実的なネットワークが生成される。 また, 生成したネットワークは, 密度, クラスタリング, コミュニティ構造, 程度など, 様々な特性で実ネットワークと一致していることがわかった。 しかし、LLMは、他のあらゆる種類のホモフィリと、実世界の指標に対する政治的ホモフィリを過大評価することよりも、政治的ホモフィリを重視していることがわかった。

Generating social networks is essential for many applications, such as epidemic modeling and social simulations. Prior approaches either involve deep learning models, which require many observed networks for training, or stylized models, which are limited in their realism and flexibility. In contrast, LLMs offer the potential for zero-shot and flexible network generation. However, two key questions are: (1) are LLM's generated networks realistic, and (2) what are risks of bias, given the importance of demographics in forming social ties? To answer these questions, we develop three prompting methods for network generation and compare the generated networks to real social networks. We find that more realistic networks are generated with "local" methods, where the LLM constructs relations for one persona at a time, compared to "global" methods that construct the entire network at once. We also find that the generated networks match real networks on many characteristics, including density, clustering, community structure, and degree. However, we find that LLMs emphasize political homophily over all other types of homophily and overestimate political homophily relative to real-world measures.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# Maelstrom Networks

Maelstrom Networks ( http://arxiv.org/abs/2408.16632v1 )

ライセンス: Link先を確認
Matthew Evanusa, Cornelia Fermüller, Yiannis Aloimonos, (参考訳) 人工ニューラルネットワークは、ワーキングメモリをニューラルネットワークに組み込む方法の開発に苦労している。 `long term' のメモリは学習した重みと見なすことができるが、ワーキングメモリはおそらく、フィードフォワードモデルに欠けている動的なアクティビティで構成されている。 トランスフォーマーのような現在の最先端モデルは、作業メモリを完全に無視し、単にデータ全体としてシーケンスを処理することで、これを「解決」する傾向がある。 ここでは、制御、貯水池コンピューティング、ディープラーニング、リカレントニューラルネットワークの組み合わせにインスパイアされた、リカレントネットワークの強みとフィードフォワードニューラルネットワークのパターンマッチング機能を組み合わせた代替パラダイムを提供し、これを \textit{Maelstrom Networks} パラダイムと呼ぶ。 このパラダイムは、リカレントコンポーネントである‘textit{Maelstrom}’を未学習にし、学習を強力なフィードフォワードネットワークにオフロードする。 これにより、ネットワークをアンロールすることなくフィードフォワードトレーニングの強度を活用し、新しいニューロモーフィックハードウェアでメモリを実装できる。 それは、データが時間領域内で因果的に組織される誘導バイアスを生かしたシーケンシャルメモリを備えたニューラルネットワークを提供し、エージェントの‘self’を表す状態をネットワークに付与し、環境を移動させる。 これはまた、ネットワークがモジュール化され、新しいデータを持つオーバーライトから‘`'保護’される、継続的な学習の道につながる可能性がある。 現在の非時間的ディープネットワークを悩ませているこれらのパフォーマンス問題の解決を支援することに加えて、最終的には‘self’という感覚を持つ人工ネットワークの実現にも繋がる可能性がある。

Artificial Neural Networks has struggled to devise a way to incorporate working memory into neural networks. While the ``long term'' memory can be seen as the learned weights, the working memory consists likely more of dynamical activity, that is missing from feed-forward models. Current state of the art models such as transformers tend to ``solve'' this by ignoring working memory entirely and simply process the sequence as an entire piece of data; however this means the network cannot process the sequence in an online fashion, and leads to an immense explosion in memory requirements. Here, inspired by a combination of controls, reservoir computing, deep learning, and recurrent neural networks, we offer an alternative paradigm that combines the strength of recurrent networks, with the pattern matching capability of feed-forward neural networks, which we call the \textit{Maelstrom Networks} paradigm. This paradigm leaves the recurrent component - the \textit{Maelstrom} - unlearned, and offloads the learning to a powerful feed-forward network. This allows the network to leverage the strength of feed-forward training without unrolling the network, and allows for the memory to be implemented in new neuromorphic hardware. It endows a neural network with a sequential memory that takes advantage of the inductive bias that data is organized causally in the temporal domain, and imbues the network with a state that represents the agent's ``self'', moving through the environment. This could also lead the way to continual learning, with the network modularized and ``'protected'' from overwrites that come with new data. In addition to aiding in solving these performance problems that plague current non-temporal deep networks, this also could finally lead towards endowing artificial networks with a sense of ``self''.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# 機械学習を用いた倉庫ロボットの自動ピッキングシステムの最適化

Optimizing Automated Picking Systems in Warehouse Robots Using Machine Learning ( http://arxiv.org/abs/2408.16633v1 )

ライセンス: Link先を確認
Keqin Li, Jin Wang, Xubo Wu, Xirui Peng, Runmian Chang, Xiaoyu Deng, Yiwen Kang, Yue Yang, Fanghao Ni, Bo Hong, (参考訳) グローバルeコマースの急速な成長に伴い、ロジスティクス業界における自動化の需要が高まっている。 本研究は, 倉庫における自動摘採システムに着目し, 深層学習と強化学習技術を利用して, システム故障率を低減しつつ, 摘採効率と精度を向上させることを目的とした。 実験分析を通じて,ロボットのピッキング性能と複雑な環境への適応性を向上する上で,これらの技術の有効性を実証する。 その結果、統合された機械学習モデルは従来の手法よりも優れており、ピークオーダー処理の課題に効果的に対処し、運用上のエラーを低減し、全体的なロジスティクス効率を向上していることがわかった。 さらに, 環境要因を解析することにより, さらにシステム設計を最適化し, 変動条件下での効率的な安定運転を実現する。 この研究は、ロジスティクス自動化のための革新的なソリューションを提供するだけでなく、将来の技術開発と応用のための理論的かつ実証的な基盤も提供する。

With the rapid growth of global e-commerce, the demand for automation in the logistics industry is increasing. This study focuses on automated picking systems in warehouses, utilizing deep learning and reinforcement learning technologies to enhance picking efficiency and accuracy while reducing system failure rates. Through empirical analysis, we demonstrate the effectiveness of these technologies in improving robot picking performance and adaptability to complex environments. The results show that the integrated machine learning model significantly outperforms traditional methods, effectively addressing the challenges of peak order processing, reducing operational errors, and improving overall logistics efficiency. Additionally, by analyzing environmental factors, this study further optimizes system design to ensure efficient and stable operation under variable conditions. This research not only provides innovative solutions for logistics automation but also offers a theoretical and empirical foundation for future technological development and application.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# RLCP:テキスト・画像拡散モデルのための強化学習に基づく著作権保護手法

RLCP: A Reinforcement Learning-based Copyright Protection Method for Text-to-Image Diffusion Model ( http://arxiv.org/abs/2408.16634v1 )

ライセンス: Link先を確認
Zhuan Shi, Jing Yan, Xiaoli Tang, Lingjuan Lyu, Boi Faltings, (参考訳) テキストから画像への生成モデルの高度化は、著作権侵害の基準と保護を定義し、強制する上で複雑な問題を引き起こしている。 ウォーターマーキングやデータセットの重複といった既存の手法は、標準化されたメトリクスの欠如と拡散モデルにおける著作権侵害に対処する固有の複雑さのために、包括的なソリューションを提供できない。 これらの課題に対処するため,テキスト・ツー・イメージ拡散モデルのための強化学習に基づく著作権保護手法を提案し,モデル生成データセットの品質を維持しながら著作権侵害コンテンツの生成を最小限にする。 当社のアプローチは,著作権法と裁判所による侵害の先例に基づく,新たな著作権基準の導入から始まります。 そこで,我々はDDPO(Denoising Diffusion Policy Optimization)フレームワークを用いて多段階の意思決定プロセスを通じてモデルを誘導し,提案した著作権基準を組み込んだ報酬関数を用いてモデルを最適化する。 さらに、故障モードを緩和し、RL微調整を安定化するために、正規化用語としてKL発散を用いる。 著作権と非著作権の画像の混合データセットを用いた実験により,画像品質を維持しながら著作権侵害のリスクを著しく低減することを示した。

The increasing sophistication of text-to-image generative models has led to complex challenges in defining and enforcing copyright infringement criteria and protection. Existing methods, such as watermarking and dataset deduplication, fail to provide comprehensive solutions due to the lack of standardized metrics and the inherent complexity of addressing copyright infringement in diffusion models. To deal with these challenges, we propose a Reinforcement Learning-based Copyright Protection(RLCP) method for Text-to-Image Diffusion Model, which minimizes the generation of copyright-infringing content while maintaining the quality of the model-generated dataset. Our approach begins with the introduction of a novel copyright metric grounded in copyright law and court precedents on infringement. We then utilize the Denoising Diffusion Policy Optimization (DDPO) framework to guide the model through a multi-step decision-making process, optimizing it using a reward function that incorporates our proposed copyright metric. Additionally, we employ KL divergence as a regularization term to mitigate some failure modes and stabilize RL fine-tuning. Experiments conducted on 3 mixed datasets of copyright and non-copyright images demonstrate that our approach significantly reduces copyright infringement risk while maintaining image quality.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# フィギュアスケートのための3次元ポス法に基づく時間的アクションセグメンテーション:細粒度および跳躍手順を意識したアノテーションアプローチ

3D Pose-Based Temporal Action Segmentation for Figure Skating: A Fine-Grained and Jump Procedure-Aware Annotation Approach ( http://arxiv.org/abs/2408.16638v1 )

ライセンス: Link先を確認
Ryota Tanaka, Tomohiro Suzuki, Keisuke Fujii, (参考訳) ビデオから人間の行動を理解することは、スポーツを含む多くの領域において不可欠である。 フィギュアスケートでは、スケーターの3D動作を見て技術判断を行い、その判断手順の一部が時間的アクションセグメンテーション(TAS)課題とみなすことができる。 ビデオに時間的意味論を自動的に割り当てるフィギュアスケートにおけるTASタスクを積極的に研究している。 しかし、3Dポーズデータを必要とするTASタスクにはデータセットや効果的な方法が不足している。 本研究では,光学マーカーレスモーションキャプチャーを用いて,複雑なフィギュアスケートジャンプと動的フィギュアスケートジャンプのFS-Jump3Dデータセットを初めて作成した。 また,TASモデルでジャンプ手順を学習可能な,詳細なフィギュアスケートジャンプTASデータセットアノテーション手法を提案する。 実験の結果,3次元ポーズの特徴を入力としての有用性と,図形スケートにおけるTASモデルの詳細なデータセットについて検証した。 FS-Jump3D Datasetはhttps://github.com/ryota-skating/FS-Jump3Dで利用可能である。

Understanding human actions from videos is essential in many domains, including sports. In figure skating, technical judgments are performed by watching skaters' 3D movements, and its part of the judging procedure can be regarded as a Temporal Action Segmentation (TAS) task. TAS tasks in figure skating that automatically assign temporal semantics to video are actively researched. However, there is a lack of datasets and effective methods for TAS tasks requiring 3D pose data. In this study, we first created the FS-Jump3D dataset of complex and dynamic figure skating jumps using optical markerless motion capture. We also propose a new fine-grained figure skating jump TAS dataset annotation method with which TAS models can learn jump procedures. In the experimental results, we validated the usefulness of 3D pose features as input and the fine-grained dataset for the TAS model in figure skating. FS-Jump3D Dataset is available at https://github.com/ryota-skating/FS-Jump3D.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# SODAWideNet++: 有能なオブジェクト検出のための注意と畳み込みの組み合わせ

SODAWideNet++: Combining Attention and Convolutions for Salient Object Detection ( http://arxiv.org/abs/2408.16645v1 )

ライセンス: Link先を確認
Rohit Venkata Sai Dulam, Chandra Kambhamettu, (参考訳) Salient Object Detection (SOD) は従来、ImageNetのトレーニング済みバックボーンの機能を利用する機能強化モジュールに依存してきた。 しかし,本手法は,SODと画像分類の相違から,ネットワーク全体を事前学習する可能性を制限する。 さらに、もともとイメージ分類のために構築されたこれらのバックボーンのアーキテクチャは、SODのような密集した予測タスクのサブ最適化である。 これらの問題に対処するために,SODAWideNet++と呼ばれる新しいエンコーダ-デコーダ型ニューラルネットワークを提案する。 視覚変換器が初期からグローバルな受容野を得る能力に触発されて,大規模な拡張畳み込みと自己認識を組み合わせた注意誘導長距離特徴抽出(AGLRFE)モジュールを導入した。 具体的には,複数の拡張畳み込みによって抽出された長距離情報の誘導に注意的特徴を用い,畳み込み操作の帰納バイアスと自己注意による入力依存性を利用する。 ImageNet事前トレーニングの現在のパラダイムとは対照的に、提案したモデルエンドツーエンドの事前トレーニングのためにアノテーションをバイナライズすることで、COCOセマンティックセグメンテーションデータセットから118Kの注釈付き画像を修正します。 さらに,前景とともに背景予測を監督し,モデルに精度の高い正当性予測を生成する。 SODAWideNet++は5つの異なるデータセットで競合的に動作し、トレーニング可能なパラメータの35%しか含まない。 コードはhttps://github.com/VimsLab/SODAWideNetPlusPlus.comで提供されている。

Salient Object Detection (SOD) has traditionally relied on feature refinement modules that utilize the features of an ImageNet pre-trained backbone. However, this approach limits the possibility of pre-training the entire network because of the distinct nature of SOD and image classification. Additionally, the architecture of these backbones originally built for Image classification is sub-optimal for a dense prediction task like SOD. To address these issues, we propose a novel encoder-decoder-style neural network called SODAWideNet++ that is designed explicitly for SOD. Inspired by the vision transformers ability to attain a global receptive field from the initial stages, we introduce the Attention Guided Long Range Feature Extraction (AGLRFE) module, which combines large dilated convolutions and self-attention. Specifically, we use attention features to guide long-range information extracted by multiple dilated convolutions, thus taking advantage of the inductive biases of a convolution operation and the input dependency brought by self-attention. In contrast to the current paradigm of ImageNet pre-training, we modify 118K annotated images from the COCO semantic segmentation dataset by binarizing the annotations to pre-train the proposed model end-to-end. Further, we supervise the background predictions along with the foreground to push our model to generate accurate saliency predictions. SODAWideNet++ performs competitively on five different datasets while only containing 35% of the trainable parameters compared to the state-of-the-art models. The code and pre-computed saliency maps are provided at https://github.com/VimsLab/SODAWideNetPlusPlus.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# DriveGenVLM:ビジョン言語モデルに基づく自律運転のための実世界ビデオ生成

DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving ( http://arxiv.org/abs/2408.16647v1 )

ライセンス: Link先を確認
Yongjie Fu, Anmol Jain, Xuan Di, Xu Chen, Zhaobin Mo, (参考訳) 自動運転技術の進歩は、現実のシナリオを理解し予測するための、ますます洗練された方法を必要としている。 視覚言語モデル(VLM)は、自律運転に影響を与える大きな可能性を持つ革命的ツールとして出現している。 本稿では、駆動ビデオを生成し、VLMを用いてそれらを理解するためのDriveGenVLMフレームワークを提案する。 これを実現するために,実世界の映像系列の予測を目的とした拡散確率モデル(DDPM)に基づく映像生成フレームワークを用いる。 EILEV(Efficient In-context Learning on Egocentric Videos)と呼ばれる事前学習モデルを用いて,VLMで使用するビデオの妥当性を検討する。 拡散モデルは、Waymoオープンデータセットを用いてトレーニングされ、Fr\'echet Video Distance(FVD)スコアを使用して、生成されたビデオの品質とリアリズムを保証する。 対応するナレーションは、これらの生成されたビデオに対してEILEVによって提供される。 これらのナレーションは、交通状況の理解を高め、ナビゲーションを支援し、計画能力を向上させる。 DriveGenVLMフレームワークにおけるビデオ生成とVLMの統合は、高度なAIモデルを活用して、自律運転における複雑な課題に対処する上で、大きな一歩となる。

The advancement of autonomous driving technologies necessitates increasingly sophisticated methods for understanding and predicting real-world scenarios. Vision language models (VLMs) are emerging as revolutionary tools with significant potential to influence autonomous driving. In this paper, we propose the DriveGenVLM framework to generate driving videos and use VLMs to understand them. To achieve this, we employ a video generation framework grounded in denoising diffusion probabilistic models (DDPM) aimed at predicting real-world video sequences. We then explore the adequacy of our generated videos for use in VLMs by employing a pre-trained model known as Efficient In-context Learning on Egocentric Videos (EILEV). The diffusion model is trained with the Waymo open dataset and evaluated using the Fr\'echet Video Distance (FVD) score to ensure the quality and realism of the generated videos. Corresponding narrations are provided by EILEV for these generated videos, which may be beneficial in the autonomous driving domain. These narrations can enhance traffic scene understanding, aid in navigation, and improve planning capabilities. The integration of video generation with VLMs in the DriveGenVLM framework represents a significant step forward in leveraging advanced AI models to address complex challenges in autonomous driving.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# 文字列ダイナミクスの効率的なモデリングに向けて:状態空間とクープマンに基づくディープラーニング手法の比較

Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods ( http://arxiv.org/abs/2408.16650v1 )

ライセンス: Link先を確認
Rodrigo Diaz, Carlos De La Vega Martin, Mark Sandler, (参考訳) 本稿では,線形および非線形の剛弦の力学をモデル化するための状態空間モデル(SSM)とクープマンに基づくディープラーニング手法について検討する。 異なる初期条件とサンプルレートで生成されたデータセットを用いて実験を行い、これらのモデルのキャパシティを評価し、弦力学で観測される複雑な振る舞いを正確にモデル化する。 以上の結果から,提案したクープマンモデルが,長周期モデリングにおける非線形ケースにおいて,他の既存手法と同等以上の性能を示すことが示唆された。 我々は、これらのアーキテクチャの設計に、目前にある問題の構造を知らせる。 モデル予測をトレーニングの地平線を超えて拡張すること(例えば外挿)に課題は残るが、我々の調査の焦点は、トレーニング時間間隔内で異なる初期条件をまたいで一般化するモデルの能力にある。 本研究は, 力学系(特に音響系)の物理モデリングに関する知見を, これらと過去の手法の比較的概要を提供し, モデル改善のための革新的な戦略を導入することによって提供する。 本研究は, 非線形力学シミュレーションにおけるこれらのモデルの有効性を強調し, 拡張配列上の力学系を正確にモデル化する際の広範適用性を強調した。

This paper presents an examination of State Space Models (SSM) and Koopman-based deep learning methods for modelling the dynamics of both linear and non-linear stiff strings. Through experiments with datasets generated under different initial conditions and sample rates, we assess the capacity of these models to accurately model the complex behaviours observed in string dynamics. Our findings indicate that our proposed Koopman-based model performs as well as or better than other existing approaches in non-linear cases for long-sequence modelling. We inform the design of these architectures with the structure of the problems at hand. Although challenges remain in extending model predictions beyond the training horizon (i.e., extrapolation), the focus of our investigation lies in the models' ability to generalise across different initial conditions within the training time interval. This research contributes insights into the physical modelling of dynamical systems (in particular those addressing musical acoustics) by offering a comparative overview of these and previous methods and introducing innovative strategies for model improvement. Our results highlight the efficacy of these models in simulating non-linear dynamics and emphasise their wide-ranging applicability in accurately modelling dynamical systems over extended sequences.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# ブースティングの最適並列化

Optimal Parallelization of Boosting ( http://arxiv.org/abs/2408.16653v1 )

ライセンス: Link先を確認
Arthur da Cunha, Mikael Møller Høgsgaard, Kasper Green Larsen, (参考訳) Boostingの並列複雑性に関する最近の研究は、トレーニングラウンド数$p$とラウンドあたりの並列処理総数$t$とのトレードオフに関して、強い低い境界を確立している。 これらの研究は、このトレードオフの異なる領域に光を放つ非常に非自明な並列アルゴリズムも提示している。 これらの進歩にもかかわらず、理論的な下界とこれらのアルゴリズムのトレードオフ空間の多くにおける性能の間には大きなギャップが残っている。 本研究では,弱強学習者の並列複雑性に対する低境界の改善と,これらバウンダリ全体の性能を比較検討した並列ブースティングアルゴリズムを両立させることにより,このギャップを解消する。 ~$t$妥協スペクトル、対数因子まで。 最終的に、この研究はサンプル最適化に近いブースティングアルゴリズムの真の並列複雑性を解決した。

Recent works on the parallel complexity of Boosting have established strong lower bounds on the tradeoff between the number of training rounds $p$ and the total parallel work per round $t$. These works have also presented highly non-trivial parallel algorithms that shed light on different regions of this tradeoff. Despite these advancements, a significant gap persists between the theoretical lower bounds and the performance of these algorithms across much of the tradeoff space. In this work, we essentially close this gap by providing both improved lower bounds on the parallel complexity of weak-to-strong learners, and a parallel Boosting algorithm whose performance matches these bounds across the entire $p$ vs.~$t$ compromise spectrum, up to logarithmic factors. Ultimately, this work settles the true parallel complexity of Boosting algorithms that are nearly sample-optimal.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# 純量子状態の最適トレース距離と忠実度推定

Optimal Trace Distance and Fidelity Estimations for Pure Quantum States ( http://arxiv.org/abs/2408.16655v1 )

ライセンス: Link先を確認
Qisheng Wang, (参考訳) 量子状態の区別可能性を測定することは、量子情報理論の基本的な問題である。 本稿では,純状態間のトレース距離と(平方根)忠実度の両方を加算誤差$\varepsilon$$\Theta(1/\varepsilon)$状態準備回路へのクエリを用いて推定し,長年続く民俗学のO(1/\varepsilon^2)$を2次的に改善する最適量子アルゴリズムを開発する。 我々の構築の中心は、よく知られた量子振幅推定を一般化する量子平方根振幅推定のアルゴリズムツールである。

Measuring the distinguishability between quantum states is a basic problem in quantum information theory. In this paper, we develop optimal quantum algorithms that estimate both the trace distance and the (square root) fidelity between pure states to within additive error $\varepsilon$ using $\Theta(1/\varepsilon)$ queries to their state-preparation circuits, quadratically improving the long-standing folklore $O(1/\varepsilon^2)$. At the heart of our construction, is an algorithmic tool for quantum square root amplitude estimation, which generalizes the well-known quantum amplitude estimation.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# 生きた超伝導量子回路における個々の2レベル材料欠陥のその場走査ゲートイメージング

In-situ scanning gate imaging of individual two-level material defects in live superconducting quantum circuits ( http://arxiv.org/abs/2408.16660v1 )

ライセンス: Link先を確認
M. Hegedüs, R. Banerjee, A. Hutcheson, T. Barker, S. Mahashabde, A. V. Danilov, S. E. Kubatkin, V. Antonov, S. E. de Graaf, (参考訳) 構造的アモルファス材料の低温物理は、数十年の研究にもかかわらず、その正確な起源と性質が解明されていない2段階のシステム欠陥(TLS)によって支配されている。 量子コンピューティングのための安定な高コヒーレンスプラットフォームの実現に向けた最近の進歩は、非コヒーレンスと不安定性の永続的な源である固体量子回路においてTLSを研究することの重要性を高めている。 ここでは、ミリケルビン温度で生きた超伝導量子回路上で走査ゲート顕微鏡を行い、個々のTLSを特定する。 本手法はTLSの微視的特性を直接明らかにし,個々のTLS電気双極子モーメントの3次元方向を推定できる。 このような知見を基礎となる物質の構造情報と組み合わせることで、TLSの詳細な微視的性質と化学的起源を解明し、最終的に緩和する戦略を導出することができる。

The low temperature physics of structurally amorphous materials is governed by two-level system defects (TLS), the exact origin and nature of which remain elusive despite decades of study. Recent advances towards realising stable high-coherence platforms for quantum computing has increased the importance of studying TLS in solid-state quantum circuits, as they are a persistent source of decoherence and instability. Here we perform scanning gate microscopy on a live superconducting quantum circuit at millikelvin temperatures to locate individual TLS. Our method directly reveals the microscopic nature of TLS and is also capable of deducing the three dimensional orientation of individual TLS electric dipole moments. Such insights, when combined with structural information of the underlying materials, can help unravel the detailed microscopic nature and chemical origin of TLS, directing strategies for their eventual mitigation.
翻訳日:2024-08-30 13:12:46 公開日:2024-08-29
# Eigen-Cluster VIS:時空間整合性を利用した弱教師付きビデオインスタンスセグメンテーションの改善

Eigen-Cluster VIS: Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency ( http://arxiv.org/abs/2408.16661v1 )

ライセンス: Link先を確認
Farnoosh Arefi, Amir M. Mansourian, Shohreh Kasaei, (参考訳) ビデオインスタンスセグメンテーション(VIS)法の性能は、トランスフォーマーネットワークの出現により大幅に向上した。 しかし、これらのネットワークは、高いアノテーションコストのために、トレーニングの課題に直面していることが多い。 これを解決するために、アノテーションへの依存を減らすために、教師なしおよび弱教師付き手法が開発されている。 この研究はEigen-cluster VISと呼ばれる新しい弱教師付き手法を導入し、マスクアノテーションを一切必要とせず、他のVIS手法と比較して競争精度が向上する。 この方法は、時間固有値損失(TEL)とクリップレベルの品質クラスタ係数(QCC)という2つの重要なイノベーションに基づいている。 TELはグラフ隣接行列から導かれるラプラシア行列の固有値を活用することで時間的コヒーレンスを保証する。 隣接するフレームの固有値間の平均絶対誤差(MAE)を最小化することにより、この損失関数は、時間とともにスムーズな遷移と安定したセグメンテーション境界を促進し、時間的不連続を低減し、全体的なセグメンテーション品質を向上させる。 QCCはK平均法を用いて、地上の真相マスクに頼ることなく時空間クラスタの品質を保証する。 Davies-Bouldinスコアを用いることで、QCCは機能判別の教師なしの尺度を提供し、モデルが様々なオブジェクト分布を自己評価し、適応し、テストフェーズにおける堅牢性を高める。 これらの拡張は計算的に効率的で簡単であり、付加的な注釈付きデータなしで大きなパフォーマンス向上を提供する。 提案したEigen-Cluster VIS法は,YouTube-VIS 2019/2021およびOVISデータセット上で評価され,完全に教師されたVISアプローチと弱い教師付きVISアプローチの間のパフォーマンスギャップを効果的に制限することを示した。 https://github.com/farnooshar/EigenClusterVIS

The performance of Video Instance Segmentation (VIS) methods has improved significantly with the advent of transformer networks. However, these networks often face challenges in training due to the high annotation cost. To address this, unsupervised and weakly-supervised methods have been developed to reduce the dependency on annotations. This work introduces a novel weakly-supervised method called Eigen-cluster VIS that, without requiring any mask annotations, achieves competitive accuracy compared to other VIS approaches. This method is based on two key innovations: a Temporal Eigenvalue Loss (TEL) and a clip-level Quality Cluster Coefficient (QCC). The TEL ensures temporal coherence by leveraging the eigenvalues of the Laplacian matrix derived from graph adjacency matrices. By minimizing the mean absolute error (MAE) between the eigenvalues of adjacent frames, this loss function promotes smooth transitions and stable segmentation boundaries over time, reducing temporal discontinuities and improving overall segmentation quality. The QCC employs the K-means method to ensure the quality of spatio-temporal clusters without relying on ground truth masks. Using the Davies-Bouldin score, the QCC provides an unsupervised measure of feature discrimination, allowing the model to self-evaluate and adapt to varying object distributions, enhancing robustness during the testing phase. These enhancements are computationally efficient and straightforward, offering significant performance gains without additional annotated data. The proposed Eigen-Cluster VIS method is evaluated on the YouTube-VIS 2019/2021 and OVIS datasets, demonstrating that it effectively narrows the performance gap between the fully-supervised and weakly-supervised VIS approaches. The code is available on: https://github.com/farnooshar/EigenClusterVIS
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# Space3D-Bench: Space 3D Question Answeringベンチマーク

Space3D-Bench: Spatial 3D Question Answering Benchmark ( http://arxiv.org/abs/2408.16662v1 )

ライセンス: Link先を確認
Emilia Szymanska, Mihai Dusmanu, Jan-Willem Buurlage, Mahdi Rad, Marc Pollefeys, (参考訳) 環境の空間的特性に関する疑問への答えは、オブジェクト間の関係の点において、特に3D世界の理解が欠如していることから、既存の言語と視覚基盤モデルに課題をもたらす。 フィールドを前進させるために、複数の3D Q&Aデータセットが提案され、全体として様々な質問を提供するが、彼らは個別に3D推論の特定の側面に焦点を当てるか、データモダリティの点で制限される。 これに対処するため、Space3D-Bench - Replicaデータセットのシーンに関する1000の一般的な空間的質問と回答のコレクションを提示し、ポイントクラウド、ポーズされたRGB-Dイメージ、ナビゲーションメッシュ、および3Dオブジェクト検出など、さまざまなデータモダリティを提供する。 そこで本研究では,地理情報システムにインスパイアされた屋内空間質問分類法を提案し,それを用いてデータセットのバランスをとる。 さらに,テキストと画像の両方を視覚言語モデルで理解し,その応答を地文情報や関連視覚データと比較することにより,事前定義された地文回答に基づいて自然言語応答を評価できるシステムを提案する。 最後に,RAG3D-Chatと呼ばれるベースラインを導入し,基礎モデルの世界的理解をリッチな文脈検索と統合し,提案したデータセットの精度を67%向上させる。

Answering questions about the spatial properties of the environment poses challenges for existing language and vision foundation models due to a lack of understanding of the 3D world notably in terms of relationships between objects. To push the field forward, multiple 3D Q&A datasets were proposed which, overall, provide a variety of questions, but they individually focus on particular aspects of 3D reasoning or are limited in terms of data modalities. To address this, we present Space3D-Bench - a collection of 1000 general spatial questions and answers related to scenes of the Replica dataset which offers a variety of data modalities: point clouds, posed RGB-D images, navigation meshes and 3D object detections. To ensure that the questions cover a wide range of 3D objectives, we propose an indoor spatial questions taxonomy inspired by geographic information systems and use it to balance the dataset accordingly. Moreover, we provide an assessment system that grades natural language responses based on predefined ground-truth answers by leveraging a Vision Language Model's comprehension of both text and images to compare the responses with ground-truth textual information or relevant visual data. Finally, we introduce a baseline called RAG3D-Chat integrating the world understanding of foundation models with rich context retrieval, achieving an accuracy of 67% on the proposed dataset.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# 非線形量子ビットを用いた高精度熱測定

Enhancing precision thermometry with nonlinear qubits ( http://arxiv.org/abs/2408.16664v1 )

ライセンス: Link先を確認
Sebastian Deffner, (参考訳) 量子温度測定(Quantum thermometry)は、量子系の超低温を測定する研究である。 このような量子温度計の精度は、量子測定によって温度を推定できる程度によって制限される。 より正確には、最大精度は量子フィッシャー情報の逆数によって与えられる。 本分析では、非線形シュリンガー方程式によって記述される量子温度計により、大幅に精度が向上し、より大きい量子フィッシャー情報が得られることを示す。 これは、1ビットと2ビットのシステムからなる様々な教育シナリオに対して実証される。 精度の向上は、非消滅的な量子速度制限によって示され、これは熱、ギブス状態が典型的には運動の非線形方程式の下で不変でないという事実に起因している。

Quantum thermometry refers to the study of measuring ultra-low temperatures in quantum systems. The precision of such a quantum thermometer is limited by the degree to which temperature can be estimated by quantum measurements. More precisely, the maximal precision is given by the inverse of the quantum Fisher information. In the present analysis, we show that quantum thermometers that are described by nonlinear Schr\"odinger equations allow for a significantly enhanced precision, that means larger quantum Fisher information. This is demonstrated for a variety of pedagogical scenarios consisting of single and two-qubits systems. The enhancement in precision is indicated by non-vanishing quantum speed limits, which originate in the fact that the thermal, Gibbs state is typically not invariant under the nonlinear equations of motion.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# 絡み合った光子のコンパクトキャビティ強化源の設計

Designing a compact cavity-enhanced source of entangled photons ( http://arxiv.org/abs/2408.16666v1 )

ライセンス: Link先を確認
Žiga Pušavec, Lara Ulčakar, Rainer Kaltenbaek, (参考訳) 量子リピータは、量子メモリとの効率的な結合を可能にする絡み合いの源を必要とする。 ここでは、この課題をコンパクトで狭帯域のソース設計で解決する。 絡み合ったペアは、Fabry-P\'e{}rotキャビティ内の2つの垂直方向の非線形結晶においてSPDCを介して生成される。 本稿では,非退化波長とタイプII位相マッチングが実用実装の最も有望な候補であることを示す。 現在取り組んでいる実験のパラメータを使って、この設計では、数MHzの帯域幅で絡み合った光子を生成することができる。

Quantum repeaters will require sources of entanglement allowing efficient coupling to quantum memories. Here, we address this challenge with a compact, narrowband source design. The entangled pairs are generated via SPDC in two perpendicularly oriented nonlinear crystals in a Fabry-P\'e{}rot cavity. We show that the case of highly non-degenerate wavelengths and type-II phase matching is the most promising candidate for a practical implementation. Using the parameters of an experiment we are currently working on, this design should allow generating entangled photons with a bandwidth of a few MHz.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# 反復グラフアライメント

Iterative Graph Alignment ( http://arxiv.org/abs/2408.16667v1 )

ライセンス: Link先を確認
Fangyuan Yu, Hardeep Singh Arora, Matt Johnson, (参考訳) 多様な物語を圧縮することにより、LLMは記憶を超越し、一般化可能な因果関係を捉えることで知性を達成する。 しかし、訓練データの多様性が不十分なため、特に規則に厳格に従わなければならないタスクにおいて、ローカルな「表現ギャップ」に悩まされる。 従来の人間のアノテーションに依存したアライメント手法は非効率でスケールできない。 最近の自己アライメント技術は、しばしば自己選択に基づくプロンプトと記憶に基づく学習に依存するため、不足している。 これらの問題に対処するために、アノテーションのないルールベースのアライメントアルゴリズムであるIGA(Iterative Graph Alignment)を導入する。 教師モデル(VLM)は、論理グラフと参照回答を作成するために反復グラフプロンプティング(IGP)を使用している。 学生モデル(LLM)は、これらの参照と応答を一致させようとし、ヘルパーモデルと協調して多様な回答を生成することで、局所的な知識ギャップを識別する。 これらのアライメントされた応答は、反復的教師付き微調整(SFT)に使用される。 5つのルールベースシナリオで評価した結果,Claude Sonnet 3.5 の 73.12 % のアライメント改善,Llama3-8B-Instruct の 86.20 % の改善,Claude Sonnet 3.5 のアライメント向上が達成された。

By compressing diverse narratives, LLMs go beyond memorization, achieving intelligence by capturing generalizable causal relationships. However, they suffer from local 'representation gaps' due to insufficient training data diversity, limiting their real-world utility, especially in tasks requiring strict alignment to rules. Traditional alignment methods relying on heavy human annotations are inefficient and unscalable. Recent self-alignment techniques also fall short, as they often depend on self-selection based prompting and memorization-based learning. To address these issues, we introduce Iterative Graph Alignment (IGA), an annotation-free rule-based alignment algorithm. A teacher model (VLM) employs Iterative Graph Prompting (IGP) to create logical graphs and reference answers. The student model (LLM) identifies local knowledge gaps by attempting to align its responses with these references, collaborating with helper models to generate diverse answers. These aligned responses are then used for iterative supervised fine-tuning (SFT). Our evaluations across five rule-based scenarios demonstrate IGP's effectiveness, with a 73.12\% alignment improvement in Claude Sonnet 3.5, and Llama3-8B-Instruct achieving an 86.20\% improvement, outperforming Claude Sonnet 3.5 in rule-based alignment.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# Jina-ColBERT-v2: 汎用多言語対話レトリバー

Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever ( http://arxiv.org/abs/2408.16672v1 )

ライセンス: Link先を確認
Rohan Jha, Bo Wang, Michael Günther, Saba Sturua, Mohammad Kalim Akram, Han Xiao, (参考訳) ColBERTのような多ベクトル密度モデルは情報検索に非常に有効であることが証明されている。 ColBERTの遅延相互作用評価は、クロスエンコーダで見られる共同クエリ文書の注意を近似し、二エンコーダアーキテクチャと最近のインデックス化と検索の最適化のおかげで、従来の高密度検索モデルに近い推論効率を維持している。 本稿では,より確立された単一ベクトル埋め込みモデルパラダイム,特に異種多言語データに適した手法を活用することで,ColBERTモデルアーキテクチャとトレーニングパイプラインの改良について紹介する。 我々の新しいモデルであるJina-ColBERT-v2は、様々な英語および多言語検索タスクに対して強い性能を示し、ストレージ要求を以前のモデルと比較して最大50%削減する。

Multi-vector dense models, such as ColBERT, have proven highly effective in information retrieval. ColBERT's late interaction scoring approximates the joint query-document attention seen in cross-encoders while maintaining inference efficiency closer to traditional dense retrieval models, thanks to its bi-encoder architecture and recent optimizations in indexing and search. In this paper, we introduce several improvements to the ColBERT model architecture and training pipeline, leveraging techniques successful in the more established single-vector embedding model paradigm, particularly those suited for heterogeneous multilingual data. Our new model, Jina-ColBERT-v2, demonstrates strong performance across a range of English and multilingual retrieval tasks, while also cutting storage requirements by up to 50% compared to previous models.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# LLMの微調整におけるエントロピー分布マッチング:オーバーフィッティングの低減と多様性の向上

Entropic Distribution Matching in Supervised Fine-tuning of LLMs: Less Overfitting and Better Diversity ( http://arxiv.org/abs/2408.16673v1 )

ライセンス: Link先を確認
Ziniu Li, Congliang Chen, Tian Xu, Zeyu Qin, Jiancong Xiao, Ruoyu Sun, Zhi-Quan Luo, (参考訳) 大規模な言語モデルは、下流タスクを専門とするSupervised Fine-Tuning (SFT) に依存している。 クロスエントロピー(CE)損失は、SFTにおいて事実上の選択であるが、データ分散に対する積極的な更新のため、過度に適合し、出力の多様性が制限される。 本稿では,データを効果的に捕捉する平らな分布を持つモデルに有利な最大エントロピー原理を導入することで,これらの問題に対処することを目的とする。 具体的には,エントロピー正規化器を用いた逆Kulback-Leibler分散最小化を解くGEMと呼ばれる新しい分布マッチング法を開発した。 Llama-3-8BモデルのSFTでは、GEMはCEよりいくつかの面で優れている。 まず、UltraFeedbackデータセットを適用して一般的な命令フォロー機能を開発すると、GEMは過度なオーバーフィッティングを減らし、低いパープレキシティとIFEvalベンチマークのパフォーマンスの向上を証明した。 さらに、GEMは出力の多様性を高め、ドメイン固有のデータなしでもベスト・オブ・nサンプリングを用いた算術推論やコード生成タスクで最大7ポイントの性能向上をもたらす。 第二に、数学推論とコード生成のためのドメイン固有のデータセットを微調整する場合、GEMはCEと比較して過度な適合や最大10ポイントの改善も示している。

Large language models rely on Supervised Fine-Tuning (SFT) to specialize in downstream tasks. Cross Entropy (CE) loss is the de facto choice in SFT, but it often leads to overfitting and limited output diversity due to its aggressive updates to the data distribution. This paper aim to address these issues by introducing the maximum entropy principle, which favors models with flatter distributions that still effectively capture the data. Specifically, we develop a new distribution matching method called GEM, which solves reverse Kullback-Leibler divergence minimization with an entropy regularizer. For the SFT of Llama-3-8B models, GEM outperforms CE in several aspects. First, when applied to the UltraFeedback dataset to develop general instruction-following abilities, GEM exhibits reduced overfitting, evidenced by lower perplexity and better performance on the IFEval benchmark. Furthermore, GEM enhances output diversity, leading to performance gains of up to 7 points on math reasoning and code generation tasks using best-of-n sampling, even without domain-specific data. Second, when fine-tuning with domain-specific datasets for math reasoning and code generation, GEM also shows less overfitting and improvements of up to 10 points compared with CE.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# 原子干渉計用キャリア抑制シングルサイドバンド(CS-SSB)モードにおけるIQ変調器のディジタル安定化

Digital stabilization of an IQ modulator in the carrier suppressed single side-band (CS-SSB) mode for atom interferometry ( http://arxiv.org/abs/2408.16678v1 )

ライセンス: Link先を確認
Arif Ullah, Samuel Legge, John D. Close, Simon A. Haine, Ryan J. Thomas, (参考訳) キャリア抑制シングルサイドバンド変調のための電気光学I/Q変調器における位相バイアスを安定化する全ディジタル方式を提案する。 S. Wald \ea, Appl で提示された手法に基づく構築 Opt テキストbf{62}, 1-7 (2023) では、赤ピタヤSTEMlab 125-14 プラットフォームを用いて、光キャリアとのビートがI/Q変調器の位相不均衡をプローブする補助電波周波数トーンをデジタル的に生成・復調する。 我々は、位相バイアスの回避不能なクロスカップリングを考慮に入れ、光パワー変動が位相安定性に影響を与えないような誤差信号を正確にゼロにロックするマルチインプット・マルチ出力積分フィードバックコントローラを実装した。 所望のサイドバンドに対する光キャリアの$>23\,\rm dB$の抑制効果を,15ドル時間および20^\circ\rm C$の温度変化に対して,+3.4\,\rm GHz$で示す。

We present an all-digital method for stabilising the phase biases in an electro-optic I/Q modulator for carrier-suppressed single-sideband modulation. Building on the method presented in S. Wald \ea, Appl. Opt. \textbf{62}, 1-7 (2023), we use the Red Pitaya STEMlab 125-14 platform to digitally generate and demodulate an auxiliary radio-frequency tone whose beat with the optical carrier probes the I/Q modulator's phase imbalances. We implement a multiple-input, multiple-output integral feedback controller which accounts for unavoidable cross-couplings in the phase biases to lock the error signals at exactly zero where optical power fluctuations have no impact on phase stability. We demonstrate $>23\,\rm dB$ suppression of the optical carrier relative to the desired sideband at $+3.4\,\rm GHz$ over a period of $15$ hours and over temperature variations of $20^\circ\rm C$.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# 変形空洞内のV型原子のダイナミクスと外部マイクロ波場の存在

Dynamics of a V-type atom inside a deformed cavity field and in the presence of an external Microwave field ( http://arxiv.org/abs/2408.16682v1 )

ライセンス: Link先を確認
Elmira Bolandhemmat, Fardin Kheirandish, (参考訳) 本稿では,外マイクロ波場の存在下での単一モード変形空洞内のV型原子間の相互作用について検討する。 この系を記述するハミルトニアンは、ケーラー誘起相互作用に基づいて場作用素を変形させることにより、標準のJaynes-Cummingsモデルから導かれる。 総密度行列と縮小密度行列を求め,マンデルQパラメータ,量子エンタングルメント,およびフィールドの位置-運動の不確実性関係(スクイーズ)などの非古典的特性の時間的進化について検討した。 非古典的指標に対する結合定数,一般化Kerr媒体,および強度依存結合関数の影響を徹底的に解析した。

In this article, we explore the interaction between a V-type atom inside a single mode deformed cavity field in the presence of an external microwave field. The Hamiltonian describing the system is derived from the standard Jaynes-Cummings model by deforming the field operators based on the Kerr-induced interaction. The total and reduced density matrices are obtained and the temporal evolution of nonclassical properties such as the Mandel Q parameter, quantum entanglement, and the position-momentum uncertainty relation (squeezing) of the field are examined. The impacts of coupling constant, generalized Kerr medium, and the intensity-dependent coupling function on the nonclassical indicators are thoroughly analyzed.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# 機械学習工学における公正な実践のカタログ

A Catalog of Fairness-Aware Practices in Machine Learning Engineering ( http://arxiv.org/abs/2408.16683v1 )

ライセンス: Link先を確認
Gianmario Voria, Giulia Sellitto, Carmine Ferrara, Francesco Abate, Andrea De Lucia, Filomena Ferrucci, Gemma Catolino, Fabio Palomba, (参考訳) 機械学習が意思決定プロセスに広く採用されていることは、特に繊細な特徴の扱いやマイノリティに対する潜在的な差別について、公平性に関する懸念を提起する。 ソフトウェアエンジニアリングコミュニティはフェアネス指向のメトリクス、実証的研究、アプローチの開発に反応した。 しかしながら、マシンラーニングライフサイクル全体を通して、エンジニアリングフェアネスのプラクティスを理解し、分類することには、依然としてギャップがあります。 本稿では,体系的マッピング研究から得られた機械学習における公平性に対処するための新しいプラクティスカタログを提案する。 この研究は、既存の文献から28のプラクティスを特定し、分類し、それらを機械学習ライフサイクルの異なるステージにマッピングする。 このカタログから、著者はソフトウェア工学の研究者と実践者の両方に実行可能な項目と含意を抽出する。 本研究の目的は、機械学習システムの開発と展開に公平性を考慮した総合的なリソースを提供することであり、信頼性、説明責任、信頼性を高めることである。

Machine learning's widespread adoption in decision-making processes raises concerns about fairness, particularly regarding the treatment of sensitive features and potential discrimination against minorities. The software engineering community has responded by developing fairness-oriented metrics, empirical studies, and approaches. However, there remains a gap in understanding and categorizing practices for engineering fairness throughout the machine learning lifecycle. This paper presents a novel catalog of practices for addressing fairness in machine learning derived from a systematic mapping study. The study identifies and categorizes 28 practices from existing literature, mapping them onto different stages of the machine learning lifecycle. From this catalog, the authors extract actionable items and implications for both researchers and practitioners in software engineering. This work aims to provide a comprehensive resource for integrating fairness considerations into the development and deployment of machine learning systems, enhancing their reliability, accountability, and credibility.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# PartFormer:物体再同定のための視覚変換器からの潜伏表現の覚醒

PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification ( http://arxiv.org/abs/2408.16684v1 )

ライセンス: Link先を確認
Lei Tan, Pingyang Dai, Jie Chen, Liujuan Cao, Yongjian Wu, Rongrong Ji, (参考訳) 頑健な特徴表現の抽出は、オブジェクトを再識別し、重複しないカメラでオブジェクトを正確に識別するために重要である。 視覚変換器(ViT)は強力な表現能力を持つが、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。 一方、CNNとViTの構造的な違いから、CNNでこの問題に効果的に対処するきめ細かい戦略は、ViTでは成功していない。 この問題に対処するため、多面的注目の裏側に隠された潜伏多様表現を観察することにより、オブジェクトRe-IDタスクの粒度制限を克服するために設計された、ViTの革新的適応であるPartFormerを提案する。 PartFormerはHDB(Head Disentangling Block)を統合しており、結合やFFNレイヤのポストアテンションによって引き起こされる特徴豊かさの典型的な損失を伴わずに、多面的な自己アテンションの多様な表現を実現する。 注目ヘッドの均質化を回避し、堅牢な部分ベース特徴学習を促進するために、注意多様性制約と相関多様性制約の2つのヘッド多様性制約が課される。 これらの制約により、モデルは異なる注目の頭から多様で差別的な特徴表現を活用できる。 様々なオブジェクトRe-IDベンチマークに関する総合的な実験は、PartFormerの優位性を示している。 具体的には、最も困難なMSMT17データセットにおいて、我々のフレームワークは最先端のmAPスコアよりも2.4\%優れています。

Extracting robust feature representation is critical for object re-identification to accurately identify objects across non-overlapping cameras. Although having a strong representation ability, the Vision Transformer (ViT) tends to overfit on most distinct regions of training data, limiting its generalizability and attention to holistic object features. Meanwhile, due to the structural difference between CNN and ViT, fine-grained strategies that effectively address this issue in CNN do not continue to be successful in ViT. To address this issue, by observing the latent diverse representation hidden behind the multi-head attention, we present PartFormer, an innovative adaptation of ViT designed to overcome the granularity limitations in object Re-ID tasks. The PartFormer integrates a Head Disentangling Block (HDB) that awakens the diverse representation of multi-head self-attention without the typical loss of feature richness induced by concatenation and FFN layers post-attention. To avoid the homogenization of attention heads and promote robust part-based feature learning, two head diversity constraints are imposed: attention diversity constraint and correlation diversity constraint. These constraints enable the model to exploit diverse and discriminative feature representations from different attention heads. Comprehensive experiments on various object Re-ID benchmarks demonstrate the superiority of the PartFormer. Specifically, our framework significantly outperforms state-of-the-art by 2.4\% mAP scores on the most challenging MSMT17 dataset.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# CW-CNNとCW-AN:CW-コンプレックスのための畳み込みネットワークと注意ネットワーク

CW-CNN & CW-AN: Convolutional Networks and Attention Networks for CW-Complexes ( http://arxiv.org/abs/2408.16686v1 )

ライセンス: Link先を確認
Rahul Khorana, (参考訳) 本稿では,CW複雑なデータポイントを学習するための新しいフレームワークを提案する。 近年,ケミノフォマティクスにおける問題に対する理想的な学習表現として,CW-コンプレックスが議論されている。 しかし、CW複合体上での学習に適した機械学習手法が不足している。 本稿では、CW-複素数に対してよく定義された畳み込みと注意の概念を開発する。 これらの概念は、入力としてCW-プレプレックスを受け取ることができる最初のニューラルネットワークを作成することができる。 我々は、このフレームワークを教師付き予測の文脈で説明し、解釈する。

We present a novel framework for learning on CW-complex structured data points. Recent advances have discussed CW-complexes as ideal learning representations for problems in cheminformatics. However, there is a lack of available machine learning methods suitable for learning on CW-complexes. In this paper we develop notions of convolution and attention that are well defined for CW-complexes. These notions enable us to create the first neural network that can receive a CW-complex as input. We illustrate and interpret this framework in the context of supervised prediction.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# スクイーズドデュアルコム分光法

Squeezed dual-comb spectroscopy ( http://arxiv.org/abs/2408.16688v1 )

ライセンス: Link先を確認
Daniel I. Herman, Mathieu Walsh, Molly Kate Kreider, Noah Lordi, Eugene J. Tsao, Alexander J. Lind, Matthew Heyrich, Joshua Combes, Jérôme Genest, Scott A. Diddams, (参考訳) レーザー分光法と干渉法は、原子遷移周波数と重力波の超精密測定を通じて、物質と宇宙の基本的な性質を非平行に捉えた。 光周波数コムは、数百テラヘルツ以上の帯域にまたがるトレーサブル高分解能分光を可能にするために、位相コヒーレントにブライドする無線周波数と光領域によって、メトロジー機能を拡張した。 しかし、量子力学はレーザー周波数コムと従来のレーザー源で達成可能な測定精度を制限し、最終的には基本干渉法や分光に影響を及ぼす。 量子ノイズの分布をスクイーズして、光学場の振幅または位相2次の測定精度を高めることで、連続波レーザーによる測定精度が大幅に向上する。 そこで本研究では,2重コム方式の高速・広帯域のスペクトルカバレッジを利用した分子分光法を用いて,明るい振幅印加周波数コム光を発生させ,分子分光に応用する。 非線形光ファイバにおけるカー効果を用いて、1560nm中心の周波数コムの振幅を2.5Hzの帯域で3dB以上圧縮する。 第2のコヒーレント状態周波数コムを用いた干渉計は、信号-ノイズ比(SNR)がショットノイズ限界を超える約3dBの硫化水素ガスのモード分解分光を行い、電気ノイズフロアを考慮した場合の振幅スクイーズを十分に活用する。 量子ノイズの低減は、ガス濃度の決定における2倍の量子スピードアップをもたらし、動的化学環境における複数の種の高速、ブロードバンド、高SNR比の測定に影響を及ぼす。

Laser spectroscopy and interferometry have provided an unparalleled view into the fundamental nature of matter and the universe through ultra-precise measurements of atomic transition frequencies and gravitational waves. Optical frequency combs have expanded metrology capabilities by phase-coherently bridging radio frequency and optical domains to enable traceable high-resolution spectroscopy across bandwidths greater than hundreds of terahertz. However, quantum mechanics limits the measurement precision achievable with laser frequency combs and traditional laser sources, ultimately impacting fundamental interferometry and spectroscopy. Squeezing the distribution of quantum noise to enhance measurement precision of either the amplitude or phase quadrature of an optical field leads to significant measurement improvements with continuous wave lasers. In this work, we generate bright amplitude-squeezed frequency comb light and apply it to molecular spectroscopy using interferometry that leverages the high-speed and broad spectral coverage of the dual-comb technique. Using the Kerr effect in nonlinear optical fiber, the amplitude quadrature of a frequency comb centered at 1560 nm is squeezed by >3 dB over a 2.5 THz of bandwidth that includes 2500 comb teeth spaced by 1 GHz. Interferometry with a second coherent state frequency comb yields mode-resolved spectroscopy of hydrogen sulfide gas with a signal-to-noise ratio (SNR) nearly 3 dB beyond the shot noise limit, taking full metrological advantage of the amplitude squeezing when the electrical noise floor is considered. The quantum noise reduction leads to a two-fold quantum speedup in the determination of gas concentration, with impact for fast, broadband, and high SNR ratio measurements of multiple species in dynamic chemical environments.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# ポーズプローブとしてのジェネリックオブジェクト

Generic Objects as Pose Probes for Few-Shot View Synthesis ( http://arxiv.org/abs/2408.16690v1 )

ライセンス: Link先を確認
Zhirui Gao, Renjiao Yi, Chenyang Zhu, Ke Zhuang, Wei Chen, Kai Xu, (参考訳) NeRF や 3D Gaussian などの放射場は高忠実なレンダリングやシーン再構成において大きな可能性を秘めている。 COLMAPはポーズを推定する前処理に頻繁に使用されるが、多くの特徴マッチングが必要であり、スパースな特徴、画像間の大きなベースライン、限られた数の入力画像によって特徴づけられるシーンと競合する。 我々は,3~6面のシーン画像のみを用いて,少数視点のNeRF再構成を実現することを目的としている。 従来の方法では校正板を使うことが多いが、画像では一般的ではない。 画像と実生活の両方でよく見られる日常的な物体を「目的プローブ」として活用する新しいアイデアを提案する。 プローブオブジェクトはSAMによって自動的にセグメンテーションされ、その形状は立方体から初期化される。 我々は、ポーズ最適化を制約し、幾何を共同で洗練するために、デュアルブランチボリュームレンダリング最適化(オブジェクトのNeRFとシーンのNeRF)を適用した。 具体的には、2つのビューのオブジェクトのポーズは、最初のポーズとして機能するSDF表現におけるPnPマッチングによって最初に推定される。 少数の機能しか必要としないPnPマッチングは、機能スパースシーンに適している。 追加のビューは、先行するビューからのポーズを洗練するために漸進的に組み込まれます。 実験では、PoseProbeは複数のデータセットにまたがるポーズ推定と新しいビュー合成の両方で最先端のパフォーマンスを達成する。 特に,COLMAPが苦しむ少数視点および大規模ベースラインシーンにおいて,その効果を実証する。 アブレーションでは、シーンで異なるオブジェクトを使用すると、同等のパフォーマンスが得られる。

Radiance fields including NeRFs and 3D Gaussians demonstrate great potential in high-fidelity rendering and scene reconstruction, while they require a substantial number of posed images as inputs. COLMAP is frequently employed for preprocessing to estimate poses, while it necessitates a large number of feature matches to operate effectively, and it struggles with scenes characterized by sparse features, large baselines between images, or a limited number of input images. We aim to tackle few-view NeRF reconstruction using only 3 to 6 unposed scene images. Traditional methods often use calibration boards but they are not common in images. We propose a novel idea of utilizing everyday objects, commonly found in both images and real life, as "pose probes". The probe object is automatically segmented by SAM, whose shape is initialized from a cube. We apply a dual-branch volume rendering optimization (object NeRF and scene NeRF) to constrain the pose optimization and jointly refine the geometry. Specifically, object poses of two views are first estimated by PnP matching in an SDF representation, which serves as initial poses. PnP matching, requiring only a few features, is suitable for feature-sparse scenes. Additional views are incrementally incorporated to refine poses from preceding views. In experiments, PoseProbe achieves state-of-the-art performance in both pose estimation and novel view synthesis across multiple datasets. We demonstrate its effectiveness, particularly in few-view and large-baseline scenes where COLMAP struggles. In ablations, using different objects in a scene yields comparable performance.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# キラル極性理論における縮退状態の関連性

The relevance of degenerate states in chiral polaritonics ( http://arxiv.org/abs/2408.16695v1 )

ライセンス: Link先を確認
Carlos M. Bustamante, Dominik Sidler, Michael Ruggenthaler, Angel Rubio, (参考訳) 本研究では,パリティ振動・キラル光・マター相互作用がキラル偏光論のすべての関連面を捉える必要があるのか,あるいはパリティ保存・アキラル理論が十分であるのか(例えば長波長・双極子近似)を理論的に検討する。 この問題は、アキラル理論(ハミルトニアン)がまだキラル解を持っているため、答えは自明ではない。 この基本的な理論的問題を解明するために、単純なGaAs量子環モデルが双極子近似における片手光学キャビティの効果的なキラルモードに結合される。 素体GaAs量子環は非縮退基底状態を持ち、第1励起状態は二重縮退している。 縮退した励起状態のキラルまたはアキラルの性質(重畳)は、孤立した物質系では未決定のままである。 しかし, キラルキャビティのパリティ保存記述では, 衣服の固有状態が自動的にキラルキャビティに到達し, キャビティのハンドネスに基づいてエネルギー的に識別されることがわかった。 対照的に、非退化素粒子状態(基底状態)は双極子近似内でのカイラルキャビティ内でのエネルギー的識別を示さない。 いずれにせよ, 空洞のハンドネスはこれらの状態(例えば, 角運動量, カイラル電流密度)に印字可能であることが示唆された。 以上の知見は, キラル偏光学における退化状態の関連性を明らかにするものである。 特に最近の理論的結果は、集合的な強い結合条件下でのフラストレーションと高縮退する電子基底状態の形成を示しており、したがってキラル対称性の破れの影響が生じる可能性がある。

In this work we explore theoretically whether a parity-violating/chiral light-matter interaction is required to capture all relevant aspects of chiral polaritonics or if a parity-conserving/achiral theory is sufficient (e.g. long-wavelength/dipole approximation). This question is non-trivial to answer, since achiral theories (Hamiltonians) still possess chiral solutions. To elucidate this fundamental theoretical question, a simple GaAs quantum ring model is coupled to an effective chiral mode of a single-handedness optical cavity in dipole approximation. The bare matter GaAs quantum ring possesses a non-degenerate ground state and a doubly degenerate first excited state. The chiral or achiral nature (superpositions) of the degenerate excited state remains undetermined for an isolated matter system. However, inside our parity-conserving description of a chiral cavity, we find that the dressed eigenstates automatically (ab-initio) attain chiral character and become energetically discriminated based on the handedness of the cavity. In contrast, the non-degenerate bare matter state (ground state) does not show an energetic discrimination inside a chiral cavity within dipole approximation. Nevertheless, our results suggest that the handedness of the cavity can still be imprinted onto these states (e.g. angular momentum and chiral current densities). Overall, above findings highlight the relevance of degenerate states in chiral polaritonics. In particularly because recent theoretical results indicate the formation of a frustrated and highly-degenerate electronic ground-state under collective strong coupling conditions, which thus might be prone to chiral symmetry breaking effects.
翻訳日:2024-08-30 13:02:54 公開日:2024-08-29
# SympGNNs:高次元ハミルトン系の同定とノード分類のためのシンプレクティックグラフニューラルネットワーク

SympGNNs: Symplectic Graph Neural Networks for identifiying high-dimensional Hamiltonian systems and node classification ( http://arxiv.org/abs/2408.16698v1 )

ライセンス: Link先を確認
Alan John Varghese, Zhen Zhang, George Em Karniadakis, (参考訳) SympNetsのような既存のニューラルネットワークモデルは、低次元では正確だが、高次元多体系の正しい力学を学ぶのに苦労している。 本稿では,高次元ハミルトニアン系におけるシステム同定とノード分類を効果的に処理できるシンプレクティックグラフニューラルネットワーク(SympGNN)を提案する。 SympGNNは、シンプレクティックマップと、グラフニューラルネットワークの特性である置換同値を組み合わせる。 具体的には,2種類のSympGNNを提案する。 一 G-SympGNN及び 二 LA-SympGNNは、運動エネルギー及びポテンシャルエネルギーの異なるパラメータ化から生じる。 本研究では,40粒子結合高調波発振器と2次元レナード・ジョーンズポテンシャルを用いた2000粒子分子動力学シミュレーションの2つの物理例でSympGNNの機能を示す。 さらに、ノード分類タスクにおけるSympGNNの性能を実証し、最先端技術に匹敵する精度を実現する。 また、SympGNNは、グラフニューラルネットワークの分野における2つの重要な課題である、過度に平滑で不均一な問題を克服できることを実証的に示す。

Existing neural network models to learn Hamiltonian systems, such as SympNets, although accurate in low-dimensions, struggle to learn the correct dynamics for high-dimensional many-body systems. Herein, we introduce Symplectic Graph Neural Networks (SympGNNs) that can effectively handle system identification in high-dimensional Hamiltonian systems, as well as node classification. SympGNNs combines symplectic maps with permutation equivariance, a property of graph neural networks. Specifically, we propose two variants of SympGNNs: i) G-SympGNN and ii) LA-SympGNN, arising from different parameterizations of the kinetic and potential energy. We demonstrate the capabilities of SympGNN on two physical examples: a 40-particle coupled Harmonic oscillator, and a 2000-particle molecular dynamics simulation in a two-dimensional Lennard-Jones potential. Furthermore, we demonstrate the performance of SympGNN in the node classification task, achieving accuracy comparable to the state-of-the-art. We also empirically show that SympGNN can overcome the oversmoothing and heterophily problems, two key challenges in the field of graph neural networks.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# GradBias: テキスト・画像生成モデルにおけるバイアスに対する単語の影響を明らかにする

GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models ( http://arxiv.org/abs/2408.16700v1 )

ライセンス: Link先を確認
Moreno D'Incà, Elia Peruzzo, Massimiliano Mancini, Xingqian Xu, Humphrey Shi, Nicu Sebe, (参考訳) テキスト・ツー・イメージ(T2I)生成モデルの最近の進歩により,高品質な画像生成が可能になった。 パフォーマンスとアクセシビリティが向上するにつれて、これらのモデルは重要な魅力と人気を集めている。 しかし、バイアス検出に関する既存の研究は、事前に定義されたバイアス(例えば、性別、民族性)の閉集合に焦点を当てている。 本稿では,開集合におけるバイアスの特定,定量化,説明を行うための一般的な枠組みを提案する。 このパイプラインはLarge Language Model (LLM)を活用して、一連のキャプションから始まるバイアスを提案する。 次に、これらのキャプションは、一連の画像を生成するターゲット生成モデルによって使用される。 最後に、バイアス評価にVQA(Vision Question Answering)を利用する。 このフレームワークには、OpenBiasとGradBiasの2つのバリエーションがあります。 OpenBiasはバイアスを検出し定量化し、GradBiasはバイアスに対する個々のプロンプトワードの寄与を決定する。 OpenBiasは、人、物、動物に関連する、よく知られたバイアスと新しいバイアスの両方を効果的に検出し、既存のクローズドセットバイアス検出方法や人間の判断と高度に一致している。 GradBiasは、中立語はバイアスに大きく影響し、最先端の基礎モデルを含むいくつかのベースラインを上回っていることを示している。 コードは、https://github.com/Moreno98/GradBias.comで入手できる。

Recent progress in Text-to-Image (T2I) generative models has enabled high-quality image generation. As performance and accessibility increase, these models are gaining significant attraction and popularity: ensuring their fairness and safety is a priority to prevent the dissemination and perpetuation of biases. However, existing studies in bias detection focus on closed sets of predefined biases (e.g., gender, ethnicity). In this paper, we propose a general framework to identify, quantify, and explain biases in an open set setting, i.e. without requiring a predefined set. This pipeline leverages a Large Language Model (LLM) to propose biases starting from a set of captions. Next, these captions are used by the target generative model for generating a set of images. Finally, Vision Question Answering (VQA) is leveraged for bias evaluation. We show two variations of this framework: OpenBias and GradBias. OpenBias detects and quantifies biases, while GradBias determines the contribution of individual prompt words on biases. OpenBias effectively detects both well-known and novel biases related to people, objects, and animals and highly aligns with existing closed-set bias detection methods and human judgment. GradBias shows that neutral words can significantly influence biases and it outperforms several baselines, including state-of-the-art foundation models. Code available here: https://github.com/Moreno98/GradBias.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# マルチオブジェクトビデオにおける深度拡散とワンショット学習

One-Shot Learning Meets Depth Diffusion in Multi-Object Videos ( http://arxiv.org/abs/2408.16704v1 )

ライセンス: Link先を確認
Anisha Jain, (参考訳) 様々な芸術的なスタイルで複数のオブジェクト間の複雑な相互作用を描写する編集可能なビデオを作成することは、映画制作において長年の課題であった。 プログレスはしばしば、ペア化されたテキスト記述とこれらの相互作用を示す対応するビデオを含むデータセットの不足によって妨げられる。 本稿では,一対のテキストビデオから,事前学習した深度認識テキスト・トゥ・イメージ(T2I)モデルを用いて,コヒーレントで多様な映像を生成できるようにすることにより,この領域を大幅に発展させる新しい深度条件手法を提案する。 提案手法は,従来設計した空間的・時間的注意機構を用いて,事前学習したモデルを用いて連続的な動きを捉える。 推論中、ビデオ生成のための構造的ガイダンスを提供するためにDDIMインバージョンを使用する。 この革新的な技術は、ビデオにおいて連続的に制御可能な深度を実現し、光リアリズム、アニメーション、印象主義といった様々な芸術様式でオリジナルのT2Iモデルのコンセプト生成と構成強度を維持しながら、多目的インタラクションの生成を容易にする。

Creating editable videos that depict complex interactions between multiple objects in various artistic styles has long been a challenging task in filmmaking. Progress is often hampered by the scarcity of data sets that contain paired text descriptions and corresponding videos that showcase these interactions. This paper introduces a novel depth-conditioning approach that significantly advances this field by enabling the generation of coherent and diverse videos from just a single text-video pair using a pre-trained depth-aware Text-to-Image (T2I) model. Our method fine-tunes the pre-trained model to capture continuous motion by employing custom-designed spatial and temporal attention mechanisms. During inference, we use the DDIM inversion to provide structural guidance for video generation. This innovative technique allows for continuously controllable depth in videos, facilitating the generation of multiobject interactions while maintaining the concept generation and compositional strengths of the original T2I model across various artistic styles, such as photorealism, animation, and impressionism.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# ブラックボックス設定におけるインクリメンタル文脈自由文法推論

Incremental Context-free Grammar Inference in Black Box Settings ( http://arxiv.org/abs/2408.16706v1 )

ライセンス: Link先を確認
Feifei Li, Xiao Chen, Xi Xiao, Xiaoyu Sun, Chuan Chen, Shaohua Wang, Jitao Han, (参考訳) ブラックボックスの文脈自由文法推論は、サンプルプログラムへのアクセスが限られているため、多くの実践的な設定において重要な課題である。 最先端の手法であるArvadaとTreevadaは、文法規則を一般化するためにヒューリスティックなアプローチを採用し、平らなパースツリーから開始し、多様な一般化シーケンスを探索する。 これらのアプローチは、主にサンプル文字列全体を処理し、複雑さを増し、計算を著しく遅くするため、低品質で可読性に悩まされている。 これらの制限を克服するために,サンプル文字列をより小さな単位に分割し,文法を漸進的に推論する手法を提案する。 我々の手法であるKedavraは、より優れた文法品質(精度とリコールの強化)、より高速な実行、経験的比較による可読性の向上を実証した。

Black-box context-free grammar inference presents a significant challenge in many practical settings due to limited access to example programs. The state-of-the-art methods, Arvada and Treevada, employ heuristic approaches to generalize grammar rules, initiating from flat parse trees and exploring diverse generalization sequences. We have observed that these approaches suffer from low quality and readability, primarily because they process entire example strings, adding to the complexity and substantially slowing down computations. To overcome these limitations, we propose a novel method that segments example strings into smaller units and incrementally infers the grammar. Our approach, named Kedavra, has demonstrated superior grammar quality (enhanced precision and recall), faster runtime, and improved readability through empirical comparison.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# 変動モード分解, PatchTST, 適応スケール重み付け層に基づく株価予測の高度化

Enhanced forecasting of stock prices based on variational mode decomposition, PatchTST, and adaptive scale-weighted layer ( http://arxiv.org/abs/2408.16707v1 )

ライセンス: Link先を確認
Xiaorui Xue, Shaofang Li, Xiaonan Wang, (参考訳) 近年の株価の急激な変動は、投資や金融戦略を導くための正確な予測の必要性を浮き彫りにしている。 本研究では,これらの課題に対処するために,変分モード分解(VMD),PatchTST,適応スケール重み付け層(ASWL)を統合した新しい複合予測フレームワークを提案する。 提案手法は,2000年から2024年までの4大株価指標(SP500,DJI,SSEC,FTSE)を用いて,原価系列をVMDを用いて固有モード関数(IMF)に分解する。 各IMFは、時間的パターンを効果的に捉えるために、PatchTSTでモデル化される。 ASWLモジュールは、スケール情報を組み込むために適用され、予測精度が向上する。 最終予測はすべてのIMFの予想をまとめることによって導かれる。 VMD-PatchTST-ASWLフレームワークは、従来のモデルと比較して予測精度が大幅に向上し、異なるインデックス間で堅牢なパフォーマンスを示している。 この革新的なアプローチは、さまざまな財務分析や投資決定の文脈における潜在的な応用を含む、株価指数の価格予測のための強力なツールを提供する。

The significant fluctuations in stock index prices in recent years highlight the critical need for accurate forecasting to guide investment and financial strategies. This study introduces a novel composite forecasting framework that integrates variational mode decomposition (VMD), PatchTST, and adaptive scale-weighted layer (ASWL) to address these challenges. Utilizing datasets of four major stock indices--SP500, DJI, SSEC, and FTSE--from 2000 to 2024, the proposed method first decomposes the raw price series into intrinsic mode functions (IMFs) using VMD. Each IMF is then modeled with PatchTST to capture temporal patterns effectively. The ASWL module is applied to incorporate scale information, enhancing prediction accuracy. The final forecast is derived by aggregating predictions from all IMFs. The VMD-PatchTST-ASWL framework demonstrates significant improvements in forecasting accuracy compared to traditional models, showing robust performance across different indices. This innovative approach provides a powerful tool for stock index price forecasting, with potential applications in various financial analysis and investment decision-making contexts.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# ARINC 429 ハードウェア・イン・ザ・ループシミュレータにおけるサイバー脆弱性と電圧データ

ARINC 429 Cyber-vulnerabilities and Voltage Data in a Hardware-in-the-Loop Simulator ( http://arxiv.org/abs/2408.16714v1 )

ライセンス: Link先を確認
Connor Trask, Rosene Clark, Justace Clutter, Mark Herrera, Steve Movit, Kelly Tran, (参考訳) ARINC 429は民間のアビオニクスのためのユビキタスデータバスであり、異なるメーカーからデバイス間の信頼性の高い通信を可能にする。 しかし、ARINC 429は暗号化や認証に欠けており、本質的に安全でない通信プロトコルであり、様々な攻撃に対して脆弱な接続されたアビオニクスをレンダリングする。 ARINC 429バスを用いたハードウェア・イン・ザ・ループシミュレータを構築し、これらの脆弱性を調査し、航空機の能力を否定し、劣化させ、破壊する可能性を特定した。 市販ツールを用いたARINC 429バスによる多機能ディスプレイに対するサービス拒否攻撃を行い,重要なナビゲーション支援を無効化できた。 物理的アビオニクスに対するこの証明された攻撃は、ARINC 429に固有のリスクと、これらの攻撃を検出する能力の必要性を示している。 潜在的な緩和の1つは、物理的バスの電気的特性から収集されたデータに基づいて訓練された侵入検知システム(IDS)である。 以前の研究では、ARINC 429バス上でのIDSの実現可能性を示しているが、アビオニクスハードウェアによって生成されたデータに基づいてIDSをトレーニングすることはない。 これを容易にするため、ARINC 429バス上でアビオニクスと対向装置によって発生する電圧トレースとメッセージ履歴を記録した。 我々の知る限りでは、これがハードウェアが生成したARINC 429信号データの最初の公開コレクションである。

ARINC 429 is a ubiquitous data bus for civil avionics, enabling reliable communication between devices from disparate manufacturers. However, ARINC 429 lacks any form of encryption or authentication, making it an inherently insecure communication protocol and rendering any connected avionics vulnerable to a range of attacks. We constructed a hardware-in-the-loop simulator with ARINC 429 buses, explored these vulnerabilities, and identified their potential to deny, degrade, or disrupt aircraft capabilities. We performed a denial-of-service attack against a multi-function display via a compromised ARINC 429 bus using commercially available tools, which succeeded in disabling important navigational aids. This proven attack on physical avionics illustrates the risk inherent in ARINC 429 and the need for the ability to detect these attacks. One potential mitigation is an intrusion detection system (IDS) trained on data collected from the electrical properties of the physical bus. Although previous research has demonstrated the feasibility of an IDS on an ARINC 429 bus, no IDS has been trained on data generated by avionics hardware. To facilitate this, we recorded voltage traces and message history generated by avionics and adversarial devices on the ARINC 429 bus. To the best of our knowledge, this is the first publicly available collection of hardware-generated ARINC 429 signal data.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# TSPのようなエッジベースのグラフ問題に対するGREATアーキテクチャ

A GREAT Architecture for Edge-Based Graph Problems Like TSP ( http://arxiv.org/abs/2408.16717v1 )

ライセンス: Link先を確認
Attila Lischka, Jiaming Wu, Morteza Haghir Chehreghani, Balázs Kulcsár, (参考訳) 近年、ルーティング問題などの組合せ最適化問題に対処するために、多くのニューラルネットワークベースのアプローチが提案されている。 これらのアプローチの多くはグラフニューラルネットワーク(GNN)または関連するトランスフォーマーに基づいており、ルーティング問題を表すユークリッド座標で動作する。 しかし、GNNは本質的にルーティング問題など、密度の高いグラフを操作するのに適していない。 さらに、ユークリッド座標で動作するモデルは、現実の環境でよく見られるルーティング問題の非ユークリッドバージョンには適用できない。 これらの制限を克服するために,グラフエッジ注意ネットワーク(GREAT)と呼ばれる,GNN関連エッジベースニューラルモデルを提案する。 我々は,旅行セールスマン問題(TSP)における最適エッジを予測するために,エッジ分類タスクにおけるGREATの性能を評価する。 このような訓練されたGREATモデルを使ってスパースなTSPグラフインスタンスを生成することができ、GREATが期待できるエッジのみを保持することができます。 TSPグラフをスパース化する他の非学習ベースの方法と比較して、GREATは最適なエッジの大部分を保持しながら、非常にスパースなグラフを生成することができる。 さらに、強化学習に基づくGREATフレームワークを構築し、ユークリッドおよび非ユークリッド非対称TSPに適用する。 このフレームワークは最先端の結果を達成する。

In the last years, many neural network-based approaches have been proposed to tackle combinatorial optimization problems such as routing problems. Many of these approaches are based on graph neural networks (GNNs) or related transformers, operating on the Euclidean coordinates representing the routing problems. However, GNNs are inherently not well suited to operate on dense graphs, such as in routing problems. Furthermore, models operating on Euclidean coordinates cannot be applied to non-Euclidean versions of routing problems that are often found in real-world settings. To overcome these limitations, we propose a novel GNN-related edge-based neural model called Graph Edge Attention Network (GREAT). We evaluate the performance of GREAT in the edge-classification task to predict optimal edges in the Traveling Salesman Problem (TSP). We can use such a trained GREAT model to produce sparse TSP graph instances, keeping only the edges GREAT finds promising. Compared to other, non-learning-based methods to sparsify TSP graphs, GREAT can produce very sparse graphs while keeping most of the optimal edges. Furthermore, we build a reinforcement learning-based GREAT framework which we apply to Euclidean and non-Euclidean asymmetric TSP. This framework achieves state-of-the-art results.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# H-SGANet: 変形可能な医用画像登録のためのハイブリッドスパースグラフアテンションネットワーク

H-SGANet: Hybrid Sparse Graph Attention Network for Deformable Medical Image Registration ( http://arxiv.org/abs/2408.16719v1 )

ライセンス: Link先を確認
Yufeng Zhou, Wenming Cao, (参考訳) Convolutional Neural Network(ConvNet)とTransformerの統合は、画像登録の強力な候補として現れ、両方のモデルの強みと大きなパラメータ空間を活用する。 しかし、このハイブリッドモデルは、脳MRIボリュームをグリッドまたはシーケンス構造として扱うことで、解剖学的接続性、多様な脳領域、脳の内部構造に寄与する重要な接続を正確に表現する上での課題に直面している。 また、このモデルに関連する計算コストとGPUメモリ使用量についても懸念が生じる。 これらの課題に対処するため,H-SGANet(Hybrid Sparse Graph attention Network)が開発された。 このネットワークには、所定の解剖学的接続を持つビジョングラフニューラルネットワーク(ViG)に基づく、SGA(Sparse Graph Attention)という中心的なメカニズムが組み込まれている。 SGAモジュールはモデルの受容領域を拡張し、シームレスにネットワークに統合する。 ハイブリッドネットワークのメリットをさらに増幅するために、SSA(Separable Self-Attention)を拡張トークンミキサーとして使用し、奥行きの畳み込みと統合してSSAFormerを構成する。 この戦略的統合は、より効果的に長距離依存関係を抽出するように設計されている。 ハイブリッドなConvNet-ViG-Transformerモデルとして、H-SGANetはボリューム医療画像登録に3倍の利点を提供する。 ハイブリッド機能融合層とエンドツーエンドの学習フレームワークを通じて、イメージの固定と移動を同時に最適化する。 同様のパラメータ数を持つモデルであるVoxelMorphと比較して、H-SGANetはOASISデータセットとLPBA40データセットのDiceスコアの3.5%と1.5%の大幅なパフォーマンス向上を示している。

The integration of Convolutional Neural Network (ConvNet) and Transformer has emerged as a strong candidate for image registration, leveraging the strengths of both models and a large parameter space. However, this hybrid model, treating brain MRI volumes as grid or sequence structures, faces challenges in accurately representing anatomical connectivity, diverse brain regions, and vital connections contributing to the brain's internal architecture. Concerns also arise regarding the computational expense and GPU memory usage associated with this model. To tackle these issues, a lightweight hybrid sparse graph attention network (H-SGANet) has been developed. This network incorporates a central mechanism, Sparse Graph Attention (SGA), based on a Vision Graph Neural Network (ViG) with predetermined anatomical connections. The SGA module expands the model's receptive field and seamlessly integrates into the network. To further amplify the advantages of the hybrid network, the Separable Self-Attention (SSA) is employed as an enhanced token mixer, integrated with depth-wise convolution to constitute SSAFormer. This strategic integration is designed to more effectively extract long-range dependencies. As a hybrid ConvNet-ViG-Transformer model, H-SGANet offers threefold benefits for volumetric medical image registration. It optimizes fixed and moving images concurrently through a hybrid feature fusion layer and an end-to-end learning framework. Compared to VoxelMorph, a model with a similar parameter count, H-SGANet demonstrates significant performance enhancements of 3.5% and 1.5% in Dice score on the OASIS dataset and LPBA40 dataset, respectively.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# Mini-Omni: ストリーミングを考えている間、言語モデルに耳を傾ける

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming ( http://arxiv.org/abs/2408.16725v1 )

ライセンス: Link先を確認
Zhifei Xie, Changqiao Wu, (参考訳) 近年の言語モデルの発展は大きな進歩を遂げている。 GPT-4oは新しいマイルストーンとして、人間とリアルタイムに会話できるようにし、人間に近い自然流布を実証した。 このような人間とコンピュータの相互作用は、音響モダリティと直接推論を行い、ストリーミングで出力を生成する能力を持つモデルを必要とする。 しかし、これは現在の学術モデルの到達範囲を超えており、通常は音声合成のための追加のTSシステムに依存しており、望ましくないレイテンシをもたらす。 本稿では,リアルタイム音声対話が可能な音声対話モデルMini-Omniを紹介する。 そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能をさらに向上する手法を提案する。 また,本手法は,最小限の劣化を伴って元のモデルの言語能力を保ち,他の作業者がリアルタイムの対話能力を確立するのに役立つ。 我々はこの訓練方法を「Any Model Can Talk」と呼ぶ。 また、音声出力に最適化された微調整モデルにVoiceAssistant-400Kデータセットを導入する。 われわれの知る限り、Mini-Omniは、リアルタイム音声対話のための、エンドツーエンドでオープンソースの最初のモデルであり、将来の研究に価値ある可能性を秘めている。

Recent advances in language models have achieved significant progress. GPT-4o, as a new milestone, has enabled real-time conversations with humans, demonstrating near-human natural fluency. Such human-computer interaction necessitates models with the capability to perform reasoning directly with the audio modality and generate output in streaming. However, this remains beyond the reach of current academic models, as they typically depend on extra TTS systems for speech synthesis, resulting in undesirable latency. This paper introduces the Mini-Omni, an audio-based end-to-end conversational model, capable of real-time speech interaction. To achieve this capability, we propose a text-instructed speech generation method, along with batch-parallel strategies during inference to further boost the performance. Our method also helps to retain the original model's language capabilities with minimal degradation, enabling other works to establish real-time interaction capabilities. We call this training method "Any Model Can Talk". We also introduce the VoiceAssistant-400K dataset to fine-tune models optimized for speech output. To our best knowledge, Mini-Omni is the first fully end-to-end, open-source model for real-time speech interaction, offering valuable potential for future research.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# 時間的行動検出のための予測フィードバックDETR

Prediction-Feedback DETR for Temporal Action Detection ( http://arxiv.org/abs/2408.16729v1 )

ライセンス: Link先を確認
Jihwan Kim, Miso Lee, Cheol-Ho Cho, Jihyun Lee, Jae-Pil Heo, (参考訳) 時間的行動検出(TAD)は、現実世界の動画アプリケーションでは基本的だが困難である。 トランスのユニークな利点を生かして、様々なDETRベースのアプローチがTADで採用されている。 しかし, 最近, 自己注意時の注意崩壊は, DAD用DETRの性能劣化を引き起こすことが確認された。 本稿は,DETRを用いたTAD法におけるクロスアテンションにおけるアテンション崩壊問題に,新たに対処するものである。 さらに,クロスアテンションは予測と異なるパターンを示し,ショートカット現象を示した。 そこで本研究では, 崩壊を回復し, クロスアテンション, セルフアテンションを予測と整合させる予測フィードバックDETR(Pred-DETR)を提案する。 具体的には,予測の関係から,新たな予測フィードバック目標を導出する。 その結果、Pred-DETRは崩壊を著しく軽減し、THUMOS14、ActivityNet-v1.3、HACS、FineActionといった様々な挑戦的なベンチマークでDETRベースの手法の最先端のパフォーマンスを達成する。

Temporal Action Detection (TAD) is fundamental yet challenging for real-world video applications. Leveraging the unique benefits of transformers, various DETR-based approaches have been adopted in TAD. However, it has recently been identified that the attention collapse in self-attention causes the performance degradation of DETR for TAD. Building upon previous research, this paper newly addresses the attention collapse problem in cross-attention within DETR-based TAD methods. Moreover, our findings reveal that cross-attention exhibits patterns distinct from predictions, indicating a short-cut phenomenon. To resolve this, we propose a new framework, Prediction-Feedback DETR (Pred-DETR), which utilizes predictions to restore the collapse and align the cross- and self-attention with predictions. Specifically, we devise novel prediction-feedback objectives using guidance from the relations of the predictions. As a result, Pred-DETR significantly alleviates the collapse and achieves state-of-the-art performance among DETR-based methods on various challenging benchmarks including THUMOS14, ActivityNet-v1.3, HACS, and FineAction.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# VideoLLM-MoD:Mixture-of-Depths Vision Computationを用いた高効率ビデオ言語ストリーミング

VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation ( http://arxiv.org/abs/2408.16730v1 )

ライセンス: Link先を確認
Shiwei Wu, Joya Chen, Kevin Qinghong Lin, Qimeng Wang, Yan Gao, Qianli Xu, Tong Xu, Yao Hu, Enhong Chen, Mike Zheng Shou, (参考訳) 大きな視覚言語モデル(例えば、GPT-4、LLaVA)におけるよく知られたジレンマは、視覚トークンの数が増加することで視覚的理解が向上する一方で、特に長期の高密度ビデオフレームストリーミングシナリオにおいて、メモリと計算コストが著しく上昇するということである。 Q-FormerやPerceiver Resamplerのような学習可能なアプローチは、視覚トークンの負担を軽減するために開発されたが、LLM(キー値キャッシュ)によってモデル化されたコンテキストを見落とし、ユーザクエリに対処する際の視覚的手がかりを見逃す可能性がある。 本稿では,視覚トークンの数を減少させるのではなく,冗長な視覚トークンを「スキップ層」として活用することで,視覚計算の削減を実現する新しい手法を提案する。 提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。 具体的には、各トランス層に対して、高い割合(例えば、80\%)の視覚トークンの計算をスキップして、直接次の層に渡すことを学習する。 このアプローチはモデルの効率を大幅に向上させ、トレーニング全体に対しておよそ \textasciitilde42\% の時間と \textasciitilde30\% のメモリ節約を実現した。 さらに,本手法は,コンテキストでの計算を削減し,視覚トークンの低減を回避し,バニラモデルと比較して性能を維持・改善する。 我々は、COIN、Ego4D、Ego-Exo4Dデータセットのナレーション、予測、要約タスクを含む複数のベンチマークにおいて、ビデオLLM-MoDの有効性を示す広範囲な実験を行った。

A well-known dilemma in large vision-language models (e.g., GPT-4, LLaVA) is that while increasing the number of vision tokens generally enhances visual understanding, it also significantly raises memory and computational costs, especially in long-term, dense video frame streaming scenarios. Although learnable approaches like Q-Former and Perceiver Resampler have been developed to reduce the vision token burden, they overlook the context causally modeled by LLMs (i.e., key-value cache), potentially leading to missed visual cues when addressing user queries. In this paper, we introduce a novel approach to reduce vision compute by leveraging redundant vision tokens "skipping layers" rather than decreasing the number of vision tokens. Our method, VideoLLM-MoD, is inspired by mixture-of-depths LLMs and addresses the challenge of numerous vision tokens in long-term or streaming video. Specifically, for each transformer layer, we learn to skip the computation for a high proportion (e.g., 80\%) of vision tokens, passing them directly to the next layer. This approach significantly enhances model efficiency, achieving approximately \textasciitilde42\% time and \textasciitilde30\% memory savings for the entire training. Moreover, our method reduces the computation in the context and avoid decreasing the vision tokens, thus preserving or even improving performance compared to the vanilla model. We conduct extensive experiments to demonstrate the effectiveness of VideoLLM-MoD, showing its state-of-the-art results on multiple benchmarks, including narration, forecasting, and summarization tasks in COIN, Ego4D, and Ego-Exo4D datasets.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# より小さく、より小さく、より良くなった:Compute-Optimal SmplingによるLCMレゾネータのトレーニング

Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling ( http://arxiv.org/abs/2408.16737v1 )

ライセンス: Link先を確認
Hritik Bansal, Arian Hosseini, Rishabh Agarwal, Vinh Q. Tran, Mehran Kazemi, (参考訳) 強力な言語モデル(LM)を用いた高品質な合成データの学習は、LMの推論性能を向上させるための一般的な戦略である。 本研究では,この戦略が固定された推論予算(FLOPsなど)の下で計算最適かどうかを考察する。 そこで本研究では,より強大だが高額な(SE)モデルと弱いが安価な(WC)モデルとのトレードオフについて検討する。 生成したデータは、カバレッジ、多様性、偽陽性率の3つの主要な指標で評価し、WCモデルから得られたデータは、カバレッジと多様性が高いが、偽陽性率も高いことを示す。 次に,SEモデルとWCモデルのデータに基づいて,知識蒸留,自己改善,そして弱いLMがより強いLMに推論を教えるような,新たな弱強度改善設定を行う。 その結果、WC生成データに微調整されたモデルは、複数のベンチマークと複数のWCおよびSEモデルの選択肢で、SE生成データでトレーニングされたモデルよりも一貫して優れていることがわかった。 これらの結果は、合成データ生成のためのSEモデルに依存する一般的な実践に挑戦し、WCは高度なLM推論器を訓練するための計算最適化アプローチである可能性が示唆された。

Training on high-quality synthetic data from strong language models (LMs) is a common strategy to improve the reasoning performance of LMs. In this work, we revisit whether this strategy is compute-optimal under a fixed inference budget (e.g., FLOPs). To do so, we investigate the trade-offs between generating synthetic data using a stronger but more expensive (SE) model versus a weaker but cheaper (WC) model. We evaluate the generated data across three key metrics: coverage, diversity, and false positive rate, and show that the data from WC models may have higher coverage and diversity, but also exhibit higher false positive rates. We then finetune LMs on data from SE and WC models in different settings: knowledge distillation, self-improvement, and a novel weak-to-strong improvement setup where a weaker LM teaches reasoning to a stronger LM. Our findings reveal that models finetuned on WC-generated data consistently outperform those trained on SE-generated data across multiple benchmarks and multiple choices of WC and SE models. These results challenge the prevailing practice of relying on SE models for synthetic data generation, suggesting that WC may be the compute-optimal approach for training advanced LM reasoners.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# 大規模言語モデルによるテキストの理論的・方法論的枠組み

Theoretical and Methodological Framework for Studying Texts Produced by Large Language Models ( http://arxiv.org/abs/2408.16740v1 )

ライセンス: Link先を確認
Jiří Milička, (参考訳) 本稿では,大規模言語モデル(LLM)の研究における概念的,方法論的,技術的課題と,定量的言語学の観点からそれらが生み出すテキストについて述べる。 LLMを基質とし、モデルがシミュレートするエンティティを区別する理論的な枠組みの上に構築されている。 本論文は、モデルに対する厳密な非人為的アプローチを提唱する一方で、人間の言語行動の研究に用いた方法論をシミュレートされた実体に慎重に適用する。 自然言語処理の研究者は、モデル自体、アーキテクチャ、評価、性能向上のための方法に重点を置いているが、我々は量的言語学者として、LLMが生成するテキストの特性、人為的なテキストとどのように異なるか、そしてシミュレーションされたエンティティの性質について、堅牢な理論を構築することに努めるべきである。 また, 言語が不可欠な部分である人類文化研究の手段として, LLMsの可能性を探る必要がある。

This paper addresses the conceptual, methodological and technical challenges in studying large language models (LLMs) and the texts they produce from a quantitative linguistics perspective. It builds on a theoretical framework that distinguishes between the LLM as a substrate and the entities the model simulates. The paper advocates for a strictly non-anthropomorphic approach to models while cautiously applying methodologies used in studying human linguistic behavior to the simulated entities. While natural language processing researchers focus on the models themselves, their architecture, evaluation, and methods for improving performance, we as quantitative linguists should strive to build a robust theory concerning the characteristics of texts produced by LLMs, how they differ from human-produced texts, and the properties of simulated entities. Additionally, we should explore the potential of LLMs as an instrument for studying human culture, of which language is an integral part.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# 光励起分子スピンの室温量子情報処理への応用

Unlocking the Potential of Photoexcited Molecular Electron Spins for Room Temperature Quantum Information Processing ( http://arxiv.org/abs/2408.16743v1 )

ライセンス: Link先を確認
Kuan-Cheng Chen, Alberto Collauto, Ciarán J. Rogers, Shang Yu, Mark Oxborrow, Max Attwood, (参考訳) 将来の量子メモリデバイスのような情報処理技術は、量子コンピューティングとネットワークを可能にするために量子状態の保存と転送を行う可能性がある。 このような装置の実用化における中心的な考慮事項は、記憶状態の密度と効率を決定する光源インタフェースの性質である。 ここでは、O-テルフェニルホストにドープされた有機ラジカル、$\alpha$,$\gamma$-bisdiphenylene-$\beta$-phenylallyl(BDPA)を用いて、マイクロ波ベースの量子アプリケーションにおいて、チューニング可能な高性能な分子媒体を使用する可能性を探る。 このラジカル系は室温でミリ秒長のスピン格子緩和とマイクロ秒長の位相記憶時間を示すとともに、共溶解光活性化テトラフェニルポルフィリンモエティを用いて発振スピン偏極状態を生成する能力を有し、これらは全て粘性液体ホストを用いて実現可能であることを実証した。 このシステムは、注意深くホスト行列の選択と動的デカップリングと光励起三重項ラジカルスピン分極を組み合わせ、多目的で堅牢な量子スピン媒体を実現することによって、従来の分子の量子文学からの集合知恵を基盤としている。

Future information processing technologies like quantum memory devices have the potential to store and transfer quantum states to enable quantum computing and networking. A central consideration in practical applications for such devices is the nature of the light-matter interface which determines the storage state density and efficiency. Here, we employ an organic radical, $\alpha$,$\gamma$-bisdiphenylene-$\beta$-phenylallyl (BDPA) doped into an o-terphenyl host to explore the potential for using tuneable and high-performance molecular media in microwave-based quantum applications. We demonstrate that this radical system exhibits millisecond-long spin-lattice relaxation and microsecond-long phase memory times at room temperature, while also having the capability to generate an oscillating spin-polarized state using a co-dissolved photo-activated tetraphenylporphyrin moiety, all enabled by using a viscous liquid host. This latest system builds upon collective wisdom from previous molecules-for-quantum literature by combining careful host matrix selection, with dynamical decoupling, and photoexcited triplet-radical spin polarisation to realise a versatile and robust quantum spin medium.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# オンラインエクストリームズム研究のための大規模言語モデルの評価:識別・説明・新しい知識

Assessing Large Language Models for Online Extremism Research: Identification, Explanation, and New Knowledge ( http://arxiv.org/abs/2408.16749v1 )

ライセンス: Link先を確認
Beidi Dong, Jin R. Lee, Ziwei Zhu, Balassubramanian Srinivasan, (参考訳) 米国では暴力的過激主義が著しく増加しており、オンラインの過激主義イデオロギーを検知し制限する自動化ツールの必要性が高まっている。 本研究は,2方向エンコーダ表現(BERT, Generative Pre-Trained Transformers, GPT)の性能評価を行った。 我々は「極右」と「極左」のイデオロギーキーワードを含むソーシャルメディア投稿を収集し、手動で過激派または非過激派とラベル付けした。 エクストリーム主義のポストは、作業定義の枠組みに基づいて、エクストリーム主義の5つの要素のうちの1つまたは複数の要素にさらに分類された。 BERTモデルの性能は,学習データサイズとカテゴリ間の知識伝達に基づいて評価した。 また, GPT 3.5 モデルと GPT 4 モデルの性能を異なるプロンプト(na\, layperson-definition, role-playing, professional-definition)を用いて比較した。 その結果、最高のパフォーマンスのGPTモデルは、最高のパフォーマンスのBERTモデルよりも優れており、より詳細なプロンプトは一般的により良い結果をもたらすことがわかった。 しかし、複雑すぎるプロンプトはパフォーマンスを損なう可能性がある。 GPTの異なるバージョンは、過激派とみなすものに独特な敏感さを持っている。 GPT 3.5は極右極右極右ポストの分類に優れ, GPT 4は極右極右ポストの分類に優れていた。 GPTモデルで表される大規模な言語モデルは、ゼロショット設定で従来のBERTモデルを上回るオンライン過激主義分類タスクにおいて大きな可能性を秘めている。 今後の研究は、極端検出および分類タスクのためのGPTモデルを最適化し、より効率的な(例えば、より速く、より少ない労力)と効率的な(例えば、誤りや誤りを減らす)方法を開発するための人間とコンピュータの相互作用を検討するべきである。

The United States has experienced a significant increase in violent extremism, prompting the need for automated tools to detect and limit the spread of extremist ideology online. This study evaluates the performance of Bidirectional Encoder Representations from Transformers (BERT) and Generative Pre-Trained Transformers (GPT) in detecting and classifying online domestic extremist posts. We collected social media posts containing "far-right" and "far-left" ideological keywords and manually labeled them as extremist or non-extremist. Extremist posts were further classified into one or more of five contributing elements of extremism based on a working definitional framework. The BERT model's performance was evaluated based on training data size and knowledge transfer between categories. We also compared the performance of GPT 3.5 and GPT 4 models using different prompts: na\"ive, layperson-definition, role-playing, and professional-definition. Results showed that the best performing GPT models outperformed the best performing BERT models, with more detailed prompts generally yielding better results. However, overly complex prompts may impair performance. Different versions of GPT have unique sensitives to what they consider extremist. GPT 3.5 performed better at classifying far-left extremist posts, while GPT 4 performed better at classifying far-right extremist posts. Large language models, represented by GPT models, hold significant potential for online extremism classification tasks, surpassing traditional BERT models in a zero-shot setting. Future research should explore human-computer interactions in optimizing GPT models for extremist detection and classification tasks to develop more efficient (e.g., quicker, less effort) and effective (e.g., fewer errors or mistakes) methods for identifying extremist content.
翻訳日:2024-08-30 12:51:37 公開日:2024-08-29
# デュアル・ユニタリ回路における解離間隔の絡み合い:実測結果

Entanglement of Disjoint Intervals in Dual-Unitary Circuits: Exact Results ( http://arxiv.org/abs/2408.16750v1 )

ライセンス: Link先を確認
Alessandro Foligno, Bruno Bertini, (参考訳) 量子クエンチ後の解離部分系と補体の絡み合いの増大は、動的カオス指標と見なされる。 すなわち、基礎となる微視的力学がカオスであるか、あるいは可積分であるかによって、質的に異なる振る舞いを示すことが期待されている。 しかし、これまでのところ、これは共形場の理論の文脈でのみ検証できる。 ここでは、格子上の相互作用する顕微鏡フロケ系、すなわち二重単位回路のクラスにおいて、この期待を正確に確認する。 これらの系は0または超多量の保存電荷を持つことができ、後者の場合は微調整によって達成される。 ほぼ全ての二重ユニタリ回路において、漸近的絡み合いのダイナミクスはカオスシステムに期待されるものと一致していることを示す。 一方、系に保存電荷を必要とする場合、エンタングルメントは可積分系に対して期待される定性的に異なる振舞いを示す。 興味深いことに、多くの保存電荷があるにもかかわらず、電荷保存二重単位回路は一般にヤン・バクスター積分ではない。

The growth of the entanglement between a disjoint subsystem and its complement after a quantum quench is regarded as a dynamical chaos indicator. Namely, it is expected to show qualitatively different behaviours depending on whether the underlying microscopic dynamics is chaotic or integrable. So far, however, this could only be verified in the context of conformal field theories. Here we present an exact confirmation of this expectation in a class of interacting microscopic Floquet systems on the lattice, i.e., dual-unitary circuits. These systems can either have zero or a super extensive number of conserved charges: the latter case is achieved via fine-tuning. We show that, for almost all dual unitary circuits the asymptotic entanglement dynamics agrees with what is expected for chaotic systems. On the other hand, if we require the systems to have conserved charges, we find that the entanglement displays the qualitatively different behaviour expected for integrable systems. Interestingly, despite having many conserved charges, charge-conserving dual-unitary circuits are in general not Yang-Baxter integrable.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# 言語モデルにおける悪例の回避と罰則化のためのグラディエント分析フレームワーク

A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models ( http://arxiv.org/abs/2408.16751v1 )

ライセンス: Link先を確認
Yi-Lin Tuan, William Yang Wang, (参考訳) よい例の確率を最適化する言語モデル(LM)の標準目的である最大極大推定(MLE)以外にも、不規則学習、指数最大化平均処理効果(ExMATE)、直接選好最適化(DPO)など、出力分布の品質向上のための悪い例を罰する手法も検討されている。 本稿では、これらの手法を体系的に比較し、さらにLM最適化のための統一的なレシピを提供するために、損失関数の勾配解析のユニークな角度を示す。 CausalDialogue と Anthropic HH-RLHF データセットの数学的結果と実験により,これらの手法の異なる機能特性を同定した。 ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。

Beyond maximum likelihood estimation (MLE), the standard objective of a language model (LM) that optimizes good examples probabilities, many studies have explored ways that also penalize bad examples for enhancing the quality of output distribution, including unlikelihood training, exponential maximizing average treatment effect (ExMATE), and direct preference optimization (DPO). To systematically compare these methods and further provide a unified recipe for LM optimization, in this paper, we present a unique angle of gradient analysis of loss functions that simultaneously reward good examples and penalize bad ones in LMs. Through both mathematical results and experiments on CausalDialogue and Anthropic HH-RLHF datasets, we identify distinct functional characteristics among these methods. We find that ExMATE serves as a superior surrogate for MLE, and that combining DPO with ExMATE instead of MLE further enhances both the statistical (5-7%) and generative (+18% win rate) performance.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# 人間のフィードバックを伴わない強化学習による大規模言語モデルの最後の微調整

Reinforcement Learning without Human Feedback for Last Mile Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2408.16753v1 )

ライセンス: Link先を確認
Alec Solway, (参考訳) 強化学習(Reinforcement learning)は、言語モデルを人間の好みの信号に合わせるために用いられ、まずモデルを事前訓練し、最大化を用いて大きなコーパス内のテキストの次のトークンを予測する。 特定のドメインにデプロイする前に、モデルはさらにタスク固有のデータに基づいて微調整されることが多い。 人間の嗜好は最後のステップでは利用できないことが多いため、通常のデフォルトメソッドである可能性の最大化を用いて実行される。 しかし、強化学習には、人間由来の報酬関数へのアライメントの促進以外に、その他の利点がある。 例えば、可能性の最大化は、モデルが理想的な条件下で何をすべきかを訓練する模擬学習の形式であるが、強化学習は、最適に到達した状態に対してのみ行動を示すことに限らず、政策空間を探索する様々なシナリオの下で何をすべきかをモデルに訓練する。 さらに、すべきでないことをモデルに訓練し、競争力はあるものの悪い行動を抑える。 この研究は、強化学習を用いてラストマイル微調整のためのフレームワークを開発し、性能向上のかどうかをテストする。 実験は抽象的な要約に焦点を当てるが、フレームワークは一般的で広く適用可能である。 この方法を用いることで, 生の予測と比較した場合, 最大化率よりも有意に優れた結果が得られた。 テストされた特定のデータについては、最大出力の処理後処理を利用することでギャップを埋めることができる。 それにもかかわらず、このフレームワークは、後処理が単純で効果的でない状況において、モデル最適化のための新しい方法を提供し、幻覚のような、より複雑な望ましくない出力のクラスを含むように拡張することができる。

Reinforcement learning is used to align language models with human preference signals after first pre-training the model to predict the next token of text within a large corpus using likelihood maximization. Before being deployed in a specific domain, models are often further fine-tuned on task specific data. Since human preferences are often unavailable for the last step, it is performed using likelihood maximization as that is the typical default method. However, reinforcement learning has other advantages besides facilitating alignment to a human derived reward function. For one, whereas likelihood maximization is a form of imitation learning in which the model is trained on what to do under ideal conditions, reinforcement learning is not limited to demonstrating actions just for optimally reached states and trains a model what to do under a range of scenarios as it explores the policy space. In addition, it also trains a model what not to do, suppressing competitive but poor actions. This work develops a framework for last-mile fine-tuning using reinforcement learning and tests whether it garners performance gains. The experiments center on abstractive summarization, but the framework is general and broadly applicable. Use of the procedure produced significantly better results than likelihood maximization when comparing raw predictions. For the specific data tested, the gap could be bridged by employing post-processing of the maximum likelihood outputs. Nonetheless, the framework offers a new avenue for model optimization in situations where post-processing may be less straightforward or effective, and it can be extended to include more complex classes of undesirable outputs to penalize and train against, such as hallucinations.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# カントン NLP はどこまで進むか? 大規模言語モデルのカントン能力のベンチマーク

How Far Can Cantonese NLP Go? Benchmarking Cantonese Capabilities of Large Language Models ( http://arxiv.org/abs/2408.16756v1 )

ライセンス: Link先を確認
Jiyue Jiang, Liheng Chen, Pengan Chen, Sheng Wang, Qinghang Bao, Lingpeng Kong, Yu Li, Chuan Wu, (参考訳) 大規模言語モデル(LLM)の急速な進化は、自然言語処理(NLP)の競争環境、特に英語や他のデータ豊富な言語に変化をもたらした。 しかし、広東-香港-マカオ大都市圏の経済的重要性や、シンガポールや北アメリカなどの地域ではカントン語を話す住民が相当に多いことから、カントン語は8500万人以上の人々が話していた。 広範に使われているにもかかわらず、カントン語はNLP研究において、特に同様の発展途上国の他の言語と比較して、スカンプト表現を持っている。 これらのギャップを埋めるために、我々は、現在のCandonese NLP法の概要と、オープンソースのCandonese LLM技術の進歩を目的とした、実数生成、数学的論理、複雑な推論、およびカントンにおける一般的な知識におけるLLMのパフォーマンスを評価するために設計された新しいベンチマークを導入する。 また,今後の研究の方向性や,Candonese LLM開発を促進するための推奨モデルも提案する。

The rapid evolution of large language models (LLMs) has transformed the competitive landscape in natural language processing (NLP), particularly for English and other data-rich languages. However, underrepresented languages like Cantonese, spoken by over 85 million people, face significant development gaps, which is particularly concerning given the economic significance of the Guangdong-Hong Kong-Macau Greater Bay Area, and in substantial Cantonese-speaking populations in places like Singapore and North America. Despite its wide use, Cantonese has scant representation in NLP research, especially compared to other languages from similarly developed regions. To bridge these gaps, we outline current Cantonese NLP methods and introduce new benchmarks designed to evaluate LLM performance in factual generation, mathematical logic, complex reasoning, and general knowledge in Cantonese, which aim to advance open-source Cantonese LLM technology. We also propose future research directions and recommended models to enhance Cantonese LLM development.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# アウト・オブ・ディストリビューション検出とオープンセット認識:方法とベンチマークの批判的分析

Dissecting Out-of-Distribution Detection and Open-Set Recognition: A Critical Analysis of Methods and Benchmarks ( http://arxiv.org/abs/2408.16757v1 )

ライセンス: Link先を確認
Hongjun Wang, Sagar Vaze, Kai Han, (参考訳) テスト時の分散シフトの検出は、安全にデプロイされた機械学習モデルにとって重要な機能として現れており、近年ではさまざまなガイダンスの下で問題に対処している。 本稿では,コミュニティ内における2つの大きなサブフィールド,アウト・オブ・ディストリビューション(OOD)検出とオープン・セット認識(OSR)の総合的なビューを提供することを目的とする。 特に,異なる手法の厳密な実験分析と,実践者や研究者に実用的なテイクアウトを提供することを目標にしている。 具体的には、以下の貢献をします。 i) OOD検出における最先端手法とOSR設定の厳密な相互評価を行い,その手法の性能の強い相関関係を同定する。 (II) OOD検出とOSRによる問題に対処し, 最先端のOOD検出とOSR手法を再評価する, より大規模なベンチマーク設定を提案する。 3) 標準ベンチマーク(アウトレーラ露光)における最高のパフォーマンス手法は、スケールでテストする場合に苦労する一方で、深い特徴量に敏感なルールのスコアリングは、常に有望である、という驚くべき結果が得られます。 (4)これらの現象を説明するための実証分析を行い、今後の研究の方向性を明らかにする。 コード: \url{https://github.com/Visual-AI/Dissect-OOD-OSR}

Detecting test-time distribution shift has emerged as a key capability for safely deployed machine learning models, with the question being tackled under various guises in recent years. In this paper, we aim to provide a consolidated view of the two largest sub-fields within the community: out-of-distribution (OOD) detection and open-set recognition (OSR). In particular, we aim to provide rigorous empirical analysis of different methods across settings and provide actionable takeaways for practitioners and researchers. Concretely, we make the following contributions: (i) We perform rigorous cross-evaluation between state-of-the-art methods in the OOD detection and OSR settings and identify a strong correlation between the performances of methods for them; (ii) We propose a new, large-scale benchmark setting which we suggest better disentangles the problem tackled by OOD detection and OSR, re-evaluating state-of-the-art OOD detection and OSR methods in this setting; (iii) We surprisingly find that the best performing method on standard benchmarks (Outlier Exposure) struggles when tested at scale, while scoring rules which are sensitive to the deep feature magnitude consistently show promise; and (iv) We conduct empirical analysis to explain these phenomena and highlight directions for future research. Code: \url{https://github.com/Visual-AI/Dissect-OOD-OSR}
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# 原子-膜力学への変分的アプローチ

Variational approach to atom-membrane dynamics ( http://arxiv.org/abs/2408.16759v1 )

ライセンス: Link先を確認
Dennis P. Clougherty, (参考訳) ディラック=フランケル変分法を用いて、ボゾン浴に結合した2段階系の力学の時間依存的な記述を定式化する。 この方法は、フォノン生成を介して有限温度で弾性膜に吸着する冷原子の気体に対して適用される。 ラプラス変換法を用いてシステム状態の時間依存性を解析的に算出し、遷移率の閉形式式を求める。 気体中の原子はフェシュバッハ共鳴を通じて吸着状態に遷移し、膜の振動モードの分布から寄与する。 共鳴はフォノンの生成によって崩壊し、吸着過程を完了させる。 低膜温度での吸着速度は、臨界結合強度よりも大きい値の結合定数において、金則推定値と最低次と一致する。 この臨界カップリング強度以下では、吸着率が増大するフォノン還元因子によって指数関数的に抑制される。 この速度は低温膜の結合強度と不連続に変化し、不連続度の大きさは温度上昇とともに減少する。 これらの変動結果は、量子吸着モデルが一階相転移を含むことを示唆している。

Using the Dirac-Frenkel variational principle, a time-dependent description of the dynamics of a two-level system coupled to a bosonic bath is formulated. The method is applied to the case of a gas of cold atoms adsorbing via phonon creation to an elastic membrane at finite temperature. The time-dependence of the system state is analytically calculated using Laplace transform methods, and a closed-form expression for the transition rate is obtained. Atoms in the gas transition to the adsorbed state through a Feshbach resonance that has contributions from a distribution of vibrational modes of the membrane. The resonance can decay with the creation of a phonon to complete the adsorption process. The adsorption rate at low membrane temperature agrees with the golden rule estimate to lowest order in the coupling constant for values greater than a critical coupling strength. Below this critical coupling strength, the adsorption rate is exponentially suppressed by a phonon reduction factor whose exponent diverges with increasing adsorbent size. The rate changes discontinuously with coupling strength for low temperature membranes, and the magnitude of the discontinuity decreases with increasing temperature. These variational results suggest the quantum adsorption model may contain a first-order phase transition.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# オムニレ(OmniRe:Omni Urban Scene Restruction)

OmniRe: Omni Urban Scene Reconstruction ( http://arxiv.org/abs/2408.16760v1 )

ライセンス: Link先を確認
Ziyu Chen, Jiawei Yang, Jiahui Huang, Riccardo de Lutio, Janick Martinez Esturo, Boris Ivanovic, Or Litany, Zan Gojcic, Sanja Fidler, Marco Pavone, Li Song, Yue Wang, (参考訳) デバイス上でのログから高忠実度な都市景観を効率的に再構築するための総合的アプローチであるOmniReを紹介する。 ニューラルラディアンスフィールドやガウススプラッティングを用いた運転シーケンスをモデル化する最近の手法は、困難なダイナミックシーンを再構築する可能性を示しているが、しばしば歩行者や他の非車両ダイナミックアクターを見落とし、動的な都市シーン再構築のための完全なパイプラインを妨げている。 そこで我々はOmniReという3DGSフレームワークを提案する。このフレームワークを使えば、運転ログ内の多様な動的オブジェクトを正確にフルに再現できる。 OmniReは、ガウス表現に基づくダイナミックなニューラルシーングラフを構築し、車両、歩行者、サイクリストなど、さまざまなダイナミックアクターをモデル化する複数のローカルな標準空間を構築している。 この能力は既存の方法と一致しない。 OmniReは、シーンに存在するさまざまなオブジェクトをホロタイプに再構築し、その後、すべてのアクターがリアルタイム(〜60Hz)に参加することで、再構成シナリオのシミュレーションを可能にする。 Waymoデータセットの大規模な評価は、我々のアプローチが従来の最先端手法を定量的に、質的に、大きなマージンで上回っていることを示している。 私たちの仕事は、復興を進める上で重要なギャップを埋めていると信じています。

We introduce OmniRe, a holistic approach for efficiently reconstructing high-fidelity dynamic urban scenes from on-device logs. Recent methods for modeling driving sequences using neural radiance fields or Gaussian Splatting have demonstrated the potential of reconstructing challenging dynamic scenes, but often overlook pedestrians and other non-vehicle dynamic actors, hindering a complete pipeline for dynamic urban scene reconstruction. To that end, we propose a comprehensive 3DGS framework for driving scenes, named OmniRe, that allows for accurate, full-length reconstruction of diverse dynamic objects in a driving log. OmniRe builds dynamic neural scene graphs based on Gaussian representations and constructs multiple local canonical spaces that model various dynamic actors, including vehicles, pedestrians, and cyclists, among many others. This capability is unmatched by existing methods. OmniRe allows us to holistically reconstruct different objects present in the scene, subsequently enabling the simulation of reconstructed scenarios with all actors participating in real-time (~60Hz). Extensive evaluations on the Waymo dataset show that our approach outperforms prior state-of-the-art methods quantitatively and qualitatively by a large margin. We believe our work fills a critical gap in driving reconstruction.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# デノイングと測地熱拡散によるUVフリーテクスチャ生成

UV-free Texture Generation with Denoising and Geodesic Heat Diffusions ( http://arxiv.org/abs/2408.16762v1 )

ライセンス: Link先を確認
Simone Foti, Stefanos Zafeiriou, Tolga Birdal, (参考訳) メッシュの標準UVベースのテクスチャにおいて、シーム、歪み、無駄なUV空間、頂点重複、および表面上の様々な解像度が最も顕著な問題である。 これらの問題は、自動UVアンラッピング技術を使用する場合、特に深刻である。 このため,ほとんどの最先端技術と同様に自動生成UV平面のテクスチャを生成する代わりに,3次元物体の表面での操作に制約された拡散確率モデルにより色が生じる色付き点雲としてテクスチャを表現することを提案する。 我々のサンプリングおよび分解能非依存生成モデルは,点間の空間的通信のためにメッシュ表面上の熱拡散に大きく依存している。 任意サンプリングした点雲テクスチャの処理と長距離テクスチャの整合性を確保するため,熱拡散時に使用するメッシュスペクトル特性の高速再サンプリングを導入し,新しい熱拡散型自己保持機構を導入する。 我々のコードと事前訓練されたモデルはgithub.com/simofoti/UV3-TeDで利用可能です。

Seams, distortions, wasted UV space, vertex-duplication, and varying resolution over the surface are the most prominent issues of the standard UV-based texturing of meshes. These issues are particularly acute when automatic UV-unwrapping techniques are used. For this reason, instead of generating textures in automatically generated UV-planes like most state-of-the-art methods, we propose to represent textures as coloured point-clouds whose colours are generated by a denoising diffusion probabilistic model constrained to operate on the surface of 3D objects. Our sampling and resolution agnostic generative model heavily relies on heat diffusion over the surface of the meshes for spatial communication between points. To enable processing of arbitrarily sampled point-cloud textures and ensure long-distance texture consistency we introduce a fast re-sampling of the mesh spectral properties used during the heat diffusion and introduce a novel heat-diffusion-based self-attention mechanism. Our code and pre-trained models are available at github.com/simofoti/UV3-TeD.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# Kochen-Specker文脈性の代数的特徴付け

An algebraic characterisation of Kochen-Specker contextuality ( http://arxiv.org/abs/2408.16764v1 )

ライセンス: Link先を確認
Markus Frembs, (参考訳) 文脈性は古典物理学と量子物理学を区別する重要な特徴である。 古典的な概念を用いた量子論の記述に根本的な障害を表現している。 代わりに、量子計算のリソースとして理解され、量子の優位性のための鍵を保持することが期待されている。 しかし、量子基礎において長く認識されてきた重要性と、より最近の量子計算において、文脈性の構造的本質は、ある意味では解明されていない。 この問題はベル=コーヒェン=スペクターの定理のレベルにおいて既に大きなものとなっている: 従来の証明はバリュエーションの非存在を示すことによって進行するが、境界的アプローチにおける状態非独立な文脈性の概念は、一見弱い仮定から文脈性を証明することができる。 これに照らして、コシェン=スペクターの文脈性のための統一的な数学的枠組みが欠如していることから、元の代数的アプローチは、文脈的相関の研究を好んで、広く放棄されてきた。 ここでは、文脈性に関する代数的視点を再定義する。 具体的には、コンテキスト接続という新しい概念に基づいて、もともとコッチェンとスペクターによって仮定された観測変数間の代数的関係を再構築し、状態に依存しない文脈性の概念との整合性を明示する。 本稿では,新しい概念に焦点をあて,特に[S. Yu and C.H. Oh, Phys. Lett. 108, 030402 (2012)] の例において,スピン-1観測変数の具体的な設定,特にそれらの概念を議論する。

Contextuality is a key distinguishing feature between classical and quantum physics. It expresses a fundamental obstruction to describing quantum theory using classical concepts. In turn, understood as a resource for quantum computation, it is expected to hold the key to quantum advantage. Yet, despite its long recognised importance in quantum foundations and, more recently, in quantum computation, the structural essence of contextuality has remained somewhat elusive - different frameworks address different aspects of the phenomenon, yet their precise relationship often remains unclear. This issue already looms large at the level of the Bell-Kochen-Specker theorem: while traditional proofs proceed by showing the nonexistence of valuations, the notion of state-independent contextuality in the marginal approach allows to prove contextuality from seemingly weaker assumptions. In the light of this, and at the absence of a unified mathematical framework for Kochen-Specker contextuality, the original algebraic approach has been widely abandoned, in favour of the study of contextual correlations. Here, we reinstate the algebraic perspective on contextuality. Concretely, by building on the novel concept of context connections, we reformulate the algebraic relations between observables originally postulated by Kochen and Specker, and we explicitly demonstrate their consistency with the notion of state-independent contextuality. In the present paper, we focus on the new conceptual ideas and discuss them in the concrete setting of spin-1 observables, specifically those in the example of [S. Yu and C.H. Oh, Phys. Rev. Lett., 108, 030402 (2012)]; in a companion paper, we generalise these ideas, obtain a complete characterisation of Kochen-Specker contextuality and provide a detailed comparison with the related notions of contextuality in the marginal and graph-theoretic approach.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# 拡散生成モデルを用いたスコアベース密度式

A Score-Based Density Formula, with Applications in Diffusion Generative Models ( http://arxiv.org/abs/2408.16765v1 )

ライセンス: Link先を確認
Gen Li, Yuling Yan, (参考訳) スコアベース生成モデル(SGM)は、生成モデリングの分野に革命をもたらし、現実的で多様なコンテンツを生成するのに前例のない成功を収めた。 実験的な進歩にもかかわらず、ログライクリッド上でのエビデンスローバウンド(ELBO)の最適化がDDPMなどの拡散生成モデルの訓練に有効である理由に関する理論的根拠はほとんど未解明のままである。 本稿では,SGMにおける前処理の連続時間限界とみなす連続時間拡散過程の密度公式を確立することにより,この問題に対処する。 この式は、前処理の各ステップに付随する目標密度とスコア関数との接続を明らかにする。 これに基づいて,DDPMの学習目標の最小化は真の目標の最小化とほぼ一致し,ELBOを用いてDDPMを最適化するための理論的基盤を提供する。 さらに,GANの学習におけるスコアマッチング正則化の役割,拡散分類器におけるELBOの利用,および最近提案された拡散損失について,新たな知見を提供する。

Score-based generative models (SGMs) have revolutionized the field of generative modeling, achieving unprecedented success in generating realistic and diverse content. Despite empirical advances, the theoretical basis for why optimizing the evidence lower bound (ELBO) on the log-likelihood is effective for training diffusion generative models, such as DDPMs, remains largely unexplored. In this paper, we address this question by establishing a density formula for a continuous-time diffusion process, which can be viewed as the continuous-time limit of the forward process in an SGM. This formula reveals the connection between the target density and the score function associated with each step of the forward process. Building on this, we demonstrate that the minimizer of the optimization objective for training DDPMs nearly coincides with that of the true objective, providing a theoretical foundation for optimizing DDPMs using the ELBO. Furthermore, we offer new insights into the role of score-matching regularization in training GANs, the use of ELBO in diffusion classifiers, and the recently proposed diffusion loss.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# CSGO:テキスト・画像生成におけるコンテンツスタイルの構成

CSGO: Content-Style Composition in Text-to-Image Generation ( http://arxiv.org/abs/2408.16766v1 )

ライセンス: Link先を確認
Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li, (参考訳) 拡散モデルは、制御された画像生成において例外的な機能を示し、画像スタイルの転送への関心をさらに高めた。 既存の研究は主に、特定のデータが不足しているため、自由な手法(例えば、画像の反転)の訓練に重点を置いている。 本研究では,スタイリングされたデータ三重項を自動生成・浄化するコンテントスタイルの画像三重項に対するデータ構築パイプラインを提案する。 このパイプラインに基づいて、210kのイメージトリプレットを含む最初の大規模スタイル転送データセットであるIMAGStyleを構築し、コミュニティが探索と調査を行うことができる。 IMAGStyleを組み込んだCSGOを提案する。CSGOはエンドツーエンドのトレーニングに基づくスタイル伝達モデルであり、独立した特徴注入を用いたコンテンツとスタイルの特徴を明示的に分離する。 統一CSGOは、画像駆動型スタイル変換、テキスト駆動型スタイル合成、テキスト編集型スタイル合成を実装している。 画像生成におけるスタイル制御機能向上に対する我々のアプローチの有効性を,広範囲にわたる実験により実証した。 ソースコードへのさらなる視覚化とアクセスは、プロジェクトページにある。

The diffusion model has shown exceptional capabilities in controlled image generation, which has further fueled interest in image style transfer. Existing works mainly focus on training free-based methods (e.g., image inversion) due to the scarcity of specific data. In this study, we present a data construction pipeline for content-style-stylized image triplets that generates and automatically cleanses stylized data triplets. Based on this pipeline, we construct a dataset IMAGStyle, the first large-scale style transfer dataset containing 210k image triplets, available for the community to explore and research. Equipped with IMAGStyle, we propose CSGO, a style transfer model based on end-to-end training, which explicitly decouples content and style features employing independent feature injection. The unified CSGO implements image-driven style transfer, text-driven stylized synthesis, and text editing-driven stylized synthesis. Extensive experiments demonstrate the effectiveness of our approach in enhancing style control capabilities in image generation. Additional visualization and access to the source code can be located on the project page: \url{https://csgo-gen.github.io/}.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# ReconX:ビデオ拡散モデルでスパークビューからあらゆるシーンを再構築する

ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model ( http://arxiv.org/abs/2408.16767v1 )

ライセンス: Link先を確認
Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan, (参考訳) 3Dシーン再構築の進歩は、現実世界の2D画像を3Dモデルに変え、数百枚の入力写真から現実的な3D結果を生み出した。 密集したビューの再現シナリオでは大きな成功を収めたにもかかわらず、キャプチャーの不十分なビューから詳細なシーンをレンダリングすることは依然として不適切な最適化問題であり、しばしば目に見えない領域でアーティファクトや歪みをもたらす。 本稿では,時間生成タスクとして曖昧な再構築課題を再構築する,新しい3Dシーン再構築パラダイムであるReconXを提案する。 重要な洞察は、スパースビュー再構成のための大規模な事前学習ビデオ拡散モデルに先立って、強力な生成を解き放つことである。 しかし、3Dビューの一貫性は、事前訓練されたモデルから直接生成されたビデオフレームに正確に保存される。 これを解決するために,提案したReconXはまずグローバルポイントクラウドを構築し,それを3次元構造条件としてコンテキスト空間にエンコードする。 この条件に導かれ、ビデオ拡散モデルは、ディテール保存されたビデオフレームを合成し、高い3D一貫性を示し、様々な視点からシーンのコヒーレンスを確保する。 最後に,生成した映像から3D映像を3Dガウス分割最適化方式により復元する。 様々な実世界のデータセットに対する大規模な実験は、品質と一般化性の観点から、最先端の手法よりもReconXの方が優れていることを示している。

Advancements in 3D scene reconstruction have transformed 2D images from the real world into 3D models, producing realistic 3D results from hundreds of input photos. Despite great success in dense-view reconstruction scenarios, rendering a detailed scene from insufficient captured views is still an ill-posed optimization problem, often resulting in artifacts and distortions in unseen areas. In this paper, we propose ReconX, a novel 3D scene reconstruction paradigm that reframes the ambiguous reconstruction challenge as a temporal generation task. The key insight is to unleash the strong generative prior of large pre-trained video diffusion models for sparse-view reconstruction. However, 3D view consistency struggles to be accurately preserved in directly generated video frames from pre-trained models. To address this, given limited input views, the proposed ReconX first constructs a global point cloud and encodes it into a contextual space as the 3D structure condition. Guided by the condition, the video diffusion model then synthesizes video frames that are both detail-preserved and exhibit a high degree of 3D consistency, ensuring the coherence of the scene from various perspectives. Finally, we recover the 3D scene from the generated video through a confidence-aware 3D Gaussian Splatting optimization scheme. Extensive experiments on various real-world datasets show the superiority of our ReconX over state-of-the-art methods in terms of quality and generalizability.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# SAM2Point:ゼロショットとプロンプト可能なマナーの映像として3Dをセグメンテーション

SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners ( http://arxiv.org/abs/2408.16768v1 )

ライセンス: Link先を確認
Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng, (参考訳) 本稿では,ゼロショットおよびプロンプト可能な3次元セグメンテーションのためのセグメンテーションモデル2(SAM2)の予備探索であるSAM2Pointを紹介する。 SAM2Pointは、任意の3Dデータを一連の多方向ビデオとして解釈し、3D空間のセグメンテーションにSAM 2を活用する。 本フレームワークは3Dポイントやボックス,マスクなど,さまざまなプロンプトタイプをサポートし,3Dオブジェクトや屋内シーン,屋外環境,生のスパースLiDARなど,さまざまなシナリオを一般化することができる。 複数の3Dデータセット(例えば、Objaverse、S3DIS、ScanNet、Semantic3D、KITTI)のデモでは、SAM2Pointの堅牢な一般化機能を強調している。 我々の知る限り、SAMの3Dにおける最も忠実な実装は、3Dセグメンテーションにおける将来の研究の出発点となるかもしれない。 オンラインデモ:https://huggingface.co/spaces/ZiyuG/SAM2Point コード:https://github.com/ZiyuGuo99/SAM2Point

We introduce SAM2Point, a preliminary exploration adapting Segment Anything Model 2 (SAM 2) for zero-shot and promptable 3D segmentation. SAM2Point interprets any 3D data as a series of multi-directional videos, and leverages SAM 2 for 3D-space segmentation, without further training or 2D-3D projection. Our framework supports various prompt types, including 3D points, boxes, and masks, and can generalize across diverse scenarios, such as 3D objects, indoor scenes, outdoor environments, and raw sparse LiDAR. Demonstrations on multiple 3D datasets, e.g., Objaverse, S3DIS, ScanNet, Semantic3D, and KITTI, highlight the robust generalization capabilities of SAM2Point. To our best knowledge, we present the most faithful implementation of SAM in 3D, which may serve as a starting point for future research in promptable 3D segmentation. Online Demo: https://huggingface.co/spaces/ZiyuG/SAM2Point . Code: https://github.com/ZiyuGuo99/SAM2Point .
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# PromptSmooth: プロンプト学習による医用視覚言語モデルのロバスト性証明

PromptSmooth: Certifying Robustness of Medical Vision-Language Models via Prompt Learning ( http://arxiv.org/abs/2408.16769v1 )

ライセンス: Link先を確認
Noor Hussein, Fahad Shamshad, Muzammal Naseer, Karthik Nandakumar, (参考訳) 医用視覚言語モデル(Med-VLM)は、医療用画像テキストペアの大規模なデータセットに基づいて訓練され、後に特定のタスクのために微調整された。 しかし、近年の研究は、これらのMed-VLMの敵攻撃に対する感受性を強調し、それらの安全性と堅牢性に対する懸念を提起している。 ランダムな平滑化は、任意の分類器を敵の摂動に対して確実に堅牢なモデルに変換するためのよく知られた手法である。 しかし、このアプローチはメド・VLMベースの分類器を再訓練し、ガウス雑音の下で適切に分類する必要があるが、実際は不可能であることが多い。 本稿では,PmptSmooth という新しいフレームワークを提案する。 事前訓練されたMed-VLMが与えられた場合、PromptSmoothはゼロショットまたは少数ショットでテキストプロンプトを学習し、精度と頑健さの微妙なバランスを保ちながら、計算オーバーヘッドを最小限に抑えながらガウスノイズを扱うように適応する。 さらに、PromptSmoothは複数のノイズレベルを扱うために1つのモデルしか必要としないため、各ノイズレベルごとに個別のモデルをトレーニングすることに依存する従来の方法に比べて、計算コストを大幅に削減できる。 3つのMed-VLMと6つの下流データセットに基づく総合的な実験により、PromptSmoothの有効性が示された。 私たちのコードとモデルはhttps://github.com/nhussein/promptsmooth.comで公開されています。

Medical vision-language models (Med-VLMs) trained on large datasets of medical image-text pairs and later fine-tuned for specific tasks have emerged as a mainstream paradigm in medical image analysis. However, recent studies have highlighted the susceptibility of these Med-VLMs to adversarial attacks, raising concerns about their safety and robustness. Randomized smoothing is a well-known technique for turning any classifier into a model that is certifiably robust to adversarial perturbations. However, this approach requires retraining the Med-VLM-based classifier so that it classifies well under Gaussian noise, which is often infeasible in practice. In this paper, we propose a novel framework called PromptSmooth to achieve efficient certified robustness of Med-VLMs by leveraging the concept of prompt learning. Given any pre-trained Med-VLM, PromptSmooth adapts it to handle Gaussian noise by learning textual prompts in a zero-shot or few-shot manner, achieving a delicate balance between accuracy and robustness, while minimizing the computational overhead. Moreover, PromptSmooth requires only a single model to handle multiple noise levels, which substantially reduces the computational cost compared to traditional methods that rely on training a separate model for each noise level. Comprehensive experiments based on three Med-VLMs and across six downstream datasets of various imaging modalities demonstrate the efficacy of PromptSmooth. Our code and models are available at https://github.com/nhussein/promptsmooth.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# 方向制御性を有する3次元全体グラフ合成

3D Whole-body Grasp Synthesis with Directional Controllability ( http://arxiv.org/abs/2408.16770v1 )

ライセンス: Link先を確認
Georgios Paschalidis, Romana Wilschut, Dimitrije Antić, Omid Taheri, Dimitrios Tzionas, (参考訳) 物体をリアルに把握する3D体全体を合成することは、アニメーション、混合現実、ロボット工学に有用である。 これは、手と体が互いに自然にw.r.t.t.に見え、つかまれた物体が、局所的なシーン(つまり、物体を支える受容体)である必要があるためである。 直近の研究では、まず右利きの「ガイド」を発生させ、次にこれと一致する身体を探索する。 しかし、ガイドハンド合成は制御性や受容体の認識を欠いているため、不明瞭な方向(つまり、体は受容体を浸透させることなくこれと一致できない)を持ち、主要な後処理による修正が必要である。 さらに、ボディサーチには徹底的なサンプリングが必要であり、高価である。 これらは強い制限です。 我々はCWGraspと呼ばれる新しい手法でこれらに取り組む。 我々のキーとなる考え方は、幾何に基づく推論を「早め」ではなく「早め」に実行し、推論のためにリッチな「制御」信号を提供するというものである。 この目的のために、CWGraspはまず、物体からのレイキャストと衝突チェックによって構築された確率モデルから、可塑性リーチ方向ベクトル(後に腕と手の両方に使用される)をサンプリングした。 そして、所望の腕方向の到達体と、所望の手のひら方向の「ガイド」握り手を生成し、腕のそれに対応する。 最終的に、CWGraspは身体を洗練して「ガイド」の手と一致するようにし、シーンに確実に接触する。 注目すべきは、すでに互換性のある"パーツ"の生成が"全体"を大幅に単純化することである。 さらに、CWGraspは左右両方のグリップに特化している。 GRABおよびReplicaGraspデータセットの評価を行った。 CWGraspは、ランタイムと予算の低さでベースラインを上回り、すべてのコンポーネントがパフォーマンスに役立ちます。 コードとモデルはリリースされる。

Synthesizing 3D whole-bodies that realistically grasp objects is useful for animation, mixed reality, and robotics. This is challenging, because the hands and body need to look natural w.r.t. each other, the grasped object, as well as the local scene (i.e., a receptacle supporting the object). Only recent work tackles this, with a divide-and-conquer approach; it first generates a "guiding" right-hand grasp, and then searches for bodies that match this. However, the guiding-hand synthesis lacks controllability and receptacle awareness, so it likely has an implausible direction (i.e., a body can't match this without penetrating the receptacle) and needs corrections through major post-processing. Moreover, the body search needs exhaustive sampling and is expensive. These are strong limitations. We tackle these with a novel method called CWGrasp. Our key idea is that performing geometry-based reasoning "early on," instead of "too late," provides rich "control" signals for inference. To this end, CWGrasp first samples a plausible reaching-direction vector (used later for both the arm and hand) from a probabilistic model built via raycasting from the object and collision checking. Then, it generates a reaching body with a desired arm direction, as well as a "guiding" grasping hand with a desired palm direction that complies with the arm's one. Eventually, CWGrasp refines the body to match the "guiding" hand, while plausibly contacting the scene. Notably, generating already-compatible "parts" greatly simplifies the "whole." Moreover, CWGrasp uniquely tackles both right- and left-hand grasps. We evaluate on the GRAB and ReplicaGrasp datasets. CWGrasp outperforms baselines, at lower runtime and budget, while all components help performance. Code and models will be released.
翻訳日:2024-08-30 12:41:39 公開日:2024-08-29
# ReMamba: 効果的なロングシーケンスモデリングを備えたEquip Mamba

ReMamba: Equip Mamba with Effective Long-Sequence Modeling ( http://arxiv.org/abs/2408.15496v2 )

ライセンス: Link先を確認
Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao, (参考訳) Mambaアーキテクチャは、短コンテキスト自然言語処理(NLP)タスクにおいて、推論効率と競合性能が優れていることを示す一方で、長いコンテキストを理解する能力はトランスフォーマーベースのモデルと比較して制限されていることを示す実証的な証拠である。 本研究では,マンバモデルの長期文脈効率問題について検討し,マンバの長期文脈理解能力を高めるReMambaを提案する。 ReMambaは2段階のリフォワードプロセスに選択的圧縮と適応技術を導入し、最小追加の推論コストのオーバーヘッドを発生させる。 LongBench と L-Eval のベンチマークによる実験結果は、ReMamba の有効性を示し、ベースラインを 3.2 と 1.6 に改善し、同じサイズのトランスフォーマーモデルとほぼ同等の性能を達成した。

While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# LRP4RAG:レイヤワイド関連伝播による検索増強ジェネレーションにおける幻覚の検出

LRP4RAG: Detecting Hallucinations in Retrieval-Augmented Generation via Layer-wise Relevance Propagation ( http://arxiv.org/abs/2408.15533v2 )

ライセンス: Link先を確認
Haichuan Hu, Yuhan Sun, Quanjun Zhang, (参考訳) Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚を緩和する主要な技術となっている。 しかしながら、不完全な知識抽出と不十分な理解はLLMを誤解させ、無関係または矛盾する応答を生じさせ、つまり、幻覚がRAGに持続することを意味する。 本稿では、RAGの幻覚を検出するためのレイヤワイド関連伝搬(LRP)アルゴリズムであるLRP4RAGを提案する。 具体的には、まず LRP を用いて、RAG ジェネレータの入力と出力の関連性を計算する。 次に、さらに抽出と再サンプリングを関連行列に適用する。 処理された関連データは複数の分類器に入力され、その出力が幻覚を含むか否かを判定する。 我々の知る限り、RP4RAGがRAG幻覚の検出に使用されたのはこれが初めてであり、広範な実験により、LPP4RAGが既存のベースラインより優れていることが示されている。

Retrieval-Augmented Generation (RAG) has become a primary technique for mitigating hallucinations in large language models (LLMs). However, incomplete knowledge extraction and insufficient understanding can still mislead LLMs to produce irrelevant or even contradictory responses, which means hallucinations persist in RAG. In this paper, we propose LRP4RAG, a method based on the Layer-wise Relevance Propagation (LRP) algorithm for detecting hallucinations in RAG. Specifically, we first utilize LRP to compute the relevance between the input and output of the RAG generator. We then apply further extraction and resampling to the relevance matrix. The processed relevance data are input into multiple classifiers to determine whether the output contains hallucinations. To the best of our knowledge, this is the first time that LRP has been used for detecting RAG hallucinations, and extensive experiments demonstrate that LRP4RAG outperforms existing baselines.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# CGRA4ML:科学エッジコンピューティングのための最新のニューラルネットワークを実装するフレームワーク

CGRA4ML: A Framework to Implement Modern Neural Networks for Scientific Edge Computing ( http://arxiv.org/abs/2408.15561v2 )

ライセンス: Link先を確認
G Abarajithan, Zhenghua Ma, Zepeng Li, Shrideep Koparkar, Ravidu Munasinghe, Francesco Restuccia, Ryan Kastner, (参考訳) 科学エッジコンピューティングは、非常に高いスループットと低レイテンシで複雑なニアセンサー処理を実装するために、ハードウェアアクセラレーションされたニューラルネットワークにますます依存している。 HLS4MLのような既存のフレームワークは、より小さなモデルには有効だが、ニューラルネットワーク層を空間的に実装し、すべての重みをオンチップメモリに格納する必要があるため、より大規模で現代的なニューラルネットワークに苦しむ。 CGRA4MLは、ニューラルネットワークモデルの複雑さと極端なパフォーマンス要件の間のギャップを埋めるために設計された、オープンソースのモジュラーフレームワークである。 CGRA4MLは、オフチップのデータストレージを可能にし、ResNet、PointNet、Transformerなどのモデルを含む幅広いニューラルネットワークアーキテクチャをサポートすることで、HLS4MLの機能を拡張する。 HLS4MLとは異なり、CGRA4MLはSystemVerilog RTLを生成しており、ASICやFPGAの設計フローをターゲットにするのに適している。 本研究では,これまでHLS4MLでは実現不可能であった大規模モデルを実装,拡張し,複雑な計算処理における適応性と効率性を示すことによって,フレームワークの有効性を示す。 CGRA4MLはまた、様々なSoCプラットフォームとの統合を可能にする、生成されたランタイムファームウェアを備えた広範な検証フレームワークも導入している。 CGRA4MLのPython API、SystemVerilogハードウェア、Tclツールフロー、Cランタイムの最小限のモジュラーインフラストラクチャは、統合と実験を容易にする。

Scientific edge computing increasingly relies on hardware-accelerated neural networks to implement complex, near-sensor processing at extremely high throughputs and low latencies. Existing frameworks like HLS4ML are effective for smaller models, but struggle with larger, modern neural networks due to their requirement of spatially implementing the neural network layers and storing all weights in on-chip memory. CGRA4ML is an open-source, modular framework designed to bridge the gap between neural network model complexity and extreme performance requirements. CGRA4ML extends the capabilities of HLS4ML by allowing off-chip data storage and supporting a broader range of neural network architectures, including models like ResNet, PointNet, and transformers. Unlike HLS4ML, CGRA4ML generates SystemVerilog RTL, making it more suitable for targeting ASIC and FPGA design flows. We demonstrate the effectiveness of our framework by implementing and scaling larger models that were previously unattainable with HLS4ML, showcasing its adaptability and efficiency in handling complex computations. CGRA4ML also introduces an extensive verification framework, with a generated runtime firmware that enables its integration into different SoC platforms. CGRA4ML's minimal and modular infrastructure of Python API, SystemVerilog hardware, Tcl toolflows, and C runtime, facilitates easy integration and experimentation, allowing scientists to focus on innovation rather than the intricacies of hardware design and optimization.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# VFLIP: 同定と浄化による垂直的フェデレーション学習のためのバックドアディフェンス

VFLIP: A Backdoor Defense for Vertical Federated Learning via Identification and Purification ( http://arxiv.org/abs/2408.15591v2 )

ライセンス: Link先を確認
Yungi Cho, Woorim Han, Miseon Yu, Younghan Lee, Ho Bae, Yunheung Paek, (参考訳) Vertical Federated Learning (VFL)は、FL参加者に対して垂直に分割されたデータを扱うことに焦点を当てている。 近年の研究では、VFLの異なる特徴を特にターゲットとするバックドア攻撃に対するVFLの重大な脆弱性が発見されている。 したがって、これらの攻撃は、主に水平フェデレートラーニング(HFL)とディープニューラルネットワークのために設計された既存の防御メカニズムを中和する可能性がある。 本稿では,VFLを専門とする最初のバックドアディフェンスであるVFLIPについて述べる。 VFLIPは推論段階で動作する識別と浄化技術を採用し、バックドア攻撃に対する堅牢性を大幅に向上させる。 VFLIPは、まず、参加者ワイドな異常検出アプローチを採用することで、バックドアトリガーの埋め込みを識別する。 その後、VFLIPは、悪意があると認識された埋め込みを除去し、残りの埋め込みに基づいてすべての埋め込みを再構築する浄化を行う。 我々は, CIFAR10, CINIC10, Imagenette, NUS-WIDE, BankMarketingで広範囲にわたる実験を行い, VFLIPがVFLのバックドア攻撃を効果的に軽減できることを実証した。 https://github.com/blingcho/VFLIP-esorics24

Vertical Federated Learning (VFL) focuses on handling vertically partitioned data over FL participants. Recent studies have discovered a significant vulnerability in VFL to backdoor attacks which specifically target the distinct characteristics of VFL. Therefore, these attacks may neutralize existing defense mechanisms designed primarily for Horizontal Federated Learning (HFL) and deep neural networks. In this paper, we present the first backdoor defense, called VFLIP, specialized for VFL. VFLIP employs the identification and purification techniques that operate at the inference stage, consequently improving the robustness against backdoor attacks to a great extent. VFLIP first identifies backdoor-triggered embeddings by adopting a participant-wise anomaly detection approach. Subsequently, VFLIP conducts purification which removes the embeddings identified as malicious and reconstructs all the embeddings based on the remaining embeddings. We conduct extensive experiments on CIFAR10, CINIC10, Imagenette, NUS-WIDE, and BankMarketing to demonstrate that VFLIP can effectively mitigate backdoor attacks in VFL. https://github.com/blingcho/VFLIP-esorics24
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# GANsコンディショニング手法:サーベイ

GANs Conditioning Methods: A Survey ( http://arxiv.org/abs/2408.15640v2 )

ライセンス: Link先を確認
Anis Bourou, Auguste Genovesio, Valérie Mezger, (参考訳) 近年、GAN(Generative Adversarial Networks)は大きな進歩を遂げ、様々な分野で広く普及している。 オリジナルのGANアーキテクチャでは、コンテンツに対して特定の制御をせずに画像を生成することが可能であり、無条件生成プロセスとなっている。 しかし、多くの実用的な応用では、生成した出力を正確に制御する必要があるため、明示的な条件付けを組み込んだ条件付きGAN(cGAN)が開発され、生成プロセスが導かれるようになった。 cGANは、追加情報(条件)を組み込むことで、元のフレームワークを拡張し、その特定の基準に準拠したサンプルの生成を可能にする。 様々な条件付け手法が提案され、それぞれ、条件付け情報をジェネレータと識別器ネットワークの両方に統合する方法が異なる。 本稿では,GANの条件付け手法を概説し,各手法の特徴を探求し,その特異なメカニズムと理論的基礎を明らかにする。 さらに、これらの手法の比較分析を行い、その性能を様々な画像データセット上で評価する。 これらの分析を通して,様々な条件付け手法の強みと限界についての洞察を提供することを目標とし,生成モデリングにおける今後の研究と応用を導くことを目的とする。

In recent years, Generative Adversarial Networks (GANs) have seen significant advancements, leading to their widespread adoption across various fields. The original GAN architecture enables the generation of images without any specific control over the content, making it an unconditional generation process. However, many practical applications require precise control over the generated output, which has led to the development of conditional GANs (cGANs) that incorporate explicit conditioning to guide the generation process. cGANs extend the original framework by incorporating additional information (conditions), enabling the generation of samples that adhere to that specific criteria. Various conditioning methods have been proposed, each differing in how they integrate the conditioning information into both the generator and the discriminator networks. In this work, we review the conditioning methods proposed for GANs, exploring the characteristics of each method and highlighting their unique mechanisms and theoretical foundations. Furthermore, we conduct a comparative analysis of these methods, evaluating their performance on various image datasets. Through these analyses, we aim to provide insights into the strengths and limitations of various conditioning techniques, guiding future research and application in generative modeling.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# RIDE:回転不変解析によるLiDAR点雲の3次元物体検出

RIDE: Boosting 3D Object Detection for LiDAR Point Clouds via Rotation-Invariant Analysis ( http://arxiv.org/abs/2408.15643v2 )

ライセンス: Link先を確認
Zhaoxuan Wang, Xu Han, Hongxin Liu, Xianzhi Li, (参考訳) 回転ロバスト性は点雲解析に多くの注目を集めているが、それでも3次元物体検出において重要な課題となっている。 任意の回転を受けると、ほとんどの既存の検出器はローテーションのロバスト性が悪いために出力が期待できない。 本稿では,3次元LiDAR-point-based object DEtector の回転不変性の先駆的探索である RIDE について,LiDAR のシーンから回転不変の機能を設計し,既存の3次元検出器に効果的に組み込むというキーアイデアを述べる。 具体的には、抽出する二機能抽出器を設計する。 一 回転に敏感ながら幾何をよく保存する物体認識機能 (II)幾何的情報をある程度失うが、回転に頑健な回転不変特徴。 これらの2種類の機能は互いに補完し、任意の回転に対して堅牢な3D提案をデコードする。 特に、我々のRIDEは互換性があり、既存の1段と2段の3D検出器に簡単に接続でき、検出性能と回転ロバスト性の両方を高めることができる。 標準ベンチマークにおいて、平均平均精度(mAP)と回転ロバスト性(回転ロバスト性)は、我々のRIDEと統合することにより著しく向上し、KITTIでは+5.6% mAPと53%の回転ロバスト性改善、+5.1%と28%がニューセンで改善されている。 コードはまもなく利用可能になる。

The rotation robustness property has drawn much attention to point cloud analysis, whereas it still poses a critical challenge in 3D object detection. When subjected to arbitrary rotation, most existing detectors fail to produce expected outputs due to the poor rotation robustness. In this paper, we present RIDE, a pioneering exploration of Rotation-Invariance for the 3D LiDAR-point-based object DEtector, with the key idea of designing rotation-invariant features from LiDAR scenes and then effectively incorporating them into existing 3D detectors. Specifically, we design a bi-feature extractor that extracts (i) object-aware features though sensitive to rotation but preserve geometry well, and (ii) rotation-invariant features, which lose geometric information to a certain extent but are robust to rotation. These two kinds of features complement each other to decode 3D proposals that are robust to arbitrary rotations. Particularly, our RIDE is compatible and easy to plug into the existing one-stage and two-stage 3D detectors, and boosts both detection performance and rotation robustness. Extensive experiments on the standard benchmarks showcase that the mean average precision (mAP) and rotation robustness can be significantly boosted by integrating with our RIDE, with +5.6% mAP and 53% rotation robustness improvement on KITTI, +5.1% and 28% improvement correspondingly on nuScenes. The code will be available soon.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# 偏光SAR画像のための深層学習に基づくスペックルフィルタ -センチネル-1への応用-

Deep Learning Based Speckle Filtering for Polarimetric SAR Images. Application to Sentinel-1 ( http://arxiv.org/abs/2408.15678v2 )

ライセンス: Link先を確認
Alejandro Mestre-Quereda, Juan M. Lopez-Sanchez, (参考訳) 合成開口レーダ(SAR)画像におけるスペックル抑制は、研究トピックであり続けている重要な処理ステップである。 空間的アプローチや変換的戦略を用いた多種多様な手法が開発され,優れた結果が得られた。 しかし,近年の深層学習技術の進歩とSAR画像復号化への応用は,最先端の成果をもたらすことを実証している。 残念ながら、それらは主に単偏光画像に適用されている。 偏光SAR(PolSAR)画像へのスペックル除去のための深層学習に基づくアプローチの拡張は、画像画素毎に測定された共分散行列の複雑な性質のため複雑であり、その特性はフィルタリング中に保存されなければならない。 本研究では、畳み込みニューラルネットワークを用いて偏光SAR画像のスペックルを除去するための完全なフレームワークを提案する。 この手法は、元の複素共分散行列の可逆変換を含み、ニューラルネットワークに供給される実数値強度帯域の集合を得る。 さらに、提案手法は、ニューラルネットワークが時間的変化に強く影響された領域における誤った特徴を学習するのを避けるための変更検出戦略を含むので、ネットワークは、データに存在する基盤となるスペックル成分のみを学習する。 この手法は、Sentinel-1によって取得された双対偏光画像を用いて実装され、試験される。 実験により,提案手法はスペックル低減と分解能保存の両方において例外的な結果をもたらすことが示された。 さらに重要なのは、ニューラルネットワークがアーティファクトを生成したり、フィルタされた画像にバイアスを導入していないことを示し、さらなる偏光処理やエクスプロイトに適していることである。

Speckle suppression in synthetic aperture radar (SAR) images is a key processing step which continues to be a research topic. A wide variety of methods, using either spatially-based approaches or transform-based strategies, have been developed and have shown to provide outstanding results. However, recent advances in deep learning techniques and their application to SAR image despeckling have been demonstrated to offer state-of-the-art results. Unfortunately, they have been mostly applied to single-polarimetric images. The extension of a deep learning-based approach for speckle removal to polarimetric SAR (PolSAR) images is complicated because of the complex nature of the measured covariance matrices for every image pixel, the properties of which must be preserved during filtering. In this work, we propose a complete framework to remove speckle in polarimetric SAR images using a convolutional neural network. The methodology includes a reversible transformation of the original complex covariance matrix to obtain a set of real-valued intensity bands which are fed to the neural network. In addition, the proposed method includes a change detection strategy to avoid the neural network to learn erroneous features in areas strongly affected by temporal changes, so that the network only learns the underlying speckle component present in the data. The method is implemented and tested with dual-polarimetric images acquired by Sentinel-1. Experiments show that the proposed approach offers exceptional results in both speckle reduction and resolution preservation. More importantly, it is also shown that the neural network is not generating artifacts or introducing bias in the filtered images, making them suitable for further polarimetric processing and exploitation.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# スピン依存エキゾチック相互作用

Spin-dependent exotic interactions ( http://arxiv.org/abs/2408.15691v2 )

ライセンス: Link先を確認
Lei Cong, Wei Ji, Pavel Fadeev, Filip Ficek, Min Jiang, Victor V. Flambaum, Haosen Guan, Derek F. Jackson Kimball, Mikhail G. Kozlov, Yevgeny V. Stadnik, Dmitry Budker, (参考訳) 自然界における4つの既知の基本的な力(電磁力、重力力、強い力、弱い相互作用)を超えた新しい相互作用は、「5番目の力」として表される標準モデルを超えた「新しい物理学」によって生じる可能性がある。 このレビューでは、スピン-0軸索や軸索状粒子、スピン-1 Z'ボソン、ダーク光子、パラフォトンなどのエキゾチックなボソンを介するスピン依存第5の力に焦点を当てている。 これらのエキゾチックなボソンの多くはダークマターとダークエネルギーの性質を説明する候補であり、それらの相互作用は基本的な対称性に反する可能性がある。 エキゾチックボソンの交換によって媒介されるフェルミオン間のスピン依存的な相互作用は、様々な実験、特に低エネルギーフロンティアにおいて研究されている。 原子磁気センサ、トーションバランス、窒素空きスピンセンサー、精密原子・分子分光法などの異種スピン依存相互作用を探索するために用いられる実験方法とツールについて述べる。 最小の仮定を持つ量子場理論に基づいて導かれる相互作用ポテンシャルの完全な集合を、結合定数の減少という観点で特徴づける。 エキゾチックなスピン依存相互作用に関する既存の実験的および観察的な制約を包括的に要約し、現在の研究状況と今後の研究の有望な方向性を説明する。

Novel interactions beyond the four known fundamental forces in nature (electromagnetic, gravitational, strong and weak interactions), may arise due to "new physics" beyond the standard model, manifesting as a "fifth force". This review is focused on spin-dependent fifth forces mediated by exotic bosons such as spin-0 axions and axionlike particles and spin-1 Z' bosons, dark photons, or paraphotons. Many of these exotic bosons are candidates to explain the nature of dark matter and dark energy, and their interactions may violate fundamental symmetries. Spin-dependent interactions between fermions mediated by the exchange of exotic bosons have been investigated in a variety of experiments, particularly at the low-energy frontier. Experimental methods and tools used to search for exotic spin-dependent interactions, such as atomic comagnetometers, torsion balances, nitrogen-vacancy spin sensors, and precision atomic and molecular spectroscopy, are described. A complete set of interaction potentials, derived based on quantum field theory with minimal assumptions and characterized in terms of reduced coupling constants, are presented. A comprehensive summary of existing experimental and observational constraints on exotic spin-dependent interactions is given, illustrating the current research landscape and promising directions of further research.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# 強相互作用するフェルミオンは非自明だが非ガラスである

Strongly interacting fermions are non-trivial yet non-glassy ( http://arxiv.org/abs/2408.15699v2 )

ライセンス: Link先を確認
Eric R. Anschuetz, Chi-Fang Chen, Bobak T. Kiani, Robbie King, (参考訳) 低温におけるランダムスピン系はガラス状であり、低エネルギー状態を見つける際には計算硬度が特徴である。 フェミオン系Sachdev--Ye-Kitaev (SYK) のランダムな相互作用について検討し, (I) 低エネルギー状態が多項式回路の深さを持つことを示した。 これらの結果は、フェルミオン系とスピン系が、ハミルトン項の非可換性を定量化する 'emph{commutation index} において著しく異なることを示すことから導かれる。 この結果は、スピンとは異なり、低温で強く相互作用するフェルミオンが古典的に非自明で量子的に容易な相に属することを示唆している。

Random spin systems at low temperatures are glassy and feature computational hardness in finding low-energy states. We study the random all-to-all interacting fermionic Sachdev--Ye--Kitaev (SYK) model and prove that, in contrast, (I) the low-energy states have polynomial circuit depth, yet (II) the annealed and quenched free energies agree to inverse-polynomially low temperatures, ruling out a glassy phase transition in this sense. These results are derived by showing that fermionic and spin systems significantly differ in their \emph{commutation index}, which quantifies the non-commutativity of Hamiltonian terms. Our results suggest that low-temperature strongly interacting fermions, unlike spins, belong in a classically nontrivial yet quantumly easy phase.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# Conan-embedding: より優れた負のサンプルを用いた汎用テキスト埋め込み

Conan-embedding: General Text Embedding with More and Better Negative Samples ( http://arxiv.org/abs/2408.15710v2 )

ライセンス: Link先を確認
Shiyu Li, Yang Tang, Shizhe Chen, Xi Chen, (参考訳) RAGの人気が高まり、埋め込みモデルの能力はますます注目を集めている。 埋め込みモデルは、主に対照的な損失学習を通じて訓練される。 以前の研究では、様々な強硬な負の採掘戦略が提案されてきたが、これらの戦略は一般的に前処理の手順として採用されている。 本稿では,より高次かつ高品質な負例の利用を最大化するコナン埋め込みモデルを提案する。 具体的には、事前処理された負の例を扱うモデルの能力が訓練中に進化するので、トレーニングプロセスを通してより困難な負の例にモデルを公開するための動的強硬な負のマイニング法を提案する。 第二に、対照的な学習は可能な限り多くのネガティブな例を必要とするが、GPUメモリの制約によって制限されている。 そのため、クロスGPUバランシングロスを使用して、トレーニングを埋め込み、バッチサイズを複数のタスク間でバランスさせる、よりネガティブな例を提供します。 また,LSMから得た応答対を組込み訓練に用いることも確認した。 当社のアプローチは,現在,Massiveテキスト埋め込みベンチマークの中国リーダボードにランクインしている,埋め込みモデルの能力を効果的に向上させるものだ。

With the growing popularity of RAG, the capabilities of embedding models are gaining increasing attention. Embedding models are primarily trained through contrastive loss learning, with negative examples being a key component. Previous work has proposed various hard negative mining strategies, but these strategies are typically employed as preprocessing steps. In this paper, we propose the conan-embedding model, which maximizes the utilization of more and higher-quality negative examples. Specifically, since the model's ability to handle preprocessed negative examples evolves during training, we propose dynamic hard negative mining method to expose the model to more challenging negative examples throughout the training process. Secondly, contrastive learning requires as many negative examples as possible but is limited by GPU memory constraints. Therefore, we use a Cross-GPU balancing Loss to provide more negative examples for embedding training and balance the batch size across multiple tasks. Moreover, we also discovered that the prompt-response pairs from LLMs can be used for embedding training. Our approach effectively enhances the capabilities of embedding models, currently ranking first on the Chinese leaderboard of Massive text embedding benchmark
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# 音声ディープフェイク検出のための OpenSMILE の簡易,解釈可能,有効性

Easy, Interpretable, Effective: openSMILE for voice deepfake detection ( http://arxiv.org/abs/2408.15775v2 )

ライセンス: Link先を確認
Octavian Pascu, Dan Oneata, Horia Cucu, Nicolas M. Müller, (参考訳) 本稿では,音声認証とディープフェイク検出の分野におけるデファクトスタンダードである最新のASVspoof5データセットの攻撃を,非常に単純な特徴の小さなサブセットを用いて,驚くほどの精度で識別できることを実証する。 これらはopenSMILEライブラリから派生したもので、スカラー値、計算が容易、人間の解釈が可能である。 例えば、A10の無声区間の平均長は0.09 +- 0.02であり、ボナフィドのインスタンスの平均長は0.18 +- 0.07である。 この特徴だけで、しきい値分類器は攻撃A10に対して10.3%のEER(Equal Error Rate)を達成する。 同様に、すべての攻撃で最大0.8%のEERを達成でき、全体的なEERは15.7 +- 6.0%である。 これらの特徴の一般化機能について検討し、攻撃が類似のText-to-Speech(TTS)アーキテクチャに由来する場合を中心に、攻撃間を効果的に転送することを発見した。 この発見は、音声のアンチスプーフィングが、部分的には個々のTSシステムの署名や指紋を識別し記憶する問題であることを示しているかもしれない。 これにより、現実世界のアプリケーションにおけるアンチスプーフィングモデルとその課題をよりよく理解できます。

In this paper, we demonstrate that attacks in the latest ASVspoof5 dataset -- a de facto standard in the field of voice authenticity and deepfake detection -- can be identified with surprising accuracy using a small subset of very simplistic features. These are derived from the openSMILE library, and are scalar-valued, easy to compute, and human interpretable. For example, attack A10`s unvoiced segments have a mean length of 0.09 +- 0.02, while bona fide instances have a mean length of 0.18 +- 0.07. Using this feature alone, a threshold classifier achieves an Equal Error Rate (EER) of 10.3% for attack A10. Similarly, across all attacks, we achieve up to 0.8% EER, with an overall EER of 15.7 +- 6.0%. We explore the generalization capabilities of these features and find that some of them transfer effectively between attacks, primarily when the attacks originate from similar Text-to-Speech (TTS) architectures. This finding may indicate that voice anti-spoofing is, in part, a problem of identifying and remembering signatures or fingerprints of individual TTS systems. This allows to better understand anti-spoofing models and their challenges in real-world application.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# SI変換器:極多モード要約のための共有情報誘導変換器

SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization ( http://arxiv.org/abs/2408.15829v2 )

ライセンス: Link先を確認
Sicheng Liu, Lintao Wang, Xiaogan Zhu, Xuequan Lu, Zhiyong Wang, Kun Hu, (参考訳) XMSMO(Extreme Multimodal Summarization with Multimodal Output)は、様々な種類の情報を統合して、非常に簡潔で情報的な要約を生成することで、魅力的な要約手法となる。 既存の手法では、マルチモーダルデータには関連性のない情報が多く含まれており、特に非常に短いデータに対して、モデルが不正確な要約を生成することを誤解させる可能性がある。 本稿では,超多モード要約のための共有情報誘導変換器SITransformerを提案する。 クロスモーダル共有情報抽出器とクロスモーダルインタラクションモジュールを含む共有情報ガイドパイプラインを備える。 抽出器は、識別可能なトップkセレクタと共有情報案内ゲーティングユニットからなる新規なフィルタリングプロセスを考案し、異なるモダリティから意味的に共有された有能な情報を定式化する。 その結果, モダリティの共通性, 健全性, 関連性のある内容が同定された。 次に、モダリティ内およびモダリティ間学習のためのモーダル間注目変換器を開発し、共有情報ガイダンスを用いて、極端な要約を生成する。 総合的な実験により、SITransformerはXMSMOの動画とテキストの要約の要約品質を大幅に向上させることが示された。 私たちのコードはhttps://github.com/SichengLeoLiu/MMAsia24-XMSMOで公開されます。

Extreme Multimodal Summarization with Multimodal Output (XMSMO) becomes an attractive summarization approach by integrating various types of information to create extremely concise yet informative summaries for individual modalities. Existing methods overlook the issue that multimodal data often contains more topic irrelevant information, which can mislead the model into producing inaccurate summaries especially for extremely short ones. In this paper, we propose SITransformer, a Shared Information-guided Transformer for extreme multimodal summarization. It has a shared information guided pipeline which involves a cross-modal shared information extractor and a cross-modal interaction module. The extractor formulates semantically shared salient information from different modalities by devising a novel filtering process consisting of a differentiable top-k selector and a shared-information guided gating unit. As a result, the common, salient, and relevant contents across modalities are identified. Next, a transformer with cross-modal attentions is developed for intra- and inter-modality learning with the shared information guidance to produce the extreme summary. Comprehensive experiments demonstrate that SITransformer significantly enhances the summarization quality for both video and text summaries for XMSMO. Our code will be publicly available at https://github.com/SichengLeoLiu/MMAsia24-XMSMO.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# キーフレーム抽出のためのフォンニューマンエントロピーに基づくショットセグメンテーション

Shot Segmentation Based on Von Neumann Entropy for Key Frame Extraction ( http://arxiv.org/abs/2408.15844v2 )

ライセンス: Link先を確認
Xueqing Zhang, Di Fu, Naihao Liu, (参考訳) ビデオキーフレーム抽出は、ビデオ要約、検索、圧縮など様々な分野で重要である。 そこで我々は,フォン・ノイマンエントロピーを用いたショットセグメンテーションに基づくビデオ鍵フレーム抽出アルゴリズムを提案する。 ショットのセグメンテーションは、ビデオシーケンス内のフレーム間の類似性行列のフォン・ノイマンエントロピーの計算によって達成される。 各ショットの初期フレームは、フレームの時間シーケンス情報を組み合わせたキーフレームとして選択される。 実験の結果、抽出したキーフレームは、繰り返しフレーム数を最小化しつつ、元の映像コンテンツを完全かつ正確に表現できることがわかった。

Video key frame extraction is important in various fields, such as video summary, retrieval, and compression. Therefore, we suggest a video key frame extraction algorithm based on shot segmentation using Von Neumann entropy. The segmentation of shots is achieved through the computation of Von Neumann entropy of the similarity matrix among frames within the video sequence. The initial frame of each shot is selected as key frames, which combines the temporal sequence information of frames. The experimental results show the extracted key frames can fully and accurately represent the original video content while minimizing the number of repeated frames.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# IoT環境における侵入検出の強化:Kolmogorov-Arnoldネットワークを用いたアンサンブルアプローチ

Enhancing Intrusion Detection in IoT Environments: An Advanced Ensemble Approach Using Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2408.15886v2 )

ライセンス: Link先を確認
Amar Amouri, Mohamad Mahmoud Al Rahhal, Yakoub Bazi, Ismail Butun, Imad Mahgoub, (参考訳) 近年、機械学習技術の進化は、特にIoT(Internet of Things)のコンテキストにおいて、侵入検出の分野に大きな影響を与えている。 IoTネットワークが拡大するにつれ、潜在的な脅威に対処するための堅牢なセキュリティ対策の必要性が高まっている。 本稿では,KAN(Kolmogorov-Arnold Networks)とXGBoostアルゴリズムを相乗的に組み合わせたハイブリッド侵入検知システム(IDS)を提案する。 提案するIDSは,学習可能なアクティベーション関数を用いてデータ内の複雑な関係をモデル化するkansのユニークな機能を活用する。 このハイブリッドアプローチは、検出精度を高めるだけでなく、モデルの解釈可能性も向上し、動的で複雑なIoT環境に適している。 実験により,我々のハイブリッドIDSは,良性行動と悪意行動の区別において,99%以上の精度で検出できることがわかった。 さらに、98%を超えるF1スコア、精度、リコールを達成できたのです。 さらに,従来のMulti-Layer Perceptron(MLP)ネットワークとの比較分析を行い,精度,リコール,F1スコアなどのパフォーマンス指標を評価する。 この結果は、IoTネットワークのセキュリティフレームワークを大幅に強化するこの革新的なアプローチの可能性を浮き彫りにしている。

In recent years, the evolution of machine learning techniques has significantly impacted the field of intrusion detection, particularly within the context of the Internet of Things (IoT). As IoT networks expand, the need for robust security measures to counteract potential threats has become increasingly critical. This paper introduces a hybrid Intrusion Detection System (IDS) that synergistically combines Kolmogorov-Arnold Networks (KANs) with the XGBoost algorithm. Our proposed IDS leverages the unique capabilities of KANs, which utilize learnable activation functions to model complex relationships within data, alongside the powerful ensemble learning techniques of XGBoost, known for its high performance in classification tasks. This hybrid approach not only enhances the detection accuracy but also improves the interpretability of the model, making it suitable for dynamic and intricate IoT environments. Experimental evaluations demonstrate that our hybrid IDS achieves an impressive detection accuracy exceeding 99% in distinguishing between benign and malicious activities. Additionally, we were able to achieve F1 scores, precision, and recall that exceeded 98%. Furthermore, we conduct a comparative analysis against traditional Multi-Layer Perceptron (MLP) networks, assessing performance metrics such as Precision, Recall, and F1-score. The results underscore the efficacy of integrating KANs with XGBoost, highlighting the potential of this innovative approach to significantly strengthen the security framework of IoT networks.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29
# ゼロショット動作検出のための時空間時空間プロンプト

Spatio-Temporal Context Prompting for Zero-Shot Action Detection ( http://arxiv.org/abs/2408.15996v2 )

ライセンス: Link先を確認
Wei-Jhe Huang, Min-Hung Chen, Shang-Hong Lai, (参考訳) 時空間行動検出は、ビデオ内の個々のアクションをローカライズし分類するタスクを含む。 最近の研究は、人間と周囲の文脈との関係を捉えた相互作用モデリングを取り入れることで、このプロセスを強化することを目的としている。 しかしながら、これらのアプローチは、主に完全に教師付き学習に焦点を当てており、現在の制限は、目に見えないアクションカテゴリを認識する一般化能力の欠如にある。 本稿では,事前学習された画像言語モデルを用いて,未知の動作を検出することを目的とする。 そこで本稿では,視覚モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。 一方、Context Promptingモジュールは、コンテキスト情報を利用してラベルをプロンプトし、より代表的なテキスト機能を生成する。 さらに,複数人の異なる行動を同時に認識する課題に対処するため,事前学習した視覚的知識を用いて各人の関心コンテキストトークンを抽出する関心トークンスポッティング機構を設計し,そのトークンを用いて各個人に適したテキスト特徴の生成を促す。 J-HMDB, UCF101-24, AVAデータセットの総合的なベンチマークを提案する。 実験により,本手法は従来の手法よりも優れた結果が得られることを示すとともに,マルチアクションビデオにも拡張可能であることを示し,実世界のアプリケーションに近づいた。 コードとデータはhttps://webber2933.github.io/ST-CLIP-project-pageにある。

Spatio-temporal action detection encompasses the tasks of localizing and classifying individual actions within a video. Recent works aim to enhance this process by incorporating interaction modeling, which captures the relationship between people and their surrounding context. However, these approaches have primarily focused on fully-supervised learning, and the current limitation lies in the lack of generalization capability to recognize unseen action categories. In this paper, we aim to adapt the pretrained image-language models to detect unseen actions. To this end, we propose a method which can effectively leverage the rich knowledge of visual-language models to perform Person-Context Interaction. Meanwhile, our Context Prompting module will utilize contextual information to prompt labels, thereby enhancing the generation of more representative text features. Moreover, to address the challenge of recognizing distinct actions by multiple people at the same timestamp, we design the Interest Token Spotting mechanism which employs pretrained visual knowledge to find each person's interest context tokens, and then these tokens will be used for prompting to generate text features tailored to each individual. To evaluate the ability to detect unseen actions, we propose a comprehensive benchmark on J-HMDB, UCF101-24, and AVA datasets. The experiments show that our method achieves superior results compared to previous approaches and can be further extended to multi-action videos, bringing it closer to real-world applications. The code and data can be found in https://webber2933.github.io/ST-CLIP-project-page.
翻訳日:2024-08-30 12:30:07 公開日:2024-08-29