このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240831となっている論文です。

PDF登録状況(公開日: 20240831)

TitleAuthorsAbstract論文公表日・翻訳日
# OpenRANet: 最適化に基づくディープラーニングによるサブキャリアとパワーアロケーションによるニューラル化スペクトルアクセス

OpenRANet: Neuralized Spectrum Access by Joint Subcarrier and Power Allocation with Optimization-based Deep Learning ( http://arxiv.org/abs/2409.12964v1 )

ライセンス: Link先を確認
Siya Chen, Chee Wei Tan, Xiangping Zhai, H. Vincent Poor, (参考訳) 次世代無線アクセスネットワーク(RAN)であるOpen RANは、新たな衛星地上システムを含む、無線携帯電話ネットワークのためのAIネイティブインターフェースを提供する予定であり、その運用にディープラーニングが不可欠である。 本稿では,Open RANにおける連系サブキャリアの非凸最適化と電力配分の課題に対処し,利用者の送信データレート要件を満たしつつ,全消費電力を最小化することを目的とする。 我々は,機械学習技術と反復最適化アルゴリズムを統合した最適化に基づくディープラーニングモデルOpenRANetを提案する。 まず、疎結合、変数変換、緩和技術を通じて、元の非凸問題を凸部分確率に変換することから始める。 これらのサブプロブレムは、標準干渉関数フレームワーク内で反復法を用いて効率的に解かれ、原始双対解の導出を可能にする。 これらの解はOpenRANet内の凸最適化層としてシームレスに統合され、数値実験で示すように、機械学習と凸解析を組み合わせることで制約の順守、解の精度、計算効率を向上させる。 OpenRANetはまた、マルチセルシステム、衛星地上ネットワーク、複雑な電力消費要求を伴う将来のOpen RANデプロイメントなど、幅広いシナリオを対象とした、リソースに制約のあるAIネイティブな無線最適化戦略を設計する基盤としても機能する。

The next-generation radio access network (RAN), known as Open RAN, is poised to feature an AI-native interface for wireless cellular networks, including emerging satellite-terrestrial systems, making deep learning integral to its operation. In this paper, we address the nonconvex optimization challenge of joint subcarrier and power allocation in Open RAN, with the objective of minimizing the total power consumption while ensuring users meet their transmission data rate requirements. We propose OpenRANet, an optimization-based deep learning model that integrates machine-learning techniques with iterative optimization algorithms. We start by transforming the original nonconvex problem into convex subproblems through decoupling, variable transformation, and relaxation techniques. These subproblems are then efficiently solved using iterative methods within the standard interference function framework, enabling the derivation of primal-dual solutions. These solutions integrate seamlessly as a convex optimization layer within OpenRANet, enhancing constraint adherence, solution accuracy, and computational efficiency by combining machine learning with convex analysis, as shown in numerical experiments. OpenRANet also serves as a foundation for designing resource-constrained AI-native wireless optimization strategies for broader scenarios like multi-cell systems, satellite-terrestrial networks, and future Open RAN deployments with complex power consumption requirements.
翻訳日:2024-11-07 12:36:59 公開日:2024-08-31
# 研究者による創発的人工知能利用--ジェンダー、キャリアステージ、職場の種類、知覚的障壁の影響

Generative artificial intelligence usage by researchers at work: Effects of gender, career stage, type of workplace, and perceived barriers ( http://arxiv.org/abs/2409.14570v1 )

ライセンス: Link先を確認
Pablo Dorta-González, Alexis Jorge López-Puig, María Isabel Dorta-González, Sara M. González-Betancor, (参考訳) 生成人工知能技術の研究環境への統合は近年ますます一般的になり、研究者の取り組みの仕方が大きく変化している。 本稿では,プロの環境における研究者間の生成AIの利用頻度の要因を探究する。 調査データは、AIに関心を持つ科学者に対する偏見の影響を受け、これらの研究者の視点に結果を反映する可能性があるため、この研究は回帰モデルを用いて、生成AIの使用頻度に対するAI技術の使用に対する、性別、キャリアステージ、職場の種類、および知覚的障壁などの特定の要因の影響を分離する。 また、AI研究や開発への直接的な関与、AI企業とのコラボレーション、地理的位置、科学的規律など、他の関連する変数もコントロールしている。 その結果,AI導入の障壁に直面している研究者はツール使用が11%増加し,トレーニングリソース不足を訴えている研究者は8%減少していた。 女性研究者は男性に比べてAIツールの使用率が7%減少し、先進的なキャリア研究者は19%減少している。 政府の諮問グループに関連する研究者は、政府の役割よりもAIツールを頻繁に使用する傾向が45%高い。 営利企業の研究者は19%増加し、医療研究機関や病院では16%、病院では15%増加している。 本稿では, 研究者間で生成型AIツールの利用を促進するメカニズムの理解を深め, アカデミックと産業の両方に重要な意味を持つ。

The integration of generative artificial intelligence technology into research environments has become increasingly common in recent years, representing a significant shift in the way researchers approach their work. This paper seeks to explore the factors underlying the frequency of use of generative AI amongst researchers in their professional environments. As survey data may be influenced by a bias towards scientists interested in AI, potentially skewing the results towards the perspectives of these researchers, this study uses a regression model to isolate the impact of specific factors such as gender, career stage, type of workplace, and perceived barriers to using AI technology on the frequency of use of generative AI. It also controls for other relevant variables such as direct involvement in AI research or development, collaboration with AI companies, geographic location, and scientific discipline. Our results show that researchers who face barriers to AI adoption experience an 11% increase in tool use, while those who cite insufficient training resources experience an 8% decrease. Female researchers experience a 7% decrease in AI tool usage compared to men, while advanced career researchers experience a significant 19% decrease. Researchers associated with government advisory groups are 45% more likely to use AI tools frequently than those in government roles. Researchers in for-profit companies show an increase of 19%, while those in medical research institutions and hospitals show an increase of 16% and 15%, respectively. This paper contributes to a deeper understanding of the mechanisms driving the use of generative AI tools amongst researchers, with valuable implications for both academia and industry.
翻訳日:2024-11-06 22:08:18 公開日:2024-08-31
# 競合プログラミングにおける大規模言語モデルの性能評価:多年多段階解析

Evaluating the Performance of Large Language Models in Competitive Programming: A Multi-Year, Multi-Grade Analysis ( http://arxiv.org/abs/2409.09054v1 )

ライセンス: Link先を確認
Adrian Marius Dumitran, Adrian Catalin Badea, Stefan-Gabriel Muscalu, (参考訳) 本研究は,ルーマニア語インフォマティクス・オリンピアード(Olympiad)における競合プログラミング問題の解法における大規模言語モデル(LLM)の性能について考察する。 コンピュータ科学コンペティションの先進国であるルーマニアは、豊富な歴史と厳格な競争基準のためにLLM能力を評価するのに理想的な環境を提供している。 2002年から2023年までの304の課題からなるデータセットを収集,分析し,これらの問題に対してLLMがC++とPythonで記述したソリューションに焦点を当てた。 私たちの一番のゴールは、なぜLLMが異なるタスクでうまく、または、うまく機能するのかを理解することです。 GPT-4のようなクローズドソースモデルやCodeLlamaやRoMistralといったオープンウェイトモデルなど、複数の試行とフィードバックラウンドを含む標準化プロセスを用いて、さまざまなモデルを評価した。 解析結果から,LLMの性能はグレードや問題の種類によって大きく異なっていた。 特に, GPT-4は, 中学生向けの教育ツールとしての可能性を示し, 高い性能を示した。 また,LLM間のコード品質とスタイルの差異も観察した。

This study explores the performance of large language models (LLMs) in solving competitive programming problems from the Romanian Informatics Olympiad at the county level. Romania, a leading nation in computer science competitions, provides an ideal environment for evaluating LLM capabilities due to its rich history and stringent competition standards. We collected and analyzed a dataset comprising 304 challenges from 2002 to 2023, focusing on solutions written by LLMs in C++ and Python for these problems. Our primary goal is to understand why LLMs perform well or poorly on different tasks. We evaluated various models, including closed-source models like GPT-4 and open-weight models such as CodeLlama and RoMistral, using a standardized process involving multiple attempts and feedback rounds. The analysis revealed significant variations in LLM performance across different grades and problem types. Notably, GPT-4 showed strong performance, indicating its potential use as an educational tool for middle school students. We also observed differences in code quality and style across various LLMs
翻訳日:2024-09-22 21:42:00 公開日:2024-08-31
# 既存分解型PMI推定法の改善を支援する因子の同定

Identifying Factors to Help Improve Existing Decomposition-Based PMI Estimation Methods ( http://arxiv.org/abs/2409.09056v1 )

ライセンス: Link先を確認
Anna-Maria Nau, Phillip Ditto, Dawnie Wolfe Steadman, Audris Mockus, (参考訳) PMI(Postmortem interval)の正確な評価は、法医学における重要な課題である。 既存の手法のいくつかは、分解スコアを用いてPMIまたは累積次数日(ADD)を予測する回帰モデルを使用しているが、得られた公式は非常に小さなサンプルに基づいており、精度は低い。 ビッグデータの出現により、より大規模なサンプルを使用してPMI推定法を改善することができる。 そこで我々は,PMI予測精度を向上させる方法を検討することを目的とする。 (a) はるかに大きなサンプルサイズを用いる。 (b)より先進的な線形モデルを採用し、 (c)ヒトの崩壊過程に影響を与える因子を有するモデルを強化すること。 具体的には、大規模な分解データセットから249人の被験者のサンプルをキュレーションし、PMI/ADD式を評価し、PMI/ADDを推定するためにより洗練されたモデルを適用する。 その結果, 総分解率 (TDS), 人口統計因子 (年齢, 生物性, BMI) , 気象関連因子 (発見, 温度履歴, 湿度履歴) はPMI/ADDモデルの精度を高めた。 さらに, 予測器としてTDS, 人口統計, 気象特性を用いたPMI推定モデルでは, R-squared 0.34, RMSE 0.95が調整された。 TDSのみを用いてPMIを予測するモデルよりもRMSEが7%低く、既存のPMI式よりも48%低いRMSEを示した。 TDS, 人口統計, 気象に関する特徴を予測値として用いた最高のARD推定モデルでは, R-squared が 0.52 、RMSE が 0.89 と調整された。 TDSのみを用いたモデルより11%低いRMSE, 既存のABD式より52%低いRMSEを示した。 この研究は、人口動態と環境要因をPMI/ADD推定モデルに組み込む必要性(および方法)を示す。

Accurately assessing the postmortem interval (PMI) is an important task in forensic science. Some of the existing techniques use regression models that use a decomposition score to predict the PMI or accumulated degree days (ADD), however, the provided formulas are based on very small samples and the accuracy is low. With the advent of Big Data, much larger samples can be used to improve PMI estimation methods. We, therefore, aim to investigate ways to improve PMI prediction accuracy by (a) using a much larger sample size, (b) employing more advanced linear models, and (c) enhancing models with factors known to affect the human decay process. Specifically, this study involved the curation of a sample of 249 human subjects from a large-scale decomposition dataset, followed by evaluating pre-existing PMI/ADD formulas and fitting increasingly sophisticated models to estimate the PMI/ADD. Results showed that including the total decomposition score (TDS), demographic factors (age, biological sex, and BMI), and weather-related factors (season of discovery, temperature history, and humidity history) increased the accuracy of the PMI/ADD models. Furthermore, the best performing PMI estimation model using the TDS, demographic, and weather-related features as predictors resulted in an adjusted R-squared of 0.34 and an RMSE of 0.95. It had a 7% lower RMSE than a model using only the TDS to predict the PMI and a 48% lower RMSE than the pre-existing PMI formula. The best ADD estimation model, also using the TDS, demographic, and weather-related features as predictors, resulted in an adjusted R-squared of 0.52 and an RMSE of 0.89. It had an 11% lower RMSE than the model using only the TDS to predict the ADD and a 52% lower RMSE than the pre-existing ADD formula. This work demonstrates the need (and way) to incorporate demographic and environmental factors into PMI/ADD estimation models.
翻訳日:2024-09-22 21:42:00 公開日:2024-08-31
# Slug Mobile: RLテストのためのテストベンチ

Slug Mobile: Test-Bench for RL Testing ( http://arxiv.org/abs/2409.10532v1 )

ライセンス: Link先を確認
Jonathan Wellington Morris, Vishrut Shah, Alex Besanceney, Daksh Shah, Leilani H. Gilpin, (参考訳) 強化学習における真のギャップとは、シミュレータで訓練されたモデルが現実世界に変換されない場合である。 これは自動運転車(AV)にとって問題であり、車両のダイナミクスはシミュレーションから現実、車から車まで様々である。 Slug Mobileは、ある車両から別の車両に容易にスケールできるモデルを開発するためのテストベンチとして機能することで、AVのシミュレートと現実のギャップに対処するために作られた1番目のスケールの自動運転車である。 他の10分の1スケールのAVで見つかった従来のセンサーに加えて、我々は、ニューロモルフィックハードウェア上で動作するスパイキングニューラルネットワークをトレーニングするためのダイナミックビジョンセンサーも搭載しました。

Sim-to real gap in Reinforcement Learning is when a model trained in a simulator does not translate to the real world. This is a problem for Autonomous Vehicles (AVs) as vehicle dynamics can vary from simulation to reality, and also from vehicle to vehicle. Slug Mobile is a one tenth scale autonomous vehicle created to help address the sim-to-real gap for AVs by acting as a test-bench to develop models that can easily scale from one vehicle to another. In addition to traditional sensors found in other one tenth scale AVs, we have also included a Dynamic Vision Sensor so we can train Spiking Neural Networks running on neuromorphic hardware.
翻訳日:2024-09-22 21:32:16 公開日:2024-08-31
# コントラスト学習による対話における共音声ジェスチャ表現の学習--本質的評価

Learning Co-Speech Gesture Representations in Dialogue through Contrastive Learning: An Intrinsic Evaluation ( http://arxiv.org/abs/2409.10535v1 )

ライセンス: Link先を確認
Esam Ghaleb, Bulat Khaertdinov, Wim Pouw, Marlou Rasenberg, Judith Holler, Aslı Özyürek, Raquel Fernández, (参考訳) 対面対話では, 対話の形式的意味合いは, ジェスチャーが何を指しているのか, 話者の個人的特徴など, 文脈的要因によって異なる。 これらの要因により、共同音声ジェスチャー表現学習が困難になる。 ジェスチャーの多様性と音声との関係を考慮した意味あるジェスチャー表現の学習法 本稿では、自己教師付きコントラスト学習技術を用いて、骨格情報と音声情報からジェスチャー表現を学習する。 共起音声における非モーダル・マルチモーダル事前学習とグラウンドジェスチャ表現の両方を含むアプローチを提案する。 トレーニングでは,表現的図形ジェスチャーに富んだ対面対話データセットを利用する。 本研究では,人間のアノテーションを用いたジェスチャー類似度との比較により,学習した表現の包括的内在的評価を行う。 さらに,学習した表現から解釈可能なジェスチャー特徴を復元する可能性を評価するために,診断探索分析を行う。 以上の結果から,人間に注釈付けされたジェスチャーの類似性に有意な正の相関性を示し,学習された表現の類似性は,対話相互作用のダイナミックスに関連するよく動機付けられたパターンと一致していることが明らかとなった。 さらに, ジェスチャーの形式に関するいくつかの特徴が, 潜在表現から復元できることが示唆された。 本研究は,マルチモーダルコントラスト学習がジェスチャー表現の学習に有望なアプローチであることを示す。

In face-to-face dialogues, the form-meaning relationship of co-speech gestures varies depending on contextual factors such as what the gestures refer to and the individual characteristics of speakers. These factors make co-speech gesture representation learning challenging. How can we learn meaningful gestures representations considering gestures' variability and relationship with speech? This paper tackles this challenge by employing self-supervised contrastive learning techniques to learn gesture representations from skeletal and speech information. We propose an approach that includes both unimodal and multimodal pre-training to ground gesture representations in co-occurring speech. For training, we utilize a face-to-face dialogue dataset rich with representational iconic gestures. We conduct thorough intrinsic evaluations of the learned representations through comparison with human-annotated pairwise gesture similarity. Moreover, we perform a diagnostic probing analysis to assess the possibility of recovering interpretable gesture features from the learned representations. Our results show a significant positive correlation with human-annotated gesture similarity and reveal that the similarity between the learned representations is consistent with well-motivated patterns related to the dynamics of dialogue interaction. Moreover, our findings demonstrate that several features concerning the form of gestures can be recovered from the latent representations. Overall, this study shows that multimodal contrastive learning is a promising approach for learning gesture representations, which opens the door to using such representations in larger-scale gesture analysis studies.
翻訳日:2024-09-22 21:32:16 公開日:2024-08-31
# AI安全のための国際機関の潜在機能 : 隣接政策分野からの考察と最近の動向

The potential functions of an international institution for AI safety. Insights from adjacent policy areas and recent trends ( http://arxiv.org/abs/2409.10536v1 )

ライセンス: Link先を確認
A. Leone De Castris, C. Thomas, (参考訳) 世界中のAI技術を管理する政府、業界、その他のアクターは、AIが世界の利益を大いに約束する一方で、リスクを軽減するためには適切なガードレールが必要であることに同意する。 OECD、G7、G20、ユネスコ、欧州評議会を含む世界的な機関は、すでに倫理的かつ責任あるAIガバナンスのためのフレームワークの開発を開始している。 これらは重要な初期ステップですが、潜在的に有害なAI能力を特定し評価する、組織化された国際プロセスの必要性に対処するために必要なものではありません。 このギャップにどう対処するかに関する関連する議論に貢献するために、この章は、国際AI安全機関が実行可能な機能について考察する。 この章は、近隣の政策分野における安全性の考慮に対処する既存の国際統治モデルと、英国と米国の新たに設立された国家AI安全機関の両方の分析に基づいて、国際レベルで実施可能な具体的な機能のリストを定めている。 新しい国際組織を作るのが唯一の方法ではないが、モジュラーの観点からこれらの身体の構造を理解することは、我々の処分におけるツールを特定するのに役立ちます。 これらの分類は以下の3つの機能ドメインに分類できる。 a)技術研究と協力 b) 安全と評価 c) 政策作成及びガバナンス支援

Governments, industry, and other actors involved in governing AI technologies around the world agree that, while AI offers tremendous promise to benefit the world, appropriate guardrails are required to mitigate risks. Global institutions, including the OECD, the G7, the G20, UNESCO, and the Council of Europe, have already started developing frameworks for ethical and responsible AI governance. While these are important initial steps, they alone fall short of addressing the need for institutionalised international processes to identify and assess potentially harmful AI capabilities. Contributing to the relevant conversation on how to address this gap, this chapter reflects on what functions an international AI safety institute could perform. Based on the analysis of both existing international governance models addressing safety considerations in adjacent policy areas and the newly established national AI safety institutes in the UK and US, the chapter identifies a list of concrete functions that could be performed at the international level. While creating a new international body is not the only way forward, understanding the structure of these bodies from a modular perspective can help us to identify the tools at our disposal. These, we suggest, can be categorised under three functional domains: a) technical research and cooperation, b) safeguards and evaluations, c) policymaking and governance support.
翻訳日:2024-09-22 21:32:16 公開日:2024-08-31
# 分布ロバスト最適化を用いた生存分析の公正性

Fairness in Survival Analysis with Distributionally Robust Optimization ( http://arxiv.org/abs/2409.10538v1 )

ライセンス: Link先を確認
Shu Hu, George H. Chen, (参考訳) 我々は,少なくともユーザ特定確率で発生する全てのサブポピュレーションにおける最悪のエラーを最小限に抑え,生存分析モデルにおける公平性を奨励するための一般的なアプローチを提案する。 このアプローチは、既存の生存分析モデルの多くを、トレーニング損失関数に敏感に扱う属性や特徴を指定することなく、公正性を同時に促進するモデルに変換するために使用することができる。 技術的観点から,本手法は分散ロバスト最適化(DRO)の最近の発展を生存分析に適用する。 複雑さは、既存のDRO理論では、個々のデータポイントの寄与を分解する訓練損失関数を用いており、損失関数に現れる用語は1つのトレーニングポイントにのみ依存するということである。 この分解は、Cox比例ハザードモデル、ディープニューラルネットワークの変種、最近開発されたランキングや類似度スコア計算を含む損失関数を使用するモデルなど、一般的に使われている生存損失関数には適用されない。 この技術的ハードルに,サンプル分割戦略を用いて対処する。 我々は、この手法を用いて、Coxモデル(および深部変種DeepSurv)、離散時間モデルDeepHit、ニューラルODEモデルSODENを含む、様々な生存分析モデルの公正バージョンを作成することで、サンプル分割DROアプローチを実証した。 また、サンプル分割DRO損失の収束を示すための有限サンプル理論的保証を確立する。 Cox モデルに対しては、サンプル分割を使用しない正確な DRO アプローチも導出する。 私たちがDRO変種に変換するすべてのモデルに対して、DRO変種は、既存の生存分析公正化手法と比較して、(精度の大幅な低下を伴わない)最近確立された公正度指標において、より良いスコアを得られることが示される。

We propose a general approach for encouraging fairness in survival analysis models based on minimizing a worst-case error across all subpopulations that occur with at least a user-specified probability. This approach can be used to convert many existing survival analysis models into ones that simultaneously encourage fairness, without requiring the user to specify which attributes or features to treat as sensitive in the training loss function. From a technical standpoint, our approach applies recent developments of distributionally robust optimization (DRO) to survival analysis. The complication is that existing DRO theory uses a training loss function that decomposes across contributions of individual data points, i.e., any term that shows up in the loss function depends only on a single training point. This decomposition does not hold for commonly used survival loss functions, including for the Cox proportional hazards model, its deep neural network variants, and many other recently developed models that use loss functions involving ranking or similarity score calculations. We address this technical hurdle using a sample splitting strategy. We demonstrate our sample splitting DRO approach by using it to create fair versions of a diverse set of existing survival analysis models including the Cox model (and its deep variant DeepSurv), the discrete-time model DeepHit, and the neural ODE model SODEN. We also establish a finite-sample theoretical guarantee to show what our sample splitting DRO loss converges to. For the Cox model, we further derive an exact DRO approach that does not use sample splitting. For all the models that we convert into DRO variants, we show that the DRO variants often score better on recently established fairness metrics (without incurring a significant drop in accuracy) compared to existing survival analysis fairness regularization techniques.
翻訳日:2024-09-22 21:22:31 公開日:2024-08-31
# フラッシュカードを超えて:医学教育におけるUSMLE熟達と仮想チューニングのためのインテリジェントアシスタントの設計 (パーソナライズされたステップ1プレップのためのハーネスングチャットボット技術に関する研究)

Beyond Flashcards: Designing an Intelligent Assistant for USMLE Mastery and Virtual Tutoring in Medical Education (A Study on Harnessing Chatbot Technology for Personalized Step 1 Prep) ( http://arxiv.org/abs/2409.10540v1 )

ライセンス: Link先を確認
Ritwik Raj Saxena, (参考訳) 伝統的な医学基礎科学の教育的アプローチは、個々の学生の多様な学習スタイルを無視して、一大のモデルに従う。 我々は、USMLE Step 1だけでなく、インターエイリアス、イギリスのPLAB Part 1、インドのNEET(PG)、FMGEといった他の国々でも同様の試験の文脈で、学生の質問に対するオンザフライソリューションを提供することで、このギャップを埋めるインテリジェントAIコンパニオンを提案する。 私はジェネレーティブAIを使って、動的で正確で人間らしく反応し、知識の保持と応用に役立ててきました。 ユーザは、迅速なエンジニアリング、特にコンテキスト内学習を、クエリのフレーム化方法を通じてユーザの意図を理解するためのモデルの精度を高めるために、推奨された。 RAGの実装により、チャットボットは既存の医療知識と、効率的で文脈的に関係のある支援のための生成能力を組み合わせる能力を高めた。 MistralはPythonを使って必要な機能を実行する。 このデジタル対話エージェントはBLEUやROUGEのスコアと同様の基準ベースで0.5985のスコアを得た。 私のアプローチは、USMLE Step 1などの試験のための計画と情報保持を専門とするインテリジェントAIコンパニオンを導入することで、従来の医学基礎科学教育における重要なギャップに対処します。 特に, オンライン検索や, 大量の医療用テキスト, 長い指標, 虫垂の検索の必要性を回避して, オンライン検索が困難である医学基礎科学の質問に対する自発的な回答を得る上で, 試験の受験者が直面しているストレスを考えると, 利用者のニーズに最も適したアドリビタム応答を生成できる高品質なアシスタントをつくりだすことができた。

Traditional medical basic sciences educational approaches follow a one-size-fits-all model, neglecting the diverse learning styles of individual students. I propose an intelligent AI companion which will fill this gap by providing on-the-fly solutions to students' questions in the context of not only USMLE Step 1 but also other similar examinations in other countries, inter alia, PLAB Part 1 in United Kingdom, and NEET (PG) and FMGE in India. I have harnessed Generative AI for dynamic, accurate, human-like responses and for knowledge retention and application. Users were encouraged to employ prompt engineering, in particular, in-context learning, for response optimization and enhancing the model's precision in understanding the intent of the user through the way the query is framed. The implementation of RAG has enhanced the chatbot's ability to combine pre-existing medical knowledge with generative capabilities for efficient and contextually relevant support. Mistral was employed using Python to perform the needed functions. The digital conversational agent was implemented and achieved a score of 0.5985 on a reference-based metric similar to BLEU and ROUGE scores. My approach addresses a critical gap in traditional medical basic sciences education by introducing an intelligent AI companion which specializes in helping medical aspirants with planning and information retention for USMLE Step 1 and other similar exams. Considering the stress that medical aspirants face in studying for the exam and in obtaining spontaneous answers to medical basic sciences queries, especially whose answers are challenging to obtain by searching online, and obviating a student's need to search bulky medical texts or lengthy indices or appendices, I have been able to create a quality assistant capable of producing ad-libitum responses best suited to the user's needs.
翻訳日:2024-09-22 21:22:31 公開日:2024-08-31
# CyberNFTs: MLによる分散型および報酬駆動型侵入検知システムの概念化

CyberNFTs: Conceptualizing a decentralized and reward-driven intrusion detection system with ML ( http://arxiv.org/abs/2409.11409v1 )

ライセンス: Link先を確認
Synim Selimi, Blerim Rexha, Kamer Vishi, (参考訳) インターネットの急速な進化、特にWeb3の出現は、人々のインタラクションやデータの共有の方法を変えました。 Web3はまだ明確に定義されていないが、それは企業によるユーザデータの分散化への回帰であると考えられている。 サイバー侵入を検知し、予防するシステムを構築するというアイデアは時代遅れだが、それでもこれは関心のある話題だ。 本稿では,概念実証を通じて分散協調侵入検知ネットワーク(CIDN)を実現するための新しい概念的アプローチを提案する。 この研究は、最先端のWeb3技術と情報セキュリティの相乗効果を調べる分析的および比較的手法を用いている。 提案モデルには、ブロックチェーンの概念、サイバー非偽造トークン(cyberNFT)報酬、機械学習アルゴリズム、パブリッシュ/サブスクライブアーキテクチャが含まれている。 最後に,提案システムの長所と短所について論じ,分散型サイバーセキュリティモデルの可能性について考察する。

The rapid evolution of the Internet, particularly the emergence of Web3, has transformed the ways people interact and share data. Web3, although still not well defined, is thought to be a return to the decentralization of corporations' power over user data. Despite the obsolescence of the idea of building systems to detect and prevent cyber intrusions, this is still a topic of interest. This paper proposes a novel conceptual approach for implementing decentralized collaborative intrusion detection networks (CIDN) through a proof-of-concept. The study employs an analytical and comparative methodology, examining the synergy between cutting-edge Web3 technologies and information security. The proposed model incorporates blockchain concepts, cyber non-fungible token (cyberNFT) rewards, machine learning algorithms, and publish/subscribe architectures. Finally, the paper discusses the strengths and limitations of the proposed system, offering insights into the potential of decentralized cybersecurity models.
翻訳日:2024-09-22 21:12:27 公開日:2024-08-31
# HSF: 隠れた状態フィルタリングによる脱獄攻撃を擁護

HSF: Defending against Jailbreak Attacks with Hidden State Filtering ( http://arxiv.org/abs/2409.03788v1 )

ライセンス: Link先を確認
Cheng Qian, Hainan Zhang, Lei Sha, Zhiming Zheng, (参考訳) チャットボットやコンテンツ生成といった日常的なアプリケーションへのLLMの展開の増加に伴い、アウトプットと人間の価値の整合性を確保し、有害なコンテンツを避ける努力が強まりました。 しかし、ますます洗練されたジェイルブレイク攻撃は、安全でない出力を誘導することを目的として、このアライメントを脅かしている。 現在の防衛努力は、jailbreakプロンプトの様々な設計のために有効性が制限されたプロンプトの書き換えや検出に焦点が当てられているか、LLM推論を必要とするため計算コストのかかる出力制御と検出に重点を置いている。 したがって、多様なジェイルブレイクプロンプトに抵抗するプレ推論防御手法を設計することは、LLMジェイルブレイク攻撃を防止するために重要である。 我々は、LLMの隠れ状態表現空間内で、ジェイルブレイク攻撃、安全なクエリ、有害なクエリが異なるクラスタリングパターンを示すことを観察する。 このことは、LLMの隠された状態表現能力を利用することで、LLMの今後の振る舞いを分析し、積極的に防御に介入することができることを示唆している。 本稿では,隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。 我々は、追加のプラグインモジュールを通じて防衛ポテンシャルを活性化し、防衛タスクを分類問題として効果的にフレーミングする。 2つのベンチマークデータセット(3つの異なるLLM)の実験結果から、HSFは6つの最先端のジェイルブレイク攻撃に対するレジリエンスを著しく向上することが示された。 不正なユーザクエリに対する応答に最小限の影響を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に削減し、無視可能な推論オーバーヘッドと防御ベースラインを上回り、私たちのコードとデータはhttps://anonymous.4open.science/r/Hidden-State-Filtering-8652/で利用可能です。

With the growing deployment of LLMs in daily applications like chatbots and content generation, efforts to ensure outputs align with human values and avoid harmful content have intensified. However, increasingly sophisticated jailbreak attacks threaten this alignment, aiming to induce unsafe outputs. Current defense efforts either focus on prompt rewriting or detection, which are limited in effectiveness due to the various design of jailbreak prompts, or on output control and detection, which are computationally expensive as they require LLM inference. Therefore, designing a pre-inference defense method that resists diverse jailbreak prompts is crucial for preventing LLM jailbreak attacks. We observe that jailbreak attacks, safe queries, and harmful queries exhibit different clustering patterns within the LLM's hidden state representation space. This suggests that by leveraging the LLM's hidden state representational capabilities, we can analyze the LLM's forthcoming behavior and proactively intervene for defense. In this paper, we propose a jailbreak attack defense strategy based on a Hidden State Filter (HSF), a lossless architectural defense mechanism that enables the model to preemptively identify and reject adversarial inputs before the inference process begins. We activate its defensive potential through an additional plugin module, effectively framing the defense task as a classification problem. Experimental results on two benchmark datasets, utilizing three different LLMs, show that HSF significantly enhances resilience against six cutting-edge jailbreak attacks. It significantly reduces the success rate of jailbreak attacks while minimally impacting responses to benign user queries, with negligible inference overhead, and outperforming defense baselines.Our code and data are available at https://anonymous.4open.science/r/Hidden-State-Filtering-8652/
翻訳日:2024-09-15 05:41:23 公開日:2024-08-31
# BreachSeek: マルチエージェント自動浸透テストツール

BreachSeek: A Multi-Agent Automated Penetration Tester ( http://arxiv.org/abs/2409.03789v1 )

ライセンス: Link先を確認
Ibrahim Alshehri, Adnan Alshehri, Abdulrahman Almalki, Majed Bamardouf, Alaqsa Akbar, (参考訳) 現代のデジタル環境の複雑さとスケールの増大は、しばしば時間がかかり、労働集約的であり、出現する脅威に迅速に適応できない従来のサイバーセキュリティの侵入テスト手法において、大きなギャップを露呈している。 大規模な人的介入なしに、多様なシステムにまたがる脆弱性を効果的に識別し、悪用できる自動化ソリューションには、重要なニーズがある。 BreachSeekは、PythonでLangChainとLangGraphを通じて統合されたLarge Language Models(LLM)を活用する、AI駆動のマルチエージェントソフトウェアプラットフォームを提供することによって、この問題に対処する。 このシステムは、脆弱性を特定し、様々なサイバー攻撃をシミュレートし、エクスプロイトを実行し、包括的なセキュリティレポートを生成することで、自律エージェントによる徹底的な侵入テストを可能にする。 予備評価では、BreachSeekはローカルネットワーク内の悪用可能なマシンの脆弱性をうまく利用し、その実用性を実証した。 今後の開発は、その能力を拡大し、サイバーセキュリティの専門家にとって欠かせないツールとして位置づけることを目指している。

The increasing complexity and scale of modern digital environments have exposed significant gaps in traditional cybersecurity penetration testing methods, which are often time-consuming, labor-intensive, and unable to rapidly adapt to emerging threats. There is a critical need for an automated solution that can efficiently identify and exploit vulnerabilities across diverse systems without extensive human intervention. BreachSeek addresses this challenge by providing an AI-driven multi-agent software platform that leverages Large Language Models (LLMs) integrated through LangChain and LangGraph in Python. This system enables autonomous agents to conduct thorough penetration testing by identifying vulnerabilities, simulating a variety of cyberattacks, executing exploits, and generating comprehensive security reports. In preliminary evaluations, BreachSeek successfully exploited vulnerabilities in exploitable machines within local networks, demonstrating its practical effectiveness. Future developments aim to expand its capabilities, positioning it as an indispensable tool for cybersecurity professionals.
翻訳日:2024-09-15 05:41:23 公開日:2024-08-31
# ブラジルテレグラムにおける黙示録、サバイバル主義、オカルティズム、密教コミュニティ : 信仰が量子コースの販売や有害な陰謀論への扉を開くために使用されるとき

Apocalypse, survivalism, occultism and esotericism communities on Brazilian Telegram: when faith is used to sell quantum courses and open doors to harmful conspiracy theories ( http://arxiv.org/abs/2409.03130v1 )

ライセンス: Link先を確認
Ergon Cugler de Moraes Silva, (参考訳) テレグラムのブラジルのコミュニティは、特に新型コロナウイルス(COVID-19)のパンデミックなど危機の時に、黙示録や生存論に目を向けている。 そこで,本研究では,ブラジルの陰謀論コミュニティが,テレグラムで特徴づけられた黙示録,サバイバル主義,オカルティズム,密教のトピックをどう扱うか,という研究課題に対処することを目的とする。 この研究は、ブラジルの陰謀論コミュニティをテレグラム上で理解し、特徴づけることが主な目的である7つの研究のシリーズの一部であることは注目に値する。 この7つの研究のシリーズは、コーネル大学のarXivで公開され、最初は7つの研究にミラーリングされた手法を適用し、分析の主題だけを変更し、プロプライエタリで認可されたコードを含む調査の再現性を提供し、フリーでオープンソースのソフトウェアの文化を付加した。 この研究の主な発見は、黙示録理論の入り口として機能し、新世界秩序に関する陰謀は黙示録的議論によって増幅され、パンデミックの間、サバイバル主義の物語は著しく成長し、排他的な薬物社会への招待の源となり、科学的偽情報を強化し、黙示録に関する議論は、他の陰謀理論の出発点として機能し、その到達範囲を広げる。

Brazilian communities on Telegram have increasingly turned to apocalyptic and survivalist theories, especially in times of crisis such as the COVID-19 pandemic, where narratives of occultism and esotericism find fertile ground. Therefore, this study aims to address the research question: how are Brazilian conspiracy theory communities on apocalypse, survivalism, occultism and esotericism topics characterized and articulated on Telegram? It is worth noting that this study is part of a series of seven studies whose main objective is to understand and characterize Brazilian conspiracy theory communities on Telegram. This series of seven studies is openly and originally available on arXiv at Cornell University, applying a mirrored method across the seven studies, changing only the thematic object of analysis and providing investigation replicability, including with proprietary and authored codes, adding to the culture of free and open-source software. Regarding the main findings of this study, the following were observed: Occult and esoteric communities function as gateways to apocalypse theories; Conspiracies about the New World Order are amplified by apocalyptic discussions; Survivalist narratives grew significantly during the Pandemic; Occultism and esotericism are sources of invitations to off-label drug communities, reinforcing scientific disinformation; Discussions about the apocalypse serve as a start for other conspiracy theories, expanding their reach.
翻訳日:2024-09-06 22:44:13 公開日:2024-08-31
# 単一顕微鏡像からのマストイド摘出多視点合成

Mastoidectomy Multi-View Synthesis from a Single Microscopy Image ( http://arxiv.org/abs/2409.03190v1 )

ライセンス: Link先を確認
Yike Zhang, Jack Noble, (参考訳) 人工内耳挿入術(CI)は、人工内耳に電極アレイを挿入する侵襲的なマストイド手術を行う。 本稿では,CI顕微鏡画像から合成多視点映像を生成する新しいパイプラインを提案する。 本研究は, 術前CTを用いて, 乳房切除後表面のCT像を予測し, 本目的のために設計した方法である。 我々は,表面を選択された顕微鏡フレームに手動で整列させて,再構成したCTメッシュの正確な初期ポーズを顕微鏡と比較した。 次に、UV投影を行い、フレームから表面テクスチャに色を転送する。 テクスチャ化された表面の新たなビューは、地上の真実のポーズを持つ合成フレームの大きなデータセットを生成するために使用することができる。 Pytorch3DとPyVistaを用いた合成画像の画質評価を行った。 両者のレンダリングエンジンは, ほぼ0.86の平均的な構造的類似度指数を持つ地上の真実と比較して, 同等に高品質な合成ノベルビューフレームに導かれることがわかった。 顕微鏡による2次元から3次元の撮影をCTで自動推定し、拡張現実(AR)の手術を容易にする手法の訓練を継続する上で、既知のポーズを持つ新規なビューの大規模なデータセットが重要である。 このデータセットは、ORにAR(Augmented Reality)を統合する、手術ツールの追跡、他のビデオ分析研究のサポートなど、さまざまな下流タスクを強化する。

Cochlear Implant (CI) procedures involve performing an invasive mastoidectomy to insert an electrode array into the cochlea. In this paper, we introduce a novel pipeline that is capable of generating synthetic multi-view videos from a single CI microscope image. In our approach, we use a patient's pre-operative CT scan to predict the post-mastoidectomy surface using a method designed for this purpose. We manually align the surface with a selected microscope frame to obtain an accurate initial pose of the reconstructed CT mesh relative to the microscope. We then perform UV projection to transfer the colors from the frame to surface textures. Novel views of the textured surface can be used to generate a large dataset of synthetic frames with ground truth poses. We evaluated the quality of synthetic views rendered using Pytorch3D and PyVista. We found both rendering engines lead to similarly high-quality synthetic novel-view frames compared to ground truth with a structural similarity index for both methods averaging about 0.86. A large dataset of novel views with known poses is critical for ongoing training of a method to automatically estimate microscope pose for 2D to 3D registration with the pre-operative CT to facilitate augmented reality surgery. This dataset will empower various downstream tasks, such as integrating Augmented Reality (AR) in the OR, tracking surgical tools, and supporting other video analysis studies.
翻訳日:2024-09-06 22:18:11 公開日:2024-08-31
# StimuVAR:マルチモーダル大言語モデルを用いた時空間刺激対応ビデオアフェクティブ推論

StimuVAR: Spatiotemporal Stimuli-aware Video Affective Reasoning with Multimodal Large Language Models ( http://arxiv.org/abs/2409.00304v1 )

ライセンス: Link先を確認
Yuxiang Guo, Faizan Siddiqui, Yang Zhao, Rama Chellappa, Shao-Yuan Lo, (参考訳) ビデオの予測と推論は、社会的に知的なシステムを開発する上で不可欠だ。 MLLM(Multimodal Large Language Models)は印象的なビデオ理解能力を示しているが、ビデオの意味的内容に注目する傾向があり、しばしば感情的な刺激を見落としている。 したがって、既存のMLLMのほとんどは、視聴者の感情反応を推定し、妥当な説明を提供するのに不足している。 この問題を解決するために,MLLMを用いたVAR(Video Affective Reasoning)のための時空間Stimuli-awareフレームワークであるStimuVARを提案する。 StimuVARには、フレームレベルの認識とトークンレベルの認識という、2段階の刺激認識機構が組み込まれている。 フレームレベルの認識は、視聴者の感情を誘発する可能性が最も高いイベントでビデオフレームをサンプリングする。 トークン空間において、トークンレベルの認識は、MLLMが感情トリガーされた時空間領域に集中させるためにチューブ選択を行う。 さらに、情緒訓練を行い、情緒的焦点に向けてMLLMの推論強度を操り、感情的推論能力を高めるためにVAR命令データを作成する。 VARの有効性を徹底的に評価するために、広範囲なメトリクスを持つ包括的な評価プロトコルを提供する。 StimuVARは、視聴者中心のVARのためのMLLMベースの最初の方法である。 実験は、視聴者の映像に対する感情的な反応を理解し、一貫性と洞察に富んだ説明を提供することにおいて、その優位性を証明している。

Predicting and reasoning how a video would make a human feel is crucial for developing socially intelligent systems. Although Multimodal Large Language Models (MLLMs) have shown impressive video understanding capabilities, they tend to focus more on the semantic content of videos, often overlooking emotional stimuli. Hence, most existing MLLMs fall short in estimating viewers' emotional reactions and providing plausible explanations. To address this issue, we propose StimuVAR, a spatiotemporal Stimuli-aware framework for Video Affective Reasoning (VAR) with MLLMs. StimuVAR incorporates a two-level stimuli-aware mechanism: frame-level awareness and token-level awareness. Frame-level awareness involves sampling video frames with events that are most likely to evoke viewers' emotions. Token-level awareness performs tube selection in the token space to make the MLLM concentrate on emotion-triggered spatiotemporal regions. Furthermore, we create VAR instruction data to perform affective training, steering MLLMs' reasoning strengths towards emotional focus and thereby enhancing their affective reasoning ability. To thoroughly assess the effectiveness of VAR, we provide a comprehensive evaluation protocol with extensive metrics. StimuVAR is the first MLLM-based method for viewer-centered VAR. Experiments demonstrate its superiority in understanding viewers' emotional responses to videos and providing coherent and insightful explanations.
翻訳日:2024-09-06 15:46:49 公開日:2024-08-31
# 進化的アルゴリズムは、ノイズを検知するほどロバストになる

Evolutionary Algorithms Are Significantly More Robust to Noise When They Ignore It ( http://arxiv.org/abs/2409.00306v1 )

ライセンス: Link先を確認
Denis Antipov, Benjamin Doerr, (参考訳) ランダム検索ヒューリスティックス(RHS)は一般にノイズに対して堅牢であると考えられている。 しかしながら、RSHが目的関数への雑音的アクセスにどう対処するかに関する数学的解析のほとんど全ては、各解が他と比べられるたびに再評価されると仮定する。 これは、計算資源を浪費していることと、ノイズが存在することを予見する必要があるためである(ノイズのない環境では、ソリューションを再評価しない)ためである。 本研究は,再評価の必要性を過大評価し,実際は有害であることを示す。 1+1)$の進化的アルゴリズムがLeadingOnesベンチマークをどのように最適化するかという古典的なベンチマーク問題に対して、ソリューションを再評価する際に許容できる$O(n^{-2} \log n)$のノイズレートよりもはるかに高い、一定のノイズレートの再評価を許容できることを示す。 この進化的アルゴリズムの最初の実行時解析は、再評価なしに単一目的雑音の問題を解くことで、そのようなアルゴリズムが従来考えられていたよりもずっと良いノイズに対処し、ノイズの存在を予見する必要がないことを示している。

Randomized search heuristics (RHSs) are generally believed to be robust to noise. However, almost all mathematical analyses on how RSHs cope with a noisy access to the objective function assume that each solution is re-evaluated whenever it is compared to others. This is unfortunate, both because it wastes computational resources and because it requires the user to foresee that noise is present (as in a noise-free setting, one would never re-evaluate solutions). In this work, we show the need for re-evaluations could be overestimated, and in fact, detrimental. For the classic benchmark problem of how the $(1+1)$ evolutionary algorithm optimizes the LeadingOnes benchmark, we show that without re-evaluations up to constant noise rates can be tolerated, much more than the $O(n^{-2} \log n)$ noise rates that can be tolerated when re-evaluating solutions. This first runtime analysis of an evolutionary algorithm solving a single-objective noisy problem without re-evaluations could indicate that such algorithms cope with noise much better than previously thought, and without the need to foresee the presence of noise.
翻訳日:2024-09-06 15:46:49 公開日:2024-08-31
# 機械学習を用いた食品添加分析のための運動活動時系列から抽出した目的的特徴

Objective Features Extracted from Motor Activity Time Series for Food Addiction Analysis Using Machine Learning ( http://arxiv.org/abs/2409.00310v1 )

ライセンス: Link先を確認
Mikhail Borisenkov, Andrei Velichko, Maksim Belyaev, Dmitry Korzun, Tatyana Tserne, Larisa Bakutova, Denis Gubin, (参考訳) 本研究では,食品依存症(FA)を診断し,確認された症状(SC)を評価するための機械学習アルゴリズムについて検討した。 FAおよびSCをYale Food Addiction Scale(YFAS)を用いて測定した81人の参加者(平均年齢:21.5歳、範囲:18-61歳、女性77.8%)からデータを収集した。 参加者は人口統計と人文計測データを提供し、YFAS、Zung Self-Rating Depression Scale、オランダ食行動アンケートを完了し、運動記録のために1週間、非支配的な手首にアクティメーターを着用した。 アクティメトリックデータの解析により,MLを用いてFAおよびSCを正確に予測する有意な統計的特徴とエントロピー的特徴が同定された。 マシューズ相関係数(MCC)が主指標であった。 活動関連特徴は、休息関連特徴(MCC=0.68)よりもFA予測(MCC=0.88)に有効であった。 SCでは、活動セグメントはMCC=0.47、静止セグメントはMCC=0.38、それらの組み合わせはMCC=0.51となった。 また, FAに関連するアクティメトリックな特徴, 感情的, 抑えられた食行動の間に有意な相関関係がみられ, モデルの妥当性が示された。 本研究は, FAおよびSCに関連する生理指標のリアルタイムモニタリングと分析を行う健康デジタル支援機能を備えた,IoTデバイスとMLセンサからなるヒトバイオニックスイートのコンセプトをサポートする。

This study investigates machine learning algorithms to identify objective features for diagnosing food addiction (FA) and assessing confirmed symptoms (SC). Data were collected from 81 participants (mean age: 21.5 years, range: 18-61 years, women: 77.8%) whose FA and SC were measured using the Yale Food Addiction Scale (YFAS). Participants provided demographic and anthropometric data, completed the YFAS, the Zung Self-Rating Depression Scale, and the Dutch Eating Behavior Questionnaire, and wore an actimeter on the non-dominant wrist for a week to record motor activity. Analysis of the actimetric data identified significant statistical and entropy-based features that accurately predicted FA and SC using ML. The Matthews correlation coefficient (MCC) was the primary metric. Activity-related features were more effective for FA prediction (MCC=0.88) than rest-related features (MCC=0.68). For SC, activity segments yielded MCC=0.47, rest segments MCC=0.38, and their combination MCC=0.51. Significant correlations were also found between actimetric features related to FA, emotional, and restrained eating behaviors, supporting the model's validity. Our results support the concept of a human bionic suite composed of IoT devices and ML sensors, which implements health digital assistance with real-time monitoring and analysis of physiological indicators related to FA and SC.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# 遅延最適化による無トレーニングスケッチ誘導拡散

Training-Free Sketch-Guided Diffusion with Latent Optimization ( http://arxiv.org/abs/2409.00313v1 )

ライセンス: Link先を確認
Sandra Zhang Ding, Jiafeng Mao, Kiyoharu Aizawa, (参考訳) 最近の高度な拡散モデルに基づいて、テキスト・ツー・イメージ(T2I)生成モデルは、多彩で高品質な画像を生成する能力を示した。 しかし、現実世界のコンテンツ制作、特に画像生成結果の正確な制御をユーザに提供する可能性を活用することは、大きな課題となる。 本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的な学習自由パイプラインを提案する。 入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。 本稿では,生成プロセスの各中間段階における雑音を補正する遅延最適化手法について紹介する。 遅延最適化により,画像生成の忠実度と精度が向上し,コンテンツ作成における制御とカスタマイズの選択肢が向上する。

Based on recent advanced diffusion models, Text-to-image (T2I) generation models have demonstrated their capabilities in generating diverse and high-quality images. However, leveraging their potential for real-world content creation, particularly in providing users with precise control over the image generation result, poses a significant challenge. In this paper, we propose an innovative training-free pipeline that extends existing text-to-image generation models to incorporate a sketch as an additional condition. To generate new images with a layout and structure closely resembling the input sketch, we find that these core features of a sketch can be tracked with the cross-attention maps of diffusion models. We introduce latent optimization, a method that refines the noisy latent at each intermediate step of the generation process using cross-attention maps to ensure that the generated images closely adhere to the desired structure outlined in the reference sketch. Through latent optimization, our method enhances the fidelity and accuracy of image generation, offering users greater control and customization options in content creation.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# 安全な3Dアセットを目指して:自動可視な透かしのための新しいフレームワーク

Towards Secure and Usable 3D Assets: A Novel Framework for Automatic Visible Watermarking ( http://arxiv.org/abs/2409.00314v1 )

ライセンス: Link先を確認
Gursimran Singh, Tianxi Hu, Mohammad Akbari, Qiang Tang, Yong Zhang, (参考訳) 3Dモデル(特にAI生成モデル)は、エンターテイメントなどさまざまな業界で最近急増している。 したがって、知的財産を保護し、これらの貴重な資産の誤用を避ける必要がある。 これらの問題に対処するための有効なソリューションとして,透かしの品質と有用性という2つの競合する側面の観点から,自動3D透かしの新たなタスクを厳格に定義する。 また, 透かしの適切な位置, 向き, 数を自動的に決定する可視透かしの埋め込み方式を提案する。 提案手法は,バックプロパゲーションを用いて最適なウォーターマーク配置のための変換を自動的に学習する,新しい剛体最適化に基づく。 さらに,透かしを3次元モデルに融合する新しい曲率マッチング手法を提案する。 最後に,2つのベンチマーク3Dデータセットについて,ベースラインと比較して,アプローチの優れた性能を検証した詳細な実験分析を行った。 コードとデモが公開されている。

3D models, particularly AI-generated ones, have witnessed a recent surge across various industries such as entertainment. Hence, there is an alarming need to protect the intellectual property and avoid the misuse of these valuable assets. As a viable solution to address these concerns, we rigorously define the novel task of automated 3D visible watermarking in terms of two competing aspects: watermark quality and asset utility. Moreover, we propose a method of embedding visible watermarks that automatically determines the right location, orientation, and number of watermarks to be placed on arbitrary 3D assets for high watermark quality and asset utility. Our method is based on a novel rigid-body optimization that uses back-propagation to automatically learn transforms for ideal watermark placement. In addition, we propose a novel curvature-matching method for fusing the watermark into the 3D model that further improves readability and security. Finally, we provide a detailed experimental analysis on two benchmark 3D datasets validating the superior performance of our approach in comparison to baselines. Code and demo are available.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# オープンドメインダイアログ生成のための文脈長に関する実証的研究

An Empirical Study on Context Length for Open-Domain Dialog Generation ( http://arxiv.org/abs/2409.00315v1 )

ライセンス: Link先を確認
Xinyi Shen, Zuoquan Lin, (参考訳) 近年,トランスフォーマーベースのオープンドメインダイアログモデルが普及している。 これらのモデルは通常、コンテキストをダイアログ履歴の連結として表現する。 しかし、その文脈で適切な発話数を維持するための基準は存在しない。 文脈長の選択がモデルにどのように影響するかを明らかにする。 粗末から罰金までの3つの質問を実験する。 i) より長いコンテキストはモデルのトレーニングに役立つか? (ii)異なる文脈長のダイアログを扱う場合、トレーニングコンテキスト長を変更する必要があるか? (iii)異なるダイアログサンプルはコンテキスト長と同じ好みを持つか? 実験の結果,コンテクスト長はよく見過ごされるが,Transformerベースのダイアログモデルを実装する際には注目に値することがわかった。

Transformer-based open-domain dialog models have become increasingly popular in recent years. These models typically represent context as a concatenation of a dialog history. However, there is no criterion to decide how many utterances should be kept adequate in a context. We try to figure out how the choice of context length affects the model. We experiment on three questions from coarse to fine: (i) Does longer context help model training? (ii) Is it necessary to change the training context length when dealing with dialogs of different context lengths? (iii) Do different dialog samples have the same preference for context length? Our experimental results show that context length, an often overlooked setting, deserves attention when implementing Transformer-based dialog models.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# より完全なOMRソリューションを目指して

Toward a More Complete OMR Solution ( http://arxiv.org/abs/2409.00316v1 )

ライセンス: Link先を確認
Guang Yang, Muru Zhang, Lin Qiu, Yanming Wan, Noah A. Smith, (参考訳) 光音楽認識(OMR)は、音楽の表記をデジタル形式に変換することを目的としている。 OMRに取り組むためのアプローチの1つは、マルチステージパイプラインを通じて、システムはまず画像内の視覚的音楽の表記要素を検知し(オブジェクト検出)、次にそれらを音楽の記法(記法アセンブリ)に組み立てる。 記法アセンブリに関するこれまでのほとんどの研究は、非現実的に完璧なオブジェクト検出を前提としていた。 本研究では,検出された音楽オブジェクト間のペア関係を持つグラフとして音楽表記を表現したMUSCIMA++ v2.0データセットに着目し,両ステージを一緒に検討する。 まず, YOLOv8に基づく音楽オブジェクト検出器を導入し, 検出性能を向上する。 第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。 このモデルは, 完全検出出力で訓練された既存モデルよりも優れており, より包括的に検出と組立の段階を考慮する利点が示される。 これらの知見は、我々の新しい評価基準とともに、より完全なOMRソリューションに向けた重要なステップである。

Optical music recognition (OMR) aims to convert music notation into digital formats. One approach to tackle OMR is through a multi-stage pipeline, where the system first detects visual music notation elements in the image (object detection) and then assembles them into a music notation (notation assembly). Most previous work on notation assembly unrealistically assumes perfect object detection. In this study, we focus on the MUSCIMA++ v2.0 dataset, which represents musical notation as a graph with pairwise relationships among detected music objects, and we consider both stages together. First, we introduce a music object detector based on YOLOv8, which improves detection performance. Second, we introduce a supervised training pipeline that completes the notation assembly stage based on detection output. We find that this model is able to outperform existing models trained on perfect detection output, showing the benefit of considering the detection and assembly stages in a more holistic way. These findings, together with our novel evaluation metric, are important steps toward a more complete OMR solution.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# FBD-SV-2024:サーベイランスビデオにおける鳥の物体検出データセット

FBD-SV-2024: Flying Bird Object Detection Dataset in Surveillance Video ( http://arxiv.org/abs/2409.00317v1 )

ライセンス: Link先を確認
Zi-Wei Sun, Ze-Xi Hua, Heng-Chao Li, Zhi-Peng Qi, Xiang Li, Yan Li, Jin-Chi Zhang, (参考訳) The Flying Bird Dataset for Surveillance Videos (FBD-SV-2024) が導入された。 このデータセットは483のビデオクリップで構成され、合計28,694フレームである。 そのうち23,833体は28,366羽の鳥が生息している。 提案した観察ビデオにおける飛行鳥のデータセットは、現実的な監視シナリオから収集され、鳥は単一のフレーム(場合によっては)で不明瞭な特徴、一般的に小さなサイズ、飛行中の形状の変動などの特徴を示す。 これらの属性は、監視ビデオの飛行鳥検出方法を開発する際に対処する必要がある課題を提起する。 最後に、提案したデータセットの実験のために、高度な(ビデオ)オブジェクト検出アルゴリズムが選択された。 https://github.com/Ziwei89/FBD-SV-2024_githubを参照してください。

A Flying Bird Dataset for Surveillance Videos (FBD-SV-2024) is introduced and tailored for the development and performance evaluation of flying bird detection algorithms in surveillance videos. This dataset comprises 483 video clips, amounting to 28,694 frames in total. Among them, 23,833 frames contain 28,366 instances of flying birds. The proposed dataset of flying birds in surveillance videos is collected from realistic surveillance scenarios, where the birds exhibit characteristics such as inconspicuous features in single frames (in some instances), generally small sizes, and shape variability during flight. These attributes pose challenges that need to be addressed when developing flying bird detection methods for surveillance videos. Finally, advanced (video) object detection algorithms were selected for experimentation on the proposed dataset, and the results demonstrated that this dataset remains challenging for the algorithms above. The FBD-SV-2024 is now publicly available: Please visit https://github.com/Ziwei89/FBD-SV-2024_github for the dataset download link and related processing scripts.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# 微分プライベート合成高次元タブラル流

Differentially Private Synthetic High-dimensional Tabular Stream ( http://arxiv.org/abs/2409.00322v1 )

ライセンス: Link先を確認
Girish Kumar, Thomas Strohmer, Roman Vershynin, (参考訳) 差分的なプライベートな合成データ生成は、文献で広く研究されているが、基礎となるプライベートなデータ変更があまり理解されていない場合、将来このデータを更新する方法がある。 本稿では,複数の合成データセットを時間とともに生成し,基礎となるプライベートデータの変化を追跡する,ストリーミングデータのためのアルゴリズムフレームワークを提案する。 我々のアルゴリズムは入力ストリーム全体の差分プライバシー(連続差分プライバシー)を満足し、高次元の表データに使用できる。 さらに,実世界のデータセットを用いた実験により,本手法の有用性を示す。 提案アルゴリズムは、ストリームのための選択、測度、適合、および(オフライン合成データ生成アルゴリズムによって使用される)繰り返しパラダイムとプライベートカウンタに基づいて構築される。

While differentially private synthetic data generation has been explored extensively in the literature, how to update this data in the future if the underlying private data changes is much less understood. We propose an algorithmic framework for streaming data that generates multiple synthetic datasets over time, tracking changes in the underlying private data. Our algorithm satisfies differential privacy for the entire input stream (continual differential privacy) and can be used for high-dimensional tabular data. Furthermore, we show the utility of our method via experiments on real-world datasets. The proposed algorithm builds upon a popular select, measure, fit, and iterate paradigm (used by offline synthetic data generation algorithms) and private counters for streams.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# 予測から応用へ:ドメイン適応型事前学習による言語モデルに基づくコード知識の追跡と教育的試行による包括的プログラミング教育のための自動フィードバックシステム

From Prediction to Application: Language Model-based Code Knowledge Tracing with Domain Adaptive Pre-Training and Automatic Feedback System with Pedagogical Prompting for Comprehensive Programming Education ( http://arxiv.org/abs/2409.00323v1 )

ライセンス: Link先を確認
Unggi Lee, Jiyeong Bae, Yeonji Jung, Minji Kang, Gyuri Byun, Yeonseo Lee, Dohee Kim, Sookbun Lee, Jaekwon Park, Taekyung Ahn, Gunho Lee, Hyeoncheol Kim, (参考訳) 知識追跡(KT)はオンライン学習において重要な要素であるが、従来のアプローチでは解釈可能性とドメイン間の適応性の制限に直面している。 本稿では,Language Model-based Code Knowledge Tracing (CodeLKT)を紹介し,Language Model-based Knowledge Tracing (LKT)のプログラミング教育への応用について述べる。 CodeLKTは事前訓練された言語モデルを利用して学習データを処理し、既存のKTモデルやCode KTモデルよりも優れたパフォーマンスを示す。 本稿では、DAPT(Domain Adaptive Pre-Training)とTAPT(Task Adaptive Pre-Training)について検討し、コーディング領域の性能向上と、数学とコーディングの間のクロスドメイン転送について検討する。 さらに,CodeLKTと大規模言語モデルを組み合わせた理論的にインフォームドされた統合システムを提案し,学生のプログラミング学習を支援するためのパーソナライズされた奥行きフィードバックを生成する。 この研究は、言語モデルに基づくアプローチで知識ベースを拡張し、データインフォームドフィードバックを通じてプログラミング教育に実践的な意味を提供することによって、コード知識追跡の分野を前進させる。

Knowledge Tracing (KT) is a critical component in online learning, but traditional approaches face limitations in interpretability and cross-domain adaptability. This paper introduces Language Model-based Code Knowledge Tracing (CodeLKT), an innovative application of Language model-based Knowledge Tracing (LKT) to programming education. CodeLKT leverages pre-trained language models to process learning data, demonstrating superior performance over existing KT and Code KT models. We explore Domain Adaptive Pre-Training (DAPT) and Task Adaptive Pre-Training (TAPT), showing enhanced performance in the coding domain and investigating cross-domain transfer between mathematics and coding. Additionally, we present an theoretically-informed integrated system combining CodeLKT with large language models to generate personalized, in-depth feedback to support students' programming learning. This work advances the field of Code Knowledge Tracing by expanding the knowledge base with language model-based approach and offering practical implications for programming education through data-informed feedback.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# ブラジルテレグラムにおける反煙的議題、ジェンダー問題、リビジョン主義、ヘイトスピーチコミュニティ--有害な反動演説からナチズムとヒトラーを称賛する犯罪まで

Anti-woke agenda, gender issues, revisionism and hate speech communities on Brazilian Telegram: from harmful reactionary speech to the crime of glorifying Nazism and Hitler ( http://arxiv.org/abs/2409.00325v1 )

ライセンス: Link先を確認
Ergon Cugler de Moraes Silva, (参考訳) 進歩的な政策やヘイトスピーチに対する抵抗はブラジルのテレグラムに集約され、反煙コミュニティは多様性を拒否し、これらの社会的変化を脅威と見なす世界観を促進している。 そこで,本研究では,ブラジルの陰謀論コミュニティが,Telegramで特徴づけられた反Woke議題,ジェンダー問題,リビジョン主義,ヘイトスピーチの話題に対してどのように対処しているのか,という研究課題に対処することを目的とする。 この研究は、ブラジルの陰謀論コミュニティをテレグラム上で理解し、特徴づけることが主な目的である7つの研究のシリーズの一部であることは注目に値する。 この7つの研究のシリーズは、コーネル大学のarXivで公開され、最初は7つの研究にミラーリングされた手法を適用し、分析の主題だけを変更し、プロプライエタリで認可されたコードを含む調査の再現性を提供し、フリーでオープンソースのソフトウェアの文化を付加した。 この研究の主な発見は、ブラジルの陰謀エコシステムの中心的な勢力として反煙コミュニティが出現する; 危機の間、ヘイトスピーチとリビジョン主義の言及は、偏見を反映して著しく増加した; テレグラムのナチスのコミュニティは、過激主義のイデオロギーを広め、ヒトラーを称賛する; 反煙、反ジェンダー、リビジョン主義の相互接続性は、憎悪のエコシステムを強化する; 反ジェンダーのスピーチは、反ワクチンの拡散を助長し、健康と陰謀の共通点を形成している。

Resistance to progressive policies and hate speech have been consolidating on Brazilian Telegram, with anti-woke communities rejecting diversity and promoting a worldview that sees these social changes as a threat. Therefore, this study aims to address the research question: how are Brazilian conspiracy theory communities on anti-woke agenda, gender issues, revisionism and hate speech topics characterized and articulated on Telegram? It is worth noting that this study is part of a series of seven studies whose main objective is to understand and characterize Brazilian conspiracy theory communities on Telegram. This series of seven studies is openly and originally available on arXiv at Cornell University, applying a mirrored method across the seven studies, changing only the thematic object of analysis and providing investigation replicability, including with proprietary and authored codes, adding to the culture of free and open-source software. Regarding the main findings of this study, the following were observed: Anti-woke communities emerge as central forces in the Brazilian conspiracy ecosystem; During crises, mentions of hate speech and revisionism have increased significantly, reflecting polarization; Nazi communities on Telegram propagate extremist ideologies, glorifying Hitler; The interconnectivity between anti-woke, anti-gender and revisionism strengthens the ecosystem of hate; Anti-gender speech facilitates the spread of anti-vaccine disinformation, creating an intersection between health and conspiracy.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# デモ:FedCampus:Federated Learning & Analyticsによるスマートキャンパスのための現実のプライバシ保護モバイルアプリ

Demo: FedCampus: A Real-world Privacy-preserving Mobile Application for Smart Campus via Federated Learning & Analytics ( http://arxiv.org/abs/2409.00327v1 )

ライセンス: Link先を確認
Jiaxiang Geng, Beilong Tang, Boyan Zhang, Jiaqi Shao, Bing Luo, (参考訳) このデモでは、Smart \underline{campus}用のプライバシ保護モバイルアプリであるFedCampusを紹介します。 FedCampusはiOSとAndroidの両方でクロスプラットフォームのFL/FAをサポートし、継続的なモデルとアルゴリズムのデプロイ(MLOps)をサポートする。 私たちのアプリは、FedCampusバックエンドプラットフォームを通じてFL/FAに処理パラメータが使用されるスマートウォッチからの差分プライバシ(DP)を介して、プライバシを保存する処理データを統合しています。 私たちはデューク・クンシャン大学のボランティアに100個のスマートウォッチを配布し、睡眠トラッキング、身体活動監視、パーソナライズされたレコメンデーション、重傷者といった機能を備えた一連のスマートキャンパスタスクを完了しました。 私たちのプロジェクトはhttps://github.com/FedCampus/FedCampus_Flutter.orgで公開されている。 FedCampusのビデオはhttps://youtu.be/k5iu46IjA38。

In this demo, we introduce FedCampus, a privacy-preserving mobile application for smart \underline{campus} with \underline{fed}erated learning (FL) and federated analytics (FA). FedCampus enables cross-platform on-device FL/FA for both iOS and Android, supporting continuously models and algorithms deployment (MLOps). Our app integrates privacy-preserving processed data via differential privacy (DP) from smartwatches, where the processed parameters are used for FL/FA through the FedCampus backend platform. We distributed 100 smartwatches to volunteers at Duke Kunshan University and have successfully completed a series of smart campus tasks featuring capabilities such as sleep tracking, physical activity monitoring, personalized recommendations, and heavy hitters. Our project is opensourced at https://github.com/FedCampus/FedCampus_Flutter. See the FedCampus video at https://youtu.be/k5iu46IjA38.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# 多変量分布強化学習の基礎

Foundations of Multivariate Distributional Reinforcement Learning ( http://arxiv.org/abs/2409.00328v1 )

ライセンス: Link先を確認
Harley Wiltzer, Jesse Farebrother, Arthur Gretton, Mark Rowland, (参考訳) 強化学習(RL)において、多変量報酬信号の考慮は、多目的意思決定、伝達学習、表現学習の根本的な進歩につながった。 この研究は、多変量分布動的計画法と時間差分学習を実証的に収束させる最初のオラクルフリーで計算可能なアルゴリズムを導入している。 我々の収束速度はスカラー報酬設定の精通率と一致し、さらに報酬次元の関数としての近似回帰分布表現の忠実性に関する新たな洞察を提供する。 驚いたことに、報酬次元が1ドルより大きい場合、分類的TD学習の標準解析は失敗し、これは質量1$の符号付き測度の空間に新しい射影で解決する。 最後に, 実運用における多変量分布RLの性能に影響を及ぼす分布表現間のトレードオフを, 技術的結果とシミュレーションの助けを借りて同定する。

In reinforcement learning (RL), the consideration of multivariate reward signals has led to fundamental advancements in multi-objective decision-making, transfer learning, and representation learning. This work introduces the first oracle-free and computationally-tractable algorithms for provably convergent multivariate distributional dynamic programming and temporal difference learning. Our convergence rates match the familiar rates in the scalar reward setting, and additionally provide new insights into the fidelity of approximate return distribution representations as a function of the reward dimension. Surprisingly, when the reward dimension is larger than $1$, we show that standard analysis of categorical TD learning fails, which we resolve with a novel projection onto the space of mass-$1$ signed measures. Finally, with the aid of our technical results and simulations, we identify tradeoffs between distribution representations that influence the performance of multivariate distributional RL in practice.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# GMFL-Net: 反復行動計数のためのグローバル多元的特徴学習ネットワーク

GMFL-Net: A Global Multi-geometric Feature Learning Network for Repetitive Action Counting ( http://arxiv.org/abs/2409.00330v1 )

ライセンス: Link先を確認
Jun Li, Jinying Wu, Qiming Li, Feifei Guo, (参考訳) 深層学習の継続的な発展に伴い、反復的な行動カウントの分野は多くの研究者から徐々に注目されるようになった。 ヒトのポーズ推定ネットワークを用いたポーズキーポイントの抽出は効果的なポーズレベル手法であることが証明された。 しかし、既存のポーズレベルの手法は、カメラの視点の変化による動作歪みに対処するには単一の座標が十分安定していないという欠点に悩まされており、従って適切なポーズを正確に識別することができず、例外から実際のアクションへの移行時の誤検出に対して脆弱である。 これらの問題を解決するために,GMFL-Net(Global Multi-geometric Feature Learning Network)を提案する。 具体的には,マルチジオメトリ特徴を融合させて情報表現を改善することを目的としたMIAモジュールを設計し,入力されたマルチジオメトリ特徴間の意味的類似性を学習する。 そして,グローバルな視点から特徴表現を改善するため,ポイントワイド要素とチャネルワイド要素の相互依存性を高めるGBFLモジュールを設計し,MIAモジュールが生成するリッチな局所情報と組み合わせ,包括的かつ最も代表的なグローバルな特徴表現を合成する。 さらに、既存のデータセットが不足していることを考慮すると、異なるサイクルの長さと例外を含むCountix-Fitness-pose(https://github.com/Wantong66/Countix-Fitness)と呼ばれる新しいデータセット、長い期間のテストセット、ポーズレベルで細かいアノテーションで注釈付けします。 また、肺とロープのプッシュダウンという2つの新しいアクションクラスも追加します。 最後に、RepCount-pose、UCFRep-pose、Countix-Fitness-poseベンチマークの課題について広範な実験を行い、提案したGMFL-Netが最先端の性能を達成することを示す。

With the continuous development of deep learning, the field of repetitive action counting is gradually gaining notice from many researchers. Extraction of pose keypoints using human pose estimation networks is proven to be an effective pose-level method. However, existing pose-level methods suffer from the shortcomings that the single coordinate is not stable enough to handle action distortions due to changes in camera viewpoints, thus failing to accurately identify salient poses, and is vulnerable to misdetection during the transition from the exception to the actual action. To overcome these problems, we propose a simple but efficient Global Multi-geometric Feature Learning Network (GMFL-Net). Specifically, we design a MIA-Module that aims to improve information representation by fusing multi-geometric features, and learning the semantic similarity among the input multi-geometric features. Then, to improve the feature representation from a global perspective, we also design a GBFL-Module that enhances the inter-dependencies between point-wise and channel-wise elements and combines them with the rich local information generated by the MIA-Module to synthesise a comprehensive and most representative global feature representation. In addition, considering the insufficient existing dataset, we collect a new dataset called Countix-Fitness-pose (https://github.com/Wantong66/Countix-Fitness) which contains different cycle lengths and exceptions, a test set with longer duration, and annotate it with fine-grained annotations at the pose-level. We also add two new action classes, namely lunge and rope push-down. Finally, extensive experiments on the challenging RepCount-pose, UCFRep-pose, and Countix-Fitness-pose benchmarks show that our proposed GMFL-Net achieves state-of-the-art performance.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# WikiCausal: 因果知識グラフ構築のためのコーパスと評価フレームワーク

WikiCausal: Corpus and Evaluation Framework for Causal Knowledge Graph Construction ( http://arxiv.org/abs/2409.00331v1 )

ライセンス: Link先を確認
Oktie Hassanzadeh, (参考訳) 近年,一般ドメインやドメイン固有の因果知識グラフの構築への関心が高まっている。 このような知識グラフは因果解析や事象予測の推論を可能にし、異なる領域にまたがる幅広いアプリケーションを持つ。 因果知識グラフの自動構築に向けて大きな進展が見られたが、そのようなソリューションの評価は、低レベルなタスク(例えば、因果語句抽出)やアドホックな評価データ、手作業による小さな評価に重点を置いている。 本稿では,因果知識グラフ構築のためのコーパス,タスク,評価フレームワークを提案する。 我々のコーパスはウィキデータにおけるイベント関連概念の収集のためのウィキペディア記事で構成されている。 課題は、コーパスからイベント概念間の因果関係を抽出することである。 この評価は、Wikidataの既存の因果関係を用いて、リコールを計測し、また、手動やクラウドソースによる評価の必要を回避するために、大規模言語モデルを用いて行われる。 質問応答や概念リンクのためのニューラルモデルに依存する因果知識グラフ構築のためのパイプラインを評価し,コーパスと評価フレームワークが,各タスクに対して適切なモデルを効果的に見つけることができるかを示す。 コーパスと評価フレームワークが公開されている。

Recently, there has been an increasing interest in the construction of general-domain and domain-specific causal knowledge graphs. Such knowledge graphs enable reasoning for causal analysis and event prediction, and so have a range of applications across different domains. While great progress has been made toward automated construction of causal knowledge graphs, the evaluation of such solutions has either focused on low-level tasks (e.g., cause-effect phrase extraction) or on ad hoc evaluation data and small manual evaluations. In this paper, we present a corpus, task, and evaluation framework for causal knowledge graph construction. Our corpus consists of Wikipedia articles for a collection of event-related concepts in Wikidata. The task is to extract causal relations between event concepts from the corpus. The evaluation is performed in part using existing causal relations in Wikidata to measure recall, and in part using Large Language Models to avoid the need for manual or crowd-sourced evaluation. We evaluate a pipeline for causal knowledge graph construction that relies on neural models for question answering and concept linking, and show how the corpus and the evaluation framework allow us to effectively find the right model for each task. The corpus and the evaluation framework are publicly available.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# 運動軌跡の表現・理解における大規模言語モデルの有効性の評価

Evaluating the Effectiveness of Large Language Models in Representing and Understanding Movement Trajectories ( http://arxiv.org/abs/2409.00335v1 )

ライセンス: Link先を確認
Yuhan Ji, Song Gao, (参考訳) 本研究は,運動軌跡を表現するAI基盤モデルの能力を評価することに焦点を当てる。 我々は,大規模言語モデル(LLM)の1つ(GPT-J)を用いて,トラジェクトリの文字列形式を符号化し,トラジェクトリデータ解析におけるLLMに基づく表現の有効性を評価する。 実験により、LLMをベースとした埋め込みは、ある軌跡距離の測定値(つまり、GPT-J埋め込みから導かれるコサイン距離と原軌跡上のハウスドルフと動的時間ワープ距離との相関係数が0.74を超えること)を維持できるが、運動軌跡解析において数値値の復元と空間的近傍の回収に課題が残ることを示した。 さらに、LLMは軌跡に含まれる時空間依存性を理解し、位置予測タスクにおいて精度が高い。 本研究は,基礎となる地理空間データのニュアンスや複雑さを把握し,LLMを用いた様々なGeoAIアプリケーションをサポートするためにドメイン知識を統合することの必要性を強調した。

This research focuses on assessing the ability of AI foundation models in representing the trajectories of movements. We utilize one of the large language models (LLMs) (i.e., GPT-J) to encode the string format of trajectories and then evaluate the effectiveness of the LLM-based representation for trajectory data analysis. The experiments demonstrate that while the LLM-based embeddings can preserve certain trajectory distance metrics (i.e., the correlation coefficients exceed 0.74 between the Cosine distance derived from GPT-J embeddings and the Hausdorff and Dynamic Time Warping distances on raw trajectories), challenges remain in restoring numeric values and retrieving spatial neighbors in movement trajectory analytics. In addition, the LLMs can understand the spatiotemporal dependency contained in trajectories and have good accuracy in location prediction tasks. This research highlights the need for improvement in terms of capturing the nuances and complexities of the underlying geospatial data and integrating domain knowledge to support various GeoAI applications using LLMs.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# GSpect: 大規模グラフ分類のためのスペクトルフィルタリング

GSpect: Spectral Filtering for Cross-Scale Graph Classification ( http://arxiv.org/abs/2409.00338v1 )

ライセンス: Link先を確認
Xiaoyu Zhang, Wenchuan Yang, Jiawei Feng, Bitao Dai, Tianci Bu, Xin Lu, (参考訳) 共通構造を同定することは、ネットワーク化されたシステムの設計と最適化の基礎となる。 しかし、グラフで表される実際の構造は、しばしば異なる大きさであり、従来のグラフ分類法の精度は低い。 これらのグラフはクロススケールグラフと呼ばれる。 本稿では,この制限を克服するために,クロススケールグラフ分類タスクのための高度なスペクトルグラフフィルタリングモデルであるGSpectを提案する。 他の手法と比較して、モデルの畳み込み層にグラフウェーブレットニューラルネットワークを使用し、マルチスケールメッセージを集約してグラフ表現を生成する。 我々は,ノードをひとつのノードに集約して,クロススケールグラフを同じサイズに縮小するスペクトルプーリング層を設計する。 クロススケールベンチマークデータセットMSG(Multi Scale Graphs)を収集・構築する。 実験によると、オープンデータセットでは、GSpectは平均で1.62%、最大で3.33%の分類精度を向上させる。 MSGでは、GSpectは分類精度を平均15.55%向上させる。 GSpectは、クロススケールグラフ分類研究のギャップを埋め、脳ネットワークのラベルを予測し、他のシステムで学習した分子構造を持つ新しい薬物を開発することで、脳疾患の診断のような応用研究を支援する可能性がある。

Identifying structures in common forms the basis for networked systems design and optimization. However, real structures represented by graphs are often of varying sizes, leading to the low accuracy of traditional graph classification methods. These graphs are called cross-scale graphs. To overcome this limitation, in this study, we propose GSpect, an advanced spectral graph filtering model for cross-scale graph classification tasks. Compared with other methods, we use graph wavelet neural networks for the convolution layer of the model, which aggregates multi-scale messages to generate graph representations. We design a spectral-pooling layer which aggregates nodes to one node to reduce the cross-scale graphs to the same size. We collect and construct the cross-scale benchmark data set, MSG (Multi Scale Graphs). Experiments reveal that, on open data sets, GSpect improves the performance of classification accuracy by 1.62% on average, and for a maximum of 3.33% on PROTEINS. On MSG, GSpect improves the performance of classification accuracy by 15.55% on average. GSpect fills the gap in cross-scale graph classification studies and has potential to provide assistance in application research like diagnosis of brain disease by predicting the brain network's label and developing new drugs with molecular structures learned from their counterparts in other systems.
翻訳日:2024-09-06 15:37:00 公開日:2024-08-31
# 魚追跡コンテスト2024:Sweetfish Schooling Dataによる多目的追跡コンテスト

Fish Tracking Challenge 2024: A Multi-Object Tracking Competition with Sweetfish Schooling Data ( http://arxiv.org/abs/2409.00339v1 )

ライセンス: Link先を確認
Makoto M. Itoh, Qingrui Hu, Takayuki Niizato, Hiroaki Kawashima, Keisuke Fujii, (参考訳) 水生環境における集団動物行動の研究は、民族学、生態学、生物航法学の分野における運動と相互作用パターンを理解するためのユニークな課題と機会を提示する。 The Fish Tracking Challenge 2024 (https://ftc-2024.github.io/)は、サツマイモの複雑な行動に焦点を当てた多目的追跡コンテストである。 SweetFishデータセットを使用することで、参加者は10種のサツマイモの位置を同時に正確に監視する高度な追跡モデルの開発を任される。 本稿では,コンペティションの背景,目的,SweetFishデータセット,第1~第3回受賞者の評価,ベースラインについて紹介する。 ビデオデータとバウンディングボックスアノテーションを活用することで、このコンペティションは、水生動物の運動の複雑さに対処して、自動検出と追跡アルゴリズムの革新を促進することを目指している。 この課題は、動物集団行動のダイナミクスを発見するための多目的追跡の重要性を提供し、上記の分野における科学的理解を著しく前進させる可能性がある。

The study of collective animal behavior, especially in aquatic environments, presents unique challenges and opportunities for understanding movement and interaction patterns in the field of ethology, ecology, and bio-navigation. The Fish Tracking Challenge 2024 (https://ftc-2024.github.io/) introduces a multi-object tracking competition focused on the intricate behaviors of schooling sweetfish. Using the SweetFish dataset, participants are tasked with developing advanced tracking models to accurately monitor the locations of 10 sweetfishes simultaneously. This paper introduces the competition's background, objectives, the SweetFish dataset, and the appraoches of the 1st to 3rd winners and our baseline. By leveraging video data and bounding box annotations, the competition aims to foster innovation in automatic detection and tracking algorithms, addressing the complexities of aquatic animal movements. The challenge provides the importance of multi-object tracking for discovering the dynamics of collective animal behavior, with the potential to significantly advance scientific understanding in the above fields.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# LightPure:拡散モデルを用いたモバイルデバイスのリアルタイム逆画像浄化

LightPure: Realtime Adversarial Image Purification for Mobile Devices Using Diffusion Models ( http://arxiv.org/abs/2409.00340v1 )

ライセンス: Link先を確認
Hossein Khalili, Seongbin Park, Vincent Li, Brandan Bright, Ali Payani, Ramana Rao Kompella, Nader Sehatbakhsh, (参考訳) 自律的なモバイルシステムは、認識と意思決定のためにディープニューラルネットワークにますます依存している。 効果はあるものの、これらのシステムは、小さな入力摂動が結果に著しく影響を及ぼす敵の機械学習攻撃に対して脆弱である。 共通の対策として、敵の訓練やデータ、ネットワーク変換がある。 これらの手法は有効ではあるが、典型的なプロプライエタリな分類器への完全なアクセスを必要とし、大きなモデルに費用がかかる。 近年のソリューションでは、分類の前に「精製」層を追加し、分類器を直接変更する必要がなくなる浄化モデルが提案されている。 有効性にもかかわらず、これらの手法は計算集約的であり、リソースが限られ、低レイテンシが不可欠であるモバイルシステムには適さない。 本稿では,敵画像の清浄性を高める新しい方法であるLightPureを紹介する。 既存の浄化方法の精度を向上し、速度と計算効率を向上し、限られたリソースを持つモバイルデバイスに適している。 提案手法では,2ステップの拡散と1ショットのGAN(Generative Adversarial Network)フレームワークを用いて,堅牢性を損なうことなくレイテンシを優先する。 所望のレイテンシを保ちながら,分類精度と対向ロバスト性の間に合理的なバランスをとるために,いくつかの新しい手法を提案する。 我々は,Jetson Nanoボード上で概念実証を設計,実装し,様々な攻撃シナリオとデータセットを用いて手法の評価を行った。 以上の結果から,LightPureは,様々な攻撃シナリオに対して高い精度とロバスト性を達成しつつ,レイテンシの点で既存のメソッドを最大10倍の性能で上回ることを示す。 この方法は、現実世界のモバイルシステムに対してスケーラブルで効果的なソリューションを提供する。

Autonomous mobile systems increasingly rely on deep neural networks for perception and decision-making. While effective, these systems are vulnerable to adversarial machine learning attacks where minor input perturbations can significantly impact outcomes. Common countermeasures involve adversarial training and/or data or network transformation. These methods, though effective, require full access to typically proprietary classifiers and are costly for large models. Recent solutions propose purification models, which add a "purification" layer before classification, eliminating the need to modify the classifier directly. Despite their effectiveness, these methods are compute-intensive, making them unsuitable for mobile systems where resources are limited and low latency is essential. This paper introduces LightPure, a new method that enhances adversarial image purification. It improves the accuracy of existing purification methods and provides notable enhancements in speed and computational efficiency, making it suitable for mobile devices with limited resources. Our approach uses a two-step diffusion and one-shot Generative Adversarial Network (GAN) framework, prioritizing latency without compromising robustness. We propose several new techniques to achieve a reasonable balance between classification accuracy and adversarial robustness while maintaining desired latency. We design and implement a proof-of-concept on a Jetson Nano board and evaluate our method using various attack scenarios and datasets. Our results show that LightPure can outperform existing methods by up to 10x in terms of latency while achieving higher accuracy and robustness for various attack scenarios. This method offers a scalable and effective solution for real-world mobile systems.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# 大規模言語モデルからの一般知識を用いた医用画像のアライメント

Aligning Medical Images with General Knowledge from Large Language Models ( http://arxiv.org/abs/2409.00341v1 )

ライセンス: Link先を確認
Xiao Fang, Yi Lin, Dong Zhang, Kwang-Ting Cheng, Hao Chen, (参考訳) CLIPのような事前訓練された大規模視覚言語モデル(VLM)は、自然言語を教師として用いた視覚表現学習に革命をもたらし、有望な一般化能力を示した。 本稿では,CLIPからの一般知識の伝達を容易にする医用画像解析のための新しい視覚症状誘導学習フレームワークであるViPを提案する。 ViPは視覚症状発生器(VSG)とデュアルプロンプトネットワークという2つの重要なコンポーネントから構成される。 特に、VSGは、訓練済みの大規模言語モデルから説明可能な視覚症状を抽出することを目的としており、デュアルプロンプトネットワークは、これらの視覚症状を利用して、学習可能な2つのプロンプトモジュール、すなわちコンテキストプロンプトとマージプロンプトのトレーニングをガイドし、大きなVLMによる医用画像解析に効果的に適用する。 大規模な実験結果から、ViPは2つの挑戦的なデータセットで最先端の手法より優れていることが示された。

Pre-trained large vision-language models (VLMs) like CLIP have revolutionized visual representation learning using natural language as supervisions, and demonstrated promising generalization ability. In this work, we propose ViP, a novel visual symptom-guided prompt learning framework for medical image analysis, which facilitates general knowledge transfer from CLIP. ViP consists of two key components: a visual symptom generator (VSG) and a dual-prompt network. Specifically, VSG aims to extract explicable visual symptoms from pre-trained large language models, while the dual-prompt network utilizes these visual symptoms to guide the training on two learnable prompt modules, i.e., context prompt and merge prompt, which effectively adapts our framework to medical image analysis via large VLMs. Extensive experimental results demonstrate that ViP can outperform state-of-the-art methods on two challenging datasets.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# AdaNAT: トークンベースの画像生成のための適応ポリシーを探る

AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation ( http://arxiv.org/abs/2409.00342v1 )

ライセンス: Link先を確認
Zanlin Ni, Yulin Wang, Renping Zhou, Rui Lu, Jiayi Guo, Jinyi Hu, Zhiyuan Liu, Yuan Yao, Gao Huang, (参考訳) 近年,視覚コンテンツ生成のためのトークンベースの手法の有効性が実証されている。 代表的な作品として、非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。 しかしながら、NATは通常、複数の手作業で設計されたスケジューリングルールを含む複雑な生成ポリシーを設定する必要がある。 これらのヒューリスティックなルールは、準最適になりがちで、専門家の知識と労働集約的な努力の要求が伴う。 さらに,各試料の多種多様な特性に柔軟に適応することは不可能である。 これらの問題に対処するため,各サンプルに適したポリシーを自動的に設定する学習可能なアプローチであるAdaNATを提案する。 具体的には、生成ポリシーの決定をマルコフ決定プロセスとして定式化する。 このフレームワークでは、強化学習を通じて、生成のための軽量なポリシーネットワークを学習することができる。 重要なことは、FIDや事前訓練された報酬モデルのような単純な報酬設計が、生成したサンプルの望ましい品質や多様性を確実に保証できないことを示しています。 そこで本稿では,政策ネットワークのトレーニングを効果的に指導する対人報酬設計を提案する。 ImageNet-256 & 512, MS-COCO, CC3Mの4つのベンチマークデータセットに関する総合的な実験は、AdaNATの有効性を検証する。 コードと事前トレーニングされたモデルはhttps://github.com/LeapLabTHU/AdaNAT.comでリリースされる。

Recent studies have demonstrated the effectiveness of token-based methods for visual content generation. As a representative work, non-autoregressive Transformers (NATs) are able to synthesize images with decent quality in a small number of steps. However, NATs usually necessitate configuring a complicated generation policy comprising multiple manually-designed scheduling rules. These heuristic-driven rules are prone to sub-optimality and come with the requirements of expert knowledge and labor-intensive efforts. Moreover, their one-size-fits-all nature cannot flexibly adapt to the diverse characteristics of each individual sample. To address these issues, we propose AdaNAT, a learnable approach that automatically configures a suitable policy tailored for every sample to be generated. In specific, we formulate the determination of generation policies as a Markov decision process. Under this framework, a lightweight policy network for generation can be learned via reinforcement learning. Importantly, we demonstrate that simple reward designs such as FID or pre-trained reward models, may not reliably guarantee the desired quality or diversity of generated samples. Therefore, we propose an adversarial reward design to guide the training of policy networks effectively. Comprehensive experiments on four benchmark datasets, i.e., ImageNet-256 & 512, MS-COCO, and CC3M, validate the effectiveness of AdaNAT. Code and pre-trained models will be released at https://github.com/LeapLabTHU/AdaNAT.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# PS-StyleGAN:アテンションに基づくスタイル適応を用いたイラストレートスケッチ

PS-StyleGAN: Illustrative Portrait Sketching using Attention-Based Style Adaptation ( http://arxiv.org/abs/2409.00345v1 )

ライセンス: Link先を確認
Kushal Kumar Jain, Ankith Varun J, Anoop Namboodiri, (参考訳) ポートレートスケッチでは、抽象的な線と影で実際の顔のアイデンティティ固有の属性をキャプチャする。 フォトリアリスティック画像とは異なり、優れた肖像画生成方法は細部への選択的注意を必要とするため、この問題は困難である。 本稿では, ポートレートスケッチスタイルGAN (PS-StyleGAN) について述べる。 StyleGANのセマンティックな$W+$潜在空間を利用してポートレートスケッチを生成します。 これを実現するために,アーキテクチャにおけるAttentive Affine変換ブロックの利用と,StyleGANの出力を微調整することなく変更できるトレーニング戦略を提案する。 これらのブロックは、コンテンツとスタイルの遅延機能の両方に注意を払い、スタイルGANの出力を逆一貫性のある方法で適応させることで、スタイルの潜伏コードを修正することを学ぶ。 このアプローチでは、スタイルをモデル化するために、わずかにペアの例($\sim 100$)を使用しており、トレーニング時間が短い。 我々は,PS-StyleGANが様々なデータセット上で現在最先端の手法よりも質的かつ定量的に優れていることを示す。

Portrait sketching involves capturing identity specific attributes of a real face with abstract lines and shades. Unlike photo-realistic images, a good portrait sketch generation method needs selective attention to detail, making the problem challenging. This paper introduces \textbf{Portrait Sketching StyleGAN (PS-StyleGAN)}, a style transfer approach tailored for portrait sketch synthesis. We leverage the semantic $W+$ latent space of StyleGAN to generate portrait sketches, allowing us to make meaningful edits, like pose and expression alterations, without compromising identity. To achieve this, we propose the use of Attentive Affine transform blocks in our architecture, and a training strategy that allows us to change StyleGAN's output without finetuning it. These blocks learn to modify style latent code by paying attention to both content and style latent features, allowing us to adapt the outputs of StyleGAN in an inversion-consistent manner. Our approach uses only a few paired examples ($\sim 100$) to model a style and has a short training time. We demonstrate PS-StyleGAN's superiority over the current state-of-the-art methods on various datasets, qualitatively and quantitatively.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# SMAFormer: 医用画像分割のための相乗的マルチアテンション変換器

SMAFormer: Synergistic Multi-Attention Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2409.00346v1 )

ライセンス: Link先を確認
Fuchen Zheng, Xuhang Chen, Weihuang Liu, Haolun Li, Yingtie Lei, Jiahui He, Chi-Man Pun, Shounjun Zhou, (参考訳) 医用画像のセグメンテーションでは、特に注意機構とスキップ接続を用いた残差ネットワークを基盤とした特殊なコンピュータビジョン技術が性能向上に役立っている。 それにもかかわらず、以前のモデルは小さな不規則な形状の腫瘍を分断する際にしばしば失敗する。 この目的のために,小型腫瘍や臓器のセグメンテーションを強化するための複数の注意機構を融合した,効率的なトランスフォーマーベースのアーキテクチャであるSMAFormerを紹介した。 SMAFormerは、医療画像セグメンテーションのローカル機能とグローバル機能の両方をキャプチャできる。 アーキテクチャは、2つの重要なコンポーネントから構成される。 まず,SMA (Synergistic Multi-Attention) Transformer Blockを提案する。 第2に、注意機構遷移と特徴融合の間に生じる情報損失の課題に対処し、特徴融合変調器を設計する。 このモジュールは、リシェイピングによって引き起こされる情報の減少を緩和することにより、チャネルと空間的注意の融合を促進する。 本手法を評価するため,多臓器,肝腫瘍,膀胱腫瘍の分節化など,様々な医療画像の分節化作業について広範な実験を行い,その結果を得た。 コードとモデルは以下の通りである。

In medical image segmentation, specialized computer vision techniques, notably transformers grounded in attention mechanisms and residual networks employing skip connections, have been instrumental in advancing performance. Nonetheless, previous models often falter when segmenting small, irregularly shaped tumors. To this end, we introduce SMAFormer, an efficient, Transformer-based architecture that fuses multiple attention mechanisms for enhanced segmentation of small tumors and organs. SMAFormer can capture both local and global features for medical image segmentation. The architecture comprises two pivotal components. First, a Synergistic Multi-Attention (SMA) Transformer block is proposed, which has the benefits of Pixel Attention, Channel Attention, and Spatial Attention for feature enrichment. Second, addressing the challenge of information loss incurred during attention mechanism transitions and feature fusion, we design a Feature Fusion Modulator. This module bolsters the integration between the channel and spatial attention by mitigating reshaping-induced information attrition. To evaluate our method, we conduct extensive experiments on various medical image segmentation tasks, including multi-organ, liver tumor, and bladder tumor segmentation, achieving state-of-the-art results. Code and models are available at: \url{https://github.com/CXH-Research/SMAFormer}.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# アタッチメントのマッチング:LLMを使って大人のボンドを予測

Chatting Up Attachment: Using LLMs to Predict Adult Bonds ( http://arxiv.org/abs/2409.00347v1 )

ライセンス: Link先を確認
Paulo Soares, Sean McCurdy, Andrew J. Gerber, Peter Fonagy, (参考訳) 医療分野におけるデータ取得は困難であり、この分野におけるAI技術の採用は遅く、リスクが高い。 我々は,大規模言語モデル(LLM)によって生成された合成データを用いて,この障害を克服できるかどうかを評価する。 特に、GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、幼少期記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。 これらのエージェントは,アダルト・アタッチメント・インタビュー(AAI)のシミュレーションに参画し,アタッチメント・インタヴュー(アダルト・アタッチメント・インタビュー,アダルト・アタッチメント・インタビュー,アダルト・インタヴュー,アダルト・アタッチメント・インタビュー,アダルト・インタヴュー,アダルト・アタッチメント・インタビュー,アダルト・インタヴュー,アダルト・アタッチメント・インタヴュー,アダルト・アタッチメント・インタヴュー(AAI)に参画する。 我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。 以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。 さらに、人工回答からの生の埋め込みは、実際の人間の反応と異なる空間を占めるが、ラベルのない人間のデータの導入と単純な標準化により、これらの表現をより緊密に整列させることができる。 この調整は定性的解析によって支援され、標準化された埋め込みの予測精度の向上に反映される。

Obtaining data in the medical field is challenging, making the adoption of AI technology within the space slow and high-risk. We evaluate whether we can overcome this obstacle with synthetic data generated by large language models (LLMs). In particular, we use GPT-4 and Claude 3 Opus to create agents that simulate adults with varying profiles, childhood memories, and attachment styles. These agents participate in simulated Adult Attachment Interviews (AAI), and we use their responses to train models for predicting their underlying attachment styles. We evaluate our models using a transcript dataset from 9 humans who underwent the same interview protocol, analyzed and labeled by mental health professionals. Our findings indicate that training the models using only synthetic data achieves performance comparable to training the models on human data. Additionally, while the raw embeddings from synthetic answers occupy a distinct space compared to those from real human responses, the introduction of unlabeled human data and a simple standardization allows for a closer alignment of these representations. This adjustment is supported by qualitative analyses and is reflected in the enhanced predictive accuracy of the standardized embeddings.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# ToddlerAct:Gross Motor Development AssessmentのためのToddler行動認識データセット

ToddlerAct: A Toddler Action Recognition Dataset for Gross Motor Development Assessment ( http://arxiv.org/abs/2409.00349v1 )

ライセンス: Link先を確認
Hsiang-Wei Huang, Jiacheng Sun, Cheng-Yen Yang, Zhongyu Jiang, Li-Yu Huang, Jenq-Neng Hwang, Yu-Ching Yeh, (参考訳) 幼児の運動発達を評価することは、身体的発達を理解し、潜在的な発達遅延や障害を特定するために重要である。 しかし、行動認識のための既存のデータセットは主に成人に焦点を当てており、幼児の正確な評価に必要な多様性と特異性は欠如している。 本稿では,幼児期の運動行動認識データセットであるToddlerActについて紹介する。 このデータセットは、3歳未満の幼児によく見られる様々な運動量を記録するビデオ記録で構成されている。 本稿では,データ収集プロセス,アノテーション方法論,データセットの特徴について述べる。 さらに,我々のデータセット上で画像ベースおよび骨格ベースの行動認識手法を含む,最先端の複数の手法をベンチマークした。 本研究は,幼児期における運動機能発達の正確な評価のための領域特異的データセットの重要性を強調し,この重要な領域における今後の研究の基盤となるものと考えられる。 データセットはhttps://github.com/ipl-uw/ToddlerAct.comで公開されます。

Assessing gross motor development in toddlers is crucial for understanding their physical development and identifying potential developmental delays or disorders. However, existing datasets for action recognition primarily focus on adults, lacking the diversity and specificity required for accurate assessment in toddlers. In this paper, we present ToddlerAct, a toddler gross motor action recognition dataset, aiming to facilitate research in early childhood development. The dataset consists of video recordings capturing a variety of gross motor activities commonly observed in toddlers aged under three years old. We describe the data collection process, annotation methodology, and dataset characteristics. Furthermore, we benchmarked multiple state-of-the-art methods including image-based and skeleton-based action recognition methods on our datasets. Our findings highlight the importance of domain-specific datasets for accurate assessment of gross motor development in toddlers and lay the foundation for future research in this critical area. Our dataset will be available at https://github.com/ipl-uw/ToddlerAct.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# アライメントチューニングはLLMの内部信頼を損なうのか?

Does Alignment Tuning Really Break LLMs' Internal Confidence? ( http://arxiv.org/abs/2409.00352v1 )

ライセンス: Link先を確認
Hongseok Oh, Wonseok Hwang, (参考訳) 大規模言語モデル(LLM)は目覚ましい進歩を見せているが、実際の応用には信頼性の高い校正が必要である。 本研究は, モデル, キャリブレーション指標, タスク, 信頼抽出方法の4次元にわたるLCMのキャリブレーション劣化の包括的解析を行う。 初期分析の結果、アライメントとキャリブレーションの関係は必ずしもトレードオフではなく、より厳密な解析条件下では、アライメントプロセスはキャリブレーションに常に害を与えることがわかった。 このことは(1)モデル信頼度と校正誤差を測定するための慎重なアプローチの必要性を強調し、(2)LCMが指導追従と校正の両方を犠牲にすることなく達成できるアルゴリズムの今後の研究の必要性を強調している。

Large Language Models (LLMs) have shown remarkable progress, but their real-world application necessitates reliable calibration. This study conducts a comprehensive analysis of calibration degradation of LLMs across four dimensions: models, calibration metrics, tasks, and confidence extraction methods. Initial analysis showed that the relationship between alignment and calibration is not always a trade-off, but under stricter analysis conditions, we found the alignment process consistently harms calibration. This highlights the need for (1) a careful approach when measuring model confidences and calibration errors and (2) future research into algorithms that can help LLMs to achieve both instruction-following and calibration without sacrificing either.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# RI-MAE:自己教師付きポイントクラウド表現学習のための回転不変マスク付きオートエンコーダ

RI-MAE: Rotation-Invariant Masked AutoEncoders for Self-Supervised Point Cloud Representation Learning ( http://arxiv.org/abs/2409.00353v1 )

ライセンス: Link先を確認
Kunming Su, Qiuxia Wu, Panpan Cai, Xiaogang Zhu, Xuequan Lu, Zhiyong Wang, Kun Hu, (参考訳) マスク付きポイントモデリング手法は,最近,ポイントクラウドデータの自己教師付き学習において大きな成功を収めている。 しかし、これらの手法は回転に敏感であり、回転変動に遭遇するときにしばしば鋭い性能低下を示す。 本稿では,2つの課題に対処する新しい回転不変マスク付きオートエンコーダ(RI-MAE)を提案する。 1)回転不変ラテント表現の達成,及び 2)回転不変な自己監督的再構築を容易にする。 まず, 回転不変点雲潜時空間を構成するために, 絡み合った幾何学的内容, 回転不変相対方向, 位置埋め込み機構を特徴とする RI-Transformer を導入する。 第2の課題として、新しいデュアルブランチの学生-教師アーキテクチャが考案された。 これにより、学習された回転不変ラテント空間内のマスクパッチの再構成による自己教師付き学習が可能になる。 各ブランチはRI-Transformerに基づいており、追加のRI-Transformer予測器と接続されている。 教師はすべての点パッチをエンコードし、生徒は未完成のパッチだけをエンコードします。 最後に、予測器は、教師からの出力で教師が監督する学生からの出力潜伏埋め込みを用いて、マスクされたパッチの潜伏特徴を予測する。 大規模な実験により,本手法はローテーションに頑健であり,様々な下流タスクにおける最先端性能を実現することができた。

Masked point modeling methods have recently achieved great success in self-supervised learning for point cloud data. However, these methods are sensitive to rotations and often exhibit sharp performance drops when encountering rotational variations. In this paper, we propose a novel Rotation-Invariant Masked AutoEncoders (RI-MAE) to address two major challenges: 1) achieving rotation-invariant latent representations, and 2) facilitating self-supervised reconstruction in a rotation-invariant manner. For the first challenge, we introduce RI-Transformer, which features disentangled geometry content, rotation-invariant relative orientation and position embedding mechanisms for constructing rotation-invariant point cloud latent space. For the second challenge, a novel dual-branch student-teacher architecture is devised. It enables the self-supervised learning via the reconstruction of masked patches within the learned rotation-invariant latent space. Each branch is based on an RI-Transformer, and they are connected with an additional RI-Transformer predictor. The teacher encodes all point patches, while the student solely encodes unmasked ones. Finally, the predictor predicts the latent features of the masked patches using the output latent embeddings from the student, supervised by the outputs from the teacher. Extensive experiments demonstrate that our method is robust to rotations, achieving the state-of-the-art performance on various downstream tasks.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# YA-TA:インストラクタ型デュアル検索強化知識融合を用いた個人化質問応答支援

YA-TA: Towards Personalized Question-Answering Teaching Assistants using Instructor-Student Dual Retrieval-augmented Knowledge Fusion ( http://arxiv.org/abs/2409.00355v1 )

ライセンス: Link先を確認
Dongil Yang, Suyeon Lee, Minjin Kim, Jungsoo Won, Namyoung Kim, Dongha Lee, Jinyoung Yeo, (参考訳) 教員と学生の交流は,学生の学業成績を高める上で重要な役割を担っている。 しかし、インストラクターは、大規模なクラスでタイムリーでパーソナライズされたサポートを提供するのに苦労することが多い。 この課題に対処するために,本研究では,講義に基礎を置き,理解しやすい学生に応答を提供する,YA-TAという新しい仮想教科アシスタント(VTA)を提案する。 YA-TAを容易にするために,教官と学生の知識と知識の融合を二重に検索するDual Retrieval-augmented Knowledge Fusion(DRAKE)フレームワークを導入した。 実世界の教室での実験では、DRAKEフレームワークは教官側と学生側の両方から取得した知識と応答の整合性に優れていた。 さらに,Q&Aボードや自己実践ツールなど,YA-TAの拡張も提供して,全体的な学習体験を向上する。 私たちのビデオは公開されています。

Engagement between instructors and students plays a crucial role in enhancing students'academic performance. However, instructors often struggle to provide timely and personalized support in large classes. To address this challenge, we propose a novel Virtual Teaching Assistant (VTA) named YA-TA, designed to offer responses to students that are grounded in lectures and are easy to understand. To facilitate YA-TA, we introduce the Dual Retrieval-augmented Knowledge Fusion (DRAKE) framework, which incorporates dual retrieval of instructor and student knowledge and knowledge fusion for tailored response generation. Experiments conducted in real-world classroom settings demonstrate that the DRAKE framework excels in aligning responses with knowledge retrieved from both instructor and student sides. Furthermore, we offer additional extensions of YA-TA, such as a Q&A board and self-practice tools to enhance the overall learning experience. Our video is publicly available.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# コントラスト強化:音声技術におけるキーワードスポッティングの教師なし学習アプローチ

Contrastive Augmentation: An Unsupervised Learning Approach for Keyword Spotting in Speech Technology ( http://arxiv.org/abs/2409.00356v1 )

ライセンス: Link先を確認
Weinan Dai, Yifeng Jiang, Yuanjing Liu, Jinkun Chen, Xin Sun, Jinglei Tao, (参考訳) 本稿では,音声認識技術の基本コンポーネントであるキーワードスポッティング(KWS)における,学習用ラベル付きデータの取得に関する永続的課題について述べる。 キーワードが変化すると、大量の陽性サンプルを得るのが困難であることや、新しいターゲットサンプルを収集する手間のかかるプロセスを考えると、教師なしのコントラスト学習と独自の拡張技術を組み合わせた新しいアプローチを導入する。 提案手法により,ニューラルネットワークはラベル付きデータセット上でのトレーニングが可能となり,ラベル付きデータセットが限定された下流タスクのパフォーマンスが向上する可能性がある。 また,音速や音量の変化に拘わらず,同じキーワードの発話に類似した高レベル特徴表現を用いることを提案する。 これを実現するために,ボトルネック層の特徴と音声再構成情報との類似性を利用した音声強化に基づく教師なし学習手法を提案する。 さらに,KWSタスクにおける潜在的な冗長性と非情報に対処する圧縮畳み込みアーキテクチャを提案し,局所的な特徴を同時に学習し,長期的情報に集中できるようにする。 この手法は,Google Speech Commands V2 Dataset上で高い性能を実現する。 近年のサインスポッティングと音声語検出の進歩にインスパイアされた本手法は,KWSにおけるコントラスト学習アプローチの可能性と,クエリ・バイ・エグゼクティブ・ポスケン・ターム・ディテクト・ストラテジーの利点を基盤としている。 提示されたCAB-KWSは、KWSの分野における新たな視点を提供し、データ収集の労力を削減し、システムの堅牢性を高める効果的な方法を示す。

This paper addresses the persistent challenge in Keyword Spotting (KWS), a fundamental component in speech technology, regarding the acquisition of substantial labeled data for training. Given the difficulty in obtaining large quantities of positive samples and the laborious process of collecting new target samples when the keyword changes, we introduce a novel approach combining unsupervised contrastive learning and a unique augmentation-based technique. Our method allows the neural network to train on unlabeled data sets, potentially improving performance in downstream tasks with limited labeled data sets. We also propose that similar high-level feature representations should be employed for speech utterances with the same keyword despite variations in speed or volume. To achieve this, we present a speech augmentation-based unsupervised learning method that utilizes the similarity between the bottleneck layer feature and the audio reconstructing information for auxiliary training. Furthermore, we propose a compressed convolutional architecture to address potential redundancy and non-informative information in KWS tasks, enabling the model to simultaneously learn local features and focus on long-term information. This method achieves strong performance on the Google Speech Commands V2 Dataset. Inspired by recent advancements in sign spotting and spoken term detection, our method underlines the potential of our contrastive learning approach in KWS and the advantages of Query-by-Example Spoken Term Detection strategies. The presented CAB-KWS provide new perspectives in the field of KWS, demonstrating effective ways to reduce data collection efforts and increase the system's robustness.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# デコーダモデルに対する低ランクディレクトアダプタを用いたゲームプレイング会話のターゲット語予測

Predicting the Target Word of Game-playing Conversations using a Low-Rank Dialect Adapter for Decoder Models ( http://arxiv.org/abs/2409.00358v1 )

ライセンス: Link先を確認
Dipankar Srirag, Aditya Joshi, Jacob Eisenstein, (参考訳) エンコーダモデルでは,特定のソシオレクト/方言/国産品種(「簡潔性のための方言」)におけるNLUタスクのLLMの性能を向上させるダイアレクトアダプタが報告されている。 本稿では,LoRDDと呼ばれるアーキテクチャのデコーダモデルに対して,方言アダプタの概念を拡張した。 MD-3は,方言話者間の単語ゲームプレイング会話のデータセットとして公開されており,その課題は,マスク付き会話からターゲットワード予測(TWP)である。 LoRDDはタスクアダプタと方言アダプタを組み合わせており、後者はMD-3からの擬似並列会話に対照的な学習を取り入れている。 両モデル(Mistral と Gemma)における en-IN 会話の結果, LoRDD は TWP の 4 つのベースラインを上回り, en-US とのパフォーマンスギャップは単語類似度で 12% ,精度で 25% 向上した。 LoRDDの貢献は、デコーダモデルの方言適応を約束することにある。

Dialect adapters that improve the performance of LLMs for NLU tasks on certain sociolects/dialects/national varieties ('dialects' for the sake of brevity) have been reported for encoder models. In this paper, we extend the idea of dialect adapters to decoder models in our architecture called LoRDD. Using MD-3, a publicly available dataset of word game-playing conversations between dialectal speakers, our task is Target Word Prediction (TWP) from a masked conversation. LoRDD combines task adapters and dialect adapters where the latter employ contrastive learning on pseudo-parallel conversations from MD-3. Our results for en-IN conversations on two models (Mistral and Gemma) show that LoRDD outperforms four baselines on TWP, while bridging the performance gap with en-US by 12% on word similarity and 25% on accuracy. The focused contribution of LoRDD is in its promise for dialect adaptation of decoder models.
翻訳日:2024-09-06 15:23:54 公開日:2024-08-31
# ベラクルスにおける殺虫剤の予測:拡張MFM-FEM-VER-CP-2024モデルによるファジィ論理的アプローチ

Predicting Femicide in Veracruz: A Fuzzy Logic Approach with the Expanded MFM-FEM-VER-CP-2024 Model ( http://arxiv.org/abs/2409.00359v1 )

ライセンス: Link先を確認
Carlos Medel-Ramírez, Hilario Medel-López, (参考訳) 本稿では、メキシコのベラクルスにおける殺虫剤の緊急問題と、ファジィ論理を用いて殺虫剤のリスクを予測する数学的枠組みであるFM_FEM_VER_CP_2024モデルの開発に焦点を当てる。 このモデルは、強制管理、非人道化、暴力のサイクルといったリスク要因を形式化し、性別に基づく暴力に固有の複雑さと不確実性に対処する。 これらの要因は、個人関係や特定の暴力行為を含む様々な状況に関連するリスクの度合いを評価するメンバーシップ機能を通じて数学的にモデル化される。 本研究は,新たなルールを導入し,既存のメンバーシップ関数を改良することにより,モデル予測精度を大幅に向上させることにより,オリジナルのモデルを強化する。

The article focuses on the urgent issue of femicide in Veracruz, Mexico, and the development of the MFM_FEM_VER_CP_2024 model, a mathematical framework designed to predict femicide risk using fuzzy logic. This model addresses the complexity and uncertainty inherent in gender based violence by formalizing risk factors such as coercive control, dehumanization, and the cycle of violence. These factors are mathematically modeled through membership functions that assess the degree of risk associated with various conditions, including personal relationships and specific acts of violence. The study enhances the original model by incorporating new rules and refining existing membership functions, which significantly improve the model predictive accuracy.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# UDGS-SLAM : 一眼的SLAMのための一眼レフ法

UDGS-SLAM : UniDepth Assisted Gaussian Splatting for Monocular SLAM ( http://arxiv.org/abs/2409.00362v1 )

ライセンス: Link先を確認
Mostafa Mansour, Ahmed Abdelsalam, Ari Happonen, Jari Porras, Esa Rahtu, (参考訳) 単眼神経深度推定の最近の進歩、特にUniDepthネットワークによって達成されたものは、単眼のSLAMのためのガウススプラッティングフレームワークにUniDepthを組み込む研究のきっかけとなっている。本研究では、ガウススプラッティングフレームワークにおける深度推定のためのRGB-Dセンサーの必要性を排除した新しいアプローチであるUDGS-SLAMを提示する。 UDGS-SLAMは推定深度の局所的な整合性を確保するために統計的フィルタリングを採用し、カメラ軌道とガウスシーンの表現パラメータを共同最適化する。 提案手法は,高忠実度レンダリング画像と低ATERMSEを実現する。 TUM RGB-Dデータセットを用いてUDGS-SLAMの性能を厳格に評価し,様々なシナリオにおいて優れた性能を示す。 さらに,設計選択の妥当性を検証し,異なるネットワークバックボーンエンコーダがシステム性能に与える影響について検討した。

Recent advancements in monocular neural depth estimation, particularly those achieved by the UniDepth network, have prompted the investigation of integrating UniDepth within a Gaussian splatting framework for monocular SLAM.This study presents UDGS-SLAM, a novel approach that eliminates the necessity of RGB-D sensors for depth estimation within Gaussian splatting framework. UDGS-SLAM employs statistical filtering to ensure local consistency of the estimated depth and jointly optimizes camera trajectory and Gaussian scene representation parameters. The proposed method achieves high-fidelity rendered images and low ATERMSE of the camera trajectory. The performance of UDGS-SLAM is rigorously evaluated using the TUM RGB-D dataset and benchmarked against several baseline methods, demonstrating superior performance across various scenarios. Additionally, an ablation study is conducted to validate design choices and investigate the impact of different network backbone encoders on system performance.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# IDカードの提示攻撃検出に関する第1回コンペティション

First Competition on Presentation Attack Detection on ID Card ( http://arxiv.org/abs/2409.00372v1 )

ライセンス: Link先を確認
Juan E. Tapia, Naser Damer, Christoph Busch, Juan M. Espin, Javier Barrachina, Alvaro S. Rocamora, Kristof Ocvirk, Leon Alessio, Borut Batagelj, Sushrut Patwardhan, Raghavendra Ramachandra, Raghavendra Mudgalgundurao, Kiran Raja, Daniel Schulz, Carlos Aravena, (参考訳) 本稿では,2024年国際バイオメトリックス会議(IJCB2024)で開催されているPAD-IDCard(PAD-IDCard)の提示攻撃検出コンペティションについて要約する。 この競技会には、学業と産業の両方から合計10の登録チームが集まった。 結局、参加チームは5つの有効な申請書を提出し、8つのモデルが組織によって評価されることになった。 このコンペティションは、現在最先端のアルゴリズムを独立して評価した。 現在、クロスデータセットに関する独立した評価は行われておらず、この研究はIDカードの最先端を決定づけている。 この目標を達成するために、全ての提案を評価し比較するために、セカンダリングされたテストセットとベースラインアルゴリズムが使用された。 隔離されたテストデータセットには、4カ国のIDカードが含まれている。 要約すると、「匿名」を選択したチームは74.80%の最高ランキングに達し、続いて77.65%の「IDVC」チームが続いた。

This paper summarises the Competition on Presentation Attack Detection on ID Cards (PAD-IDCard) held at the 2024 International Joint Conference on Biometrics (IJCB2024). The competition attracted a total of ten registered teams, both from academia and industry. In the end, the participating teams submitted five valid submissions, with eight models to be evaluated by the organisers. The competition presented an independent assessment of current state-of-the-art algorithms. Today, no independent evaluation on cross-dataset is available; therefore, this work determined the state-of-the-art on ID cards. To reach this goal, a sequestered test set and baseline algorithms were used to evaluate and compare all the proposals. The sequestered test dataset contains ID cards from four different countries. In summary, a team that chose to be "Anonymous" reached the best average ranking results of 74.80%, followed very closely by the "IDVC" team with 77.65%.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# 拡散モデル(グラフ)の理解に向けて

Towards understanding Diffusion Models (on Graphs) ( http://arxiv.org/abs/2409.00374v1 )

ライセンス: Link先を確認
Solveig Klepper, (参考訳) 拡散モデルは様々な理論的・方法論的な視点から生まれ、それぞれが基礎となる原理について独自の洞察を与えている。 この研究において、最も顕著なアプローチの概要を述べ、それらの顕著な類似点、すなわち、いかに多様な方法論が、コア問題の同様の数学的定式化にどのように収束するかに注意を向ける。 最終的な目標は、これらのモデルをグラフのコンテキストで理解することにありますが、まずは基礎的な洞察を構築するために、より単純な設定で実験を行うことから始めます。 異なる拡散・サンプリング技術に関する実証的研究を通じて,(1)これらのモデルにおいてノイズはどのような役割を果たすのか,という3つの重要な疑問を探求する。 2) サンプリング法の選択は, 結果にどの程度影響するか? (3) ニューラルネットワークの近似はどの機能であり、最適な性能には高い複雑性が必要であるか? 本研究の目的は,拡散モデルの理解を深め,グラフ機械学習への応用を長期にわたって進めることである。

Diffusion models have emerged from various theoretical and methodological perspectives, each offering unique insights into their underlying principles. In this work, we provide an overview of the most prominent approaches, drawing attention to their striking analogies -- namely, how seemingly diverse methodologies converge to a similar mathematical formulation of the core problem. While our ultimate goal is to understand these models in the context of graphs, we begin by conducting experiments in a simpler setting to build foundational insights. Through an empirical investigation of different diffusion and sampling techniques, we explore three critical questions: (1) What role does noise play in these models? (2) How significantly does the choice of the sampling method affect outcomes? (3) What function is the neural network approximating, and is high complexity necessary for optimal performance? Our findings aim to enhance the understanding of diffusion models and in the long run their application in graph machine learning.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# 非エルミタン・ワニエ・スタークはしご系におけるモアレ様動的パターン

Dynamic Moiré-like pattern in non-Hermitian Wannier-Stark ladder system ( http://arxiv.org/abs/2409.00378v1 )

ライセンス: Link先を確認
H. P. Zhang, Z. Song, (参考訳) 位置依存実ポテンシャルを持つ非エルミート系Su-Schrieffer-Heeger鎖である非エルミート系ワニエ・スタークはしご系の動的挙動について検討する。 線形外部場の存在下では、非エルミートフロッケ法を用い、エネルギー準位が磁場に敏感であることを示す。 この系は、2つの例外的な点によって分離された2つの異なる動的挙動を示す: 1つは$\mathcal{PT}$対称領域で、2つの実ワニエ・スタークのはしごに関連付けられ、もう1つは複素共役のはしごに関連付けられた$\mathcal{PT}$\対称破壊領域である。 2つの地域の境界線として、2つのはしごが1つのはしごに合体する。 非線型場の場合、これらの2つの異なる領域は鎖に沿って交互に現れ、動的モワール{e} のようなパターンを示す。

We study the dynamical behavior of the non-Hermitian Wannier-Stark ladder system, which is a non-Hermitian Su-Schrieffer-Heeger chain with a position-dependent real potential. In the presence of a linear external field, we employ the non-Hermitian Floquet method and find that the energy levels are sensitive to the field. The system exhibits two distinct dynamic behaviors separated by an exceptional point: one in the $\mathcal{PT}$ symmetrical region associated with two real Wannier-Stark ladders, and another in the $\mathcal{PT}$\ symmetry-breaking region associated with complex conjugate ladders. As the boundary between the two regions, two ladders coalesce into a single ladder. In the case of a non-linear field, these two distinct regions appear alternately along the chain, exhibiting dynamic Moir\'{e}-like patterns.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# 空中画像からの大規模3次元表面再構成のための3次元ガウススプラッティング

3D Gaussian Splatting for Large-scale 3D Surface Reconstruction from Aerial Images ( http://arxiv.org/abs/2409.00381v1 )

ライセンス: Link先を確認
YuanZheng Wu, Jin Liu, Shunping Ji, (参考訳) 近年, 3D Gaussian Splatting (3DGS) が注目されている。 しかし、3DGSの非構造的性質は、空中画像から大規模な表面再構成を行う上での課題となっている。 このギャップに対処するため,Aerial Gaussian Splatting (AGS) という3DGSに基づくマルチビューステレオ(MVS)空中画像の大規模再構成手法を提案する。 当初,大規模空中画像に適したデータチャンキング手法を導入し,広帯域空間における3DGS技術の実現を可能にした。 さらに、Ray-Gaussian Intersection法を統合し、正規情報と深度情報を取得し、幾何学的制約を緩和する。 最後に、大域的幾何整合性を高め、再構成精度を向上させるための多視点幾何整合性制約を導入する。 複数のデータセットに対する実験により、GSベースの手法は、幾何学的精度で従来の航空MVS手法と一致し、幾何とレンダリング品質に関して最先端のGSベースの手法を破ることが初めて実証された。

Recently, 3D Gaussian Splatting (3DGS) has garnered significant attention. However, the unstructured nature of 3DGS poses challenges for large-scale surface reconstruction from aerial images. To address this gap, we propose the first large-scale surface reconstruction method for multi-view stereo (MVS) aerial images based on 3DGS, named Aerial Gaussian Splatting (AGS). Initially, we introduce a data chunking method tailored for large-scale aerial imagery, making the modern 3DGS technology feasible for surface reconstruction over extensive scenes. Additionally, we integrate the Ray-Gaussian Intersection method to obtain normal and depth information, facilitating geometric constraints. Finally, we introduce a multi-view geometric consistency constraint to enhance global geometric consistency and improve reconstruction accuracy. Our experiments on multiple datasets demonstrate for the first time that the GS-based technique can match traditional aerial MVS methods on geometric accuracy, and beat state-of-the-art GS-based methods on geometry and rendering quality.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# 改良型YOLOv10による大型水面魚の捕食方法

A method for detecting dead fish on large water surfaces based on improved YOLOv10 ( http://arxiv.org/abs/2409.00388v1 )

ライセンス: Link先を確認
Qingbin Tian, Yukang Huo, Mingyuan Yao, Haihua Wang, (参考訳) 死んだ魚は様々な要因により水面によく現れる。 もしすぐに検出され、取り除かれなければ、これらの死んだ魚は水質の劣化、生態系の損傷、病気の伝染などの重大な問題を引き起こす可能性がある。 したがって、これらの課題を緩和するために、迅速かつ効果的な検出方法を開発することが不可欠である。 死んだ魚を検知する従来の方法は、しばしば人力と時間制限によって制限され、水生環境の複雑さを効果的に管理するのに苦労する。 本稿では, ヨロブ10の背中骨ネットワークを高速ネットに置き換えることにより, 高検出精度を維持しつつ, モデルの複雑さを低減し, 接続性を高め, 元のC2fモジュールをCSPStageモジュールに置き換えることによるネック区間の機能融合の改善, (3) 小型ターゲット検出ヘッドの追加により, 小型物体の検出性能が向上する。 実験の結果,P(精度),R(リコール),AP(平均精度)はベースラインモデルYOLOv10nに比べて有意に改善した。 さらに、モデルサイズとパラメータ数を大幅に削減し、高い推論速度を維持し、最適なAP性能を実現することで、YOLOシリーズの他のモデルよりも優れています。 このモデルは大規模養殖システムにおける死んだ魚の迅速かつ正確な検出を容易にする。 最後に、アブレーション実験を通じて、各モデルコンポーネントがシステム全体の性能に与える影響を系統的に分析し、評価する。

Dead fish frequently appear on the water surface due to various factors. If not promptly detected and removed, these dead fish can cause significant issues such as water quality deterioration, ecosystem damage, and disease transmission. Consequently, it is imperative to develop rapid and effective detection methods to mitigate these challenges. Conventional methods for detecting dead fish are often constrained by manpower and time limitations, struggling to effectively manage the intricacies of aquatic environments. This paper proposes an end-to-end detection model built upon an enhanced YOLOv10 framework, designed specifically to swiftly and precisely detect deceased fish across extensive water surfaces.Key enhancements include: (1) Replacing YOLOv10's backbone network with FasterNet to reduce model complexity while maintaining high detection accuracy; (2) Improving feature fusion in the Neck section through enhanced connectivity methods and replacing the original C2f module with CSPStage modules; (3) Adding a compact target detection head to enhance the detection performance of smaller objects. Experimental results demonstrate significant improvements in P(precision), R(recall), and AP(average precision) compared to the baseline model YOLOv10n. Furthermore, our model outperforms other models in the YOLO series by significantly reducing model size and parameter count, while sustaining high inference speed and achieving optimal AP performance. The model facilitates rapid and accurate detection of dead fish in large-scale aquaculture systems. Finally, through ablation experiments, we systematically analyze and assess the contribution of each model component to the overall system performance.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# 密度適応アテンションに基づく音声ネットワーク:メンタルヘルス障害の特徴理解を強化する

Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders ( http://arxiv.org/abs/2409.00391v1 )

ライセンス: Link先を確認
Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins, (参考訳) 音声に基づく抑うつ検出は、個人間での独特の出現とデータ不足により、自動検出に重大な課題を生じさせる。 これらの課題に対処するため,DAAMAudioCNNLSTMとDAAMAudioTransformerを導入する。 DAAMAudioCNNLSTMは,多頭部密度適応注意機構(DAAM)を備えた新しいCNN-LSTMフレームワークを特徴とする。 DAAMAudioTransformerは、CNN-LSTMアーキテクチャの代わりにトランスフォーマーエンコーダを利用するもので、注目と解釈性を高めるために同じDAAMモジュールを組み込んでいる。 DAAMAudioCNNLSTM, F1マクロスコア0.702, DAAMAudioTransformer, F1マクロスコア0.72, DAIC-WOZデータセットでは, 母音の位置や話者情報などの補足情報に依存しない。 両モデルとも、抑うつ検出に音声信号を利用する際の重要な説明可能性と効率は、より信頼性が高く、臨床的に有用な診断ツールへの飛躍であり、音声とメンタルヘルスの進歩を約束している。 この領域におけるさらなる研究を促進するため、コードを公開しています。

Speech-based depression detection poses significant challenges for automated detection due to its unique manifestation across individuals and data scarcity. Addressing these challenges, we introduce DAAMAudioCNNLSTM and DAAMAudioTransformer, two parameter efficient and explainable models for audio feature extraction and depression detection. DAAMAudioCNNLSTM features a novel CNN-LSTM framework with multi-head Density Adaptive Attention Mechanism (DAAM), focusing dynamically on informative speech segments. DAAMAudioTransformer, leveraging a transformer encoder in place of the CNN-LSTM architecture, incorporates the same DAAM module for enhanced attention and interpretability. These approaches not only enhance detection robustness and interpretability but also achieve state-of-the-art performance: DAAMAudioCNNLSTM with an F1 macro score of 0.702 and DAAMAudioTransformer with an F1 macro score of 0.72 on the DAIC-WOZ dataset, without reliance on supplementary information such as vowel positions and speaker information during training/validation as in previous approaches. Both models' significant explainability and efficiency in leveraging speech signals for depression detection represent a leap towards more reliable, clinically useful diagnostic tools, promising advancements in speech and mental health care. To foster further research in this domain, we make our code publicly available.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# リアプノフ神経回路のフィードバック制御

Lyapunov Neural ODE Feedback Control Policies ( http://arxiv.org/abs/2409.00393v1 )

ライセンス: Link先を確認
Joshua Hang Sai Ip, Georgios Makrygiorgos, Ali Mesbah, (参考訳) ディープニューラルネットワークは、幅広い学習ベースの制御方法において、制御ポリシーを表現する効果的な方法として、ますます使われている。 多くの意思決定タスクの中心となる連続時間最適制御問題(OCP)に対して、制御ポリシ学習は、状態と制御制約が自然に許容されるニューラル常微分方程式(NODE)問題としてキャストすることができる。 本稿では,Lyapunov-NODE制御(L-NODEC)による連続時間OCPの解法を提案する。 制御理論的なリアプノフ条件を状態フィードバック型ニューラルコントロールポリシの学習問題に組み込んだリアプノフ損失定式化を提案する。 我々は,L-NODECが制御システムの指数的安定性を保証するとともに,不確実な初期条件に対する対角的ロバスト性を保証することを確立する。 L-NODECの性能は、ベンチマークダブルインテグレータ問題と、冷熱プラズマバイオメディカルシステムを用いた熱線量供給の最適制御に用いている。 L-NODECは平衡状態に達するのに必要な推論時間を著しく短縮することができる。

Deep neural networks are increasingly used as an effective way to represent control policies in a wide-range of learning-based control methods. For continuous-time optimal control problems (OCPs), which are central to many decision-making tasks, control policy learning can be cast as a neural ordinary differential equation (NODE) problem wherein state and control constraints are naturally accommodated. This paper presents a Lyapunov-NODE control (L-NODEC) approach to solving continuous-time OCPs for the case of stabilizing a known constrained nonlinear system around a terminal equilibrium point. We propose a Lyapunov loss formulation that incorporates a control-theoretic Lyapunov condition into the problem of learning a state-feedback neural control policy. We establish that L-NODEC ensures exponential stability of the controlled system, as well as its adversarial robustness to uncertain initial conditions. The performance of L-NODEC is illustrated on a benchmark double integrator problem and for optimal control of thermal dose delivery using a cold atmospheric plasma biomedical system. L-NODEC can substantially reduce the inference time necessary to reach the equilibrium state.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# ハイパースペクトル画像と特徴マイニングによる自己監督型フサリウムヘッドブライト検出

Self-supervised Fusarium Head Blight Detection with Hyperspectral Image and Feature Mining ( http://arxiv.org/abs/2409.00395v1 )

ライセンス: Link先を確認
Yu-Fan Lin, Ching-Heng Cheng, Bo-Cheng Qiu, Cheng-Jun Kang, Chia-Ming Lee, Chih-Chung Hsu, (参考訳) フサリウムヘッドブライト(Fusarium Head Blight、FHB)は小麦(ダラムを含む)、大麦、麦、その他の小さな穀物、トウモロコシに深刻な菌類病である。 FHBの効果的なモニタリングと正確な検出は、安定かつ信頼性の高い食品の安全性を確保するために不可欠である。 伝統的に、訓練された農学者や測量士は、労働集約的で非現実的でスケールが難しい手動の識別を行う。 ディープラーニングとハイパースペクトルイメージング(HSI)とリモートセンシング(RS)技術の進歩により、ディープラーニング、特に畳み込みニューラルネットワーク(CNN)が有望なソリューションとして登場した。 特に、重度FHBに感染した小麦は、軽度FHBに比べてスペクトルに有意な差がみられ、特に高スペクトル画像ベース法に有利である。 本研究では,HSIの終端抽出戦略とトップKバンド選択に基づく自己教師付き分類手法を提案する。 このアプローチは高価なデバイスや複雑なアルゴリズム設計を必要としないため、実用的な用途に適している。 我々の手法は、2024年の「Beyond Visible Spectrum: AI for Agriculture Challenge」で有効に検証されている。 ソースコードは、https://github.com/VanLinLin/Automated-Crop-Disease-Diagnosis-from-Hyperspectral-Imagery-3rd}で簡単に再現できる。

Fusarium Head Blight (FHB) is a serious fungal disease affecting wheat (including durum), barley, oats, other small cereal grains, and corn. Effective monitoring and accurate detection of FHB are crucial to ensuring stable and reliable food security. Traditionally, trained agronomists and surveyors perform manual identification, a method that is labor-intensive, impractical, and challenging to scale. With the advancement of deep learning and Hyper-spectral Imaging (HSI) and Remote Sensing (RS) technologies, employing deep learning, particularly Convolutional Neural Networks (CNNs), has emerged as a promising solution. Notably, wheat infected with serious FHB may exhibit significant differences on the spectral compared to mild FHB one, which is particularly advantageous for hyperspectral image-based methods. In this study, we propose a self-unsupervised classification method based on HSI endmember extraction strategy and top-K bands selection, designed to analyze material signatures in HSIs to derive discriminative feature representations. This approach does not require expensive device or complicate algorithm design, making it more suitable for practical uses. Our method has been effectively validated in the Beyond Visible Spectrum: AI for Agriculture Challenge 2024. The source code is easy to reproduce and available at {https://github.com/VanLinLin/Automated-Crop-Disease-Diagnosis-from-Hyperspectral-Imagery-3rd}.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# COSMo: CLIP Talks on Open-Set Multi-Target Domain Adaptation

COSMo: CLIP Talks on Open-Set Multi-Target Domain Adaptation ( http://arxiv.org/abs/2409.00397v1 )

ライセンス: Link先を確認
Munish Monga, Sachin Kumar Giroh, Ankit Jha, Mainak Singha, Biplab Banerjee, Jocelyn Chanussot, (参考訳) Multi-Target Domain Adaptation (MTDA)は、単一のソースドメインから学習したドメイン不変情報を複数のラベルのないターゲットドメインに適用する。 しかし、既存のMTDAメソッドは主に視覚機能内のドメインシフトに対処することに焦点を当てており、しばしば意味的特徴を見落とし、未知のクラスを扱うのに苦労し、結果としてOpen-Set (OS) MTDAと呼ばれるものとなる。 CLIPのような大規模ビジョン言語基盤モデルは有望だが、MTDAの可能性はいまだに明らかにされていない。 本稿では、ソースドメイン誘導型プロンプト学習を通じてドメインに依存しないプロンプトを学習し、プロンプト空間におけるMTDA問題に取り組む新しい方法であるCOSMoを紹介する。 ドメイン固有のバイアスネットワークを活用し、既知のクラスと未知のクラスのプロンプトを分離することにより、COSMoはドメインとクラスシフトに効果的に適応する。 我々の知る限り、COSMoはOpen-Set Multi-Target DA(OSMTDA)に対処する最初の方法であり、現実世界のシナリオをよりリアルに表現し、オープンセットとマルチターゲットDAの両方の課題に対処する。 COSMoは、Mini-DomainNet、Office-31、Office-Homeの3つの挑戦的なデータセットに対して平均5.1\%の平均的な改善を示している。 コードは、https://github.com/munish30monga/COSMoで入手できる。

Multi-Target Domain Adaptation (MTDA) entails learning domain-invariant information from a single source domain and applying it to multiple unlabeled target domains. Yet, existing MTDA methods predominantly focus on addressing domain shifts within visual features, often overlooking semantic features and struggling to handle unknown classes, resulting in what is known as Open-Set (OS) MTDA. While large-scale vision-language foundation models like CLIP show promise, their potential for MTDA remains largely unexplored. This paper introduces COSMo, a novel method that learns domain-agnostic prompts through source domain-guided prompt learning to tackle the MTDA problem in the prompt space. By leveraging a domain-specific bias network and separate prompts for known and unknown classes, COSMo effectively adapts across domain and class shifts. To the best of our knowledge, COSMo is the first method to address Open-Set Multi-Target DA (OSMTDA), offering a more realistic representation of real-world scenarios and addressing the challenges of both open-set and multi-target DA. COSMo demonstrates an average improvement of $5.1\%$ across three challenging datasets: Mini-DomainNet, Office-31, and Office-Home, compared to other related DA methods adapted to operate within the OSMTDA setting. Code is available at: https://github.com/munish30monga/COSMo
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# 言語モデルにおけるバックドア検出評価の再考

Rethinking Backdoor Detection Evaluation for Language Models ( http://arxiv.org/abs/2409.00399v1 )

ライセンス: Link先を確認
Jun Yan, Wenjie Jacky Mo, Xiang Ren, Robin Jia, (参考訳) 攻撃者が特定したトリガーを与えられた場合、モデルが悪意を持って振る舞うバックドア攻撃は、一般公開された言語モデルに依存する実践者にとって大きなセキュリティリスクをもたらす。 バックドア検出方法は、リリースされたモデルにバックドアが含まれているかどうかを検出することを目的としている。 既存のバックドア検出手法は標準ベンチマークでバックドアモデルを検出するのに高い精度を持っているが、野生のバックドアを堅牢に識別できるかどうかは不明である。 本稿では, バックドア植込み時の異なる要因を操作することで, バックドア検出器のロバスト性について検討する。 既存の手法の成功は、バックドア植え付け中の有毒なデータに基づいて、モデルがどれだけ激しく訓練されているかに大きく依存している。 具体的には、より攻撃的またはより保守的なトレーニングで植えられたバックドアは、デフォルトのものよりもはるかに検出が難しい。 本結果は,既存のバックドア検出器の堅牢性の欠如と,現在のベンチマーク構築の限界を浮き彫りにしたものである。

Backdoor attacks, in which a model behaves maliciously when given an attacker-specified trigger, pose a major security risk for practitioners who depend on publicly released language models. Backdoor detection methods aim to detect whether a released model contains a backdoor, so that practitioners can avoid such vulnerabilities. While existing backdoor detection methods have high accuracy in detecting backdoored models on standard benchmarks, it is unclear whether they can robustly identify backdoors in the wild. In this paper, we examine the robustness of backdoor detectors by manipulating different factors during backdoor planting. We find that the success of existing methods highly depends on how intensely the model is trained on poisoned data during backdoor planting. Specifically, backdoors planted with either more aggressive or more conservative training are significantly more difficult to detect than the default ones. Our results highlight a lack of robustness of existing backdoor detectors and the limitations in current benchmark construction.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# リアルタイムレコメンデーションにおける拡張バッチクエリアーキテクチャ

An Enhanced Batch Query Architecture in Real-time Recommendation ( http://arxiv.org/abs/2409.00400v1 )

ライセンス: Link先を確認
Qiang Zhang, Zhipeng Teng, Disheng Wu, Jiayin Wang, (参考訳) Webサイトやアプリの産業レコメンデーションシステムでは、数ミリ秒以内の数十億のコンテンツプールから、ユーザの関心に関連するトップnの結果をリコールし、予測することが不可欠である。 連続データの成長に対処し、リアルタイムレコメンデーション性能を向上させるために、リアルタイムレコメンデーションシステムのための高性能バッチクエリアーキテクチャを設計、実装した。 我々の貢献は、ハッシュ構造をキャッシュラインを意識した探索手法で最適化し、合体ハッシュを強化し、その上に構築されたハイブリッドストレージキーバリューサービスを実装することである。 提案手法は,並列最適化を組み込んだ場合,バッチクエリスループットにおいて従来のハッシュテーブルをはるかに上回り,ランダムメモリアクセスのクエリスループットの最大90%を達成できることを示す。 NVMeのサポート、ホットデータとコールドデータのための2層ストレージの統合、特にリソース消費の削減。 さらに、動的更新、属性の自動シャーディング、機能埋め込みテーブルの活用、バッチクエリにおける一貫性のための革新的なプロトコルの導入、即時インクリメンタルな学習更新の有効性の向上などを実現している。 このアーキテクチャは,数億人のユーザが参加するビデオコンテンツコミュニティであるbilibiliレコメンデーションシステムに1年以上にわたってデプロイされ,使用されてきた。

In industrial recommendation systems on websites and apps, it is essential to recall and predict top-n results relevant to user interests from a content pool of billions within milliseconds. To cope with continuous data growth and improve real-time recommendation performance, we have designed and implemented a high-performance batch query architecture for real-time recommendation systems. Our contributions include optimizing hash structures with a cacheline-aware probing method to enhance coalesced hashing, as well as the implementation of a hybrid storage key-value service built upon it. Our experiments indicate this approach significantly surpasses conventional hash tables in batch query throughput, achieving up to 90% of the query throughput of random memory access when incorporating parallel optimization. The support for NVMe, integrating two-tier storage for hot and cold data, notably reduces resource consumption. Additionally, the system facilitates dynamic updates, automated sharding of attributes and feature embedding tables, and introduces innovative protocols for consistency in batch queries, thereby enhancing the effectiveness of real-time incremental learning updates. This architecture has been deployed and in use in the bilibili recommendation system for over a year, a video content community with hundreds of millions of users, supporting 10x increase in model computation with minimal resource growth, improving outcomes while preserving the system's real-time performance.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# 環$\Z_4$ 上の自己直交符号を自己双対符号と一モジュラー格子に拡張する

Expanding self-orthogonal codes over a ring $\Z_4$ to self-dual codes and unimodular lattices ( http://arxiv.org/abs/2409.00404v1 )

ライセンス: Link先を確認
Minjia Shi, Sihui Tao, Jihoon Hong, Jon-Lark Kim, (参考訳) 自己双対符号はブロック設計や格子を含む数学的構造と結びついており、量子誤り訂正符号や秘密共有スキームに実用的応用があるため、活発に研究されている。 それでも、より小さな次元の自己直交符号から自己双対符号を構築することにはあまり注意が払われていない。 したがって、本論文の主な目的は、任意の自己直交符号を環$\Z_4$で拡張し、多くの自己双対符号を$\Z_4$で拡張する方法を提案することである。 長さ$\Z_4$の自己双対コードはすべて、この方法で構築可能であることを示す。 さらに、Z_4$の長さが27ドル、28ドル、29ドル、33ドル、34ドルという5つの新しい自己双対符号が発見された。 さらに、新しいユークリッド最適自己双対符号に$A$を適用して、34次元の奇奇な極小一モジュラー格子を構築した。

Self-dual codes have been studied actively because they are connected with mathematical structures including block designs and lattices and have practical applications in quantum error-correcting codes and secret sharing schemes. Nevertheless, there has been less attention to construct self-dual codes from self-orthogonal codes with smaller dimensions. Hence, the main purpose of this paper is to propose a way to expand any self-orthogonal code over a ring $\Z_4$ to many self-dual codes over $\Z_4$. We show that all self-dual codes over $\Z_4$ of lengths $4$ to $8$ can be constructed this way. Furthermore, we have found five new self-dual codes over $\Z_4$ of lengths $27, 28, 29, 33,$ and $34$ with the highest Euclidean weight $12$. Moreover, using Construction $A$ applied to our new Euclidean-optimal self-dual codes over $\Z_4$, we have constructed a new odd extremal unimodular lattice in dimension 34 whose kissing number was not previously known.
翻訳日:2024-09-06 15:08:42 公開日:2024-08-31
# 時間的注意を伴うマルチラベルゼロショット音声分類

Multi-label Zero-Shot Audio Classification with Temporal Attention ( http://arxiv.org/abs/2409.00408v1 )

ライセンス: Link先を確認
Duygu Dogan, Huang Xie, Toni Heittola, Tuomas Virtanen, (参考訳) ゼロショット学習モデルは、補助情報を用いて、見たクラスから知識を伝達することで、新しいクラスを分類することができる。 既存のゼロショット学習手法の多くはシングルラベルの分類タスクに重点を置いているが,本研究ではマルチラベルのゼロショット音声分類を行う手法を提案する。 目に見えないクラスに一般化しながら、複数ラベル音を分類するという課題に対処するため、時間的注意を適応する。 時間的注意機構は、音響的および意味的適合性に基づいて、重み付けを異なる音声セグメントに割り当てる。 これにより、重み付けなしで時間的に集約された音響特徴を用いる手法よりも、より正確なマルチラベルゼロショット分類が可能になる。 我々は,一様集約音響特徴量,ゼロルールベースラインを用いたゼロショットモデルに対するAudioSetのサブセットに対するアプローチと,教師付きシナリオにおける提案手法の評価を行った。 その結果,時間的注意がマルチラベルシナリオにおけるゼロショット音声分類性能を向上させることがわかった。

Zero-shot learning models are capable of classifying new classes by transferring knowledge from the seen classes using auxiliary information. While most of the existing zero-shot learning methods focused on single-label classification tasks, the present study introduces a method to perform multi-label zero-shot audio classification. To address the challenge of classifying multi-label sounds while generalizing to unseen classes, we adapt temporal attention. The temporal attention mechanism assigns importance weights to different audio segments based on their acoustic and semantic compatibility, thus enabling the model to capture the varying dominance of different sound classes within an audio sample by focusing on the segments most relevant for each class. This leads to more accurate multi-label zero-shot classification than methods employing temporally aggregated acoustic features without weighting, which treat all audio segments equally. We evaluate our approach on a subset of AudioSet against a zero-shot model using uniformly aggregated acoustic features, a zero-rule baseline, and the proposed method in the supervised scenario. Our results show that temporal attention enhances the zero-shot audio classification performance in multi-label scenario.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# 単一画像レイニングのためのハイブリッドトランス-マンバネットワーク

A Hybrid Transformer-Mamba Network for Single Image Deraining ( http://arxiv.org/abs/2409.00410v1 )

ライセンス: Link先を確認
Shangquan Sun, Wenqi Ren, Juxiang Zhou, Jianhou Gan, Rui Wang, Xiaochun Cao, (参考訳) 既存のデラリング変換器では、固定範囲の窓やチャネル次元に沿った自己認識機構を採用しており、非局所受容場の利用を制限している。 そこで本研究では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network, TransMamba Network, TransMamba Network, Transformer-Mamba Network, TransMamba Network)を導入する。 雨害と背景の異なるスペクトル領域の特徴に基づいて,第1枝にスペクトル帯域を有する変圧器ブロックを設計する。 自己注意はスペクトル領域チャネル次元の組み合わせ内で実行され、長距離依存性をモデル化する能力を改善する。 周波数固有情報を強化するため,スペクトル領域の特徴を集約するスペクトル拡張フィードフォワードモジュールを提案する。 第2のブランチでは、Mamba層は、ローカル情報とグローバル情報の両方をモデリングするために、カスケードされた双方向状態空間モデルモジュールを備えている。 エンコーダとデコーダのいずれの段階でも、デュアルブランチ機能のチャネルワイド結合を行い、チャネル還元により特徴融合を実現し、トランスフォーマーとマンバのブランチからのマルチスケール情報のより効率的な統合を可能にする。 クリーンな画像内の信号レベル関係をよりよく再構築するために、スペクトルコヒーレンス損失も生み出す。 多様なデータセットと実世界の画像に対する大規模な実験は、最先端のアプローチと比較して、我々の手法の優位性を示している。

Existing deraining Transformers employ self-attention mechanisms with fixed-range windows or along channel dimensions, limiting the exploitation of non-local receptive fields. In response to this issue, we introduce a novel dual-branch hybrid Transformer-Mamba network, denoted as TransMamba, aimed at effectively capturing long-range rain-related dependencies. Based on the prior of distinct spectral-domain features of rain degradation and background, we design a spectral-banded Transformer blocks on the first branch. Self-attention is executed within the combination of the spectral-domain channel dimension to improve the ability of modeling long-range dependencies. To enhance frequency-specific information, we present a spectral enhanced feed-forward module that aggregates features in the spectral domain. In the second branch, Mamba layers are equipped with cascaded bidirectional state space model modules to additionally capture the modeling of both local and global information. At each stage of both the encoder and decoder, we perform channel-wise concatenation of dual-branch features and achieve feature fusion through channel reduction, enabling more effective integration of the multi-scale information from the Transformer and Mamba branches. To better reconstruct innate signal-level relations within clean images, we also develop a spectral coherence loss. Extensive experiments on diverse datasets and real-world images demonstrate the superiority of our method compared against the state-of-the-art approaches.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# AIを活用したテスト自動化ツール: 体系的レビューと実証的評価

AI-powered test automation tools: A systematic review and empirical evaluation ( http://arxiv.org/abs/2409.00411v1 )

ライセンス: Link先を確認
Vahid Garousi, Nithin Joy, Alper Buğra Keleş, (参考訳) コンテキスト: テストエンジニアはシステムをより効果的かつ効率的にテストする方法を模索しています。 AI(Artificial Intelligence)の分野での最近の進歩により、多数のAIを使ったテスト自動化ツールが登場し、テストをより効率的かつ効率的にするのに役立つ。 目的: 既存のAIベースのテスト自動化ツールが提供する機能について検討する。 また,2つのオープンソースソフトウェアアンダーテスト(SUT)に適用することにより,AIベースの2つのテストツールの性能を実証的に評価する。 私たちは、AI機能がテストの有効性と効率にどのように役立つかを実証的に評価します。 AIベースのテストツールにおけるAI機能の制限についても検討する。 方法: この目的を達成するため, 産業におけるAIベースのテスト自動化ツールの展望を調査するため, MLR(Multivocal Literature Review)研究を行った。 さらに、AIベースのテスト自動化ツールを2つのオープンソースプロジェクトで使用することにより、2つのAIベースのテスト自動化ツールを経験的に分析する実験的な評価も実施されている。 選択された機能に対するAIの必要性を決定するため、同じ機能がMLを使わずに作成され、AIを使用して回避できる制限を探索した。 結果: 結果は、55のAIベースのテスト自動化ツールに基づいています。 さらに,MLRの一部として分析した55のツールのうち2つを選択し,経験的評価を行った。 結論: 本稿では,AIベースのテスト自動化ツールの潜在的なメリットと限界について検討する。 探索された制限は、より良いAIベースのテストツールを開発するためのインスピレーションとして使用できる。

Context: Test engineers are looking at more ways to test systems more effectively and efficiently. With recent advances in the field of AI (Artificial Intelligence), a large number of AI-powered test automation tools have emerged, which can help make testing more effective and efficient. Objective: We investigate the features provided by existing AI-based test automation tools. We also empirically evaluate the performance of two AI-based testing tools by applying them on two selected open-source Software Under Test (SUT). We empirically evaluate how the AI features can be helpful for effectiveness and efficiency of testing. We also study the limitations of the AI features in AI-based test tools. Method: To accomplish the objective, a Multivocal Literature Review (MLR) study was conducted to investigate the landscape of the AI-based test automation tools in the industry. Moreover, an empirical assessment is also conducted to empirically analyze two AI-based test automation tools by using it on two open-source projects. To determine the need of AI for selected feature, the same feature was created without the use of ML to explore its limitations which can be avoided using AI. Results: Our results are based on 55 AI-based test automation tools. Furthermore, an empirical assessment was performed by selecting two of the 55 tools analyzed as part of the MLR. Conclusion: This paper explores the potential benefits and limitations of AI-based test automation tools. The limitations explored can be used as inspiration to develop better AI-based test tools.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# Good MT では end-to-End が不要である: 翻訳-then-Summarize 言語間要約の1例

With Good MT There is No Need For End-to-End: A Case for Translate-then-Summarize Cross-lingual Summarization ( http://arxiv.org/abs/2409.00414v1 )

ライセンス: Link先を確認
Daniel Varab, Christian Hardmeier, (参考訳) 最近の研究は、言語間の要約のためのエンドツーエンドのシステム設計が、従来のパイプライン設計よりも同等あるいはそれ以上に優れた競合ソリューションであることを示唆している。 証拠を詳しく見てみると、この直観はほんのわずかの言語の結果に基づいており、また、非力のパイプラインベースラインを使用していることが分かる。 本研究では、39のソース言語上での言語間要約のパラダイムを英語に比較し、単純な \textit{translate-then-summarize} パイプラインの設計が、膨大な並列データにアクセス可能なエンドツーエンドシステムでさえ一貫して優れていることを示す。 パイプラインモデルがうまく機能しない言語では、システム性能が公に分散したBLEUスコアと高い相関関係があることを示し、実践者が言語ペアを優先的に実現できるようにする。 近年の出版動向とは対照的に,モノリンガル要約タスクと翻訳タスクの個別の進歩は,エンドツーエンドシステムよりも優れた性能をもたらすことが示唆され,エンド・ツー・エンドの設計は慎重に検討されるべきである。

Recent work has suggested that end-to-end system designs for cross-lingual summarization are competitive solutions that perform on par or even better than traditional pipelined designs. A closer look at the evidence reveals that this intuition is based on the results of only a handful of languages or using underpowered pipeline baselines. In this work, we compare these two paradigms for cross-lingual summarization on 39 source languages into English and show that a simple \textit{translate-then-summarize} pipeline design consistently outperforms even an end-to-end system with access to enormous amounts of parallel data. For languages where our pipeline model does not perform well, we show that system performance is highly correlated with publicly distributed BLEU scores, allowing practitioners to establish the feasibility of a language pair a priori. Contrary to recent publication trends, our result suggests that the combination of individual progress of monolingual summarization and translation tasks offers better performance than an end-to-end system, suggesting that end-to-end designs should be considered with care.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# 祖先関係を用いたガウス雑音を含む線形非循環因果モデル学習

Learning linear acyclic causal model including Gaussian noise using ancestral relationships ( http://arxiv.org/abs/2409.00417v1 )

ライセンス: Link先を確認
Ming Cai, Penggang Gao, Hisayuki Hara, (参考訳) 本稿では因果DAGの学習アルゴリズムについて述べる。 PCアルゴリズムは因果モデルへの忠実性以外の仮定は行わず、マルコフ同値クラスまでしか特定できない。 LiNGAMは因果モデルに対して線形性および連続的な非ガウス的障害を仮定し、LiNGAMを定義する因果DAGは完全に同定可能である。 PCアルゴリズムとLiNGAMのハイブリッドであるPC-LiNGAMは、ガウス乱があっても線形因果モデルの分布等価パターンを識別できる。 しかし、最悪の場合、PC-LiNGAMは変数の数に対して決定的な時間的複雑さを持つ。 本稿では,PC-LiNGAMよりも低時間で線形因果モデルの分布等価パターンを学習するためのアルゴリズムを提案する。

This paper discusses algorithms for learning causal DAGs. The PC algorithm makes no assumptions other than the faithfulness to the causal model and can identify only up to the Markov equivalence class. LiNGAM assumes linearity and continuous non-Gaussian disturbances for the causal model, and the causal DAG defining LiNGAM is shown to be fully identifiable. The PC-LiNGAM, a hybrid of the PC algorithm and LiNGAM, can identify up to the distribution-equivalence pattern of a linear causal model, even in the presence of Gaussian disturbances. However, in the worst case, the PC-LiNGAM has factorial time complexity for the number of variables. In this paper, we propose an algorithm for learning the distribution-equivalence patterns of a linear causal model with a lower time complexity than PC-LiNGAM, using the causal ancestor finding algorithm in Maeda and Shimizu, which is generalized to account for Gaussian disturbances.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# ソフト制約のある相手によるロバストな非政治的強化学習

Robust off-policy Reinforcement Learning via Soft Constrained Adversary ( http://arxiv.org/abs/2409.00418v1 )

ライセンス: Link先を確認
Kosuke Nakanishi, Akihiro Kubo, Yuji Yasui, Shin Ishii, (参考訳) 近年、RLの潜在的な脆弱性により、入力観測に対する頑健な強化学習(RL)法が注目され、急速な進化を遂げている。 これらの先進的な手法は合理的に成功しているが、長期的地平線の観点からは2つの制限がある。 第一に、ポリシーと対応する最適逆境間の相互依存は、非政治的RLアルゴリズムの開発を制限するが、最適逆境を得るには現在のポリシーに依存するべきであるが、これは非政治的RLに限定している。 第二に、これらの手法は、環境における摂動分布の事前知識が利用可能であっても、通常$L_p$-normのみに基づいて摂動を仮定する。 本稿では, 先行知識分布を持つf分割制約問題である, 対向RLに関する別の視点を紹介する。 このことから、2つの典型的な攻撃とそれに対応する堅牢な学習フレームワークを導出する。 その結果, 提案手法は, サンプル効率のよいオフポリチックRLにおいて, 優れた性能を発揮することが示された。

Recently, robust reinforcement learning (RL) methods against input observation have garnered significant attention and undergone rapid evolution due to RL's potential vulnerability. Although these advanced methods have achieved reasonable success, there have been two limitations when considering adversary in terms of long-term horizons. First, the mutual dependency between the policy and its corresponding optimal adversary limits the development of off-policy RL algorithms; although obtaining optimal adversary should depend on the current policy, this has restricted applications to off-policy RL. Second, these methods generally assume perturbations based only on the $L_p$-norm, even when prior knowledge of the perturbation distribution in the environment is available. We here introduce another perspective on adversarial RL: an f-divergence constrained problem with the prior knowledge distribution. From this, we derive two typical attacks and their corresponding robust learning frameworks. The evaluation of robustness is conducted and the results demonstrate that our proposed methods achieve excellent performance in sample-efficient off-policy RL.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# 自動データ拡張による公正グラフ表現学習の再現性の検討

Reproducibility Study Of Learning Fair Graph Representations Via Automated Data Augmentations ( http://arxiv.org/abs/2409.00421v1 )

ライセンス: Link先を確認
Thijmen Nijdam, Juell Sprott, Taiki Papandreou-Lazos, Jurgen de Heus, (参考訳) 本研究では,Ling et al (2022)による'Learning Fair Graph Representations Via Automated Data Augmentations'の再現性解析を行った。 ノード分類タスクに着目した元のクレームの有効性を評価し,リンク予測タスクにおけるGraphairフレームワークの性能について検討する。 調査の結果,元の3つの主張のうちの1つを部分的に再現し,他の2つを完全に裏付けることが可能であることが判明した。 さらに、ノード分類からさまざまなデータセット間のリンク予測まで、Graphairの適用範囲を広げる。 以上の結果から,Graphairは混合ダイアディックレベルのフェアネスのベースラインモデルと同等のフェアネス精度のトレードオフを示す一方で,サブグループダイアディックレベルのフェアネスのトレードオフが優れていることが示唆された。 これらの知見はグラフベースの学習に広く採用される可能性を示している。 コードベースはGitHubでhttps://github.com/juellsprott/graphair-reproducibilityで確認できます。

In this study, we undertake a reproducibility analysis of 'Learning Fair Graph Representations Via Automated Data Augmentations' by Ling et al. (2022). We assess the validity of the original claims focused on node classification tasks and explore the performance of the Graphair framework in link prediction tasks. Our investigation reveals that we can partially reproduce one of the original three claims and fully substantiate the other two. Additionally, we broaden the application of Graphair from node classification to link prediction across various datasets. Our findings indicate that, while Graphair demonstrates a comparable fairness-accuracy trade-off to baseline models for mixed dyadic-level fairness, it has a superior trade-off for subgroup dyadic-level fairness. These findings underscore Graphair's potential for wider adoption in graph-based learning. Our code base can be found on GitHub at https://github.com/juellsprott/graphair-reproducibility.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# 対角化によるフォールトトレラント量子回路の合成学習

Learning to Synthesize Fault-Tolerant Quantum Circuits by Diagonalization ( http://arxiv.org/abs/2409.00433v1 )

ライセンス: Link先を確認
Mathias Weiden, Justin Kalloor, Ed Younis, John Kubiatowicz, Costin Iancu, (参考訳) 離散ゲートセットで表現される回路への量子プログラムのコンパイルは、フォールトトレラント量子コンピューティングにとって不可欠である。 クリフォード+Tゲートセットのような離散ゲート集合におけるユニタリの高精度実装を見つけるための最適手法は難解である。 Reinforcement Learning (RL) やsimulated annealingなど,探索に基づく合成手法は,低深度ユニタリの効率的な実装を実証的に発見する上で有望である。 探索に基づく手法を用いて、一般ユニタリ合成問題を対角ユニタリの合成問題に還元する。 量子データセットに不可欠なディープラーニングアーキテクチャのいくつかの改善に基づき、我々のRLベースのアプローチは、探索に基づく手法と数学的分解を組み合わせることで、実際の量子アルゴリズムの配列から取られたユニタリの高精度実装を効率的に見つけることができることを示す。 これらのベンチマークでは、Quantum Shannon Decompositionと比較して、平均94%の非クリフォードゲートを観測した。

Compilation of quantum programs into circuits expressed with discrete gate sets is essential for fault-tolerant quantum computing. Optimal methods for discovering high-precision implementations of unitaries in discrete gate sets such as the Clifford+T gate set are intractable. Search-based synthesis methods, including Reinforcement Learning (RL) and simulated annealing, are promising as they empirically discover efficient implementations of low-depth unitaries. We leverage search-based methods to reduce the general unitary synthesis problem to one of synthesizing diagonal unitaries; a problem solvable efficiently in general and optimally in the single-qubit case. Relying on several improvements in deep learning architectures essential for quantum datasets, our RL-based approach demonstrates how search-based methods and mathematical decompositions can be combined to efficiently find high precision implementations of unitaries taken from an array of real quantum algorithms. On these benchmarks we observe up to an average of 94% fewer non-Clifford gates compared to the Quantum Shannon Decomposition.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# 量子マルコフ力学の緩和速度に関する普遍的境界

Universal bound on the relaxation rates for quantum Markovian dynamics ( http://arxiv.org/abs/2409.00436v1 )

ライセンス: Link先を確認
Paolo Muratore-Ginanneschi, Gen Kimura, Dariusz Chruściński, (参考訳) 緩和速度は古典過程と量子過程の両方において重要な特性を提供する。 基本的には、システムの熱化、平衡化、デコヒール化、および/または散逸化の速度を制御する。 さらに、しばしば実験室で測定するために直接アクセス可能であり、そのためシステムの重要な物理的特性を定義する。 実験的に測定された緩和速度は、特定の理論モデルの妥当性をテストするために用いられる。 量子力学は緩和速度に非自明な制約を与えているのだろうか? } 数年前に定式化された予想は、任意の量子チャネルが、ヒルベルト空間の次元で割られたすべての緩和率の和によって、上から最大速度が有界であることを意味することを証明している。 この制約は普遍的(エネルギーレベルが有限である全ての量子系に有効)であり、厳密である(改善できない)ことを強調すべきである。 さらに、この制約は、半連続ベルの不等式とよく知られたレゲット=ガルグの不等式(時空間ベル不等式と呼ばれることもある)に類似した役割を果たす。 ベルの不等式に対する違反は局所的な隠れ変数モデルを除外し、レゲット=ガルグの不等式に対する違反はマクロリアリズムを除外する。 同様に、境界ルールの違反は、完全に正の分割可能な進化を排除している。

Relaxation rates provide important characteristics both for classical and quantum processes. Essentially they control how fast the system thermalizes, equilibrates, {decoheres, and/or dissipates}. Moreover, very often they are directly accessible to be measured in the laboratory and hence they define key physical properties of the system. Experimentally measured relaxation rates can be used to test validity of a particular theoretical model. Here we analyze a fundamental question: {\em does quantum mechanics provide any nontrivial constraint for relaxation rates?} We prove the conjecture formulated a few years ago that any quantum channel implies that a maximal rate is bounded from above by the sum of all the relaxation rates divided by the dimension of the Hilbert space. It should be stressed that this constraint is universal (it is valid for all quantum systems with finite number of energy levels) and it is tight (cannot be improved). In addition, the constraint plays an analogous role to the seminal Bell inequalities and the well known Leggett-Garg inequalities (sometimes called temporal Bell inequalities). Violations of Bell inequalities rule out local hidden variable models, and violations of Leggett-Garg inequalities rule out macrorealism. Similarly, violations of the bound rule out completely positive-divisible evolution.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# 金融ニュースの影響を打破する - 幾何学的ハイパーグラフによる新たなAIアプローチ

Breaking Down Financial News Impact: A Novel AI Approach with Geometric Hypergraphs ( http://arxiv.org/abs/2409.00438v1 )

ライセンス: Link先を確認
Anoushka Harit, Zhongtian Sun, Jongmin Yu, Noura Al Moubayed, (参考訳) 急激で不安定な金融市場では、金融ニュースに基づく株価の動きを正確に予測することが投資家やアナリストにとって重要である。 伝統的なモデルは、しばしば、ニュースイベントと市場の反応の間の複雑なダイナミックな関係を捉え、行動可能な洞察を提供する能力を制限するのに苦労する。 本稿では、幾何学的ハイパーグラフ注意ネットワーク(GHAN)の開発を通じて、説明可能な人工知能(XAI)を活用して、金融ニュースが市場行動に与える影響を分析する新しいアプローチを提案する。 幾何学的ハイパーグラフは、エッジが複数のノードを接続し、金融エンティティやニュースイベント間の高次関係や相互作用を効果的にモデル化することで、従来のグラフ構造を拡張している。 このユニークな機能は、単一のニュースイベントが複数のストックやセクターに同時に影響するような、複雑な依存関係をキャプチャすることを可能にする。 ハイパーグラフに注意機構を組み込むことで、GHANはモデルが最も関連性の高い情報に集中し、より正確な予測とより良い解釈可能性を保証する能力を高める。 さらに、BERTベースの埋め込みを用いて、財務ニュースのセマンティックな豊かさを捉え、内容の微妙な理解を提供する。 GHANモデルは、包括的な金融ニュースデータセットを用いて、高次相互作用の複雑さ、モデル解釈可能性の必要性、金融市場のダイナミックな性質など、金融ニュース影響分析における重要な課題に対処する。 GHAN内での注意機構とSHAP値の統合は透明性を確保し、市場の予測を駆動する最も影響力のある要因を浮き彫りにする。 経験的検証は、従来の感情分析や時系列モデルよりも、我々のアプローチが優れていることを示す。

In the fast-paced and volatile financial markets, accurately predicting stock movements based on financial news is critical for investors and analysts. Traditional models often struggle to capture the intricate and dynamic relationships between news events and market reactions, limiting their ability to provide actionable insights. This paper introduces a novel approach leveraging Explainable Artificial Intelligence (XAI) through the development of a Geometric Hypergraph Attention Network (GHAN) to analyze the impact of financial news on market behaviours. Geometric hypergraphs extend traditional graph structures by allowing edges to connect multiple nodes, effectively modelling high-order relationships and interactions among financial entities and news events. This unique capability enables the capture of complex dependencies, such as the simultaneous impact of a single news event on multiple stocks or sectors, which traditional models frequently overlook. By incorporating attention mechanisms within hypergraphs, GHAN enhances the model's ability to focus on the most relevant information, ensuring more accurate predictions and better interpretability. Additionally, we employ BERT-based embeddings to capture the semantic richness of financial news texts, providing a nuanced understanding of the content. Using a comprehensive financial news dataset, our GHAN model addresses key challenges in financial news impact analysis, including the complexity of high-order interactions, the necessity for model interpretability, and the dynamic nature of financial markets. Integrating attention mechanisms and SHAP values within GHAN ensures transparency, highlighting the most influential factors driving market predictions. Empirical validation demonstrates the superior effectiveness of our approach over traditional sentiment analysis and time-series models.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# 無線画像における身体と背景の分離 : 実用的なPythonコード

Separation of Body and Background in Radiological Images. A Practical Python Code ( http://arxiv.org/abs/2409.00442v1 )

ライセンス: Link先を確認
Seyedeh Fahimeh Hosseini, Faezeh Shalbafzadeh, Behzad Amanpour-Gharaei, (参考訳) MRI(MRI)やCT(CT)画像などの放射線画像は、典型的には身体部分と暗黒背景から構成される。 多くの分析では、身体部分領域を背景領域から分離する必要がある。 本稿では,2次元および3次元の放射線画像において,身体領域と背景領域を分離するように設計されたPythonコードについて述べる。 脳,頸部,腹部の様々な部位のMRIおよびCT画像を用いて,このアルゴリズムを検証した。 さらに、8ビット符号なし整数 (UINT8) フォーマットへのデータ変換のために調整された強度正規化法と外周制限法を導入し、その体-裏面分離への影響を検討した。 私たちのPythonコードは、適切な引用で使用できます。

Radiological images, such as magnetic resonance imaging (MRI) and computed tomography (CT) images, typically consist of a body part and a dark background. For many analyses, it is necessary to separate the body part region from the background. In this article, we present a Python code designed to separate body and background regions in 2D and 3D radiological images. We tested the algorithm on various MRI and CT images of different body parts, including the brain, neck, and abdominal regions. Additionally, we introduced a method for intensity normalization and outlier restriction, adjusted for data conversion into 8-bit unsigned integer (UINT8) format, and examined its effects on body-background separation. Our Python code is available for use with proper citation.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# MERITデータセット:解釈可能なトランスクリプトのモデリングと効率的なレンダリング

The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts ( http://arxiv.org/abs/2409.00447v1 )

ライセンス: Link先を確認
I. de Rodrigo, A. Sanchez-Cuadrado, J. Boal, A. J. Lopez-Lopez, (参考訳) 本稿では,学校レポートのコンテキスト内で,マルチモーダル(テキスト+画像+レイアウト)完全ラベル付きデータセットであるMERITデータセットを紹介する。 400以上のラベルと33kのサンプルを含むMERITデータセットは、Visually-rich Document Understanding (VrDU)タスクのトレーニングモデルに有用なリソースである。 MERITデータセットは、その性質(学年レポート)により、制御された方法でバイアスを含む可能性があるため、言語モデル(LLM)で誘導されるバイアスをベンチマークするための貴重なツールである。 論文では、データセットの生成パイプラインの概要と、テキスト、ビジュアル、レイアウト、バイアスドメインの主な機能を強調している。 データセットの有用性を実証するため,トークン分類モデルを用いたベンチマークを行い,SOTAモデルにおいてもデータセットが大きな課題となることを示し,MERITデータセットからのサンプルを事前学習フェーズに含めることで大きなメリットが期待できることを示した。

This paper introduces the MERIT Dataset, a multimodal (text + image + layout) fully labeled dataset within the context of school reports. Comprising over 400 labels and 33k samples, the MERIT Dataset is a valuable resource for training models in demanding Visually-rich Document Understanding (VrDU) tasks. By its nature (student grade reports), the MERIT Dataset can potentially include biases in a controlled way, making it a valuable tool to benchmark biases induced in Language Models (LLMs). The paper outlines the dataset's generation pipeline and highlights its main features in the textual, visual, layout, and bias domains. To demonstrate the dataset's utility, we present a benchmark with token classification models, showing that the dataset poses a significant challenge even for SOTA models and that these would greatly benefit from including samples from the MERIT Dataset in their pretraining phase.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# PSLF:レコメンダシステムのためのPID制御器内蔵2次潜在因子分析モデル

PSLF: A PID Controller-incorporated Second-order Latent Factor Analysis Model for Recommender System ( http://arxiv.org/abs/2409.00448v1 )

ライセンス: Link先を確認
Jialiang Wang, Yan Xia, Ye Yuan, (参考訳) グラフ表現学習において、特に高次元および不完全(HDI)相互作用データにおいて、ロスランドスケープの曲率情報を組み込んだ2次潜在因子(SLF)解析モデルが優れた性能を示す。 しかし、その目的関数は双線型かつ非凸であり、SLFモデルは低収束率で悩まされる。 そこで本研究では,PSLF(PIDController-incorporated SLF)モデルを提案する。 a) PIDコントローラの原則を取り入れた学習誤差推定の精細化 ロ ヘッセン・ベクター製品による二階情報取得 複数のHDIデータセットに対する実験結果から,提案したPSLFモデルは収束率と一般化性能に関する高度なオプティマイザに基づく4つの最先端潜在因子モデルより優れていたことが示唆された。

A second-order-based latent factor (SLF) analysis model demonstrates superior performance in graph representation learning, particularly for high-dimensional and incomplete (HDI) interaction data, by incorporating the curvature information of the loss landscape. However, its objective function is commonly bi-linear and non-convex, causing the SLF model to suffer from a low convergence rate. To address this issue, this paper proposes a PID controller-incorporated SLF (PSLF) model, leveraging two key strategies: a) refining learning error estimation by incorporating the PID controller principles, and b) acquiring second-order information insights through Hessian-vector products. Experimental results on multiple HDI datasets indicate that the proposed PSLF model outperforms four state-of-the-art latent factor models based on advanced optimizers regarding convergence rates and generalization performance.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# ActionPose:ダーク・ナレッジ・オブ・アクションによる3次元人文推定の事前学習

ActionPose: Pretraining 3D Human Pose Estimation with the Dark Knowledge of Action ( http://arxiv.org/abs/2409.00449v1 )

ライセンス: Link先を確認
Longyun Liao, Rong Zheng, (参考訳) 2次元から3次元の人間のポーズリフトは、深さのあいまいさと閉塞性により不適切な問題である。 空間的・時間的整合性のみに依存する既存の手法は、動作の意味情報を欠いているため、これらの問題を解決するには不十分である。 これを解決するために,アクションラベルの詳細なテキスト埋め込みとモーション埋め込みを連携させることにより,アクション知識を活用するフレームワークであるActionPoseを提案する。 ActionPoseは、事前トレーニングと微調整の2段階で動作する。 事前訓練段階では、モデルは行動を認識し、マスクされた2Dポーズから3Dポーズを再構築する。 微調整の段階では、実世界の人間のポーズ推定データセットを使ってアクションラベルなしでモデルをさらに洗練する。 さらに,動作モデルにマスク付きボディパーツとマスク付きタイムウィンドウを組み込むことにより,時間領域と空間領域の両方における動作間のあいまいな境界の影響を軽減する。 実験では、Human3.6MやMPI-INF-3DHPを含む公開データセット上での3Dポーズ推定において、最先端のパフォーマンスを達成するActionPoseの有効性が示されている。 具体的には、ActionPoseはHuman3.6Mで36.7mmのMPJPEを、検出された2Dポーズを入力として、15.5mmのMPI-INF-3DHPで、地上の2Dポーズを入力として達成する。

2D-to-3D human pose lifting is an ill-posed problem due to depth ambiguity and occlusion. Existing methods relying on spatial and temporal consistency alone are insufficient to resolve these problems because they lack semantic information of the motions. To overcome this, we propose ActionPose, a framework that leverages action knowledge by aligning motion embeddings with text embeddings of fine-grained action labels. ActionPose operates in two stages: pretraining and fine-tuning. In the pretraining stage, the model learns to recognize actions and reconstruct 3D poses from masked and noisy 2D poses. During the fine-tuning stage, the model is further refined using real-world 3D human pose estimation datasets without action labels. Additionally, our framework incorporates masked body parts and masked time windows in motion modeling to mitigate the effects of ambiguous boundaries between actions in both temporal and spatial domains. Experiments demonstrate the effectiveness of ActionPose, achieving state-of-the-art performance in 3D pose estimation on public datasets, including Human3.6M and MPI-INF-3DHP. Specifically, ActionPose achieves an MPJPE of 36.7mm on Human3.6M with detected 2D poses as input and 15.5mm on MPI-INF-3DHP with ground-truth 2D poses as input.
翻訳日:2024-09-06 14:49:38 公開日:2024-08-31
# Voronoiテッセルレーションと物理制約を用いた深部ニューラルネットワークによるスパース観測からの力学系予測

Dynamical system prediction from sparse observations using deep neural networks with Voronoi tessellation and physics constraint ( http://arxiv.org/abs/2409.00458v1 )

ライセンス: Link先を確認
Hanyang Wang, Hao Zhou, Sibo Cheng, (参考訳) スパース観測による力学系の空間再構成問題に対する様々な手法の成功にもかかわらず、スパース場の時空間予測は依然として課題である。 時空間スパース場予測のための既存のKrigingベースのフレームワークは、非線形動的予測問題に必要な精度と推論時間を満たすことができない。 本稿では,畳み込みエンコーダデコーダ(CED)と長短期記憶(LSTM)を併用し,畳み込み長短期記憶(ConvLSTM)を利用する,ボロノイテッセルレーション(DSOVT)フレームワークを用いたスパースオブザーバからの動的システム予測について紹介する。 ボロノイテッセルレーションを時空間深層学習モデルと組み合わせることで、DSOVTは非構造化、スパース、時間変化の観測による力学系の予測に長けている。 CED-LSTMは、Voronoiテッセレーションを時系列予測のための低次元表現にマッピングし、ConvLSTMは、これらのテッセレーションを直接エンドツーエンドの予測モデルで使用する。 さらに、明示的な公式を持つ力学系のトレーニング過程において、物理制約を組み込む。 純粋にデータ駆動モデルと比較して、我々の物理ベースのアプローチは、明示的に定式化された力学の中で物理法則を学習し、転がり予測の堅牢性と精度を向上させる。 実際の海面データと浅層水系に関する数値実験により,我々のフレームワークの精度と計算効率を,スパース観測と時間変化観測で明らかに実証した。

Despite the success of various methods in addressing the issue of spatial reconstruction of dynamical systems with sparse observations, spatio-temporal prediction for sparse fields remains a challenge. Existing Kriging-based frameworks for spatio-temporal sparse field prediction fail to meet the accuracy and inference time required for nonlinear dynamic prediction problems. In this paper, we introduce the Dynamical System Prediction from Sparse Observations using Voronoi Tessellation (DSOVT) framework, an innovative methodology based on Voronoi tessellation which combines convolutional encoder-decoder (CED) and long short-term memory (LSTM) and utilizing Convolutional Long Short-Term Memory (ConvLSTM). By integrating Voronoi tessellations with spatio-temporal deep learning models, DSOVT is adept at predicting dynamical systems with unstructured, sparse, and time-varying observations. CED-LSTM maps Voronoi tessellations into a low-dimensional representation for time series prediction, while ConvLSTM directly uses these tessellations in an end-to-end predictive model. Furthermore, we incorporate physics constraints during the training process for dynamical systems with explicit formulas. Compared to purely data-driven models, our physics-based approach enables the model to learn physical laws within explicitly formulated dynamics, thereby enhancing the robustness and accuracy of rolling forecasts. Numerical experiments on real sea surface data and shallow water systems clearly demonstrate our framework's accuracy and computational efficiency with sparse and time-varying observations.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# 重み付き非凸最適化のための勾配自由法

Gradient-Free Method for Heavily Constrained Nonconvex Optimization ( http://arxiv.org/abs/2409.00459v1 )

ライセンス: Link先を確認
Wanli Shi, Hongchang Gao, Bin Gu, (参考訳) ゼロ階数(ZO)法は、勾配の明示的な表現が困難あるいは得られ難い最適化問題を解くための強力な方法であることが示されている。 近年、制約された問題の実用的価値のため、ZO Frank-Wolfe法や投影ZO法が多数提案されている。 しかし、多くのアプリケーションにおいて、非常に多くの非凸なホワイト/ブラックボックス制約が存在するため、既存のゼロ階法は、すべての制約の関数値を求め、複雑な実現可能な集合への解を投影する必要があるため、非常に非効率である(あるいは動作しない)。 本稿では,多数の白黒ボックス制約を伴って非凸問題を解くために,運動量法と適応ステップサイズを備えた2次確率ゼロ階勾配法(DSZOG)を提案する。 理論的には、DSZOG は制約された問題の $\epsilon$-stationary 点に収束できる。 実験結果から, 制約問題に対する他のZO法と比較して, 学習時間と精度の点で, 提案手法の優位性を実証した。

Zeroth-order (ZO) method has been shown to be a powerful method for solving the optimization problem where explicit expression of the gradients is difficult or infeasible to obtain. Recently, due to the practical value of the constrained problems, a lot of ZO Frank-Wolfe or projected ZO methods have been proposed. However, in many applications, we may have a very large number of nonconvex white/black-box constraints, which makes the existing zeroth-order methods extremely inefficient (or even not working) since they need to inquire function value of all the constraints and project the solution to the complicated feasible set. In this paper, to solve the nonconvex problem with a large number of white/black-box constraints, we proposed a doubly stochastic zeroth-order gradient method (DSZOG) with momentum method and adaptive step size. Theoretically, we prove DSZOG can converge to the $\epsilon$-stationary point of the constrained problem. Experimental results in two applications demonstrate the superiority of our method in terms of training time and accuracy compared with other ZO methods for the constrained problem.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# 成形可能な例外

Moldable Exceptions ( http://arxiv.org/abs/2409.00465v1 )

ライセンス: Link先を確認
Andrei Chiş, Tudor Gîrba, Oscar Nierstrasz, (参考訳) デバッグは難しいです。 インタラクティブデバッガはほとんど同じです。 スタック、スタックの状態のサンプリング方法、デバッガが稼働している場合、実行をステップする手段が示されます。 メインストリームのIDEによって提供される汎用プログラミング言語の標準的なインタラクティブデバッガは、バグの追跡と修正のためのジェネリック言語構造という観点からは、低レベルなインターフェースを提供する。 特定のアプリケーションドメイン用に開発されたカスタムデバッガは、デバッグされるプログラムの特定の実行コンテキストにもっと適した代替インターフェースを提供する。 コンテキストデバッグビューとアクションを提供するカスタムデバッガは、現在の問題を推論する能力を大幅に改善します。 しかし、そのようなカスタムデバッガを実装するのは簡単ではなく、デバッグエクスペリエンスを改善する上で障壁となる。 本稿では,参照された例外によって提供されるコンテキスト情報に基づいて,デバッガのインタフェースを適応するための軽量な機構である「モールド可能な例外」を紹介する。 我々は、一連の例を通して、モールド可能な例外がライブプログラミング環境をどのように強化するかを提示する。

Debugging is hard. Interactive debuggers are mostly the same. They show you a stack, a way to sample the state of the stack, and, if the debugger is live, a way to step through execution. The standard interactive debugger for a general-purpose programming language provided by a mainstream IDE mostly offers a low-level interface in terms of generic language constructs to track down and fix bugs. A custom debugger, such as those developed for specific application domains, offers alternative interfaces more suitable to the specific execution context of the program being debugged. Custom debuggers offering contextual debugging views and actions can greatly improve our ability to reason about the current problem. Implementing such custom debuggers, however, is non-trivial, and poses a barrier to improving the debugging experience. In this paper we introduce "moldable exceptions", a lightweight mechanism to adapt a debugger's interface based on contextual information provided by a raised exception. We present, through a series of examples, how moldable exceptions can enhance a live programming environment.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# SAR自動目標認識における自己注意の効果の検討

Studying the Effects of Self-Attention on SAR Automatic Target Recognition ( http://arxiv.org/abs/2409.00473v1 )

ライセンス: Link先を確認
Jacob Fein-Ashley, Rajgopal Kannan, Viktor Prasanna, (参考訳) 注意機構は合成開口レーダ(SAR)自動目標認識(ATR)システムの発展において極めて重要である。 従来のSAR ATRモデルは、最も関連性の高い画像の特徴ではなく、背景ノイズから学習することが多い。 注意機構は、正確な目標分類に不可欠である車両の影や小さな部分のような重要な画像成分に焦点を当てることによって、この制限に対処する。 これらの重要な特徴を動的に優先順位付けすることにより、注意に基づくモデルは、画像全体を数ピクセルで効率よく特徴付けることができ、認識性能が向上する。 この能力は、背景の乱雑からターゲットを識別することができ、より実用的で堅牢なSAR ATRモデルをもたらす。 我々は、注目モジュールがトップ1の精度を高め、入力の堅牢性を向上し、MSTARデータセットで定性的に説明可能であることを示す。

Attention mechanisms are critically important in the advancement of synthetic aperture radar (SAR) automatic target recognition (ATR) systems. Traditional SAR ATR models often struggle with the noisy nature of the SAR data, frequently learning from background noise rather than the most relevant image features. Attention mechanisms address this limitation by focusing on crucial image components, such as the shadows and small parts of a vehicle, which are crucial for accurate target classification. By dynamically prioritizing these significant features, attention-based models can efficiently characterize the entire image with a few pixels, thus enhancing recognition performance. This capability allows for the discrimination of targets from background clutter, leading to more practical and robust SAR ATR models. We show that attention modules increase top-1 accuracy, improve input robustness, and are qualitatively more explainable on the MSTAR dataset.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# BaseMirror: AndroidのRadio Interface Layerからベースバンドコマンドの自動リバースエンジニアリング

BaseMirror: Automatic Reverse Engineering of Baseband Commands from Android's Radio Interface Layer ( http://arxiv.org/abs/2409.00475v1 )

ライセンス: Link先を確認
Wenqiang Li, Haohuang Wen, Zhiqiang Lin, (参考訳) 現代のモバイルデバイスでは、ベースバンドは重要な無線通信を扱うためにセルラープロセッサ上で動く統合コンポーネントである。 しかし、最近の研究によると、これらのベースバンドに重大な脆弱性があり、リモートコード実行のような深刻なセキュリティリスクが生じる。 しかし、ベンダー固有のチップセット上でクローズドソースでプロプライエタリなソフトウェアを運用しているため、ベースバンドを効果的に精査することは大変な作業だ。 既存の分析手法は、手動のプロセスやヒューリスティックなアプローチへの依存によって制限され、スケーラビリティが低下する。 本稿では,無線インタフェース層(RIL)のベンダ固有のベースバンドコマンドを,ベースバンドと通信するハードウェア抽象化層から発見する,ユニークな視点から,ベースバンドのセキュリティ問題を明らかにするための新しいアプローチを提案する。 この概念を実証するために、ベンダー固有のRILバイナリからベースバンドコマンドを自動的にリバースする静的バイナリ解析ツールBaseMirrorを設計、開発しました。 双方向のテント解析アルゴリズムを用いて、再構成された仮想関数呼び出しに富んだ拡張制御フローグラフからベースバンドコマンドを順応的に識別する。 当社の手法は28のベンダーRILライブラリに適用され,Samsung Exynosのスマートフォンモデルが市場に出回っている。 注目すべきは、BaseMirrorが873のユニークなベースバンドコマンドを公開していないことだ。 これらの結果に基づいて,Samsung Galaxy A53デバイス上でのセルラーサービス拒否と任意のファイルアクセスを誘発する8つのゼロデイ脆弱性を導出し,検証する自動攻撃発見フレームワークを開発した。 これらの発見はSamsungによって報告され、確認され、バグ報奨金が贈られた。

In modern mobile devices, baseband is an integral component running on top of cellular processors to handle crucial radio communications. However, recent research reveals significant vulnerabilities in these basebands, posing serious security risks like remote code execution. Yet, effectively scrutinizing basebands remains a daunting task, as they run closed-source and proprietary software on vendor-specific chipsets. Existing analysis methods are limited by their dependence on manual processes and heuristic approaches, reducing their scalability. This paper introduces a novel approach to unveil security issues in basebands from a unique perspective: to uncover vendor-specific baseband commands from the Radio Interface Layer (RIL), a hardware abstraction layer interfacing with basebands. To demonstrate this concept, we have designed and developed BaseMirror, a static binary analysis tool to automatically reverse engineer baseband commands from vendor-specific RIL binaries. It utilizes a bidirectional taint analysis algorithm to adeptly identify baseband commands from an enhanced control flow graph enriched with reconstructed virtual function calls. Our methodology has been applied to 28 vendor RIL libraries, encompassing a wide range of Samsung Exynos smartphone models on the market. Remarkably, BaseMirror has uncovered 873 unique baseband commands undisclosed to the public. Based on these results, we develop an automated attack discovery framework to successfully derive and validate 8 zero-day vulnerabilities that trigger denial of cellular service and arbitrary file access on a Samsung Galaxy A53 device. These findings have been reported and confirmed by Samsung and a bug bounty was awarded to us.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# Simbanex: IEEE VISパブリケーションの類似性に基づく探索

Simbanex: Similarity-based Exploration of IEEE VIS Publications ( http://arxiv.org/abs/2409.00478v1 )

ライセンス: Link先を確認
Daniel Witschard, Ilir Jusufi, Andreas Kerren, (参考訳) 埋め込みは、複雑で非構造的なデータを計算解析タスクに適した数値形式に変換する強力なツールである。 本研究では,複数の埋め込みを類似性計算に用いて,バイオロメトリやサイエントメトリに適用する。 我々は,学術出版物の集合から多変量ネットワーク(MVN)を構築し,各出版データの類似点を明らかにするアスペクト駆動分析手法を探索する。 MVNを個別に埋め込み可能なアスペクトに分割することにより、類似性に基づくクラスタリングの新しい手法の入力として使用する柔軟なベクトル表現を得ることができる。 これらの前処理のステップに基づいて、我々はSimbanexというビジュアル分析アプリケーションを開発し、基礎となる出版物における類似パターンのインタラクティブなビジュアル探索を目的としている。

Embeddings are powerful tools for transforming complex and unstructured data into numeric formats suitable for computational analysis tasks. In this work, we use multiple embeddings for similarity calculations to be applied in bibliometrics and scientometrics. We build a multivariate network (MVN) from a large set of scientific publications and explore an aspect-driven analysis approach to reveal similarity patterns in the given publication data. By dividing our MVN into separately embeddable aspects, we are able to obtain a flexible vector representation which we use as input to a novel method of similarity-based clustering. Based on these preprocessing steps, we developed a visual analytics application, called Simbanex, that has been designed for the interactive visual exploration of similarity patterns within the underlying publications.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# 実験文学における句読点統計--ジェームズ・ジョイスによる「フィネガンス・ウェイク」の顕著な事例

Statistics of punctuation in experimental literature -- the remarkable case of "Finnegans Wake" by James Joyce ( http://arxiv.org/abs/2409.00483v1 )

ライセンス: Link先を確認
Tomasz Stanisz, Stanisław Drożdż, Jarosław Kwapień, (参考訳) 最近の研究が示すように、句読点の存在によってテキストに課される構造は、普遍性の特定の特性を示すパターンを発達させる。 特に、古典文学作品の膨大なコレクションから、単語数で測る連続的句読点間の距離が、生存分析によく用いられる分布の離散的な変種であるワイブル分布に従うことが証明されている。 本研究は, 句読点パターンの分析を世界文学のより実験的な部分にまで拡張する。 個別のワイブル分布と句読点間の距離のコンプライアンスは、典型的にはここでも適用される。 しかし、ジェームズ・ジョイスによるいくつかの著作はこの点において、関連する分布の尾が著しく厚くなり、その結果、対応するハザード関数は、散文の典型的な文学文献では見られていない機能を減少させている。 物質を構成する最も基本的な構成要素に「クォーク」という言葉を科学が負うのと同じ「フィネガンス・ウェイク」がこの文脈で特に顕著である。 同時に、研究されたすべてのテキストにおいて、文の長さ(文の終わりの句読点間の距離を表す)はより自由を示し、個別のワイブル分布に制約されない。 この自由度は長距離の非線形相関に変換され、多フラクタル性で表される。 繰り返しになるが、マルチフラクタル性に関して特に顕著なテキストは"Finnegans Wake"である。

As the recent studies indicate, the structure imposed onto written texts by the presence of punctuation develops patterns which reveal certain characteristics of universality. In particular, based on a large collection of classic literary works, it has been evidenced that the distances between consecutive punctuation marks, measured in terms of the number of words, obey the discrete Weibull distribution - a discrete variant of a distribution often used in survival analysis. The present work extends the analysis of punctuation usage patterns to more experimental pieces of world literature. It turns out that the compliance of the the distances between punctuation marks with the discrete Weibull distribution typically applies here as well. However, some of the works by James Joyce are distinct in this regard - in the sense that the tails of the relevant distributions are significantly thicker and, consequently, the corresponding hazard functions are decreasing functions not observed in typical literary texts in prose. "Finnegans Wake" - the same one to which science owes the word "quarks" for the most fundamental constituents of matter - is particularly striking in this context. At the same time, in all the studied texts, the sentence lengths - representing the distances between sentence-ending punctuation marks - reveal more freedom and are not constrained by the discrete Weibull distribution. This freedom in some cases translates into long-range nonlinear correlations, which manifest themselves in multifractality. Again, a text particularly spectacular in terms of multifractality is "Finnegans Wake".
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# 産業における機械学習の強化 4.0: 化学プロセスにおける希少な予測のためのベンチマークフレームワーク

Advancing Machine Learning in Industry 4.0: Benchmark Framework for Rare-event Prediction in Chemical Processes ( http://arxiv.org/abs/2409.00485v1 )

ライセンス: Link先を確認
Vikram Sudarshan, Warren D. Seider, (参考訳) 従来,フォワードフラックスサンプリング(FFS)と機械学習(ML)を用いて,まれな非姿勢異常事象に対応する多変量警報システムを開発した。 我々のアラームシステムは、MLに基づく予測モデルを用いて、FFSシミュレーションで得られたデータを用いて、主要なプロセス変数(例えば、温度、濃度など)の関数としてコミッタ確率を定量化した。 本稿では,Linear Support-Vector Regressorやk-Nearest NeighborsなどのMLアルゴリズムを,Random Forests,XGBoost,LightGBM,CatBoost,Dense Neural Networks,TabNetといったより洗練されたアルゴリズムと比較する。 この評価では、例えば、$\textit{RMSE}$、モデルトレーニング、テスト、ハイパーパラメータチューニングとデプロイ時間、アラームの数と効率など、包括的なパフォーマンス指標が使用されている。 これらのバランスモデル精度、計算効率、アラームシステム効率は異常事象を予測するための最適なML戦略を特定し、オペレーターがより安全で信頼性の高いプラント操作を得ることを可能にする。

Previously, using forward-flux sampling (FFS) and machine learning (ML), we developed multivariate alarm systems to counter rare un-postulated abnormal events. Our alarm systems utilized ML-based predictive models to quantify committer probabilities as functions of key process variables (e.g., temperature, concentrations, and the like), with these data obtained in FFS simulations. Herein, we introduce a novel and comprehensive benchmark framework for rare-event prediction, comparing ML algorithms of varying complexity, including Linear Support-Vector Regressor and k-Nearest Neighbors, to more sophisticated algorithms, such as Random Forests, XGBoost, LightGBM, CatBoost, Dense Neural Networks, and TabNet. This evaluation uses comprehensive performance metrics, such as: $\textit{RMSE}$, model training, testing, hyperparameter tuning and deployment times, and number and efficiency of alarms. These balance model accuracy, computational efficiency, and alarm-system efficiency, identifying optimal ML strategies for predicting abnormal rare events, enabling operators to obtain safer and more reliable plant operations.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# マルチスケールマルチインスタンス視覚音像定位とセグメンテーション

Multi-scale Multi-instance Visual Sound Localization and Segmentation ( http://arxiv.org/abs/2409.00486v1 )

ライセンス: Link先を確認
Shentong Mo, Haofan Wang, (参考訳) 映像中の音源に対応する物体の位置を予測する、視覚的音像定位は典型的で困難な問題である。 これまでは主に、グローバルオーディオとワンスケール視覚特徴のオーディオ視覚的関連を利用して、各画像内の音像をローカライズしていた。 有望な性能にもかかわらず、彼らは対応する画像のマルチスケールの視覚的特徴を省略し、地上の真実と比較して差別的な領域を学習することができない。 この問題に対処するために、入力画像から音源に関連付けられたマルチスケール意味的特徴を直接学習し、音像をローカライズする新しいマルチスケール・マルチインスタンス・ビジュアル・サウンド・ローカライズ・フレームワーク M2VSL を提案する。 具体的には、M2VSLは学習可能なマルチスケールの視覚的特徴を活用して、対応する画像のマルチレベル位置における音声・視覚的表現を整列させる。 また,視覚音像定位のためのマルチスケールクロスモーダル表現を動的に集約する新しいマルチスケールマルチインスタンス変換器を提案する。 我々は,VGGSound-Instruments,VGG-Sound Sources,AVSBenchベンチマークについて広範な実験を行った。 その結果,提案したM2VSLは,音像定位とセグメンテーションにおける最先端性能を実現することができた。

Visual sound localization is a typical and challenging problem that predicts the location of objects corresponding to the sound source in a video. Previous methods mainly used the audio-visual association between global audio and one-scale visual features to localize sounding objects in each image. Despite their promising performance, they omitted multi-scale visual features of the corresponding image, and they cannot learn discriminative regions compared to ground truths. To address this issue, we propose a novel multi-scale multi-instance visual sound localization framework, namely M2VSL, that can directly learn multi-scale semantic features associated with sound sources from the input image to localize sounding objects. Specifically, our M2VSL leverages learnable multi-scale visual features to align audio-visual representations at multi-level locations of the corresponding image. We also introduce a novel multi-scale multi-instance transformer to dynamically aggregate multi-scale cross-modal representations for visual sound localization. We conduct extensive experiments on VGGSound-Instruments, VGG-Sound Sources, and AVSBench benchmarks. The results demonstrate that the proposed M2VSL can achieve state-of-the-art performance on sounding object localization and segmentation.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# TrackSSM: 状態空間モデルによる一般的な動作予測器

TrackSSM: A General Motion Predictor by State-Space Model ( http://arxiv.org/abs/2409.00487v1 )

ライセンス: Link先を確認
Bin Hu, Run Luo, Zelin Liu, Cheng Wang, Wenyu Liu, (参考訳) 時間運動モデリングは、常に複数の物体追跡(MOT)において重要な要素であり、スムーズな軌道運動を保証し、正確な位置情報を提供し、関連精度を高めることができる。 しかしながら、現在のモーションモデルは、異なるアプリケーションシナリオで効率的かつ効果的であるのに苦労しています。 そこで本研究では,データ依存状態空間モデルを用いてトラジェクトリの時間的動きを実行する統一エンコーダ・デコーダ・モーション・フレームワークである,最近普及している状態空間モデル(SSM)にインスパイアされたTrackSSMを提案する。 具体的には,物体境界ボックスの時間的状態遷移を導くために,歴史的軌跡の位置と動き情報を利用するモジュールであるFlow-SSMを提案する。 Flow-SSMに基づいてフローデコーダを設計する。 Flow-SSMを用いたケースド・モーション・デコーディングモジュールで構成されており、符号化されたフロー情報を用いて軌道の時間的位置予測を完了することができる。 さらに,ステップバイステップ線形(S$^2$L)のトレーニング戦略を提案する。 従来のフレームにおける物体の位置と現在のフレームとの線形補間を行うことで、ステップバイステップの線形トレーニングの擬似ラベルを構築し、時間遷移を完了させる際に、軌道フロー情報がオブジェクト境界ボックスをより良くガイドできるようにする。 TrackSSMは、単純なMamba-Blockを使用して、履歴トラジェクトリのためのモーションエンコーダを構築し、フローデコーダとともにエンコーダ・デコーダ構造を持つテンポラルモーションモデルを形成する。 TrackSSMは、様々なトラッキングシナリオに適用可能で、複数のベンチマークで優れたトラッキング性能を実現し、マルチオブジェクト追跡タスクにおけるSSMのような時間運動モデルの可能性をさらに拡張する。

Temporal motion modeling has always been a key component in multiple object tracking (MOT) which can ensure smooth trajectory movement and provide accurate positional information to enhance association precision. However, current motion models struggle to be both efficient and effective across different application scenarios. To this end, we propose TrackSSM inspired by the recently popular state space models (SSM), a unified encoder-decoder motion framework that uses data-dependent state space model to perform temporal motion of trajectories. Specifically, we propose Flow-SSM, a module that utilizes the position and motion information from historical trajectories to guide the temporal state transition of object bounding boxes. Based on Flow-SSM, we design a flow decoder. It is composed of a cascaded motion decoding module employing Flow-SSM, which can use the encoded flow information to complete the temporal position prediction of trajectories. Additionally, we propose a Step-by-Step Linear (S$^2$L) training strategy. By performing linear interpolation between the positions of the object in the previous frame and the current frame, we construct the pseudo labels of step-by-step linear training, ensuring that the trajectory flow information can better guide the object bounding box in completing temporal transitions. TrackSSM utilizes a simple Mamba-Block to build a motion encoder for historical trajectories, forming a temporal motion model with an encoder-decoder structure in conjunction with the flow decoder. TrackSSM is applicable to various tracking scenarios and achieves excellent tracking performance across multiple benchmarks, further extending the potential of SSM-like temporal motion models in multi-object tracking tasks.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# 高速ジャイロスコープ校正 : 深層学習アプローチ

Rapid Gyroscope Calibration: A Deep Learning Approach ( http://arxiv.org/abs/2409.00488v1 )

ライセンス: Link先を確認
Yair Stolero, Itzik Klein, (参考訳) ジャイロスコープ測定の精度と信頼性を確保するためには、低コストのジャイロスコープ校正が不可欠である。 定常校正は測定誤差の決定論的部分を推定する。 この目的のためには、予め定義された期間にジャイロスコープの読みを平均化し、ジャイロスコープのバイアスを推定することが一般的である。 校正期間は、パフォーマンスにおいて重要な役割を果たすため、より長い期間が好ましい。 しかし、いくつかのアプリケーションは起動時間を必要とし、キャリブレーションは短時間で行うことができる。 本研究では,ディープラーニングを用いた低コストジャイロスコープ校正時間を削減することに焦点を当てた。 本稿では,複数の実・仮想ジャイロスコープを用いて単一ジャイロスコープの校正性能を向上させるためのディープラーニングフレームワークを提案する。 アプローチのトレーニングと検証のために、2つの異なるブランドの24個のジャイロスコープを使用して、169時間のジャイロスコープ読解からなるデータセットを記録した。 また,シミュレートされたジャイロスコープによる仮想データセットも作成した。 この2つのデータセットを,提案手法の評価に利用した。 この研究の重要な成果の1つは、3つの低コストジャイロスコープを使用してジャイロスコープの校正時間を最大89%短縮することである。

Low-cost gyroscope calibration is essential for ensuring the accuracy and reliability of gyroscope measurements. Stationary calibration estimates the deterministic parts of measurement errors. To this end, a common practice is to average the gyroscope readings during a predefined period and estimate the gyroscope bias. Calibration duration plays a crucial role in performance, therefore, longer periods are preferred. However, some applications require quick startup times and calibration is therefore allowed only for a short time. In this work, we focus on reducing low-cost gyroscope calibration time using deep learning methods. We propose a deep-learning framework and explore the possibilities of using multiple real and virtual gyroscopes to improve the calibration performance of single gyroscopes. To train and validate our approach, we recorded a dataset consisting of 169 hours of gyroscope readings, using 24 gyroscopes of two different brands. We also created a virtual dataset consisting of simulated gyroscope readings. The two datasets were used to evaluate our proposed approach. One of our key achievements in this work is reducing gyroscope calibration time by up to 89% using three low-cost gyroscopes.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# 画像解析のための地理空間基盤モデル:NASA-IBM Prithviの領域適応性の評価と向上

Geospatial foundation models for image analysis: evaluating and enhancing NASA-IBM Prithvi's domain adaptability ( http://arxiv.org/abs/2409.00489v1 )

ライセンス: Link先を確認
Chia-Yu Hsu, Wenwen Li, Sizhe Wang, (参考訳) 地理空間基盤モデル(GFM)の研究は、高一般化性とドメイン適応性を達成し、個々の研究者のモデルトレーニングコストを削減できる可能性から、地理空間人工知能(AI)研究のトレンドとなっている。 ChatGPTのような大規模な言語モデルとは異なり、画像解析のための視覚基盤モデルの構築は、特にリモートセンシングにおいて、多様な視覚タスクを一般的な問題フレームワークに定式化するといった重要な課題に遭遇した。 本稿では,NASA が最近リリースした GFM Prithvi について,複数のベンチマークデータセットを対象とした高レベル画像解析タスクの予測性能について評価する。 Prithviは、高解像度リモートセンシング画像の時系列に基づいてトレーニングされた最初のオープンソースGFMの1つである。 地理空間画像解析における他のトレーニング済みタスク固有のAIモデルと比較して、Prithviのパフォーマンスを評価するために、一連の実験が設計された。 バンド適応,マルチスケール特徴生成,微調整といった新しい手法を画像解析パイプラインに統合し,Prithviのドメイン適応能力を向上し,モデル性能を向上させる。 詳細な分析では、Prithviの強みと弱みを明らかにし、Prithviの改善と地理空間的タスクのための将来の視覚基盤モデルの開発の両方に対する洞察を提供する。

Research on geospatial foundation models (GFMs) has become a trending topic in geospatial artificial intelligence (AI) research due to their potential for achieving high generalizability and domain adaptability, reducing model training costs for individual researchers. Unlike large language models, such as ChatGPT, constructing visual foundation models for image analysis, particularly in remote sensing, encountered significant challenges such as formulating diverse vision tasks into a general problem framework. This paper evaluates the recently released NASA-IBM GFM Prithvi for its predictive performance on high-level image analysis tasks across multiple benchmark datasets. Prithvi was selected because it is one of the first open-source GFMs trained on time-series of high-resolution remote sensing imagery. A series of experiments were designed to assess Prithvi's performance as compared to other pre-trained task-specific AI models in geospatial image analysis. New strategies, including band adaptation, multi-scale feature generation, and fine-tuning techniques, are introduced and integrated into an image analysis pipeline to enhance Prithvi's domain adaptation capability and improve model performance. In-depth analyses reveal Prithvi's strengths and weaknesses, offering insights for both improving Prithvi and developing future visual foundation models for geospatial tasks.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# ベクトル量子化によるテキスト・画像拡散モデルの高精度圧縮

Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization ( http://arxiv.org/abs/2409.00492v1 )

ライセンス: Link先を確認
Vage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk, (参考訳) テキスト・ツー・イメージ拡散モデルはテキスト・プロンプトを与えられた高品質な画像生成のための強力なフレームワークとして登場してきた。 彼らの成功は、常にサイズが増加し、既に数十億のパラメータを含む生産段階の拡散モデルの急速な発展を招いた。 結果として、特にリソース制限された環境では、最先端のテキスト・画像モデルが現実にはアクセスしにくくなっている。 後学習量子化(PTQ)は、事前訓練されたモデルの重みを低ビット表現に圧縮することでこの問題に対処する。 最近の拡散量子化技術は、主に均一なスカラー量子化に依存し、4ビットに圧縮されたモデルに対して十分な性能を提供する。 この研究は、より汎用的なベクトル量子化(VQ)が大規模テキスト・画像拡散モデルに対して高い圧縮率を達成することを実証している。 具体的には、ベクトルベースのPTQ手法を最近の10億のテキスト・ツー・イメージモデル(SDXLとSDXL-Turbo)に調整し、VQを用いて約3ビットに圧縮された2B+パラメータの拡散モデルが、以前の4ビット圧縮手法と同様の画像品質とテキストアライメントを示すことを示す。

Text-to-image diffusion models have emerged as a powerful framework for high-quality image generation given textual prompts. Their success has driven the rapid development of production-grade diffusion models that consistently increase in size and already contain billions of parameters. As a result, state-of-the-art text-to-image models are becoming less accessible in practice, especially in resource-limited environments. Post-training quantization (PTQ) tackles this issue by compressing the pretrained model weights into lower-bit representations. Recent diffusion quantization techniques primarily rely on uniform scalar quantization, providing decent performance for the models compressed to 4 bits. This work demonstrates that more versatile vector quantization (VQ) may achieve higher compression rates for large-scale text-to-image diffusion models. Specifically, we tailor vector-based PTQ methods to recent billion-scale text-to-image models (SDXL and SDXL-Turbo), and show that the diffusion models of 2B+ parameters compressed to around 3 bits using VQ exhibit the similar image quality and textual alignment as previous 4-bit compression techniques.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# イランにおけるピーク負荷管理のためのプロシューマーネットワークの評価:分散文脈確率最適化アプローチ

Evaluation of Prosumer Networks for Peak Load Management in Iran: A Distributed Contextual Stochastic Optimization Approach ( http://arxiv.org/abs/2409.00493v1 )

ライセンス: Link先を確認
Amir Noori, Babak Tavassoli, Alireza Fereidunian, (参考訳) 更新可能なプロシューマーは、シームレスなグリッドと市場統合で自己充足性のバランスをとるという複雑な課題に直面します。 本稿では,イランにおけるピーク負荷の軽減を目的とした,再生可能エネルギーの発生と需要に固有の不確実性の下での新規プロシューマーネットワークフレームワークを提案する。 分散文脈確率最適化(DCSO)フレームワークにおいて,コスト指向の統合予測と最適化手法を提案する。 この問題は、柔軟な資源を考慮して、様々なシナリオ下での最適操作と相互作用戦略を決定するために、2段階の2段階のマルチタイムスケール最適化として定式化されている。 グリッド統合を容易にするために,新しいコンセンサスに基づくコンテキスト情報共有機構を提案する。 このアプローチは、協調した集合行動を可能にし、文脈データをより効果的に活用する。 全体的な問題は、最適条件を取り入れ、相補性制約を線形化する混合整数線形プログラム(MILP)として再キャストされる。 さらに,乗算器のコンセンサス交互方向法(ADMM)を用いた分散アルゴリズムを,計算的トラクタビリティとプライバシ保護のために提案する。 数値的な結果から,最適化とコンテキスト情報共有ネットワークの実装による予測の統合は,ピーク負荷と総コストを著しく削減することがわかった。

Renewable prosumers face the complex challenge of balancing self-sufficiency with seamless grid and market integration. This paper introduces a novel prosumers network framework aimed at mitigating peak loads in Iran, particularly under the uncertainties inherent in renewable energy generation and demand. A cost-oriented integrated prediction and optimization approach is proposed, empowering prosumers to make informed decisions within a distributed contextual stochastic optimization (DCSO) framework. The problem is formulated as a bi-level two-stage multi-time scale optimization to determine optimal operation and interaction strategies under various scenarios, considering flexible resources. To facilitate grid integration, a novel consensus-based contextual information sharing mechanism is proposed. This approach enables coordinated collective behaviors and leverages contextual data more effectively. The overall problem is recast as a mixed-integer linear program (MILP) by incorporating optimality conditions and linearizing complementarity constraints. Additionally, a distributed algorithm using the consensus alternating direction method of multipliers (ADMM) is presented for computational tractability and privacy preservation. Numerical results highlights that integrating prediction with optimization and implementing a contextual information-sharing network among prosumers significantly reduces peak loads as well as total costs.
翻訳日:2024-09-06 14:39:09 公開日:2024-08-31
# 連続可変量子鍵分布系におけるフォトリフラクティブ効果によるセキュリティ・ループホール

Security Loophole Induced by Photorefractive Effect in Continous-variable Quantum Key Distribution System ( http://arxiv.org/abs/2409.00497v1 )

ライセンス: Link先を確認
Zehao Zhou, Peng Huang, Tao Wang, Guihua Zeng, (参考訳) Mach-Zehnder Interferometer (MZI) 構造に基づく変調器は、連続可変量子鍵分布(CVQKD)システムで広く使われている。 MZIベースの可変光減衰器(VOA)と振幅変調器は波形を変換し、コヒーレント状態信号の強度を制御し、CVQKDシステムにおける秘密鍵情報変調を実現する。 しかし、これらのデバイスは理想的ではなく、非線形効果や温度のような内部および外部効果は性能を低下させる可能性がある。 本稿では,ニオブ酸リチウム (LN) の結晶特性から生じる光屈折効果 (PE) 下でのCVQKDのセキュリティ・ループを解析した。 PEによる変調器の屈折率変化は、最終秘密鍵レートの過大評価または過小評価につながる可能性がある。 これにより、Eveはインターセプトリセプトのようなさらなる攻撃を実行して、より秘密のキー情報を取得することができる。 この問題を解決するために、潜在的なリスクを効果的に排除できるいくつかの対策が提案されている。

Modulators based on the Mach-Zehnder interferometer (MZI) structure are widely used in continuous-variable quantum key distribution (CVQKD) systems. MZI-based variable optical attenuator (VOA) and amplitude modulator can reshape the waveform and control the intensity of coherent state signal to realize secret key information modulation in CVQKD system. However, these devices are not ideal, internal and external effects like non-linear effect and temperature may degrade their performance. In this paper, we analyzed the security loophole of CVQKD under the photorefractive effect (PE), which originates from the crystal characteristic of lithium niobate (LN). It is found that the refractive index change of modulators because of PE may lead to an overestimate or underestimate of the final secret key rate. This allows Eve to perform further attacks like intercept-resend to get more secret key information. To solve this problem, several countermeasures are proposed, which can effectively eliminate potential risks.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# DAP:多モード記憶のための拡散に基づく精度予測

DAP: Diffusion-based Affordance Prediction for Multi-modality Storage ( http://arxiv.org/abs/2409.00499v1 )

ライセンス: Link先を確認
Haonan Chang, Kowndinya Boyalakuntla, Yuhan Liu, Xinyu Zhang, Liam Schramm, Abdeslam Boularias, (参考訳) ストレージ問題の解決: オブジェクトを正確な向きと位置でコンテナに正確に配置しなければならない場合、従来の再配置タスクを超えて、明確な課題が提示される。 これらの課題は、主に、きめ細かい6D操作の必要性と、同じストレージコンテナに複数の実行可能なゴール設定が存在する、ソリューション空間の固有のマルチモダリティが原因である。 本稿では,多モードオブジェクト記憶問題に対する拡散型Affordance Prediction (DAP) パイプラインを提案する。 DAPは2段階のアプローチを採用し、最初はコンテナ上の配置可能な領域を特定し、その後、オブジェクトとその領域の間の相対的なポーズを正確に計算する。 既存の方法は、マルチモダリティ問題や計算集約的なトレーニングに苦しむ。 本実験は, DAP が現在最先端の RPDiff よりも優れた性能と訓練効率を示し, RPDiff ベンチマークで顕著な結果を得たものである。 さらに,本実験では,実世界のアプリケーションにおけるDAPのデータ効率を実証し,シミュレーションによる既存手法の進歩を示す。 我々の貢献は、計算効率が高く、現実の変動性を扱うことができるソリューションを提供することで、ロボット操作研究のギャップを埋める。 コードと補足資料は、https://github.com/changhaonan/DPS.git.comにある。

Solving storage problem: where objects must be accurately placed into containers with precise orientations and positions, presents a distinct challenge that extends beyond traditional rearrangement tasks. These challenges are primarily due to the need for fine-grained 6D manipulation and the inherent multi-modality of solution spaces, where multiple viable goal configurations exist for the same storage container. We present a novel Diffusion-based Affordance Prediction (DAP) pipeline for the multi-modal object storage problem. DAP leverages a two-step approach, initially identifying a placeable region on the container and then precisely computing the relative pose between the object and that region. Existing methods either struggle with multi-modality issues or computation-intensive training. Our experiments demonstrate DAP's superior performance and training efficiency over the current state-of-the-art RPDiff, achieving remarkable results on the RPDiff benchmark. Additionally, our experiments showcase DAP's data efficiency in real-world applications, an advancement over existing simulation-driven approaches. Our contribution fills a gap in robotic manipulation research by offering a solution that is both computationally efficient and capable of handling real-world variability. Code and supplementary material can be found at: https://github.com/changhaonan/DPS.git.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# 流線型森林火災監視:FLAME空中ビデオデータセットを利用したAI強化型UAVによる軽量・高効率モニタリング

Streamlining Forest Wildfire Surveillance: AI-Enhanced UAVs Utilizing the FLAME Aerial Video Dataset for Lightweight and Efficient Monitoring ( http://arxiv.org/abs/2409.00510v1 )

ライセンス: Link先を確認
Lemeng Zhao, Junjie Hu, Jianchao Bi, Yanbing Bai, Erick Mas, Shunichi Koshimura, (参考訳) 近年,無人航空機(UAV)は,航空画像を分析して災害対応を支援する上で,ますます重要な役割を担っている。 現在のディープラーニングモデルは精度の向上に重点を置いているが、UAVの限られたコンピューティングリソースを見落としていることが多い。 本研究では,災害対応シナリオにおけるリアルタイムデータ処理の必要性を認識し,航空映像理解のための軽量かつ効率的なアプローチを提案する。 提案手法は、ポリシーネットワークを介してビデオ内の冗長部分を識別し、フレーム圧縮技術を用いて余分な情報を除去する。 さらに、シーケンシャルポリシーネットワークにおける将来の情報を活用して精度を高める「ステーションポイント」の概念を導入した。 本手法を検証するために,ワイルドファイアFLAMEデータセットを用いた。 ベースラインと比較して,提案手法は計算コストを13倍以上に削減し,精度を3$\%$に向上させる。 さらに,本手法では,映像から有能なフレームをインテリジェントに選択し,データセットを精査する。 この機能により、より高度なモデルを小さなデータセットで効果的にトレーニングすることが可能になり、トレーニングプロセスに費やした時間を大幅に削減できる。

In recent years, unmanned aerial vehicles (UAVs) have played an increasingly crucial role in supporting disaster emergency response efforts by analyzing aerial images. While current deep-learning models focus on improving accuracy, they often overlook the limited computing resources of UAVs. This study recognizes the imperative for real-time data processing in disaster response scenarios and introduces a lightweight and efficient approach for aerial video understanding. Our methodology identifies redundant portions within the video through policy networks and eliminates this excess information using frame compression techniques. Additionally, we introduced the concept of a `station point,' which leverages future information in the sequential policy network, thereby enhancing accuracy. To validate our method, we employed the wildfire FLAME dataset. Compared to the baseline, our approach reduces computation costs by more than 13 times while boosting accuracy by 3$\%$. Moreover, our method can intelligently select salient frames from the video, refining the dataset. This feature enables sophisticated models to be effectively trained on a smaller dataset, significantly reducing the time spent during the training process.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# RevCD -- 一般化ゼロショット学習のための逆条件拡散

RevCD -- Reversed Conditional Diffusion for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2409.00511v1 )

ライセンス: Link先を確認
William Heyden, Habib Ullah, M. Salman Siddiqui, Fadi Al Machot, (参考訳) 一般化ゼロショット学習(GZSL)では、目に見えるカテゴリーと目立たないカテゴリの両方を、目に見えるカテゴリのみに基づいて学習したモデルを用いて認識することを目的としている。 コンピュータビジョンでは、これは分類問題に変換され、視覚的特徴とテキストコーパスや手動アノテーションのような利用可能な意味情報との関係を利用して、目に見えないカテゴリーに分類される。 しかし、この共同分布の学習にはコストがかかり、対応する意味情報を1対1で学習する必要がある。 本稿では,ディフュージョンモデルの条件機構を利用して視覚入力から合成された意味的特徴を生成することで,この問題を緩和する逆条件拡散モデル(RevCD)を提案する。 我々のRevCDモデルは、正弦波時間スケジュールのクロスアダマール・アドデッション埋め込みと、注意誘導型埋め込みのためのマルチヘッド視覚変換器からなる。 提案されたアプローチは3つの重要な革新をもたらす。 まず、視覚データに基づいて意味空間を生成する過程を逆転させ、より効率的な知識伝達を容易にする新しい損失関数を導入する。 第2に、ディフュージョンモデルをゼロショット学習に適用する — データ複雑性をキャプチャする上で、その強みを活用する新しいアプローチだ。 第3に、包括的クロスデータセット評価により、モデルの性能を実証する。 完全なコードはGitHubで入手できる。

In Generalized Zero-Shot Learning (GZSL), we aim to recognize both seen and unseen categories using a model trained only on seen categories. In computer vision, this translates into a classification problem, where knowledge from seen categories is transferred to unseen categories by exploiting the relationships between visual features and available semantic information, such as text corpora or manual annotations. However, learning this joint distribution is costly and requires one-to-one training with corresponding semantic information. We present a reversed conditional Diffusion-based model (RevCD) that mitigates this issue by generating semantic features synthesized from visual inputs by leveraging Diffusion models' conditional mechanisms. Our RevCD model consists of a cross Hadamard-Addition embedding of a sinusoidal time schedule and a multi-headed visual transformer for attention-guided embeddings. The proposed approach introduces three key innovations. First, we reverse the process of generating semantic space based on visual data, introducing a novel loss function that facilitates more efficient knowledge transfer. Second, we apply Diffusion models to zero-shot learning - a novel approach that exploits their strengths in capturing data complexity. Third, we demonstrate our model's performance through a comprehensive cross-dataset evaluation. The complete code will be available on GitHub.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# 超高分解能リモートセンシング画像からの植物検出:ファジィロスに基づくセマンティックセグメンテーションアプローチ

Plant detection from ultra high resolution remote sensing images: A Semantic Segmentation approach based on fuzzy loss ( http://arxiv.org/abs/2409.00513v1 )

ライセンス: Link先を確認
Shivam Pande, Baki Uzun, Florent Guiotte, Thomas Corpetti, Florian Delerue, Sébastien Lefèvre, (参考訳) 本研究では,超高解像度(UHR)リモートセンシング画像から植物種を識別する課題に取り組む。 提案手法では,フランスの山岳地域を横断するいくつかの地中探査において,ミリレベルの空間分解能を特徴とするRGBリモートセンシングデータセットを導入する。 植物種同定の課題は、地理的に広い領域にまたがる実用的で効率的な実装のための意味的セグメンテーションの問題である。 しかし、セグメンテーションマスクを扱う際には、植物種とその背景の境界を区別することが困難である事例に直面している。 セグメント化モデルにファジィ損失を導入することでこの問題に対処する。 このモデルでは, 1ホット符号化基底真理(GT)を利用する代わりに, ガウスフィルタを改良したGTを導入し, 訓練中に確率性を導入する。 UHRデータセットと公開データセットの両方で得られた最初の実験結果が提示され、提案手法の妥当性と今後の改善の必要性が示された。

In this study, we tackle the challenge of identifying plant species from ultra high resolution (UHR) remote sensing images. Our approach involves introducing an RGB remote sensing dataset, characterized by millimeter-level spatial resolution, meticulously curated through several field expeditions across a mountainous region in France covering various landscapes. The task of plant species identification is framed as a semantic segmentation problem for its practical and efficient implementation across vast geographical areas. However, when dealing with segmentation masks, we confront instances where distinguishing boundaries between plant species and their background is challenging. We tackle this issue by introducing a fuzzy loss within the segmentation model. Instead of utilizing one-hot encoded ground truth (GT), our model incorporates Gaussian filter refined GT, introducing stochasticity during training. First experimental results obtained on both our UHR dataset and a public dataset are presented, showing the relevance of the proposed methodology, as well as the need for future improvement.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# 例駆動開発: テストとドキュメントをブリッジする

Example-driven development: bridging tests and documentation ( http://arxiv.org/abs/2409.00514v1 )

ライセンス: Link先を確認
Oscar Nierstrasz, Andrei Chiş, Tudor Gîrba, (参考訳) ソフトウェアシステムは説明可能なものでなければならない。つまり、それらを探索、開発、使用しながら質問に答える手助けをするべきだ。 テキストドキュメンテーションは、コードと因果関係がないため、非常に弱い説明形式です。 一方、テストはコードと因果関係にあるが、説明の弱い形式でもある。 システムがどのように動作するかという特定の疑問に答える興味深いシナリオをコード化するテストもあるが、ほとんどのテストは興味深い読み方をしない。 例えば、興味深いシステムエンティティのファクトリでもあるテストです。 単純に成功したり失敗したりする代わりに、サンプルはテスト中のオブジェクトを返して検査したり、さらなるテストを構成するために再利用することができる。 例えば、システムに因果的に接続され、常にライブでテストされ、ライブドキュメントに埋め込まれる。 技術的には,メソッドのテスト方法に対する小さな変更に過ぎないが,その影響は画期的だ。 展示 (i)サンプル駆動開発(EDD)がTDDをライブプログラミングで豊かにする方法。 (II)分析問題に答える小さな道具で例を成形する方法、 (iii) 実例をライブドキュメントに組み込んでシステムを説明する方法。

Software systems should be explainable, that is, they should help us to answer questions while exploring, developing or using them. Textual documentation is a very weak form of explanation, since it is not causally connected to the code, so easily gets out of date. Tests, on the other hand, are causally connected to code, but they are also a weak form of explanation. Although some tests encode interesting scenarios that answer certain questions about how the system works, most tests don't make interesting reading. Examples are tests that are also factories for interesting system entities. Instead of simply succeeding or failing, an example returns the object under test so that it can be inspected, or reused to compose further tests. An example is causally connected to the system, is always live and tested, and can be embedded into live documentation. Although technically examples constitute just a small change to the way that to test methods work, their impact is potentially ground-breaking. We show (i) how Example-Driven Development (EDD) enriches TDD with live programming, (ii) how examples can be molded with tiny tools to answer analysis questions, and (iii) how examples can be embedded within live documentation to make a system explainable.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# 宇宙から土のマウンドをマッピングする

Mapping earth mounds from space ( http://arxiv.org/abs/2409.00518v1 )

ライセンス: Link先を確認
Baki Uzun, Shivam Pande, Gwendal Cachin-Bernard, Minh-Tan Pham, Sébastien Lefèvre, Rumais Blatrix, Doyle McKey, (参考訳) 植生の規則的なパターンは広い景観と見なされているが、その世界的な範囲は推定されていない。 その中でも、斑点のある風景は、気候変動の文脈に特に関心がある。 実際、半乾燥低木地帯に定期的に散在する植生スポットは、生態系の極端に資源が枯渇し、破滅的な大地が均質な砂漠に移行し、一方、シロアリのマウンドもまた、気候変化に対する堅牢性を高めることが示されている。 しかし、大規模な識別では、例えば人気のディープラーニングフレームワークを使用して、膨大なリモートセンシングデータ、例えば光衛星画像に対処する自動手法が求められている。 本稿では,この課題に対処し,いくつかの地形や地理的領域における最先端の深層ネットワークをベンチマークする。 私たちが得た有望な結果にもかかわらず、これらの地層を宇宙から自動的にマッピングできるためには、より多くの研究が必要であることが判明した。

Regular patterns of vegetation are considered widespread landscapes, although their global extent has never been estimated. Among them, spotted landscapes are of particular interest in the context of climate change. Indeed, regularly spaced vegetation spots in semi-arid shrublands result from extreme resource depletion and prefigure catastrophic shift of the ecosystem to a homogeneous desert, while termite mounds also producing spotted landscapes were shown to increase robustness to climate change. Yet, their identification at large scale calls for automatic methods, for instance using the popular deep learning framework, able to cope with a vast amount of remote sensing data, e.g., optical satellite imagery. In this paper, we tackle this problem and benchmark some state-of-the-art deep networks on several landscapes and geographical areas. Despite the promising results we obtained, we found that more research is needed to be able to map automatically these earth mounds from space.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# EraseDraw: 画像からテーマを消去してオブジェクトを挿入する学習

EraseDraw: Learning to Insert Objects by Erasing Them from Images ( http://arxiv.org/abs/2409.00522v1 )

ライセンス: Link先を確認
Alper Canberk, Maksym Bondarenko, Ege Ozguroglu, Ruoshi Liu, Carl Vondrick, (参考訳) 絵画のような創造的なプロセスは、しばしば画像の異なるコンポーネントを1つずつ作成する。 このタスクを実行するための計算モデルを構築することはできますか? 以前の作業は、画像のグローバルな変更、非現実的な空間的な場所へのオブジェクト挿入、不正確な光の詳細の生成によって失敗することが多い。 我々は、最先端のモデルではオブジェクト挿入が不十分であるが、オブジェクトを削除し、自然画像の背景を非常によく消し去ることができることを観察した。 物体除去の方向を逆転させ,空間的,物理的,光学的に周囲と整合した物体を挿入する学習のための高品質なデータを得る。 このスケーラブルな自動データ生成パイプラインにより、提案したテキスト条件拡散モデルをトレーニングするために、オブジェクト挿入を学習するためのデータセットを作成することができる。 定性的および定量的実験により,本モデルが物体挿入,特に眼内画像に対して,最先端の結果が得られることが示された。 さらに, 挿入モデルとCLIPによるビームサーチを組み合わせることで, 挿入プロンプトや画像の多様化を図り, 反復的挿入を自動化した。

Creative processes such as painting often involve creating different components of an image one by one. Can we build a computational model to perform this task? Prior works often fail by making global changes to the image, inserting objects in unrealistic spatial locations, and generating inaccurate lighting details. We observe that while state-of-the-art models perform poorly on object insertion, they can remove objects and erase the background in natural images very well. Inverting the direction of object removal, we obtain high-quality data for learning to insert objects that are spatially, physically, and optically consistent with the surroundings. With this scalable automatic data generation pipeline, we can create a dataset for learning object insertion, which is used to train our proposed text conditioned diffusion model. Qualitative and quantitative experiments have shown that our model achieves state-of-the-art results in object insertion, particularly for in-the-wild images. We show compelling results on diverse insertion prompts and images across various domains.In addition, we automate iterative insertion by combining our insertion model with beam search guided by CLIP.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# ブルガリア史文書のOCR後テキスト補正

Post-OCR Text Correction for Bulgarian Historical Documents ( http://arxiv.org/abs/2409.00527v1 )

ライセンス: Link先を確認
Angel Beshirov, Milena Dobreva, Dimitar Dimitrov, Momchil Hardalov, Ivan Koychev, Preslav Nakov, (参考訳) 歴史資料のデジタル化は、社会の文化遺産の保存に不可欠である。 このプロセスの重要なステップは、スキャンされた画像をOCR(Optical Character Recognition)を使ってテキストに変換することで、さらなる検索や情報抽出などを可能にします。 残念なことに、標準のOCRツールは歴史的正書法や困難なレイアウトを扱うように調整されていないため、これは難しい問題である。 したがって、そのような文書を扱う際に、OCR出力に追加のテキスト補正ステップを適用することが標準となる。 本研究はブルガリア語に焦点を当て,最初の標準ブルガリア正書法である19世紀のドリノフ正書法で書かれた歴史的ブルガリア語文書のOCRテキスト補正を評価するための最初のベンチマークデータセットを作成する。 さらに、この正書法およびその後のイワンチェフ正書法において、大量の現代文献ブルガリア語テキストを活用することによって、合成データを自動生成する手法を開発した。 次に、直近のLLMとエンコーダ・デコーダ・フレームワークを用いて、斜めの注意損失とコピー・アンド・カバー機構を増強し、OCR後のテキスト修正を改善する。 提案手法は,認識時に導入されたエラーを低減し,文書の品質を25\%向上させる。 データとコードは \url{https://github.com/angelbeshirov/post-ocr-text-correction} で公開しています。 ※

The digitization of historical documents is crucial for preserving the cultural heritage of the society. An important step in this process is converting scanned images to text using Optical Character Recognition (OCR), which can enable further search, information extraction, etc. Unfortunately, this is a hard problem as standard OCR tools are not tailored to deal with historical orthography as well as with challenging layouts. Thus, it is standard to apply an additional text correction step on the OCR output when dealing with such documents. In this work, we focus on Bulgarian, and we create the first benchmark dataset for evaluating the OCR text correction for historical Bulgarian documents written in the first standardized Bulgarian orthography: the Drinov orthography from the 19th century. We further develop a method for automatically generating synthetic data in this orthography, as well as in the subsequent Ivanchev orthography, by leveraging vast amounts of contemporary literature Bulgarian texts. We then use state-of-the-art LLMs and encoder-decoder framework which we augment with diagonal attention loss and copy and coverage mechanisms to improve the post-OCR text correction. The proposed method reduces the errors introduced during recognition and improves the quality of the documents by 25\%, which is an increase of 16\% compared to the state-of-the-art on the ICDAR 2019 Bulgarian dataset. We release our data and code at \url{https://github.com/angelbeshirov/post-ocr-text-correction}.}
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# 格子手術における接続性制約のタイプベース検証

Type-Based Verification of Connectivity Constraints in Lattice Surgery ( http://arxiv.org/abs/2409.00529v1 )

ライセンス: Link先を確認
Ryo Wakizaka, Yasunari Suzuki, Atsushi Igarashi, (参考訳) 格子演算を用いたフォールトトレラント量子計算はグラフ上の演算として抽象化することができ、各論理量子ビットはグラフの頂点に対応する。 有効な経路なしで頂点を接続しようとする操作は、異常な終了をもたらす。 実行中に許容経路が進化する可能性があるため、量子プログラムの実行が完了可能であることを静的に検証する必要がある。 本稿では,手術で発生する停止に遭遇することなく,型付きプログラムが実行可能であることを静的に検証するための型ベースの手法を提案する。 また,手術操作の実行モデルを形式化する一階量子プログラム言語である$\mathcal{Q}_{LS}$を提示する。 さらに、オフラインの動的接続問題に対する型チェック問題を低減し、型チェックアルゴリズムを提供する。

Fault-tolerant quantum computation using lattice surgery can be abstracted as operations on graphs, wherein each logical qubit corresponds to a vertex of the graph, and multi-qubit measurements are accomplished by connecting the vertices with paths between them. Operations attempting to connect vertices without a valid path will result in abnormal termination. As the permissible paths may evolve during execution, it is necessary to statically verify that the execution of a quantum program can be completed. This paper introduces a type-based method to statically verify that well-typed programs can be executed without encountering halts induced by surgery operations. Alongside, we present $\mathcal{Q}_{LS}$, a first-order quantum programming language to formalize the execution model of surgery operations. Furthermore, we provide a type checking algorithm by reducing the type checking problem to the offline dynamic connectivity problem.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# インクリメンタルオープンセットドメイン適応

Incremental Open-set Domain Adaptation ( http://arxiv.org/abs/2409.00530v1 )

ライセンス: Link先を確認
Sayan Rakshit, Hmrishav Bandyopadhyay, Nibaran Das, Biplab Banerjee, (参考訳) 破滅的な忘れは、視覚領域を連続的に学習する際にニューラルネットワークモデルを不安定にする。 ニューラルネットワークモデルは、新しいドメインでトレーニングする際に、前学習したドメインの破滅的な忘れがちな低パフォーマンスにドリフトする。 我々は、この現在のニューラルネットワークモデルの弱点を照明し、忘れがちなインクリメンタルラーニング戦略を開発する。 本稿では、画像分類のための新しい教師なしインクリメンタルオープンセットドメイン適応(IOSDA)を提案する。 オープンセットドメイン適応は、各ターゲットドメインがソースドメインよりも多くのクラスを持っているため、インクリメンタルドメイン適応の問題に複雑さを追加します。 IOSDAでは、モデルは増分時間で段階的にドメインストリームによるトレーニングを学ぶ。 推論は、そのIDを明らかにすることなく、すべてのターゲットドメインのテストデータを使用する。 この問題を解決するために,2段階学習パイプラインであるIOSDA-Netを提案した。 最初のモジュールは、生成フレームワークを使用して、ランダムノイズから前のドメインを複製し、擬似ソースドメインを生成する。 第2ステップでは、この疑似ソースを現在のターゲットドメインに適合させる。 我々は、新たにキュレートされた光リモートセンシングデータセットであるOffice-Home、DomainNet、UPRN-RSDAでモデルを検証した。

Catastrophic forgetting makes neural network models unstable when learning visual domains consecutively. The neural network model drifts to catastrophic forgetting-induced low performance of previously learnt domains when training with new domains. We illuminate this current neural network model weakness and develop a forgetting-resistant incremental learning strategy. Here, we propose a new unsupervised incremental open-set domain adaptation (IOSDA) issue for image classification. Open-set domain adaptation adds complexity to the incremental domain adaptation issue since each target domain has more classes than the Source domain. In IOSDA, the model learns training with domain streams phase by phase in incremented time. Inference uses test data from all target domains without revealing their identities. We proposed IOSDA-Net, a two-stage learning pipeline, to solve the problem. The first module replicates prior domains from random noise using a generative framework and creates a pseudo source domain. In the second step, this pseudo source is adapted to the present target domain. We test our model on Office-Home, DomainNet, and UPRN-RSDA, a newly curated optical remote sensing dataset.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# テキスト・プロンプトの多角的解釈性は医療ビジョンのゼロショット・タスクにどのように影響するか?

How Does Diverse Interpretability of Textual Prompts Impact Medical Vision-Language Zero-Shot Tasks? ( http://arxiv.org/abs/2409.00543v1 )

ライセンス: Link先を確認
Sicheng Wang, Che Liu, Rossella Arcucci, (参考訳) 近年のMedVLP(MedVLP)は,大規模医用画像・テキスト・ペア・プレトレーニングを活用することで,画像分類などのゼロショット医療ビジョンタスクを大幅に強化している。 しかし、これらのタスクのパフォーマンスは、カテゴリを記述するテキストプロンプトの可変性に大きく影響され、MedVLPモデルのロバスト性は多様なプロンプトスタイルに必要となる。 しかし、この感度は未発見のままである。 本研究は、15の異なる疾患に対する3つの広く用いられているMedVLP法の感度を系統的に評価した最初のものである。 これを実現するために,実際の臨床シナリオを反映する6つのユニークなプロンプトスタイルを設計した。 以上の結果から,全てのMedVLPモデルは異なるプロンプトスタイルで不安定な性能を示し,ロバストさの欠如が示唆された。 さらに、モデルの性能は、迅速な解釈可能性の向上とともに変化し、複雑な医療概念の理解が困難であることが判明した。 本研究は,多種多様なゼロショットプロンプトに対するロバスト性を高めるため,MedVLP方法論のさらなる開発の必要性を浮き彫りにする。

Recent advancements in medical vision-language pre-training (MedVLP) have significantly enhanced zero-shot medical vision tasks such as image classification by leveraging large-scale medical image-text pair pre-training. However, the performance of these tasks can be heavily influenced by the variability in textual prompts describing the categories, necessitating robustness in MedVLP models to diverse prompt styles. Yet, this sensitivity remains underexplored. In this work, we are the first to systematically assess the sensitivity of three widely-used MedVLP methods to a variety of prompts across 15 different diseases. To achieve this, we designed six unique prompt styles to mirror real clinical scenarios, which were subsequently ranked by interpretability. Our findings indicate that all MedVLP models evaluated show unstable performance across different prompt styles, suggesting a lack of robustness. Additionally, the models' performance varied with increasing prompt interpretability, revealing difficulties in comprehending complex medical concepts. This study underscores the need for further development in MedVLP methodologies to enhance their robustness to diverse zero-shot prompts.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# 乳腺腫瘍の精密治療のための大規模言語モデルを用いたデジタル双生児

Large Language Models-Enabled Digital Twins for Precision Medicine in Rare Gynecological Tumors ( http://arxiv.org/abs/2409.00544v1 )

ライセンス: Link先を確認
Jacqueline Lammert, Nicole Pfarr, Leonid Kuligin, Sonja Mathes, Tobias Dreyer, Luise Modersohn, Patrick Metzger, Dyke Ferber, Jakob Nikolas Kather, Daniel Truhn, Lisa Christine Adams, Keno Kyrill Bressem, Sebastian Lange, Kristina Schwamborn, Martin Boeker, Marion Kiechle, Ulrich A. Schatz, Holger Bronger, Maximilian Tschochohei, (参考訳) 希少な婦人科腫瘍 (RGTs) は, 発症頻度が低く, 異質性も低いため, 重要な臨床的課題を呈する。 明確なガイドラインの欠如は、至適管理と予後不良につながる。 分子腫瘍ボードは、がん以外のバイオマーカーに基づく治療を調整することで、効果的な治療法へのアクセスを加速する。 手動のキュレーションを必要とする非構造化データは、バイオマーカープロファイリングを効果的に使用することを妨げる。 本研究では,大規模言語モデル(LLM)を用いて,RGTにおける精密医療のためのディジタルツインの構築について検討する。 概念実証用デジタルツインシステムは, 臨床およびバイオマーカーデータ(n=21)と文献由来データ(n=655、n=404,265)を統合して, 転移性子宮癌の治療計画を作成する。 LLM対応デジタルツインは、患者個々の軌跡を効率的にモデル化する。 臓器ベースの腫瘍定義ではなく生物学ベースの定義に移行することで、RGT管理を推進し、患者の結果を高めるパーソナライズされたケアが可能になる。

Rare gynecological tumors (RGTs) present major clinical challenges due to their low incidence and heterogeneity. The lack of clear guidelines leads to suboptimal management and poor prognosis. Molecular tumor boards accelerate access to effective therapies by tailoring treatment based on biomarkers, beyond cancer type. Unstructured data that requires manual curation hinders efficient use of biomarker profiling for therapy matching. This study explores the use of large language models (LLMs) to construct digital twins for precision medicine in RGTs. Our proof-of-concept digital twin system integrates clinical and biomarker data from institutional and published cases (n=21) and literature-derived data (n=655 publications with n=404,265 patients) to create tailored treatment plans for metastatic uterine carcinosarcoma, identifying options potentially missed by traditional, single-source analysis. LLM-enabled digital twins efficiently model individual patient trajectories. Shifting to a biology-based rather than organ-based tumor definition enables personalized care that could advance RGT management and thus enhance patient outcomes.
翻訳日:2024-09-06 14:18:10 公開日:2024-08-31
# 認証ギャップ:NISTデジタルアイデンティティガイドラインに対する高等教育の広範不適合性

The Authentication Gap: Higher Education's Widespread Noncompliance with NIST Digital Identity Guidelines ( http://arxiv.org/abs/2409.00546v1 )

ライセンス: Link先を確認
Noah Apthorpe, Boen Beavers, Yan Shvartzshnaider, Brett Frischmann, (参考訳) NIST Special Publication 800-63-3 Digital Identity Guidelinesにおいて,米国とカナダの大学101校の認証の実践について検討した。 パスワードの有効期限、パスワード構成規則、知識に基づく認証の標準に広く準拠していないことが判明した。 多くの機関は、何年にもわたって専門家の助言や標準に反して、非準拠のプラクティスをいまだに要求または推奨している。 さらに、地域・リベラル・アーツ・カレッジは、一般的に、国内・グローバル大学よりもコンプライアンス率を低くし、これらの機関の認証セキュリティへのさらなる投資を動機付けている。 これらの結果は、専門家のサイバーセキュリティ勧告が高等教育機関の政策に十分な影響を与えていないという覚醒の電話であり、このセクターはますます普及しているランサムウェアやその他のサイバー攻撃に弱いままである。

We examine the authentication practices of a diverse set of 101 colleges and universities in the United States and Canada to determine compliance with five standards in NIST Special Publication 800-63-3 Digital Identity Guidelines. We find widespread noncompliance with standards for password expiration, password composition rules, and knowledge-based authentication. Many institutions still require or recommend noncompliant practices despite years of expert advice and standards to the contrary. Furthermore, we observe that regional and liberal arts colleges have generally lower documented compliance rates than national and global universities, motivating further investment in authentication security at these institutions. These results are a wake-up call that expert cybersecurity recommendations are not sufficiently influencing the policies of higher education institutions, leaving the sector vulnerable to increasingly prevalent ransomware and other cyberattacks.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# 生成AIを用いた画像分類のためのデータ拡張

Data Augmentation for Image Classification using Generative AI ( http://arxiv.org/abs/2409.00547v1 )

ライセンス: Link先を確認
Fazle Rahat, M Shifat Hossain, Md Rubel Ahmed, Sumit Kumar Jha, Rickard Ewetz, (参考訳) スケーリング法則は、AIモデルのパフォーマンスは利用可能なデータ量に比例する、と規定する。 データ拡張はデータセットのサイズを拡大するための有望なソリューションである。 伝統的なアプローチは、回転、翻訳、縮小による拡張に焦点を当てていた。 最近のアプローチでは、生成AIモデルを使用してデータセットの多様性を改善している。 しかし、生成手法は、被写体腐敗や無関係な人工物の導入といった問題に苦慮している。 本稿では,AGA(Automated Generative Data Augmentation)を提案する。 このフレームワークは、大きな言語モデル(LLM)、拡散モデル、データ拡張のためのセグメンテーションモデルのユーティリティを組み合わせる。 AGAは背景の多様性を確保しつつ、前景の真正性を保っている。 具体的な貢献は以下の通り。 一 セグメント及びスーパークラスに基づく対象抽出 二 即時分解を用いた組合せ複雑性を伴う多様性の促進及び 三 アフィン被写体操作 我々は、画像Net、CUB、iWildCamの3つの代表的なデータセット上で、最先端(SOTA)技術に対してAGAを評価した。 実験による評価では, ベースラインモデルと比較して, 分布内および分布外データの精度が15.6%, 23.5%向上した。 また、SICスコアはベースラインよりも64.3%向上している。

Scaling laws dictate that the performance of AI models is proportional to the amount of available data. Data augmentation is a promising solution to expanding the dataset size. Traditional approaches focused on augmentation using rotation, translation, and resizing. Recent approaches use generative AI models to improve dataset diversity. However, the generative methods struggle with issues such as subject corruption and the introduction of irrelevant artifacts. In this paper, we propose the Automated Generative Data Augmentation (AGA). The framework combines the utility of large language models (LLMs), diffusion models, and segmentation models to augment data. AGA preserves foreground authenticity while ensuring background diversity. Specific contributions include: i) segment and superclass based object extraction, ii) prompt diversity with combinatorial complexity using prompt decomposition, and iii) affine subject manipulation. We evaluate AGA against state-of-the-art (SOTA) techniques on three representative datasets, ImageNet, CUB, and iWildCam. The experimental evaluation demonstrates an accuracy improvement of 15.6% and 23.5% for in and out-of-distribution data compared to baseline models, respectively. There is also a 64.3% improvement in SIC score compared to the baselines.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# 大規模言語モデルの検証と評価:正確性、非毒性、公正性

Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness ( http://arxiv.org/abs/2409.00551v1 )

ライセンス: Link先を確認
Wenxuan Wang, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、この数年間で人々の仕事や日常生活に急速に浸透してきた。 ChatGPTは、人類史上最も急速に成長しているソフトウェアであり、次世代の人工知能アプリケーションにとって重要な基礎モデルとなっている。 しかし、LLMの世代は完全に信頼できないため、しばしば事実の誤り、偏見、毒性のあるコンテンツを生み出す。 膨大な数のユーザと広範囲のアプリケーションシナリオを考えると、これらの信頼性の低いレスポンスは多くの重大なネガティブな影響をもたらします。 この論文は、PhD研究における言語モデル信頼性の分野における探索的な研究を紹介し、ソフトウェアテストと自然言語処理の両方の観点から、LLMの正当性、非毒性、公平性に焦点を当てている。 まず, LLMの正確性を評価するために, FactChecker と LogicAsker という2つのテストフレームワークを導入する。 第2に, LLMの非毒性については, レッドピーリング LLM の2つの研究を紹介する。 第3に,LLMの公平性を評価するために,LLMの社会的バイアスと文化的バイアスを測定するために,BiasAskerとXCulturalBenchの2つの評価枠組みを導入する。

Large language models (LLMs), such as ChatGPT, have rapidly penetrated into people's work and daily lives over the past few years, due to their extraordinary conversational skills and intelligence. ChatGPT has become the fastest-growing software in terms of user numbers in human history and become an important foundational model for the next generation of artificial intelligence applications. However, the generations of LLMs are not entirely reliable, often producing content with factual errors, biases, and toxicity. Given their vast number of users and wide range of application scenarios, these unreliable responses can lead to many serious negative impacts. This thesis introduces the exploratory works in the field of language model reliability during the PhD study, focusing on the correctness, non-toxicity, and fairness of LLMs from both software testing and natural language processing perspectives. First, to measure the correctness of LLMs, we introduce two testing frameworks, FactChecker and LogicAsker, to evaluate factual knowledge and logical reasoning accuracy, respectively. Second, for the non-toxicity of LLMs, we introduce two works for red-teaming LLMs. Third, to evaluate the fairness of LLMs, we introduce two evaluation frameworks, BiasAsker and XCulturalBench, to measure the social bias and cultural bias of LLMs, respectively.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# マルチモーダルスパイクニューラルネットワークを用いたディジット認識

Digit Recognition using Multimodal Spiking Neural Networks ( http://arxiv.org/abs/2409.00552v1 )

ライセンス: Link先を確認
William Bjorndahl, Jack Easton, Austin Modoff, Eric C. Larson, Joseph Camp, Prasanna Rangarajan, (参考訳) スパイキングニューラルネットワーク(SNN)は、脳内の信号交換をエミュレートする方法で、生物学的にデータ処理にインスパイアされた第3世代のニューラルネットワークである。 Computer Visionコミュニティ内のSNNは、シーンの放射率の変化に応じて空間的に解決されたスパイクトレインを生成するイベントベースのセンサーが利用可能であることから、大きな注目を集めている。 SNNは、そのニューロモルフィック性のためにイベントベースのデータを処理するために使用される。 本研究は, 分類作業における複数の感覚入力を融合させることによるニューロモルフィックの利点について検討した。 具体的には、イベントベースのセンサを用いて生成したデータセットから、視覚的モダリティ分岐(Neuromorphic-MNIST [N-MNIST])と聴覚的モダリティ分岐(Spiking Heidelberg Digits (SHD))を渡すことで、桁分類におけるSNNの性能を検討した。 マルチモーダルSNNは, 視覚的・聴覚的SNNよりも優れていた。 さらに,視覚枝と聴覚枝が結合した深度に対して,感覚融合のプロセスは無神経であることが観察された。 この研究は、視覚枝と聴覚枝を遅い深さで結合するマルチモーダルSNNを用いて、N-MNISTとSHDデータセットを組み合わせた98.43%の精度を達成する。

Spiking neural networks (SNNs) are the third generation of neural networks that are biologically inspired to process data in a fashion that emulates the exchange of signals in the brain. Within the Computer Vision community SNNs have garnered significant attention due in large part to the availability of event-based sensors that produce a spatially resolved spike train in response to changes in scene radiance. SNNs are used to process event-based data due to their neuromorphic nature. The proposed work examines the neuromorphic advantage of fusing multiple sensory inputs in classification tasks. Specifically we study the performance of a SNN in digit classification by passing in a visual modality branch (Neuromorphic-MNIST [N-MNIST]) and an auditory modality branch (Spiking Heidelberg Digits [SHD]) from datasets that were created using event-based sensors to generate a series of time-dependent events. It is observed that multi-modal SNNs outperform unimodal visual and unimodal auditory SNNs. Furthermore, it is observed that the process of sensory fusion is insensitive to the depth at which the visual and auditory branches are combined. This work achieves a 98.43% accuracy on the combined N-MNIST and SHD dataset using a multimodal SNN that concatenates the visual and auditory branches at a late depth.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# ポストプロセシングによる多出力分布フェアネス

Multi-Output Distributional Fairness via Post-Processing ( http://arxiv.org/abs/2409.00553v1 )

ライセンス: Link先を確認
Gang Li, Qihang Lin, Ayush Ghosh, Tianbao Yang, (参考訳) 後処理のアプローチは、直感性、計算コストの低減、スケーラビリティの優れたため、機械学習モデルの公正性を高めるための顕著なテクニックになりつつある。 しかし、既存のほとんどの後処理方法はタスク固有の公正度測定のために設計されており、単一出力モデルに限定されている。 本稿では,マルチタスク/マルチクラス分類や表現学習に使用されるようなマルチアウトプットモデルのポストプロセッシング手法を提案する。 分布パリティを達成するための既存の技術は、単一出力モデルに限定されたモデル出力の(逆)累積密度関数に基づいている。 先行研究を拡張して, モデル出力を実験的なワッサーシュタインバリセンタへ移動させるため, 最適トランスポートマッピングを用いた。 正確なバリセンタの計算の複雑さを軽減するために近似手法を適用し、この処理をサンプル外データに拡張するカーネル回帰法を提案する。 提案手法と既存のポストプロセッシングベースラインをマルチタスク/マルチクラス分類および表現学習タスクで比較した実証的研究は,提案手法の有効性を実証するものである。

The post-processing approaches are becoming prominent techniques to enhance machine learning models' fairness because of their intuitiveness, low computational cost, and excellent scalability. However, most existing post-processing methods are designed for task-specific fairness measures and are limited to single-output models. In this paper, we introduce a post-processing method for multi-output models, such as the ones used for multi-task/multi-class classification and representation learning, to enhance a model's distributional parity, a task-agnostic fairness measure. Existing techniques to achieve distributional parity are based on the (inverse) cumulative density function of a model's output, which is limited to single-output models. Extending previous works, our method employs an optimal transport mapping to move a model's outputs across different groups towards their empirical Wasserstein barycenter. An approximation technique is applied to reduce the complexity of computing the exact barycenter and a kernel regression method is proposed for extending this process to out-of-sample data. Our empirical studies, which compare our method to current existing post-processing baselines on multi-task/multi-class classification and representation learning tasks, demonstrate the effectiveness of the proposed approach.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# FADE:大型ビジョンランゲージモデルを用いたFew-shot/ゼロショット異常検出エンジン

FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model ( http://arxiv.org/abs/2409.00556v1 )

ライセンス: Link先を確認
Yuanwei Li, Elizaveta Ivanova, Martins Bruveris, (参考訳) 製造業界における品質検査において,自動画像異常検出が重要である。 通常の教師なしの異常検出アプローチでは、通常のサンプルのデータセットを使用して、各オブジェクトクラスのモデルをトレーニングする。 しかし、より現実的な問題は、ゼロまたは少数のサンプルが利用可能であるゼロ/フェーショット異常検出である。 これにより、オブジェクト固有のモデルのトレーニングが困難になる。 近年, 様々な下流タスクにおいて, 強烈なゼロショット性能を示す基礎概念言語モデルが提案されている。 これらのモデルは視覚と言語の間の複雑な関係を学習してきたが、異常検出のタスクのために特別に設計されたものではない。 本稿では,視覚言語CLIPモデルを利用したFew-shot/zero-shot Anomaly Detection Engine (FADE)を提案する。 具体的には、言語誘導型異常セグメンテーションを改善する。 1 言語とより整合したマルチスケールイメージパッチ埋め込みの抽出にCLIPを適用する。 2)産業異常検出に関連するテキストプロンプトのアンサンブルを自動的に生成する。 3)ゼロショットと少数ショットの異常検出の両方を改善するために,クエリと参照画像からの視覚に基づくガイダンスを付加する。 MVTec-AD(およびVisA)データセットでは、FADEは非正規ショットで89.6%(91.5%)、95.4%(97.5%)の画素AUROCで異常セグメンテーションにおける他の最先端の手法よりも優れている。 コードはhttps://github.com/BMVC-FADE/BMVC-FADEで入手できる。

Automatic image anomaly detection is important for quality inspection in the manufacturing industry. The usual unsupervised anomaly detection approach is to train a model for each object class using a dataset of normal samples. However, a more realistic problem is zero-/few-shot anomaly detection where zero or only a few normal samples are available. This makes the training of object-specific models challenging. Recently, large foundation vision-language models have shown strong zero-shot performance in various downstream tasks. While these models have learned complex relationships between vision and language, they are not specifically designed for the tasks of anomaly detection. In this paper, we propose the Few-shot/zero-shot Anomaly Detection Engine (FADE) which leverages the vision-language CLIP model and adjusts it for the purpose of industrial anomaly detection. Specifically, we improve language-guided anomaly segmentation 1) by adapting CLIP to extract multi-scale image patch embeddings that are better aligned with language and 2) by automatically generating an ensemble of text prompts related to industrial anomaly detection. 3) We use additional vision-based guidance from the query and reference images to further improve both zero-shot and few-shot anomaly detection. On the MVTec-AD (and VisA) dataset, FADE outperforms other state-of-the-art methods in anomaly segmentation with pixel-AUROC of 89.6% (91.5%) in zero-shot and 95.4% (97.5%) in 1-normal-shot. Code is available at https://github.com/BMVC-FADE/BMVC-FADE.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# LLMディレクタを用いた合成3次元映像生成

Compositional 3D-aware Video Generation with LLM Director ( http://arxiv.org/abs/2409.00558v1 )

ライセンス: Link先を確認
Hanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian, (参考訳) 強力な生成モデルと大規模なインターネットデータを利用することで、テキスト・ビデオ生成において重要な進歩を遂げた。 しかし、特定のキャラクターの動きや外観、視点の動きなど、生成されたビデオ内の個々の概念を正確に制御する上で、大きな課題が残っている。 本研究では,3次元表現において各概念を個別に生成し,Large Language Models (LLM) と2次元拡散モデルから先行概念を合成する新しいパラダイムを提案する。 具体的には、入力テキストプロンプトが与えられた場合、我々のスキームは3つの段階から構成される。 1) LLMをディレクタとして利用して、複雑なクエリをビデオ内の個々の概念~(\textit{e g }, scene, objects, motions)に分解し、LLMに事前訓練された専門家モデルを呼び出して、対応する概念の3D表現を得る。 2)これらの表現を構成するために,オブジェクトの軌跡のスケールと座標に関する粗いガイダンスを多モードLLMに作成するよう促す。 3) 生成したフレームを自然な画像分布に付着させるため, さらに2次元拡散先行値を活用し, Score Distillation Smpling を用いて合成を洗練させる。 広汎な実験により,本手法は多種多様な動きと各概念の柔軟な制御が可能なテキストから高忠実度ビデオを生成することができることが示された。 プロジェクトページ: \url{https://aka.ms/c3v}。

Significant progress has been made in text-to-video generation through the use of powerful generative models and large-scale internet data. However, substantial challenges remain in precisely controlling individual concepts within the generated video, such as the motion and appearance of specific characters and the movement of viewpoints. In this work, we propose a novel paradigm that generates each concept in 3D representation separately and then composes them with priors from Large Language Models (LLM) and 2D diffusion models. Specifically, given an input textual prompt, our scheme consists of three stages: 1) We leverage LLM as the director to first decompose the complex query into several sub-prompts that indicate individual concepts within the video~(\textit{e.g.}, scene, objects, motions), then we let LLM to invoke pre-trained expert models to obtain corresponding 3D representations of concepts. 2) To compose these representations, we prompt multi-modal LLM to produce coarse guidance on the scales and coordinates of trajectories for the objects. 3) To make the generated frames adhere to natural image distribution, we further leverage 2D diffusion priors and use Score Distillation Sampling to refine the composition. Extensive experiments demonstrate that our method can generate high-fidelity videos from text with diverse motion and flexible control over each concept. Project page: \url{https://aka.ms/c3v}.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# 予算配分のためのマルチタスクコンビネーションバンド

Multi-Task Combinatorial Bandits for Budget Allocation ( http://arxiv.org/abs/2409.00561v1 )

ライセンス: Link先を確認
Lin Ge, Yang Xu, Jianing Chu, David Cramer, Fuhong Li, Kelly Paulson, Rui Song, (参考訳) 今日のトップ広告主は、通常、数百のキャンペーンを同時に管理し、年間を通じて一貫して新しいキャンペーンをローンチします。 マーケティングマネージャにとって重要な課題は、累積リターンを最大化するために、各キャンペーンにおいて様々な広告ラインで限られた予算を最適に割り当てることである。 本稿では,マルチタスク組合せバンディット問題として予算配分を定式化し,新しいオンライン予算配分システムを提案する。 提案する制度 一 効率の良い情報共有を確保するため、キャンペーン及び広告ライン及び予算の大きさのメタデータをインテリジェントに活用するためのベイズ的階層モデルを統合すること。 二 多様な環境に配慮した線形回帰、ガウス過程、ニューラルネットワーク等の多様なモデリング技術を組み込むための柔軟性を提供すること。 三 探究と搾取のバランスをとるために、トンプソンサンプリング(TS)技術を用いる。 オフライン評価とオンライン実験により,本システムはロバスト性と適応性を実証し,総累積リターンを効果的に最大化する。 提案されたプロシージャのPython実装はhttps://anonymous.4open.science/r/MCMABで公開されている。

Today's top advertisers typically manage hundreds of campaigns simultaneously and consistently launch new ones throughout the year. A crucial challenge for marketing managers is determining the optimal allocation of limited budgets across various ad lines in each campaign to maximize cumulative returns, especially given the huge uncertainty in return outcomes. In this paper, we propose to formulate budget allocation as a multi-task combinatorial bandit problem and introduce a novel online budget allocation system. The proposed system: i) integrates a Bayesian hierarchical model to intelligently utilize the metadata of campaigns and ad lines and budget size, ensuring efficient information sharing; ii) provides the flexibility to incorporate diverse modeling techniques such as Linear Regression, Gaussian Processes, and Neural Networks, catering to diverse environmental complexities; and iii) employs the Thompson sampling (TS) technique to strike a balance between exploration and exploitation. Through offline evaluation and online experiments, our system demonstrates robustness and adaptability, effectively maximizing the overall cumulative returns. A Python implementation of the proposed procedure is available at https://anonymous.4open.science/r/MCMAB.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# 音響的人物識別と検証のためのモダリティ融合手法の比較分析

Comparative Analysis of Modality Fusion Approaches for Audio-Visual Person Identification and Verification ( http://arxiv.org/abs/2409.00562v1 )

ライセンス: Link先を確認
Aref Farhadipour, Masoumeh Chapariniya, Teodora Vukovic, Volker Dellwo, (参考訳) マルチモーダル学習は、学習と理解を強化するために、様々なモダリティからの情報を統合することを含む。 音声と顔の2つのモダリティを処理し,個人識別と検証における3つのモダリティ融合戦略を比較した。 本稿では,1次元畳み込みニューラルネットワークを音声からxベクトル抽出に使用し,事前学習したVGGFace2ネットワークと転送学習を顔のモダリティに利用する。 さらに、ガンマトングラムは、Darknet19事前訓練ネットワークとの関わりにおいて、音声表現として使用される。 提案システムは,VoxCeleb2データセットのテストセットの118話者に対して,K-foldクロスバリデーション手法を用いて評価する。 比較評価は、単一モダリティと、同じ状況下で提案された3つのマルチモーダル戦略に対して行われる。 その結果,ガンマトングラムと顔の特徴の融合戦略が最も高い性能を示し,その精度は98.37%であった。 しかしながら、xベクターと顔の特徴を結びつけることは、EERの検証タスクにおいて0.62%に達する。

Multimodal learning involves integrating information from various modalities to enhance learning and comprehension. We compare three modality fusion strategies in person identification and verification by processing two modalities: voice and face. In this paper, a one-dimensional convolutional neural network is employed for x-vector extraction from voice, while the pre-trained VGGFace2 network and transfer learning are utilized for face modality. In addition, gammatonegram is used as speech representation in engagement with the Darknet19 pre-trained network. The proposed systems are evaluated using the K-fold cross-validation technique on the 118 speakers of the test set of the VoxCeleb2 dataset. The comparative evaluations are done for single-modality and three proposed multimodal strategies in equal situations. Results demonstrate that the feature fusion strategy of gammatonegram and facial features achieves the highest performance, with an accuracy of 98.37% in the person identification task. However, concatenating facial features with the x-vector reaches 0.62% for EER in verification tasks.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# Sparse Mamba: 構造状態空間モデルにおける制御性の強化

Sparse Mamba: Reinforcing Controllability In Structural State Space Models ( http://arxiv.org/abs/2409.00563v1 )

ライセンス: Link先を確認
Emadeldeen Hamdan, Hongyi Pan, Ahmet Enis Cetin, (参考訳) 本稿では、自然言語処理(NLP)アプリケーションのためのSparse-Mamba(S-Mamba)において、制御性と可観測性の概念をMアンバアーキテクチャに適用する。 Mamba や Mamba2 のような最近の研究における構造化状態空間モデル(SSM)の開発は、小中小の NLP タスクにおいて長いシーケンスで変換器と大言語モデル(LLM)の計算非効率性より優れ、解決された。 Mamba SSMsアーキテクチャは、トランスフォーマーのアテンション層やMLBブロックの必要性を減らしている。 しかし、現在のマンバモデルは、各時間ステップにおけるA, B, C, D行列の計算における状態空間方程式の制御性を強化せず、複雑さと計算コストを増大させる。 本稿では,提案したSparse-Mamba(S-Mamba)における状態空間方程式の制御性を向上し,性能を維持しながらパラメータ数を著しく減少させることができることを示す。 制御可能な n x n 状態行列 A はスパースであり、n 個の自由パラメータしか持たない。 我々の新しいアプローチは、制御可能なシステムを確保し、Mamba 3のゲートキーになり得る。

In this article, we introduce the concept of controllability and observability to the M amba architecture in our Sparse-Mamba (S-Mamba) for natural language processing (NLP) applications. The structured state space model (SSM) development in recent studies, such as Mamba and Mamba2, outperformed and solved the computational inefficiency of transformers and large language models (LLMs) on longer sequences in small to medium NLP tasks. The Mamba SSMs architecture drops the need for attention layer or MLB blocks in transformers. However, the current Mamba models do not reinforce the controllability on state space equations in the calculation of A, B, C, and D matrices at each time step, which increase the complexity and the computational cost needed. In this article we show that the number of parameters can be significantly decreased by reinforcing controllability in the state space equations in the proposed Sparse-Mamba (S-Mamba), while maintaining the performance. The controllable n x n state matrix A is sparse and it has only n free parameters. Our novel approach will ensure a controllable system and could be the gate key for Mamba 3.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# 深層学習を用いた高アスペクト比核融合デバイスの設計

Using Deep Learning to Design High Aspect Ratio Fusion Devices ( http://arxiv.org/abs/2409.00564v1 )

ライセンス: Link先を確認
P. Curvo, D. R. Ferreira, R. Jorge, (参考訳) 融合装置の設計は一般に計算コストのかかるシミュレーションに基づいている。 これは、特に、大きなパラメータ空間を持つ非軸対称磁場が特定の性能基準を満たすように最適化されたステラレータ最適化の場合において、自由パラメータの少ない高アスペクト比モデルを用いて緩和することができる。 しかし、低伸長、高回転変換、有限プラズマベータ、良好な高速粒子閉じ込めなどの特性を持つ構成を見つけるためには、依然として最適化が必要である。 本研究では,機械学習モデルを用いて,所望の特性に対するモデル入力パラメータの集合を求める逆設計問題の解を求めることにより,良好な閉じ込め特性を持つ構成を構築することを訓練する。 逆問題の解は非一様であるため、混合密度ネットワークに基づく確率論的アプローチが用いられる。 この方法で最適化された構成を確実に生成できることが示されている。

The design of fusion devices is typically based on computationally expensive simulations. This can be alleviated using high aspect ratio models that employ a reduced number of free parameters, especially in the case of stellarator optimization where non-axisymmetric magnetic fields with a large parameter space are optimized to satisfy certain performance criteria. However, optimization is still required to find configurations with properties such as low elongation, high rotational transform, finite plasma beta, and good fast particle confinement. In this work, we train a machine learning model to construct configurations with favorable confinement properties by finding a solution to the inverse design problem, that is, obtaining a set of model input parameters for given desired properties. Since the solution of the inverse problem is non-unique, a probabilistic approach, based on mixture density networks, is used. It is shown that optimized configurations can be generated reliably using this method.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# 睡眠時における2段階階層的・説明可能な特徴選択フレームワーク

Two-Stage Hierarchical and Explainable Feature Selection Framework for Dimensionality Reduction in Sleep Staging ( http://arxiv.org/abs/2409.00565v1 )

ライセンス: Link先を確認
Yangfan Deng, Hamad Albidah, Ahmed Dallal, Jijun Yin, Zhi-Hong Mao, (参考訳) 睡眠は人間の健康にとって不可欠であり、脳波は睡眠研究において重要な役割を果たす。 脳波信号データシーケンスの高次元特性のため、異なる睡眠段階のデータの可視化とクラスタリングが課題となっている。 これらの問題に対処するために,特徴選択アルゴリズムを取り入れた2段階の階層的かつ説明可能な特徴選択フレームワークを提案する。 高次元データの構造を解析できるトポロジカルデータ解析にインスパイアされ、脳波信号からトポロジカル特徴を抽出し、従来の分光時空間データ解析で発生する構造情報損失を補う。 異なる睡眠段階からのデータのトポロジカルな可視化と分類結果の支援により,提案した特徴が従来の特徴に対する効果的な補足であることが証明された。 最後に,主成分分析 (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE), Uniform Manifold Approximation and Projection (UMAP) の3つの次元化アルゴリズムの性能を比較した。 中でも t-SNE は 79.8% の精度を達成したが、計算資源とメトリクスの全体的な性能を考えると、UMAP が最適選択である。

Sleep is crucial for human health, and EEG signals play a significant role in sleep research. Due to the high-dimensional nature of EEG signal data sequences, data visualization and clustering of different sleep stages have been challenges. To address these issues, we propose a two-stage hierarchical and explainable feature selection framework by incorporating a feature selection algorithm to improve the performance of dimensionality reduction. Inspired by topological data analysis, which can analyze the structure of high-dimensional data, we extract topological features from the EEG signals to compensate for the structural information loss that happens in traditional spectro-temporal data analysis. Supported by the topological visualization of the data from different sleep stages and the classification results, the proposed features are proven to be effective supplements to traditional features. Finally, we compare the performances of three dimensionality reduction algorithms: Principal Component Analysis (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE), and Uniform Manifold Approximation and Projection (UMAP). Among them, t-SNE achieved the highest accuracy of 79.8%, but considering the overall performance in terms of computational resources and metrics, UMAP is the optimal choice.
翻訳日:2024-09-06 13:55:44 公開日:2024-08-31
# UFO、宇宙、虫歯類、生物群集のブラジルテレグラム : 空が限界ではなく、陰謀論が人類を超えて答えを求めるとき

UFO, universe, reptilians and creatures communities on Brazilian Telegram: when the sky is not the limit and conspiracy theories seek answers beyond humanity ( http://arxiv.org/abs/2409.02117v1 )

ライセンス: Link先を確認
Ergon Cugler de Moraes Silva, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックなど、地球外現象やUFOや補足動物に関する陰謀説への関心は、特に世界的な不確実な時期にブラジルテレグラムで高まっている。 そこで本研究では, ブラジルのUFO, 宇宙, 虫歯類, 生物に関する陰謀論のコミュニティは, テレグラムで特徴づけられ, 具体化されているのか? この研究は、ブラジルの陰謀論コミュニティをテレグラム上で理解し、特徴づけることが主な目的である7つの研究のシリーズの一部であることは注目に値する。 この7つの研究のシリーズは、コーネル大学のarXivで公開され、最初は7つの研究にミラーリングされた手法を適用し、分析の主題だけを変更し、プロプライエタリで認可されたコードを含む調査の再現性を提供し、フリーでオープンソースのソフトウェアの文化を付加した。 UFOコミュニティは、地球外生命体とグローバルコントロールの物語を結び付けること、UFOと宇宙に関する議論はパンデミックの間に大きく成長し、地球外現象への関心が再燃したこと、レプティリアは、パンデミックの間に顕著な成長を遂げた陰謀理論の中で重要なサブカルチャーであり続けていること、UFO、レプティリア、密教のセマンティックなオーバーラップは、偽情報の密集したエコシステムを示し、事実の修正は困難である、UFOコミュニティは、他の陰謀理論のアンプとして機能し、異なるテーマを接続し、異文化ネットワークを強化すること、などである。

Interest in extraterrestrial phenomena and conspiracy theories involving UFOs and reptilians has been growing on Brazilian Telegram, especially in times of global uncertainty, such as during the COVID-19 pandemic. Therefore, this study aims to address the research question: how are Brazilian conspiracy theory communities on UFO, universe, reptilians and creatures topics characterized and articulated on Telegram? It is worth noting that this study is part of a series of seven studies whose main objective is to understand and characterize Brazilian conspiracy theory communities on Telegram. This series of seven studies is openly and originally available on arXiv at Cornell University, applying a mirrored method across the seven studies, changing only the thematic object of analysis and providing investigation replicability, including with proprietary and authored codes, adding to the culture of free and open-source software. Regarding the main findings of this study, the following were observed: UFO communities act as gateways for theories about reptilians, connecting narratives of global control with extraterrestrial beings; Discussions about UFOs and the universe grew significantly during the Pandemic, reflecting a renewed interest in extraterrestrial phenomena; Reptilians remain a significant subculture within conspiracy theories, with a notable growth during the Pandemic; The thematic overlap between UFOs, reptilians and esotericism reveals a cohesive ecosystem of disinformation, making factual correction a challenge; UFO communities function as amplifiers of other conspiracy theories, connecting different themes and strengthening the disinformation network.
翻訳日:2024-09-05 23:53:09 公開日:2024-08-31
# TSO:スケールド優先度最適化による自己学習

TSO: Self-Training with Scaled Preference Optimization ( http://arxiv.org/abs/2409.02118v1 )

ライセンス: Link先を確認
Kaihui Chen, Hao Yi, Qingyang Li, Tianyu Qi, Yulan Hu, Fuzheng Zhang, Yong Liu, (参考訳) 大規模言語モデル(LLM)の人間の嗜好への適合性を高めることは、現在も進行中の研究課題である。 近年、直接選好最適化(DPO)のようなオフラインアプローチは、報酬モデルとの相互作用なしに、単純、効率的、安定な効果的な改善を提供するため、魅力的な選択肢として注目されている。 しかし、これらのオフライン選好最適化手法はペアワイズ選好サンプルの品質に大きく依存している。 一方、多くの反復的手法は、好み学習のためにモデルが生成した反応から正と負のサンプルを選択するために、報酬モデルのさらなる訓練を必要とする。 さらに, LLMの能力が向上するにつれて, 多様性の欠如により, モデル出力から高品質な肯定的, ネガティブな選好のインスタンスを連続的に構築することは極めて困難である。 これらの課題に対処するために、我々は、追加の報酬モデルを訓練することなく自己学習の選好学習を行う、選好最適化のためのフレームワークであるTSO(Self-Training with Scaled Preference Optimization)を提案する。 TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。 さらに、TSOは人間とAIのフィードバックによるモデル優先エラーの修正も導入している。 最後に、TSOは、参照モデルとその応答を更新し、好みデータを適応的に調整し、最適化プロセスのバランスをとるために、反復的および二重クリップ報酬戦略を採用する。 実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れており、アライメント領域における嗜好データ構築とモデルトレーニング戦略に関する実践的な洞察を与えている。

Enhancing the conformity of large language models (LLMs) to human preferences remains an ongoing research challenge. Recently, offline approaches such as Direct Preference Optimization (DPO) have gained prominence as attractive options due to offering effective improvement in simple, efficient, and stable without interactions with reward models. However, these offline preference optimization methods highly rely on the quality of pairwise preference samples. Meanwhile, numerous iterative methods require additional training of reward models to select positive and negative samples from the model's own generated responses for preference learning. Furthermore, as LLMs' capabilities advance, it is quite challenging to continuously construct high-quality positive and negative preference instances from the model's outputs due to the lack of diversity. To tackle these challenges, we propose TSO, or Self-Training with Scaled Preference Optimization, a framework for preference optimization that conducts self-training preference learning without training an additional reward model. TSO enhances the diversity of responses by constructing a model matrix and incorporating human preference responses. Furthermore, TSO introduces corrections for model preference errors through human and AI feedback. Finally, TSO adopts iterative and dual clip reward strategies to update the reference model and its responses, adaptively adjusting preference data and balancing the optimization process. Experimental results demonstrate that TSO outperforms existing mainstream methods on various alignment evaluation benchmarks, providing practical insight into preference data construction and model training strategies in the alignment domain.
翻訳日:2024-09-05 23:53:09 公開日:2024-08-31
# CoRA:大規模言語モデルの共通部分空間による低ランク適応の最適化

CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models ( http://arxiv.org/abs/2409.02119v1 )

ライセンス: Link先を確認
Xiaojun Xiao, Sen Shen, Qiming Bao, Hongfei Rong, Kairui Liu, Zhongsheng Wang, Jiamou Liu, (参考訳) 大規模言語モデル(LLM)の微調整では、有効性を維持しつつ計算資源を保存し、同じ計算制約内で結果を改善することが重要である。 Low-Rank Adaptation (LoRA) 戦略は、訓練可能なパラメータの数と計算コストを削減し、微調整された大型モデルの効率と性能のバランスをとる。 しかし、現在のLoRAの進歩は、LoRAのさらなる圧縮に期待できるほど多くの探査を行なわず、その微調整手法に焦点を当てているかもしれない。 LoRAのパラメータの多くは依然として過剰であるため、計算資源の無駄な浪費につながる可能性がある。 本稿では、共有知識を利用してLoRAトレーニングを最適化し、その行列を大規模モデルから共通部分空間に置き換える。 本手法では,(1) 代用行列 $B$ を半値に凍結し,(2) 代用行列 $A$ を元の行列 $B$ の強化初期状態として使用し,同じパラメータで改善結果を得る。 実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。 同時に、第2のアプローチは、LoRAの元々の微調整性能と比較して若干改善されている。 彼らは一般的に我々の仕事の有効性を証明している。

In fine-tuning large language models (LLMs), conserving computational resources while maintaining effectiveness and improving outcomes within the same computational constraints is crucial. The Low-Rank Adaptation (LoRA) strategy balances efficiency and performance in fine-tuning large models by reducing the number of trainable parameters and computational costs. However, current advancements in LoRA might be focused on its fine-tuning methodologies, with not as much exploration as might be expected into further compression of LoRA. Since most of LoRA's parameters might still be superfluous, this may lead to unnecessary wastage of computational resources. In this paper, we propose \textbf{CoRA}: leveraging shared knowledge to optimize LoRA training by substituting its matrix $B$ with a common subspace from large models. Our two-fold method includes (1) Freezing the substitute matrix $B$ to halve parameters while training matrix $A$ for specific tasks and (2) Using the substitute matrix $B$ as an enhanced initial state for the original matrix $B$, achieving improved results with the same parameters. Our experiments show that the first approach achieves the same efficacy as the original LoRA fine-tuning while being more efficient than halving parameters. At the same time, the second approach has some improvements compared to LoRA's original fine-tuning performance. They generally attest to the effectiveness of our work.
翻訳日:2024-09-05 23:53:09 公開日:2024-08-31
# LiDARによる都市形態特徴を用いた高分解能空気温度ダウンスケーリングのための機械学習フレームワーク

Machine Learning Framework for High-Resolution Air Temperature Downscaling Using LiDAR-Derived Urban Morphological Features ( http://arxiv.org/abs/2409.02120v1 )

ライセンス: Link先を確認
Fatemeh Chajaei, Hossein Bagheri, (参考訳) 気候モデルは都市気候研究に必要な解像度を欠き、高解像度の大気温度を推定するために計算集約的なプロセスを必要とする。 対照的に、データ駆動アプローチはより速く、より正確な空気温度のダウンスケーリングを提供する。 本研究は,都市気候モデル,特にUrbClimが生成したデータセットから入手可能なアウトプットを用いて,気温をダウンスケールするためのデータ駆動型フレームワークを提案する。 提案手法は,LiDARデータから抽出した形態的特徴を利用した。 都市形態特徴を抽出するために,まず,LiDARデータとディープラーニングモデルを用いて3次元ビルディングモデルを構築した。 そして、これらの特徴を風や湿度などの気象パラメータと統合し、機械学習アルゴリズムを用いて大気温度を下げた。 その結果,LiDARデータから都市形態特徴を効果的に抽出できることが示唆された。 ディープラーニングアルゴリズムは、上記の特徴を抽出する3次元モデルを生成する上で重要な役割を担った。 また, 各種機械学習モデルを用いた空気温度ダウンスケーリングの結果から, LightGBM モデルは 0.352{\deg}K のRMSE と 0.215{\deg}K のMAE で最高の性能を示した。 さらに, ダウンスケーリングから得られた最終気温図を調べた結果, 高解像度での風温推定に成功し, 街路レベルでの局地気温パターンの同定が可能であった。 対応するソースコードはGitHubで入手できる。

Climate models lack the necessary resolution for urban climate studies, requiring computationally intensive processes to estimate high resolution air temperatures. In contrast, Data-driven approaches offer faster and more accurate air temperature downscaling. This study presents a data-driven framework for downscaling air temperature using publicly available outputs from urban climate models, specifically datasets generated by UrbClim. The proposed framework utilized morphological features extracted from LiDAR data. To extract urban morphological features, first a three-dimensional building model was created using LiDAR data and deep learning models. Then, these features were integrated with meteorological parameters such as wind, humidity, etc., to downscale air temperature using machine learning algorithms. The results demonstrated that the developed framework effectively extracted urban morphological features from LiDAR data. Deep learning algorithms played a crucial role in generating three-dimensional models for extracting the aforementioned features. Also, the evaluation of air temperature downscaling results using various machine learning models indicated that the LightGBM model had the best performance with an RMSE of 0.352{\deg}K and MAE of 0.215{\deg}K. Furthermore, the examination of final air temperature maps derived from downscaling showed that the developed framework successfully estimated air temperatures at higher resolutions, enabling the identification of local air temperature patterns at street level. The corresponding source codes are available on GitHub: https://github.com/FatemehCh97/Air-Temperature-Downscaling.
翻訳日:2024-09-05 23:53:09 公開日:2024-08-31
# Klondike Solitaireとその他多くのPetience Gamesの勝利

The Winnability of Klondike Solitaire and Many Other Patience Games ( http://arxiv.org/abs/1906.12314v5 )

ライセンス: Link先を確認
Charlie Blake, Ian P. Gent, (参考訳) ソリティアカードゲーム『Klondike』の勝利率の無知は、「応用数学の恥ずかしさの1つ」と評されている。 Windows SolitaireプログラムのゲームであるKlondikeは、一般的な「パティエンス」または「ソリティア」ゲームと呼ばれる多くのシングルプレイヤーカードゲームのうちの1つである。 多くの異なるゲームが学術文学や非アカデミックな愛好家によって実証的に研究されている。 ここでは,Solvitaireという1つの汎用人工知能プログラムを用いて,95%の信頼区間+/-0.1%以上を有する35種類のシングルプレイヤーカードゲームにおいて,73種類の勝利率を決定できることを示す。 例えば、Klondikeの勝利率は81.945%+/-0.084%(プレイヤーがすべてのカードのランクとスーツを知っている「思慮深い」変種)と報告する。 結果の大部分は,まったく新しいものか,あるいは以前の知識を大幅に改善したものかのどちらかです。

Our ignorance of the winnability percentage of the solitaire card game `Klondike' has been described as "one of the embarrassments of applied mathematics". Klondike, the game in the Windows Solitaire program, is just one of many single-player card games, generically called 'patience' or 'solitaire' games, for which players have long wanted to know how likely a particular game is to be winnable. A number of different games have been studied empirically in the academic literature and by non-academic enthusiasts. Here we show that a single general purpose Artificial Intelligence program named `Solvitaire' can be used to determine the winnability percentage of 73 variants of 35 different single-player card games with a 95% confidence interval of +/- 0.1% or better. For example, we report the winnability of Klondike as 81.945%+/- 0.084% (in the `thoughtful' variant where the player knows the rank and suit of all cards), a 30-fold reduction in confidence interval over the best previous result. The vast majority of our results are either entirely new or represent significant improvements on previous knowledge.
翻訳日:2024-09-04 23:20:48 公開日:2024-08-31
# 長距離量子可能インターネットテストベッド

A long-distance quantum-capable internet testbed ( http://arxiv.org/abs/2101.12742v3 )

ライセンス: Link先を確認
Dounan Du, Leonardo Castillo-Veneros, Dillion Cottrill, Guo-Dong Cui, Gabriel Bello, Mael Flament, Paul Stankus, Dimitrios Katramatos, Julián Martínez-Rincón, Eden Figueroa, (参考訳) 量子インターネットの構築には、先進的な通信システムと長距離量子通信ハードウェアを統合する革新的な量子駆動型ネットワークアーキテクチャの開発が必要である。 本稿では、新しい物理中心のスタックベースの量子ネットワークパラダイムを用いて、離れたノードにまたがる複数の光物質ハミルトンの力学を制御した量子可能なインターネットプロトタイプの実装について述べる。 我々は、ストーニーブルック大学とブルックヘイブン国立研究所を繋ぐ大規模都市間量子ネットワークを用いて、この概念を実証する。 このネットワークは、2つの独立してテレコム互換の量子光源インターフェースで発生した2つのテレコム量子状態の高可視性Hong-Ou-Mandel干渉を158kmの距離で分離した、基本的な長距離量子ネットワークサービスを促進する。

Building a Quantum Internet requires the development of innovative quantum-enabling networking architectures that integrate advanced communication systems with long-distance quantum communication hardware. Here, we present the implementation of a quantum-enabled internet prototype using a novel physics-centric stack-based quantum network paradigm to govern the dynamics of multiple light-matter Hamiltonians across distant nodes. We demonstrate this concept using a deployed large-scale intercity quantum network connecting laboratories at Stony Brook University and the Brookhaven National Laboratory. This network facilitates a fundamental long-distance quantum network service -that of high-visibility Hong-Ou-Mandel interference of telecom quantum states generated in two independent, telecom-compatible quantum light-matter interfaces separated by a distance of 158 km.
翻訳日:2024-09-04 23:16:54 公開日:2024-08-31
# 政策制約下における最適動的処理割り当て則の推定

Estimation of Optimal Dynamic Treatment Assignment Rules under Policy Constraints ( http://arxiv.org/abs/2106.05031v5 )

ライセンス: Link先を確認
Shosei Sakaguchi, (参考訳) 多くの政策は治療課題におけるダイナミクスに関係しており、個人は複数の段階にわたって順次介入を受ける。 本研究は,各段階の個人に対して,その履歴に基づいて最適な治療課題を導出する最適動的治療体制の推定について検討する。 本研究では,この動的枠組みにおける経験的福祉最大化手法を提案する。この枠組みは,政策に対する外因性制約を満たしつつ,実験的あるいは準実験的な研究データを用いて最適な動的治療体制を推定するものである。 提案手法は, 下位帰納的帰納的帰納的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属 我々は, 最悪の場合の平均福祉的後悔に対して, 有限サンプル上限を定め, 最適な$n^{-1/2}$収束率を示す。 また、時間的予算/容量制約に対応するために、同時推定法を変更した。

Many policies involve dynamics in their treatment assignments, where individuals receive sequential interventions over multiple stages. We study estimation of an optimal dynamic treatment regime that guides the optimal treatment assignment for each individual at each stage based on their history. We propose an empirical welfare maximization approach in this dynamic framework, which estimates the optimal dynamic treatment regime using data from an experimental or quasi-experimental study while satisfying exogenous constraints on policies. The paper proposes two estimation methods: one solves the treatment assignment problem sequentially through backward induction, and the other solves the entire problem simultaneously across all stages. We establish finite-sample upper bounds on worst-case average welfare regrets for these methods and show their optimal $n^{-1/2}$ convergence rates. We also modify the simultaneous estimation method to accommodate intertemporal budget/capacity constraints.
翻訳日:2024-09-04 23:16:54 公開日:2024-08-31
# データ結合による持続的コンバウンダリングによる長期因果推論

Long-term Causal Inference Under Persistent Confounding via Data Combination ( http://arxiv.org/abs/2202.07234v5 )

ライセンス: Link先を確認
Guido Imbens, Nathan Kallus, Xiaojie Mao, Yuhao Wang, (参考訳) 実験データと観測データの両方が利用可能である場合の長期治療効果の同定と推定について検討した。 長期の成果は長時間の遅延後にのみ観測されるため、実験データでは測定されず、観測データでのみ記録される。 しかし、どちらのデータも短期的な結果の観察を含んでいる。 本稿では, 持続的未測定共同設立者, すなわち, 治療, 短期的成果, 長期的成果に同時に影響を及ぼす未測定共同設立者に対して, 過去の文献における識別戦略の無効化を指摘し, 課題に対処する。 この課題に対処するために、複数の短期的結果の逐次的構造を利用し、平均的長期的治療効果に対する3つの新しい識別戦略を開発する。 さらに、3つの対応する推定器を提案し、その漸近的一貫性と漸近的正規性を証明する。 半合成データを用いて,職業訓練プログラムが長期雇用に与える影響を推定するために,最終的に本手法を適用した。 我々の提案は、永続的な共同設立者を扱うのに失敗する既存の手法よりも優れていることを数値的に示す。

We study the identification and estimation of long-term treatment effects when both experimental and observational data are available. Since the long-term outcome is observed only after a long delay, it is not measured in the experimental data, but only recorded in the observational data. However, both types of data include observations of some short-term outcomes. In this paper, we uniquely tackle the challenge of persistent unmeasured confounders, i.e., some unmeasured confounders that can simultaneously affect the treatment, short-term outcomes and the long-term outcome, noting that they invalidate identification strategies in previous literature. To address this challenge, we exploit the sequential structure of multiple short-term outcomes, and develop three novel identification strategies for the average long-term treatment effect. We further propose three corresponding estimators and prove their asymptotic consistency and asymptotic normality. We finally apply our methods to estimate the effect of a job training program on long-term employment using semi-synthetic data. We numerically show that our proposals outperform existing methods that fail to handle persistent confounders.
翻訳日:2024-09-04 23:16:54 公開日:2024-08-31
# 局所リプシッツ連続性下における単調包有物の一次二重外挿法

Primal-dual extrapolation methods for monotone inclusions under local Lipschitz continuity ( http://arxiv.org/abs/2206.00973v3 )

ライセンス: Link先を確認
Zhaosong Lu, Sanyou Mei, (参考訳) 本稿では、2つの単調作用素の和の零点を求めるような単調包含(MI)問題のクラスについて考察する。 本稿では,バックトラックライン探索方式によってパラメータが選択される点外挿法と演算子外挿法を用いて,2次元外挿法を提案する。 提案手法の演算複雑性は${\cal O}(\log \epsilon^{-1})$と${\cal O}(\epsilon^{-1}\log \epsilon^{-1})$で、それぞれ強いMI問題に対する$\varepsilon$-residual解を見つけるために、一方の演算子と他方の演算子の分解剤のみからなる基本演算数で測定される。 後者の複雑さは、以前最高の演算複雑性である${\cal O}(\varepsilon^{-2})$を大幅に改善する。 副生成物として、原始双対外挿法の複雑性結果は、凸円錐最適化、円錐制約サドル点、および局所リプシッツ連続性の下での変分不等式問題の$\varepsilon$-KKT あるいは$\varepsilon$-Residual解を求めるためにも得られる。 提案手法の性能を実証するために,予備的な数値計算結果を提案する。

In this paper we consider a class of monotone inclusion (MI) problems of finding a zero of the sum of two monotone operators, in which one operator is maximal monotone while the other is {\it locally Lipschitz} continuous. We propose primal-dual extrapolation methods to solve them using a point and operator extrapolation technique, whose parameters are chosen by a backtracking line search scheme. The proposed methods enjoy an operation complexity of ${\cal O}(\log \epsilon^{-1})$ and ${\cal O}(\epsilon^{-1}\log \epsilon^{-1})$, measured by the number of fundamental operations consisting only of evaluations of one operator and resolvent of the other operator, for finding an $\varepsilon$-residual solution of strongly and non-strongly MI problems, respectively. The latter complexity significantly improves the previously best operation complexity ${\cal O}(\varepsilon^{-2})$. As a byproduct, complexity results of the primal-dual extrapolation methods are also obtained for finding an $\varepsilon$-KKT or $\varepsilon$-residual solution of convex conic optimization, conic constrained saddle point, and variational inequality problems under {\it local Lipschitz} continuity. We provide preliminary numerical results to demonstrate the performance of the proposed methods.
翻訳日:2024-09-04 23:16:54 公開日:2024-08-31
# 逐次学習による適応型ビデオストリーミングの凸ハル予測

Convex Hull Prediction for Adaptive Video Streaming by Recurrent Learning ( http://arxiv.org/abs/2206.04877v2 )

ライセンス: Link先を確認
Somdyuti Paul, Andrey Norkin, Alan C. Bovik, (参考訳) 適応的なビデオストリーミングは、帯域制限下で視聴者に最高の視覚的品質を提供するために、効率的なビットレートはしごの構築に依存している。 従来のコンテンツ依存型ビットレートラダー選択法では、ビデオショットを複数の符号化パラメータでプリエンコードして、その結果のレート品質曲線の凸殻が与える最適な演算点を見つける必要がある。 しかし、このプリエンコーディングステップは、可能な符号化パラメータの空間上の徹底的な探索プロセスと等価であり、計算と時間支出の両面で大きなオーバーヘッドを引き起こす。 このオーバーヘッドを軽減するために,コンテンツ認識凸の船体予測のためのディープラーニングに基づく手法を提案する。 本研究では,再帰的畳み込みネットワーク(RCN)を用いて映像の時空間的複雑さを暗黙的に解析し,その凸殻を予測する。 提案したRCN-Hullモデルでは,シーンの複雑さを分析するのに十分な内容の多様性を確保できると同時に,プリスタンソースビデオのシーン統計をキャプチャできる2段階の転送学習方式が採用されている。 実験結果から, 提案モデルにより, 最適凸殻の近似精度が向上し, 既存の手法と比較して, 競争的な時間を節約できることが判明した。 プレエンコーディング時間の平均は, 平均53.8%, 予測凸殻のBD-rateは0.26%, BD-rate分布の平均絶対偏差は0.57%であった。

Adaptive video streaming relies on the construction of efficient bitrate ladders to deliver the best possible visual quality to viewers under bandwidth constraints. The traditional method of content dependent bitrate ladder selection requires a video shot to be pre-encoded with multiple encoding parameters to find the optimal operating points given by the convex hull of the resulting rate-quality curves. However, this pre-encoding step is equivalent to an exhaustive search process over the space of possible encoding parameters, which causes significant overhead in terms of both computation and time expenditure. To reduce this overhead, we propose a deep learning based method of content aware convex hull prediction. We employ a recurrent convolutional network (RCN) to implicitly analyze the spatiotemporal complexity of video shots in order to predict their convex hulls. A two-step transfer learning scheme is adopted to train our proposed RCN-Hull model, which ensures sufficient content diversity to analyze scene complexity, while also making it possible to capture the scene statistics of pristine source videos. Our experimental results reveal that our proposed model yields better approximations of the optimal convex hulls, and offers competitive time savings as compared to existing approaches. On average, the pre-encoding time was reduced by 53.8% by our method, while the average Bjontegaard delta bitrate (BD-rate) of the predicted convex hulls against ground truth was 0.26%, and the mean absolute deviation of the BD-rate distribution was 0.57%.
翻訳日:2024-09-04 23:16:54 公開日:2024-08-31
# 観測研究における確率的変動因果アプローチ

Probabilistic Variational Causal Approach in Observational Studies ( http://arxiv.org/abs/2208.06269v4 )

ライセンス: Link先を確認
Usef Faghihi, Amir Saki, (参考訳) 本稿では,観測研究における事象の頻度と頻度を,根本問題との関連性に基づく新たな因果的手法を提案する。 具体的には,確率的変動因果効果(probabilistic Variational Causal Effect, PACE)と呼ばれる直接因果効果測定法と,非二項および二項処理に適用可能な特定の仮定に固執する変分法を提案する。 PACEメートル法は、純粋に因果成分を表す総変量の概念を、治療値への介入と、治療レベル間の仮説的遷移の確率を統合することによって導かれる。 PACEはパラメータdを特徴とし、dの低い値は希少な治療値を強調するシナリオに対応し、dの低い値はより頻繁な治療レベルの因果的影響がより関係のある状況に焦点を当てる。 したがって、単一の因果効果値の代わりに、次数 d の因果効果関数を提供する。 さらに, 露光値の変化に伴う結果の正と負の因果変化を測定するために, 正と負のPACEを導入した。 また, MEAN PACE と呼ばれる PACE の正規化バージョンについても検討する。 さらに、観測研究における対実的課題に対処するためのPACEの識別可能性基準を提案し、方法論のいくつかの一般化を定義した。 最後に,我々のフレームワークと他のよく知られた因果関係のフレームワークを,様々な例の分析を通して比較する。

In this paper, we introduce a new causal methodology that accounts for the rarity and frequency of events in observational studies based on their relevance to the underlying problem. Specifically, we propose a direct causal effect metric called the Probabilistic Variational Causal Effect (PACE) and its variations adhering to certain postulates applicable to both non-binary and binary treatments. The PACE metric is derived by integrating the concept of total variation -- representing the purely causal component -- with interventions on the treatment value, combined with the probabilities of hypothetical transitioning between treatment levels. PACE features a parameter d, where lower values of d correspond to scenarios emphasizing rare treatment values, while higher values of d focus on situations where the causal impact of more frequent treatment levels is more relevant. Thus, instead of a single causal effect value, we provide a causal effect function of the degree d. Additionally, we introduce positive and negative PACE to measure the respective positive and negative causal changes in the outcome as exposure values shift. We also consider normalized versions of PACE, referred to as MEAN PACE. Furthermore, we provide an identifiability criterion for PACE to handle counterfactual challenges in observational studies, and we define several generalizations of our methodology. Lastly, we compare our framework with other well-known causal frameworks through the analysis of various examples.
翻訳日:2024-09-04 23:16:54 公開日:2024-08-31
# 公共交通機関の到着予測:Seq2Seq RNNアプローチ

Public Transit Arrival Prediction: a Seq2Seq RNN Approach ( http://arxiv.org/abs/2210.01655v2 )

ライセンス: Link先を確認
Nancy Bhutani, Soumen Pachal, Avinash Achar, (参考訳) 公共交通機関の到着時刻は、季節性、バス停での滞在時間、交通信号、交通需要変動などの要因により変動する。 特に発展途上国は、車線規律の欠如、過剰な車両、多様な輸送手段などの追加的な要因に悩まされている。 これにより、特に発展途上国では、バス到着時刻予測(BATP)が困難な問題となる。 現在の作業において、BATP(リアルタイム)に対して、リカレントニューラルネットワーク(RNN)に基づく新しいデータ駆動モデルを提案する。 このモデルは、既存のアプローチとは異なるユニークな(非線形でない)方法で、空間的相関と時間的相関をインテリジェントに組み込む。 特に,BATP 用の Gated Recurrent Unit (GRU) ベースの Encoder-Decoder (ED) OR Seq2Seq RNN モデルを提案する。 動的リアルタイムBATP問題の幾何学は、エンコーダ-デコーダベースのRNN構造によく適合する。 我々はデコーダの各ステップ(機械翻訳アプリケーションで古典的に探索されていない機能)で、関連する追加の同期入力(以前のトリップからの)をフィードする。 さらに,デコーダ(他の時系列に基づくEDアプリケーションコンテキストで探索されていないもの)における双方向層の利用も提案する。 提案アルゴリズムの有効性を,難易度の高い交通条件から収集した実フィールドデータに示す。 実験の結果,提案手法は,同じ問題に対して提案した既存の最先端データ駆動手法よりも優れていることがわかった。

Arrival/Travel times for public transit exhibit variability on account of factors like seasonality, dwell times at bus stops, traffic signals, travel demand fluctuation etc. The developing world in particular is plagued by additional factors like lack of lane discipline, excess vehicles, diverse modes of transport and so on. This renders the bus arrival time prediction (BATP) to be a challenging problem especially in the developing world. A novel data-driven model based on recurrent neural networks (RNNs) is proposed for BATP (in real-time) in the current work. The model intelligently incorporates both spatial and temporal correlations in a unique (non-linear) fashion distinct from existing approaches. In particular, we propose a Gated Recurrent Unit (GRU) based Encoder-Decoder(ED) OR Seq2Seq RNN model (originally introduced for language translation) for BATP. The geometry of the dynamic real time BATP problem enables a nice fit with the Encoder-Decoder based RNN structure. We feed relevant additional synchronized inputs (from previous trips) at each step of the decoder (a feature classically unexplored in machine translation applications). Further motivated from accurately modelling congestion influences on travel time prediction, we additionally propose to use a bidirectional layer at the decoder (something unexplored in other time-series based ED application contexts). The effectiveness of the proposed algorithms is demonstrated on real field data collected from challenging traffic conditions. Our experiments indicate that the proposed method outperforms diverse existing state-of-art data-driven approaches proposed for the same problem.
翻訳日:2024-09-04 23:05:43 公開日:2024-08-31
# 不確実性を考慮した予測制御のための離散時間ダイナミクスのアクティブ学習

Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control ( http://arxiv.org/abs/2210.12583v4 )

ライセンス: Link先を確認
Alessandro Saviolo, Jonathan Frey, Abhishek Rathod, Moritz Diehl, Giuseppe Loianno, (参考訳) モデルに基づく制御は、複雑でダイナミックな環境でロボットを正確に安全に制御するために、システムダイナミクスの正確なモデルを必要とする。 さらに,動作条件の変動が存在する場合には,動的変化を補うためにモデルを連続的に改良する必要がある。 本稿では,非線形ロボットシステムのダイナミクスを積極的にモデル化する自己教師型学習手法を提案する。 過去の体験からのオフライン学習と、現在のロボットと未知の環境との相互作用からオンライン学習を組み合わせる。 これらの2つの要素は、トレーニング分布と大きく異なる動作状態であっても、モデルダイナミクスをリアルタイムで正確に推定できる、非常に効率的な適応的な学習プロセスを可能にする。 さらに、学習力学のアレタリックな(データ)不確実性に対してヒューリスティックに条件付けされた不確実性を考慮したモデル予測制御器を設計する。 この制御器は最適制御動作を積極的に選択する (i)制御性能を最適化し、 二 オンライン学習サンプル収集の効率化を図ること。 提案手法の有効性を,四元数系を用いた実世界の一連の挑戦実験を通じて実証する。 提案手法は飛行条件に一貫して適応することで高い弾力性と一般化能力を示し,古典的かつ適応的な制御ベースラインを著しく上回っている。

Model-based control requires an accurate model of the system dynamics for precisely and safely controlling the robot in complex and dynamic environments. Moreover, in the presence of variations in the operating conditions, the model should be continuously refined to compensate for dynamics changes. In this paper, we present a self-supervised learning approach that actively models the dynamics of nonlinear robotic systems. We combine offline learning from past experience and online learning from current robot interaction with the unknown environment. These two ingredients enable a highly sample-efficient and adaptive learning process, capable of accurately inferring model dynamics in real-time even in operating regimes that greatly differ from the training distribution. Moreover, we design an uncertainty-aware model predictive controller that is heuristically conditioned to the aleatoric (data) uncertainty of the learned dynamics. This controller actively chooses the optimal control actions that (i) optimize the control performance and (ii) improve the efficiency of online learning sample collection. We demonstrate the effectiveness of our method through a series of challenging real-world experiments using a quadrotor system. Our approach showcases high resilience and generalization capabilities by consistently adapting to unseen flight conditions, while it significantly outperforms classical and adaptive control baselines.
翻訳日:2024-09-04 23:05:43 公開日:2024-08-31
# S3E:協調SLAMのためのマルチモーダル・マルチモーダル・データセット

S3E: A Mulit-Robot Multimodal Dataset for Collaborative SLAM ( http://arxiv.org/abs/2210.13723v7 )

ライセンス: Link先を確認
Dapeng Feng, Yuhua Qi, Shipeng Zhong, Zhiqiang Chen, Qiming Chen, Hongbo Chen, Jin Wu, Jun Ma, (参考訳) 複雑なタスクをまとめて実行する協調ロボットシステムに対する需要が急増し、研究コミュニティは協調的な状況下での同時局所化とマッピング(SLAM)の進展に重点を置いている。 このような関心にもかかわらず、コラボレーティブSLAM(Collaborative SLAM)の一般化能力がマルチエージェントミッションの実現に不可欠であるような制約された視点のシナリオでは、既存のデータセットのスケーラビリティと多様性は依然として限定的である。 このギャップに対処するため,拡張型マルチモーダルデータセットであるS3Eを導入する。 S3Eは4つの異なる共同軌道パラダイムを横断する無人地上車両群によって捕獲され、13の屋外および5つの屋内シーケンスを含んでいる。 これらのシーケンスは、360度LiDAR点雲、高分解能ステレオ画像、高周波慣性測定ユニット(IMU)、UWB(Ultra-wideband)の相対観測を含む、細心の同期と空間的に校正されたデータストリームを特徴としている。 我々のデータセットは、スケール、シーンの多様性、データの複雑度に関する過去の取り組みを上回るだけでなく、協調的なSLAM方法論と個別のSLAM方法論の徹底的な分析とベンチマークも提供しています。 データセットと最新の情報にアクセスするには、https://pengyu-team.github.io/S3Eのリポジトリを参照してください。

The burgeoning demand for collaborative robotic systems to execute complex tasks collectively has intensified the research community's focus on advancing simultaneous localization and mapping (SLAM) in a cooperative context. Despite this interest, the scalability and diversity of existing datasets for collaborative trajectories remain limited, especially in scenarios with constrained perspectives where the generalization capabilities of Collaborative SLAM (C-SLAM) are critical for the feasibility of multi-agent missions. Addressing this gap, we introduce S3E, an expansive multimodal dataset. Captured by a fleet of unmanned ground vehicles traversing four distinct collaborative trajectory paradigms, S3E encompasses 13 outdoor and 5 indoor sequences. These sequences feature meticulously synchronized and spatially calibrated data streams, including 360-degree LiDAR point cloud, high-resolution stereo imagery, high-frequency inertial measurement units (IMU), and Ultra-wideband (UWB) relative observations. Our dataset not only surpasses previous efforts in scale, scene diversity, and data intricacy but also provides a thorough analysis and benchmarks for both collaborative and individual SLAM methodologies. For access to the dataset and the latest information, please visit our repository at https://pengyu-team.github.io/S3E.
翻訳日:2024-09-04 23:05:43 公開日:2024-08-31
# Diffusion Explainer: テキストから画像への安定な拡散のための視覚的説明

Diffusion Explainer: Visual Explanation for Text-to-image Stable Diffusion ( http://arxiv.org/abs/2305.03509v3 )

ライセンス: Link先を確認
Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang, ShengYun Peng, Austin Wright, Kevin Li, Haekyu Park, Haoyang Yang, Duen Horng Chau, (参考訳) 拡散に基づく生成モデルによる説得力のある画像生成能力は、世界的な注目を集めている。 しかし、それらの複雑な構造や操作は、非専門家が把握すべき課題をしばしば生み出す。 私たちはDiffusion Explainerを紹介します。Diffusionは、テキストプロンプトを画像に変換する方法を説明する最初のインタラクティブな可視化ツールです。 Diffusion Explainerは、Stable Diffusionの複雑な構造の視覚的概要を根底にある操作の説明と密に統合する。 プロンプト変種の画像生成を比較することで、ユーザは画像生成に対するキーワード変更の影響を発見することができる。 56人の参加者による調査は、Diffusion Explainerが非専門家にかなりの学習効果をもたらすことを示した。 当社のツールは,124カ国から10,300以上のユーザがhttps://poloclub.github.io/diffusion-explainer/で使用しています。

Diffusion-based generative models' impressive ability to create convincing images has garnered global attention. However, their complex structures and operations often pose challenges for non-experts to grasp. We present Diffusion Explainer, the first interactive visualization tool that explains how Stable Diffusion transforms text prompts into images. Diffusion Explainer tightly integrates a visual overview of Stable Diffusion's complex structure with explanations of the underlying operations. By comparing image generation of prompt variants, users can discover the impact of keyword changes on image generation. A 56-participant user study demonstrates that Diffusion Explainer offers substantial learning benefits to non-experts. Our tool has been used by over 10,300 users from 124 countries at https://poloclub.github.io/diffusion-explainer/.
翻訳日:2024-09-04 22:54:55 公開日:2024-08-31
# Qラーニングの代替手段としてのVAラーニング

VA-learning as a more efficient alternative to Q-learning ( http://arxiv.org/abs/2305.18161v2 )

ライセンス: Link先を確認
Yunhao Tang, Rémi Munos, Mark Rowland, Michal Valko, (参考訳) 強化学習においては、利点関数は政策改善に不可欠であるが、学習されたQ-関数からしばしば抽出される。 自然の疑問は、なぜ直接に有利な関数を学ばないのか? そこで本研究では,Q-関数を明示的に参照することなく,ブートストラップを用いて関数と値関数を直接学習するVA-ラーニングを提案する。 VAラーニングは政治から学び、Qラーニングと同様の理論的な保証を享受する。 アドバンテージ関数と値関数の直接学習により、VA学習は、Atari-57ゲーム上での表型実装とディープRLエージェントの両方において、Q学習のサンプル効率を改善する。 また、VA学習とデュエルアーキテクチャの密接な関係を同定し、DQNエージェントに対する単純なアーキテクチャ変更がパフォーマンスを向上させる傾向にある理由を部分的に説明する。

In reinforcement learning, the advantage function is critical for policy improvement, but is often extracted from a learned Q-function. A natural question is: Why not learn the advantage function directly? In this work, we introduce VA-learning, which directly learns advantage function and value function using bootstrapping, without explicit reference to Q-functions. VA-learning learns off-policy and enjoys similar theoretical guarantees as Q-learning. Thanks to the direct learning of advantage function and value function, VA-learning improves the sample efficiency over Q-learning both in tabular implementations and deep RL agents on Atari-57 games. We also identify a close connection between VA-learning and the dueling architecture, which partially explains why a simple architectural change to DQN agents tends to improve performance.
翻訳日:2024-09-04 22:54:55 公開日:2024-08-31
# 疑似エージェント:心を意識したGPT-4による不完全な情報ゲーム

Suspicion-Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT-4 ( http://arxiv.org/abs/2309.17277v3 )

ライセンス: Link先を確認
Jiaxian Guo, Bo Yang, Paul Yoo, Bill Yuchen Lin, Yusuke Iwasawa, Yutaka Matsuo, (参考訳) すべての要素が全てのプレイヤーに知られている完全情報ゲームとは異なり、不完全な情報ゲームは不完全な情報や不完全な情報の下で意思決定の現実的な複雑さをエミュレートする。 GPT-4は、大規模受動的データに基づいて訓練された最近の大規模言語モデル(LLM)のブレークスルーであり、その知識検索と推論能力で有名である。 本稿では,不完全な情報ゲームに対するGPT-4の学習知識の適用性について述べる。 そこで本稿では,不完全な情報ゲームにおける GPT-4 の機能を活用する革新的なエージェントである \textbf{Suspicion-Agent} を紹介する。 GPT-4に基づくSuspicion-Agentは、適切なプロンプトエンジニアリングにより、様々な不完全な情報カードゲームに顕著な適応性を示す。 重要なことは、GPT-4は強い高次心論(ToM)能力を示し、それは他人を理解し、故意に他人の行動に影響を与えることを意味する。 これを活用することで、GPT-4が異なる対戦相手に対して能力的に対戦し、ゲームプレイスタイルを必要に応じて適応し、ゲームルールと観察記述のみを入力として要求する計画戦略を設計する。 実験では,3つの不完全な情報ゲームにまたがるSuspicion-Agentの能力を質的に示すとともに,Leduc Hold'emで定量的に評価した。 その結果、Suspicion-Agentは、特定の訓練や例を使わずに、不完全な情報ゲームのために設計された従来のアルゴリズムより優れている可能性が示唆された。 コミュニティ内の深い洞察を奨励し、促進するために、ゲーム関連のデータを公開しています。

Unlike perfect information games, where all elements are known to every player, imperfect information games emulate the real-world complexities of decision-making under uncertain or incomplete information. GPT-4, the recent breakthrough in large language models (LLMs) trained on massive passive data, is notable for its knowledge retrieval and reasoning abilities. This paper delves into the applicability of GPT-4's learned knowledge for imperfect information games. To achieve this, we introduce \textbf{Suspicion-Agent}, an innovative agent that leverages GPT-4's capabilities for performing in imperfect information games. With proper prompt engineering to achieve different functions, Suspicion-Agent based on GPT-4 demonstrates remarkable adaptability across a range of imperfect information card games. Importantly, GPT-4 displays a strong high-order theory of mind (ToM) capacity, meaning it can understand others and intentionally impact others' behavior. Leveraging this, we design a planning strategy that enables GPT-4 to competently play against different opponents, adapting its gameplay style as needed, while requiring only the game rules and descriptions of observations as input. In the experiments, we qualitatively showcase the capabilities of Suspicion-Agent across three different imperfect information games and then quantitatively evaluate it in Leduc Hold'em. The results show that Suspicion-Agent can potentially outperform traditional algorithms designed for imperfect information games, without any specialized training or examples. In order to encourage and foster deeper insights within the community, we make our game-related data publicly available.
翻訳日:2024-09-04 22:35:08 公開日:2024-08-31
# 強化されたフェデレーション最適化: 適応的で偏りのないクライアントサンプリング

Enhanced Federated Optimization: Adaptive Unbiased Client Sampling with Reduced Variance ( http://arxiv.org/abs/2310.02698v3 )

ライセンス: Link先を確認
Dun Zeng, Zenglin Xu, Yu Pan, Xu Luo, Qifan Wang, Xiaoying Tang, (参考訳) Federated Learning(FL)は、ローカルデータを収集することなく、複数のデバイスでグローバルモデルをトレーニングする分散学習パラダイムである。 FLでは、サーバは通常、トレーニングラウンド毎にクライアントのサブセットを選択し、リソース使用を最適化します。 このプロセスの中心は、クライアントの代表的な選択を確実にする非バイアスのクライアントサンプリングのテクニックである。 現在の手法は主にランダムサンプリング法を利用しており、その有効性にもかかわらずサンプリング分散に起因するゆるい上界による最適下界効率を実現する。 本研究では,独立サンプリング手法を採用することにより,適応的アンバイアスクライアントサンプリングに着目したフェデレーション最適化フレームワークを提案する。 特に,独立したサンプリング手法を用いて,最初の適応型クライアントサンプリング器K-Vibを提案する。 K-Vib は、ある通信予算$K$内で、後悔境界 $\tilde{\mathcal{O}}\big(N^{\frac{1}{3}}T^{\frac{2}{3}}/K^{\frac{4}{3}}\big)$ 上の線形スピードアップを達成する。 経験的研究により、K-Vibはベースラインアルゴリズムに比べて速度が2倍になり、フェデレート最適化において有意なポテンシャルを示すことが示されている。

Federated Learning (FL) is a distributed learning paradigm to train a global model across multiple devices without collecting local data. In FL, a server typically selects a subset of clients for each training round to optimize resource usage. Central to this process is the technique of unbiased client sampling, which ensures a representative selection of clients. Current methods primarily utilize a random sampling procedure which, despite its effectiveness, achieves suboptimal efficiency owing to the loose upper bound caused by the sampling variance. In this work, by adopting an independent sampling procedure, we propose a federated optimization framework focused on adaptive unbiased client sampling, improving the convergence rate via an online variance reduction strategy. In particular, we present the first adaptive client sampler, K-Vib, employing an independent sampling procedure. K-Vib achieves a linear speed-up on the regret bound $\tilde{\mathcal{O}}\big(N^{\frac{1}{3}}T^{\frac{2}{3}}/K^{\frac{4}{3}}\big)$ within a set communication budget $K$. Empirical studies indicate that K-Vib doubles the speed compared to baseline algorithms, demonstrating significant potential in federated optimization.
翻訳日:2024-09-04 22:24:42 公開日:2024-08-31
# 量子相転移を探索するシグネチャとしての有限サイズ系における特異な忠実度の零点

Exact zeros of fidelity in finite-size systems as a signature for probing quantum phase transitions ( http://arxiv.org/abs/2310.11951v2 )

ライセンス: Link先を確認
Yumeng Zeng, Bozhen Zhou, Shu Chen, (参考訳) この忠実度は、位相駆動パラメータが遷移点を越えているときの熱力学的限界における忠実度の急激な変化または忠実度感受性のばらつきによって特徴づけられる量子相転移を検出するために広く用いられている。 本研究では,有限サイズ系における完全零点の出現を量子相転移の検出に適用できることを明らかにする。 一般に、フィデリティ $\mathcal{F}(\gamma,\tilde{\gamma})$ は常に熱力学的極限においてゼロに近づき、2つの基底状態 (\gamma$ と $\tilde{\gamma}$) のパラメータが同じ位相か異なる位相にあるかどうかに関わらず、アンダーソン直交カタストロフィのためである。 直交カタストロフィの影響を克服するために、磁気フラックスを適用して導入できるツイスト境界条件を持つ有限サイズシステムについて検討し、$\gamma$および$\tilde{\gamma}$が異なる位相に属するとき、磁気フラックスをチューニングすることによって、忠実度の正確な零点が常にアクセス可能であることを示す。 一方、$\gamma$ と $\tilde{\gamma}$ が同じ位相にある場合、正確な忠実度ゼロは観測できない。 本稿では,Su-Schrieffer-Heegerモデル,Creutzモデル,Haldaneモデルなど,具体例を用いて理論的スキームの適用性を示す。 我々の研究は、有限サイズの系の忠実性の計算によって量子相転移を検出する実践的な方法を提供する。

The fidelity is widely used to detect quantum phase transitions, which is characterized by either a sharp change of fidelity or the divergence of fidelity susceptibility in the thermodynamical limit when the phase-driving parameter is across the transition point. In this work, we unveil that the occurrence of exact zeros of fidelity in finite-size systems can be applied to detect quantum phase transitions. In general, the fidelity $\mathcal{F}(\gamma,\tilde{\gamma})$ always approaches zero in the thermodynamical limit, due to the Anderson orthogonality catastrophe, no matter whether the parameters of two ground states ($\gamma$ and $\tilde{\gamma}$) are in the same phase or different phases, and this makes it difficult to distinguish whether an exact zero of fidelity exists by finite-size analysis. To overcome the influence of orthogonality catastrophe, we study finite-size systems with twist boundary conditions, which can be introduced by applying a magnetic flux, and demonstrate that exact zeros of fidelity can be always accessed by tuning the magnetic flux when $\gamma$ and $\tilde{\gamma}$ belong to different phases. On the other hand, no exact zero of fidelity can be observed if $\gamma$ and $\tilde{\gamma}$ are in the same phase. We demonstrate the applicability of our theoretical scheme by studying concrete examples, including the Su-Schrieffer-Heeger model, Creutz model and Haldane model. Our work provides a practicable way to detect quantum phase transitions via the calculation of fidelity of finite-size systems.
翻訳日:2024-09-04 22:24:42 公開日:2024-08-31
# AIペアプログラミングの問題点とその原因と解決策を探る:GitHubとStack Overflowの検討

Exploring the Problems, their Causes and Solutions of AI Pair Programming: A Study on GitHub and Stack Overflow ( http://arxiv.org/abs/2311.01020v4 )

ライセンス: Link先を確認
Xiyu Zhou, Peng Liang, Beiqi Zhang, Zengyang Li, Aakash Ahmad, Mojtaba Shahin, Muhammad Waseem, (参考訳) 人工知能(AI)とLarge Language Models(LLM)の最近の進歩により、AIベースのコード生成ツールはソフトウェア開発の実践的なソリューションとなる。 AIペアプログラマであるGitHub Copilotは、大量のコードスニペットでトレーニングされた機械学習モデルを使用して、自然言語処理を使用してコード提案を生成する。 ソフトウェア開発で人気があるにもかかわらず、Copilotと仕事をする実践者の実際の経験に関する実証的な証拠は限られている。 そこで我々は,Copilotを使用する際の実践者が直面する問題と,その根底にある原因と潜在的な解決策を理解するための実証的研究を行った。 473のGitHubイシュー、706のGitHubディスカッション、142のStack Overflowポストからデータを収集しました。 その結果,(1)コパイロット利用者が直面する最も一般的な問題,(2)コパイロット内部エラー,ネットワーク接続エラー,およびエディタ/IDE適合性問題が最も頻繁な原因とされ,(3)コパイロットによるバグ修正,設定・設定の修正,利用適バージョンなどが主な解決法であることがわかった。 結果から,Copilotの潜在的な領域について考察し,Copilotユーザ,Copilotチーム,研究者にその影響について述べる。

With the recent advancement of Artificial Intelligence (AI) and Large Language Models (LLMs), AI-based code generation tools become a practical solution for software development. GitHub Copilot, the AI pair programmer, utilizes machine learning models trained on a large corpus of code snippets to generate code suggestions using natural language processing. Despite its popularity in software development, there is limited empirical evidence on the actual experiences of practitioners who work with Copilot. To this end, we conducted an empirical study to understand the problems that practitioners face when using Copilot, as well as their underlying causes and potential solutions. We collected data from 473 GitHub issues, 706 GitHub discussions, and 142 Stack Overflow posts. Our results reveal that (1) Operation Issue and Compatibility Issue are the most common problems faced by Copilot users, (2) Copilot Internal Error, Network Connection Error, and Editor/IDE Compatibility Issue are identified as the most frequent causes, and (3) Bug Fixed by Copilot, Modify Configuration/Setting, and Use Suitable Version are the predominant solutions. Based on the results, we discuss the potential areas of Copilot for enhancement, and provide the implications for the Copilot users, the Copilot team, and researchers.
翻訳日:2024-09-04 22:14:48 公開日:2024-08-31
# CILF-CIAE: 逆年齢推定の補正のためのCLIP駆動画像言語融合

CILF-CIAE: CLIP-driven Image-Language Fusion for Correcting Inverse Age Estimation ( http://arxiv.org/abs/2312.01758v3 )

ライセンス: Link先を確認
Yuntao Shou, Wei Ai, Tao Meng, Nan Yin, Keqin Li, (参考訳) 年齢推定タスクは、画像中の顔の特徴を分析して、個人の年齢を予測することを目的としている。 年齢推定の開発は、様々なアプリケーション(例えば、年齢検証や安全なアクセス制御など)の効率と精度を向上させることができる。 近年, 言語画像事前学習(CLIP)は多モーダルなタスクに広く使われており, 年齢推定の分野では進歩している。 しかし、既存のCLIPベースの年齢推定手法では、画像のグローバルなモデリングにはメモリ使用量(二次的複雑さ)が高く、年齢予測結果の品質に関するモデルを促すためのエラーフィードバック機構が欠如している。 以上の課題に対処するために,新しいCLIP駆動画像言語融合(CILF-CIAE)を提案する。 具体的には、まずCLIPモデルを導入し、画像の特徴とテキストの意味情報を抽出し、それらを高度にセマンティックに整合した高次元特徴空間にマッピングする。 次に、画像のチャネル進化と空間的相互作用を実現し、画像とテキストの意味情報を融合するトランスフォーマーアーキテクチャ(FourierFormer)を設計した。 注意機構の二次的複雑さと比較すると、提案されたフーリエフォーマーは線形ログ複雑性である。 画像とテキストの特徴間のセマンティックなギャップをさらに狭めるために,FourierFormerのマルチモーダル融合プロセスの監督を行う効率的なコントラッシブ・マルチモーダル学習モジュールを利用する。 最後に, 年齢予測の誤差率を低減するために, エンドツーエンドの誤差フィードバックを用いた可逆年齢推定手法を提案する。 複数のデータセットに関する広範な実験を通じて、CILF-CIAEはより優れた年齢予測結果を得た。

The age estimation task aims to predict the age of an individual by analyzing facial features in an image. The development of age estimation can improve the efficiency and accuracy of various applications (e.g., age verification and secure access control, etc.). In recent years, contrastive language-image pre-training (CLIP) has been widely used in various multimodal tasks and has made some progress in the field of age estimation. However, existing CLIP-based age estimation methods require high memory usage (quadratic complexity) when globally modeling images, and lack an error feedback mechanism to prompt the model about the quality of age prediction results. To tackle the above issues, we propose a novel CLIP-driven Image-Language Fusion for Correcting Inverse Age Estimation (CILF-CIAE). Specifically, we first introduce the CLIP model to extract image features and text semantic information respectively, and map them into a highly semantically aligned high-dimensional feature space. Next, we designed a new Transformer architecture (i.e., FourierFormer) to achieve channel evolution and spatial interaction of images, and to fuse image and text semantic information. Compared with the quadratic complexity of the attention mechanism, the proposed Fourierformer is of linear log complexity. To further narrow the semantic gap between image and text features, we utilize an efficient contrastive multimodal learning module that supervises the multimodal fusion process of FourierFormer through contrastive loss for image-text matching, thereby improving the interaction effect between different modalities. Finally, we introduce reversible age estimation, which uses end-to-end error feedback to reduce the error rate of age predictions. Through extensive experiments on multiple data sets, CILF-CIAE has achieved better age prediction results.
翻訳日:2024-09-04 22:02:40 公開日:2024-08-31
# リモートセンシングセグメンテーションのためのグラフ情報基盤

Graph Information Bottleneck for Remote Sensing Segmentation ( http://arxiv.org/abs/2312.02545v2 )

ライセンス: Link先を確認
Yuntao Shou, Wei Ai, Tao Meng, Nan Yin, (参考訳) リモートセンシングセグメンテーションは、環境保護や都市変化検出など、幅広い用途に応用されている。 ディープラーニングベースのリモートセンシングセグメンテーション手法(CNNやTransformerなど)の成功にもかかわらず、不規則なオブジェクトをモデル化するのに十分な柔軟性はない。 さらに、既存のグラフコントラスト学習法は、通常、相互情報を最大化して異なるグラフビュー間のノード表現を一貫性を保つ方法を採用しており、それによってモデルがタスク非依存の冗長情報を学習する可能性がある。 上記の問題に対処するために,画像をグラフ構造として扱い,リモートセンシングセグメンテーションのための単純なコントラスト視覚GNN(SC-ViG)アーキテクチャを導入する。 具体的には、ノードとエッジをマスキングするかどうかを適応的に学習できる最適なグラフ構造表現を得るために、ノードとエッジをマスキングしたグラフビューを構築する。 さらに,タスクに依存しない冗長情報を最小化しつつ,タスク関連情報を最大化するグラフコントラスト学習に情報ボトルネック理論を革新的に導入する。 最後に、UNetの畳み込みモジュールをSC-ViGモジュールに置き換え、リモートセンシング画像のセグメンテーションと分類タスクを完成させる。 公開されている実データに対する大規模な実験により、我々の手法は最先端のリモートセンシング画像セグメンテーション法より優れていることが示された。

Remote sensing segmentation has a wide range of applications in environmental protection, and urban change detection, etc. Despite the success of deep learning-based remote sensing segmentation methods (e.g., CNN and Transformer), they are not flexible enough to model irregular objects. In addition, existing graph contrastive learning methods usually adopt the way of maximizing mutual information to keep the node representations consistent between different graph views, which may cause the model to learn task-independent redundant information. To tackle the above problems, this paper treats images as graph structures and introduces a simple contrastive vision GNN (SC-ViG) architecture for remote sensing segmentation. Specifically, we construct a node-masked and edge-masked graph view to obtain an optimal graph structure representation, which can adaptively learn whether to mask nodes and edges. Furthermore, this paper innovatively introduces information bottleneck theory into graph contrastive learning to maximize task-related information while minimizing task-independent redundant information. Finally, we replace the convolutional module in UNet with the SC-ViG module to complete the segmentation and classification tasks of remote sensing images. Extensive experiments on publicly available real datasets demonstrate that our method outperforms state-of-the-art remote sensing image segmentation methods.
翻訳日:2024-09-04 22:02:40 公開日:2024-08-31
# 蹴られたボース・ハバード二量体における量子カオスの統計的および動的側面

Statistical and dynamical aspects of quantum chaos in a kicked Bose-Hubbard dimer ( http://arxiv.org/abs/2312.08159v2 )

ライセンス: Link先を確認
Chenguang Liang, Yu Zhang, Shu Chen, (参考訳) 2つのサイト・ボース・ハッバードモデルでモデル化された二重井戸ポテンシャルにおける相互作用ボソンのシステムは、理論的および実験的に重要な関心を集め、多体物理学や量子力学から量子カオスの開始まで幅広い文脈において集中的な研究を惹きつけた。 本研究は, 周期的に変調された2サイト型ボース・ハバードモデル (Bose-Hubbard dimer) について系統的に検討する。 我々のモデルは、キックされたリプキン-メシュコフ-グリックモデルと等価に表現することができ、キックされたトップモデルとは異なる動的挙動を示す。 Floquet演算子のスペクトル統計を解析することにより、システムは相互作用強度を増大させ、規則性からカオスへ遷移することを明らかにする。 次に、Floquet演算子固有状態に基づく半古典近似とR\'{e}nyiエントロピーの解析に基づいて、我々のモデルにおける局所的なカオス的特徴を明らかにする。 半古典的分析は、カオス状態のシステムは初期状態の選択によって異なる動的挙動を示す可能性があることを示唆している。 最後に,カオスの動的シグネチャは,局所作用素の動的進化と時間外相関関数,および絡み合いエントロピーを研究することによって現れることを示す。 この数値結果から, 初期状態が相空間の異なる位置にあるコヒーレントスピン状態として選択されるとき, 通常の状態とカオス状態の両方において, キックしたボース・ハッバードダイマーの動的特性のリッチさが示される。

Systems of interacting bosons in double-well potentials, modeled by two-site Bose-Hubbard models, are of significant theoretical and experimental interest and attracted intensive studies in contexts ranging from many-body physics and quantum dynamics to the onset of quantum chaos. In this work we systematically study a kicked two-site Bose-Hubbard model (Bose-Hubbard dimer) with the on-site potential difference being periodically modulated. Our model can be equivalently represented as a kicked Lipkin-Meshkov-Glick model and thus displays different dynamical behaviors from the kicked top model. By analyzing spectral statistics of Floquet operator, we unveil that the system undergoes a transition from regularity to chaos with increasing the interaction strength. Then based on semiclassical approximation and the analysis of R\'{e}nyi entropy of coherent states in the basis of Floquet operator eigenstates, we reveal the local chaotic features of our model, which indicate the existence of integrable islands even in the deep chaotic regime. The semiclassical analysis also suggests that the system in chaotic regime may display different dynamical behavior depending on the choice of initial states. Finally, we demonstrate that dynamical signatures of chaos can be manifested by studying dynamical evolution of local operators and out of time order correlation function as well as the entanglement entropy. Our numerical results exhibit the richness of dynamics of the kicked Bose-Hubbard dimer in both regular and chaotic regimes as the initial states are chosen as coherent spin states located in different locations of phase space.
翻訳日:2024-09-04 21:42:39 公開日:2024-08-31
# 前提条件による健康関連クエリのための大規模言語モデルの評価

Evaluating Large Language Models for Health-related Queries with Presuppositions ( http://arxiv.org/abs/2312.08800v3 )

ライセンス: Link先を確認
Navreet Kaur, Monojit Choudhury, Danish Pruthi, (参考訳) 企業が大規模言語モデル(LLM)をサーチオファリングに統合するためには、ユーザが表現できるどんな前提にも堅牢な事実的正確な情報を提供することが重要である。 そこで本研究では,健康関連問合せのデータセットであるUPHILLについて紹介する。 UPHILLを用いて,InstructGPT,ChatGPT,BingChatモデルの実際の精度と一貫性を評価する。 InstructGPTの回答は、偽のクレームの32%、ChatGPTの26%、BingChatの23%と一致している。 InstructGPT と ChatGPT からの応答は,入力クエリにおける事前仮定の程度を増大させるにつれて,その正確性に関わらず,その主張にかなりよく一致する。 検索したWebページに依存しているBingChatからの応答は、それほど受け入れがたいものではない。 適度な事実精度と、モデルが一貫して偽の仮定を正すことができないことを考慮し、当社の作業は、ハイテイクシナリオで使用する現在のLCMを慎重に評価することを求めている。

As corporations rush to integrate large language models (LLMs) to their search offerings, it is critical that they provide factually accurate information that is robust to any presuppositions that a user may express. In this work, we introduce UPHILL, a dataset consisting of health-related queries with varying degrees of presuppositions. Using UPHILL, we evaluate the factual accuracy and consistency of InstructGPT, ChatGPT, and BingChat models. We find that while model responses rarely disagree with true health claims (posed as questions), they often fail to challenge false claims: responses from InstructGPT agree with 32% of the false claims, ChatGPT 26% and BingChat 23%. As we increase the extent of presupposition in input queries, the responses from InstructGPT and ChatGPT agree with the claim considerably more often, regardless of its veracity. Responses from BingChat, which rely on retrieved webpages, are not as susceptible. Given the moderate factual accuracy, and the inability of models to consistently correct false assumptions, our work calls for a careful assessment of current LLMs for use in high-stakes scenarios.
翻訳日:2024-09-04 21:42:39 公開日:2024-08-31
# DER-GCN:マルチモーダル対話感情認識のための対話とイベント関係を考慮したグラフ畳み込みニューラルネットワーク

DER-GCN: Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Dialogue Emotion Recognition ( http://arxiv.org/abs/2312.10579v2 )

ライセンス: Link先を確認
Wei Ai, Yuntao Shou, Tao Meng, Nan Yin, Keqin Li, (参考訳) 近年,深層学習(DL)の継続的な発展に伴い,多モーダル対話感情認識(MDER)の課題にも注目が集まっている。 MDERは、異なる対話シーンで、例えば、テキスト、ビデオ、オーディオなど、さまざまなモードに含まれる感情情報を識別することを目的としている。 しかし、既存の研究は、感情に対する出来事関係の影響を無視しながら、文脈意味情報と話者間の対話関係のモデル化に重点を置いている。 上記の課題に対処するために,多モーダル感情認識(DER-GCN)のための新しい対話・イベント関係対応グラフ畳み込みニューラルネットワークを提案する。 話者間の対話関係をモデル化し、潜在イベント関係情報をキャプチャする。 具体的には、対話における話者とイベントの関係の依存関係を同時にキャプチャする重み付きマルチリレーショナルグラフを構築する。 さらに,SMGAE(Self-Supervised Masked Graph Autoencoder)を導入し,特徴と構造の融合表現性を向上させる。 次に、異なる関係間の相関を捉えるための新しい多重情報変換器(MIT)を設計し、関係間の多変量情報をよりよく融合させる。 最後に,少数クラス特徴の表現学習能力を高めるために,コントラスト学習に基づく損失最適化戦略を提案する。 DER-GCNモデルの有効性を検証したIEMOCAPおよびMELDベンチマークデータセットについて広範な実験を行った。 その結果,本モデルは感情認識の平均精度とf1値の両方を有意に向上させることがわかった。

With the continuous development of deep learning (DL), the task of multimodal dialogue emotion recognition (MDER) has recently received extensive research attention, which is also an essential branch of DL. The MDER aims to identify the emotional information contained in different modalities, e.g., text, video, and audio, in different dialogue scenes. However, existing research has focused on modeling contextual semantic information and dialogue relations between speakers while ignoring the impact of event relations on emotion. To tackle the above issues, we propose a novel Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Emotion Recognition (DER-GCN) method. It models dialogue relations between speakers and captures latent event relations information. Specifically, we construct a weighted multi-relationship graph to simultaneously capture the dependencies between speakers and event relations in a dialogue. Moreover, we also introduce a Self-Supervised Masked Graph Autoencoder (SMGAE) to improve the fusion representation ability of features and structures. Next, we design a new Multiple Information Transformer (MIT) to capture the correlation between different relations, which can provide a better fuse of the multivariate information between relations. Finally, we propose a loss optimization strategy based on contrastive learning to enhance the representation learning ability of minority class features. We conduct extensive experiments on the IEMOCAP and MELD benchmark datasets, which verify the effectiveness of the DER-GCN model. The results demonstrate that our model significantly improves both the average accuracy and the f1 value of emotion recognition.
翻訳日:2024-09-04 21:42:39 公開日:2024-08-31
# マルチモーダル感情認識のためのモーダル内およびモーダル間グラフコントラスト学習による対立表現

Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition ( http://arxiv.org/abs/2312.16778v2 )

ライセンス: Link先を確認
Yuntao Shou, Tao Meng, Wei Ai, Nan Yin, Keqin Li, (参考訳) ソーシャルメディアプラットフォーム上でのオープンソースの感情認識データセットの増大と、コンピュータリソースの急速な開発により、マルチモーダル感情認識タスク(MER)が広く研究されている。 MERタスクは、異なるモーダルから補完的な意味情報を抽出し、融合し、話者の感情を分類することができる。 しかし、既存の特徴融合法は、通常、異なるモダリティの特徴を同じ特徴空間にマッピングしており、異なるモダリティ間の不均一性を排除できない。 そのため、その後の感情クラス境界学習は困難である。 そこで本研究では,マルチモーダル感情認識(AR-IIGCN)法に対して,モーダル内およびモーダル間グラフを用いた適応表現を提案する。 まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。 第2に,モーダル間の情報相互作用を実現し,モーダル間の不均一性を排除できる,逆表現による3つのモーダル特徴のジェネレータと判別器を構築する。 第3に,モーダル内およびモーダル間相補的意味情報を捕捉し,感情カテゴリーのクラス内およびクラス間境界情報を学習するために,コントラッシブグラフ表現学習を導入する。 具体的には、3つのモーダル特徴に対するグラフ構造を構築し、同じモーダルの異なる感情と異なるモーダルの同じ感情を持つノードに対して対照的な表現学習を行い、ノードの特徴表現能力を向上させる。 大規模な実験により、ARL-IIGCN法はIEMOCAPおよびMELDデータセット上での感情認識精度を大幅に向上できることが示された。

With the release of increasing open-source emotion recognition datasets on social media platforms and the rapid development of computing resources, multimodal emotion recognition tasks (MER) have begun to receive widespread research attention. The MER task extracts and fuses complementary semantic information from different modalities, which can classify the speaker's emotions. However, the existing feature fusion methods have usually mapped the features of different modalities into the same feature space for information fusion, which can not eliminate the heterogeneity between different modalities. Therefore, it is challenging to make the subsequent emotion class boundary learning. To tackle the above problems, we have proposed a novel Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive for Multimodal Emotion Recognition (AR-IIGCN) method. Firstly, we input video, audio, and text features into a multi-layer perceptron (MLP) to map them into separate feature spaces. Secondly, we build a generator and a discriminator for the three modal features through adversarial representation, which can achieve information interaction between modalities and eliminate heterogeneity among modalities. Thirdly, we introduce contrastive graph representation learning to capture intra-modal and inter-modal complementary semantic information and learn intra-class and inter-class boundary information of emotion categories. Specifically, we construct a graph structure for three modal features and perform contrastive representation learning on nodes with different emotions in the same modality and the same emotion in different modalities, which can improve the feature representation ability of nodes. Extensive experimental works show that the ARL-IIGCN method can significantly improve emotion recognition accuracy on IEMOCAP and MELD datasets.
翻訳日:2024-09-04 21:42:39 公開日:2024-08-31
# GPU位相Foldingとディープラーニング検出システムを用いたケプラーサーベイにおけるKGドワーフを周回する小型超短周期惑星の発見

Discovery of Small Ultra-short-period Planets Orbiting KG Dwarfs in Kepler Survey Using GPU Phase Folding and Deep Learning Detection System ( http://arxiv.org/abs/2312.17382v2 )

ライセンス: Link先を確認
Kaitlyn Wang, Jian Ge, Kevin Willis, Kevin Wang, Yinan Zhao, (参考訳) 1995年に太陽型恒星 51 Peg を公転する最初のホットジュピターが発見されて以来、4000個以上の太陽系外惑星が様々な観測手法で発見されている。 これらのサブアースの形成過程はいまだ解明されておらず、このユニークな個体群を調査するためには追加のサンプルを取得することが不可欠である。 本研究では,ケプラー測光データに対して,GPFC法と呼ばれる畳み込みニューラルネットワークを併用した新しいGPU位相Foldingアルゴリズムを提案する。 この手法は、従来のBox-fitting Least Squares法よりもトランジット検索速度を大幅に向上させ、商用GPUカードを用いて、既知のKOI測光データを数時間以内に完全に検索することを可能にする。 K00446.c、K01821.b、K01522.c、K03404.b、K04978.b。 K00446.cは0.645091日周期でK小星を公転している。 半径0.461R_\oplus$は、これまでに発見された2番目に小さいUSPである。 K01821.bは、半径が0.648R_\oplus$の小惑星である。 これは、NASAアーカイブでG小星を公転する確認されたUSPの中では2番目に小さい。 K01522.cの半径は0.704 R_\oplus$で、太陽のようなG小星の周りを0.64672日で公転し、K03404.bの半径は0.738 R_\oplus$、K04978.bの半径は0.912 R_\oplus$で、G小星を公転し0.94197日ごとに軌道を公転する。 我々の3つの発見のうち、K01821.b、K01522.c、K03404.bはケプラーデータセットでG小星を公転していると確認された全てのUSPの中で最小の惑星である。 これらの小さな太陽系外惑星の発見は、ケプラー、テッサ、将来の宇宙輸送ミッションの測光データから、小型で新しい太陽系外惑星を探索するGPFC法の有望な能力を示している。

Since the discovery of the first hot Jupiter orbiting a solar-type star, 51 Peg, in 1995, more than 4000 exoplanets have been identified using various observational techniques. The formation process of these sub-Earths remains elusive, and acquiring additional samples is essential for investigating this unique population. In our study, we employ a novel GPU Phase Folding algorithm combined with a Convolutional Neural Network, termed the GPFC method, on Kepler photometry data. This method enhances the transit search speed significantly over the traditional Box-fitting Least Squares method, allowing a complete search of the known KOI photometry data within hours using a commercial GPU card. To date, we have identified five promising sub-Earth short-period candidates: K00446.c, K01821.b, K01522.c, K03404.b, and K04978.b. A closer analysis reveals the following characteristics: K00446.c orbits a K dwarf on a 0.645091-day period. With a radius of $0.461R_\oplus$, it ranks as the second smallest USP discovered to date. K01821.b is a sub-Earth with a radius of $0.648R_\oplus$, orbiting a G dwarf over a 0.91978-day period. It is the second smallest USP among all confirmed USPs orbiting G dwarfs in the NASA Archive. K01522.c has a radius of $0.704 R_\oplus$ and completes an orbit around a Sun-like G dwarf in 0.64672 days; K03404.b, with a radius of $0.738 R_\oplus$, orbits a G dwarf on a 0.68074-day period; and K04978.b, with its planetary radius of $0.912 R_\oplus$, orbits a G dwarf, completing an orbit every 0.94197 days. Three of our finds, K01821.b, K01522.c and K03404.b, rank as the smallest planets among all confirmed USPs orbiting G dwarfs in the Kepler dataset. The discovery of these small exoplanets underscores the promising capability of the GPFC method for searching for small, new transiting exoplanets in photometry data from Kepler, TESS, and future space transit missions.
翻訳日:2024-09-04 21:42:39 公開日:2024-08-31
# コンセプト・ボトルネック・モデルは地域を尊重するのか?

Do Concept Bottleneck Models Respect Localities? ( http://arxiv.org/abs/2401.01259v3 )

ライセンス: Link先を確認
Naveen Raman, Mateo Espinosa Zarlenga, Juyeon Heo, Mateja Jamnik, (参考訳) 概念に基づく手法は、人間の理解可能な概念を用いてモデル予測を説明する。 これらのモデルは正確な概念予測器を必要とするが、既存の概念予測器が基礎となる概念に忠実であることは明らかではない。 本稿では,一般的なコンセプトベースアーキテクチャのファミリであるConcept Bottleneck Models (CBM) の忠実さを,データセットの「地域」を尊重するかどうかを考察する。 ローカリティは、コンセプトの価値を予測する際に、関連する機能のみを使用する。 局所性が考慮されない場合、その概念は、急激な相関性、性能劣化、堅牢性に基づいて予測される。 本研究は,モデル入力の摂動によってCBM予測がどのように変化するのかを考察し,独立概念が重複しない特徴部分集合に局所化されても,CBMが局所性を捉えないことを示す。 我々の経験的および理論的結果は、相関した概念を持つデータセットが、局所性を学習できない正確だが解釈不能なモデルに繋がることを示した。 全体として、CBMの解釈性は脆弱であり、CBMは時に急激な特徴に依存し、概念予測器の堅牢性に関するさらなる研究を必要としている。

Concept-based methods explain model predictions using human-understandable concepts. These models require accurate concept predictors, yet the faithfulness of existing concept predictors to their underlying concepts is unclear. In this paper, we investigate the faithfulness of Concept Bottleneck Models (CBMs), a popular family of concept-based architectures, by looking at whether they respect "localities" in datasets. Localities involve using only relevant features when predicting a concept's value. When localities are not considered, concepts may be predicted based on spuriously correlated features, degrading performance and robustness. This work examines how CBM predictions change when perturbing model inputs, and reveals that CBMs may not capture localities, even when independent concepts are localised to non-overlapping feature subsets. Our empirical and theoretical results demonstrate that datasets with correlated concepts may lead to accurate but uninterpretable models that fail to learn localities. Overall, we find that CBM interpretability is fragile, as CBMs occasionally rely upon spurious features, necessitating further research into the robustness of concept predictors.
翻訳日:2024-09-04 21:42:39 公開日:2024-08-31
# HVAC制御のための深部強化学習アルゴリズムの実験的検討

An experimental evaluation of Deep Reinforcement Learning algorithms for HVAC control ( http://arxiv.org/abs/2401.05737v3 )

ライセンス: Link先を確認
Antonio Manjavacas, Alejandro Campoy-Nieves, Javier Jiménez-Raboso, Miguel Molina-Solana, Juan Gómez-Romero, (参考訳) 暖房、換気、空調システム(HVAC)は、商業用および住宅用建物におけるエネルギー消費の主要な要因である。 近年の研究では、Deep Reinforcement Learning (DRL)アルゴリズムが従来のリアクティブコントローラより優れていることが示されている。 しかし、DRLベースのソリューションは一般にアドホックなセットアップのために設計されており、比較のための標準化が欠如している。 このギャップを埋めるために,本稿では,HVAC制御のためのいくつかの最先端DRLアルゴリズムの快適性とエネルギー消費の観点から,重要かつ再現可能な評価を行う。 本研究は、シネルギムフレームワークを用いて、最適化目標間のコントローラーの堅牢性、適応性、トレードオフについて検討する。 その結果、複雑なシナリオにおいて、SACやTD3といったDRLアルゴリズムの可能性を確認し、一般化や漸進学習に関連するいくつかの課題を明らかにした。

Heating, Ventilation, and Air Conditioning (HVAC) systems are a major driver of energy consumption in commercial and residential buildings. Recent studies have shown that Deep Reinforcement Learning (DRL) algorithms can outperform traditional reactive controllers. However, DRL-based solutions are generally designed for ad hoc setups and lack standardization for comparison. To fill this gap, this paper provides a critical and reproducible evaluation, in terms of comfort and energy consumption, of several state-of-the-art DRL algorithms for HVAC control. The study examines the controllers' robustness, adaptability, and trade-off between optimization goals by using the Sinergym framework. The results obtained confirm the potential of DRL algorithms, such as SAC and TD3, in complex scenarios and reveal several challenges related to generalization and incremental learning.
翻訳日:2024-09-04 21:42:39 公開日:2024-08-31
# 医療におけるマルチモーダルGPT-4ビジョンのエキスパートレベルの精度の隠れた欠陥

Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine ( http://arxiv.org/abs/2401.08396v4 )

ライセンス: Link先を確認
Qiao Jin, Fangyuan Chen, Yiliang Zhou, Ziyang Xu, Justin M. Cheung, Robert Chen, Ronald M. Summers, Justin F. Rousseau, Peiyun Ni, Marc J Landsman, Sally L. Baxter, Subhi J. Al'Aref, Yijia Li, Alex Chen, Josef A. Brejt, Michael F. Chiang, Yifan Peng, Zhiyong Lu, (参考訳) 近年の研究では、GPT-4V(Generative Pre-trained Transformer 4 with Vision)が、医学的課題において、医師よりも優れていることが示されている。 しかし,これらの評価は,主に複数質問の精度のみに焦点が当てられた。 本研究は,GPT-4Vの画像理解,医用知識の想起,およびNew England Journal of Medicine (NEJM) Image Challenges(医用専門家の知識と診断能力をテストするための画像クイズ)の解決におけるステップ・バイ・ステップのマルチモーダル推論を包括的に分析することにより,現在の範囲を拡大するものである。 評価の結果、GPT-4Vは多点検診の精度(81.6%対77.8%)に関して、ヒトの医師に比較して機能することが確認された。 GPT-4Vは、医師が正しく答えていない場合にも有効であり、精度は78%以上である。 しかし、GPT-4Vは、正しい最終選択を行う場合(35.5%)にしばしば欠陥のある有理性を示し、画像理解において最も顕著である(27.2%)。 GPT-4Vの多点質問の精度は高いが,本研究は,これらのマルチモーダルAIモデルを臨床ワークフローに組み込む前に,その有理性に関する詳細な評価の必要性を強調した。

Recent studies indicate that Generative Pre-trained Transformer 4 with Vision (GPT-4V) outperforms human physicians in medical challenge tasks. However, these evaluations primarily focused on the accuracy of multi-choice questions alone. Our study extends the current scope by conducting a comprehensive analysis of GPT-4V's rationales of image comprehension, recall of medical knowledge, and step-by-step multimodal reasoning when solving New England Journal of Medicine (NEJM) Image Challenges - an imaging quiz designed to test the knowledge and diagnostic capabilities of medical professionals. Evaluation results confirmed that GPT-4V performs comparatively to human physicians regarding multi-choice accuracy (81.6% vs. 77.8%). GPT-4V also performs well in cases where physicians incorrectly answer, with over 78% accuracy. However, we discovered that GPT-4V frequently presents flawed rationales in cases where it makes the correct final choices (35.5%), most prominent in image comprehension (27.2%). Regardless of GPT-4V's high accuracy in multi-choice questions, our findings emphasize the necessity for further in-depth evaluations of its rationales before integrating such multimodal AI models into clinical workflows.
翻訳日:2024-09-04 21:31:42 公開日:2024-08-31
# 時系列分類のための幾何学的事前指導型特徴表現学習

Geometric Prior Guided Feature Representation Learning for Long-Tailed Classification ( http://arxiv.org/abs/2401.11436v2 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Shuyuan Yang, Xu Liu, Puhua Chen, (参考訳) 実世界のデータは長い尾を持つが、尾のサンプルがないため、モデルの一般化能力は著しく制限される。 クラス再バランスの多くのアプローチは、中等級不均衡問題に対してうまく機能するが、いくつかの尾サンプルから観測された分布がその真の分布を適切に表現していない場合に、尾クラスが真分布を回復するのを助けるために追加の知識を導入する必要がある。 本研究では,よく表現されたヘッドクラスの特徴分布の幾何学的情報を活用し,モデルを用いてテールクラスの基盤分布を学習する手法を提案する。 具体的には,まず特徴分布の幾何学と特徴分布間の類似度尺度を体系的に定義し,異なる特徴分布の幾何学的関係に関する4つの現象を発見する。 そして, 4つの現象に基づいて, ヘッドクラスの特徴分布の幾何を利用して, テール特徴を摂動させる特徴不確実性表現を提案する。 パータード機能は、可能な限りテールクラスの基盤となる分布をカバーし、テスト領域におけるモデルの一般化性能を向上させることを目的としている。 最後に,特徴不確実性モデリングをうまく適用可能な3段階のトレーニングスキームを設計する。 CIFAR-10/100-LT、ImageNet-LT、iNaturalist2018の実験では、提案手法は、多くの指標において、他の類似手法よりも優れていることが示された。 さらに、我々が発見した実験的な現象は、その後の研究に新たな視点と理論的基礎を与えることができる。

Real-world data are long-tailed, the lack of tail samples leads to a significant limitation in the generalization ability of the model. Although numerous approaches of class re-balancing perform well for moderate class imbalance problems, additional knowledge needs to be introduced to help the tail class recover the underlying true distribution when the observed distribution from a few tail samples does not represent its true distribution properly, thus allowing the model to learn valuable information outside the observed domain. In this work, we propose to leverage the geometric information of the feature distribution of the well-represented head class to guide the model to learn the underlying distribution of the tail class. Specifically, we first systematically define the geometry of the feature distribution and the similarity measures between the geometries, and discover four phenomena regarding the relationship between the geometries of different feature distributions. Then, based on four phenomena, feature uncertainty representation is proposed to perturb the tail features by utilizing the geometry of the head class feature distribution. It aims to make the perturbed features cover the underlying distribution of the tail class as much as possible, thus improving the model's generalization performance in the test domain. Finally, we design a three-stage training scheme enabling feature uncertainty modeling to be successfully applied. Experiments on CIFAR-10/100-LT, ImageNet-LT, and iNaturalist2018 show that our proposed approach outperforms other similar methods on most metrics. In addition, the experimental phenomena we discovered are able to provide new perspectives and theoretical foundations for subsequent studies.
翻訳日:2024-09-04 21:31:42 公開日:2024-08-31
# 幼児の対話型ストーリーテリングと読書活動を支援する子ども中心型AIの必要性を探る

Exploring Parent's Needs for Children-Centered AI to Support Preschoolers' Interactive Storytelling and Reading Activities ( http://arxiv.org/abs/2401.13804v2 )

ライセンス: Link先を確認
Yuling Sun, Jiaju Chen, Bingsheng Yao, Jiali Liu, Dakuo Wang, Xiaojuan Ma, Yuxuan Lu, Ying Xu, Liang He, (参考訳) 対話型ストーリーテリングは幼児期の発達に不可欠である。 子供の対話的パートナーは伝統的に両親と教師であったが、人工知能(AI)の最近の進歩は、AIベースのストーリーテリングと読書技術の急増を引き起こしている。 幼児の生活の中でこれらの技術がますます普及するにつれて、実践的なストーリーテリングや読書のシナリオでどのように機能するか、そして両親、最も重要な利害関係者、経験、知覚について疑問が持ち上がる。 本稿では,3歳から6歳までの子どもの親17人との質的研究を通して,これらの課題を考察する。 我々の研究結果は、AIベースのストーリーテリングと読書技術は、より没入的で活発な相互作用を提供するが、一連の対話的でアルゴリズム的な課題のために、両親の期待を満たすことはできないことを示唆している。 我々は、これらの課題について詳しく説明し、幼児向けAIベースのインタラクティブなストーリーテリング技術の可能性について論じる。

Interactive storytelling is vital for preschooler development. While children's interactive partners have traditionally been their parents and teachers, recent advances in artificial intelligence (AI) have sparked a surge of AI-based storytelling and reading technologies. As these technologies become increasingly ubiquitous in preschoolers' lives, questions arise regarding how they function in practical storytelling and reading scenarios and, how parents, the most critical stakeholders, experience and perceive these technologies. This paper investigates these questions through a qualitative study with 17 parents of children aged 3-6. Our findings suggest that even though AI-based storytelling and reading technologies provide more immersive and engaging interaction, they still cannot meet parents' expectations due to a series of interactive and algorithmic challenges. We elaborate on these challenges and discuss the possible implications of future AI-based interactive storytelling technologies for preschoolers.
翻訳日:2024-09-04 21:31:42 公開日:2024-08-31
# 真空1光子重ね合わせによる3ビット純状態における三部晶の絡み合いと三部晶の操舵

Tripartite entanglement and tripartite steering in three-qubit pure states induced by vacuum--one-photon superpositions ( http://arxiv.org/abs/2401.14328v2 )

ライセンス: Link先を確認
Jian Wang, Huan Liu, Xue-feng Zhan, Xue-xiang Xu, (参考訳) 可変パラメータ$T$と真空-一光子重ね合わせにより誘導されるトリッターを$\left\vert 0\right\rangle +\alpha\left\vert 1\right\rangle $ with $\alpha =\left\vert \alpha \right\vert e^{i\phi }$を用いて、3ビット純状態のクラスを作成するスキームを提案する。 これらの状態は $\left\vert \psi \right\rangle _{123}=c_{0}\left\vert 000\right\rangle +c_{1}\left\vert 100\right\rangle +c_{2}\left\vert 010\right\rangle +c_{3}\left\vert 001\right\rangle $ の形をとる。 係数 (c_{0}$, $c_{1}$, $c_{2}$, $c_{3}$) は相互作用パラメータ (\left\vert \alpha \right\vert $, $\phi $, $T$) によって操作できる。 Xie と Eberly の業績[Phys. Rev. Lett. 127, 040403 (2021)] に則って、$\left\vert \psi \right\rangle _{123}$ の真の三部体の絡み合いを、コンカレンスフィリングの測度を用いて調べる。 Hao \textit{et al } の研究 [Phys. Lett. 128, 120402 (2021)] を参考に、不確実性関係基準に基づく特定の測定の下で、$\left\vert \psi \right\rangle _{123} の三部晶ステアリングについて検討する。 異なるパラメータ空間間で異なるステアビリティを示す9つの潜在的構成を同定する。 注意すべき点は、状態 $\left\vert \psi \right\rangle _{123}$ が絡み合いを示す一方で、ステアリングがパラメータ空間のかなりの部分で達成不可能であることである。

Utilizing a tritter with variable parameter $T$ and induced by vacuum--one-photon superpositions $\left\vert 0\right\rangle +\alpha\left\vert 1\right\rangle $ with $\alpha =\left\vert \alpha \right\vert e^{i\phi }$, we propose a scheme to prepare a class of three-qubit pure states. These states take the form of $\left\vert \psi \right\rangle _{123}=c_{0}\left\vert 000\right\rangle +c_{1}\left\vert 100\right\rangle +c_{2}\left\vert 010\right\rangle +c_{3}\left\vert 001\right\rangle $. The coefficients ($c_{0}$, $c_{1}$, $c_{2}$, and $c_{3}$) can be manipulated through interaction parameters ($\left\vert \alpha \right\vert $, $\phi $, and $T$). In line with Xie and Eberly's work[Phys. Rev. Lett. 127, 040403 (2021)], we investigate the genuine tripartite entanglement for $\left\vert \psi \right\rangle _{123}$ by using the measure of concurrence fill. Drawing on Hao \textit{et al.}'s research [Phys. Rev. Lett. 128, 120402 (2021)], we examine tripartite steering for $\left\vert \psi \right\rangle _{123}$ under certain measurements based on the uncertainty relations criterion. We identify nine potential configurations exhibiting varying steerability across different parameter spaces. It is important to highlight that, while the state $\left\vert \psi \right\rangle _{123}$ exhibits entanglement, steering remains unattainable in a substantial portion of the parameter space.
翻訳日:2024-09-04 21:31:42 公開日:2024-08-31
# 確率論的論理プログラミングにおける説明

Explaining Explanations in Probabilistic Logic Programming ( http://arxiv.org/abs/2401.17045v4 )

ライセンス: Link先を確認
Germán Vidal, (参考訳) 人工知能に基づくツールの出現は、人間によって理解可能な説明を作成する必要ももたらした。 ほとんどのアプローチでは、システムはブラックボックスと見なされており、適切な説明を生成することは困難である。 確率論的論理プログラミング(PLP:probabilistic logic programming)は、知識表現のための論理プログラミングと不確実性をモデル化する確率を組み合わせたパラダイムである。 しかしながら、クエリが与えられた場合、通常の説明の概念は、モデルの各ランダム変数に対して1つの選択の集合に関連付けられている。 残念ながら、そのようなセットは、なぜクエリが真実なのかを説明せず、実際は、検討されたクエリとは無関係な選択肢を含んでいるかもしれない。 この状況を改善するために,我々は,証明に「選択表現」をラベル付けした PLP の新しいクエリ駆動推論機構の定義に基づく説明法を提案する。 証明木と選択式の組み合わせにより、因果構造を持つ理解可能なクエリ正当性を生成することができる。

The emergence of tools based on artificial intelligence has also led to the need of producing explanations which are understandable by a human being. In most approaches, the system is considered a black box, making it difficult to generate appropriate explanations. In this work, though, we consider a setting where models are transparent: probabilistic logic programming (PLP), a paradigm that combines logic programming for knowledge representation and probability to model uncertainty. However, given a query, the usual notion of explanation is associated with a set of choices, one for each random variable of the model. Unfortunately, such a set does not explain why the query is true and, in fact, it may contain choices that are actually irrelevant for the considered query. To improve this situation, we present in this paper an approach to explaining explanations which is based on defining a new query-driven inference mechanism for PLP where proofs are labeled with "choice expressions", a compact and easy to manipulate representation for sets of choices. The combination of proof trees and choice expressions allows us to produce comprehensible query justifications with a causal structure.
翻訳日:2024-09-04 21:31:42 公開日:2024-08-31
# 絡み合いと測定の相補的関係

Complementary Relationships between Entanglement and Measurement ( http://arxiv.org/abs/2401.17537v3 )

ライセンス: Link先を確認
Michael Steiner, Ronald Rendell, (参考訳) パターン可視性、予測可能性、識別可能性などの粒子の干渉特性に関する補完的な関係が存在する。 さらに、情報ゲイン$G$と、絡み合ったスピン対に対する測定障害$F$の関係が知られている。 ここでは、同様の絡み合いと測定の相補関係が生じるかどうかを考察する。 量子ビット系では、単一系における測定と二部系における測定の両方が絡み合いに関して考慮される。 $\overline{E}+D\le 1$は、測定後の平均絡み合いが$\overline{E}$であり、1つの測定の計測乱れが$D$であることを示す。 Alice と Bob が共有する双極子系の測定について、$\overline{E}+\overline{G}\le 1$ ここで$\overline{G}$は、Bob が得るアリスの結果に関する最大平均情報ゲインである。 これらの結果は任意の初期混合状態と非エルミート作用素に対して一般化される。 最大絡み合った初期状態の場合、$D\le E_{L}$および$\overline{G}\le E_{L}$ ここで、$E_{L}$はアリスの測定による絡み合い損失である。 得られた乱れ量や情報取得量は、絡み合いによって厳密に制限されていると結論付けている。

Complementary relationships exist regarding interference properties of particles such as pattern visibility, predictability and distinguishability. Additionally, relationships are known between information gain $G$ and measurement disturbance $F$ for entangled spin pairs. The question of whether a similar complementary relationship between entanglement and measurement occurs is examined herein. For qubit systems, both measurement on a single system and measurements on a bipartite system are considered in regards to the entanglement. It is proven that $\overline{E}+D\le 1$ holds where $\overline{E}$ is the average entanglement after a measurement is made and for which $D$ is a measure of the measurement disturbance of a single measurement. For measurements on a bipartite system shared by Alice and Bob ,it is shown that $\overline{E}+\overline{G}\le 1$ where $\overline{G}$ is the maximum average information gain regarding Alice's result that can be obtained by Bob. These results are generalized for arbitrary initial mixed states and as well to non-Hermitian operators. In the case of maximally entangled initial states, it is found that $D\le E_{L}$ and $\overline{G}\le E_{L}$ where $E_{L}$ is the entanglement loss due to measurement by Alice. We conclude that the amount of disturbance and information gain that one can gain are strictly limited by entanglement.
翻訳日:2024-09-04 19:43:36 公開日:2024-08-31
# 自動運転の基礎モデルに関する調査

A Survey for Foundation Models in Autonomous Driving ( http://arxiv.org/abs/2402.01105v3 )

ライセンス: Link先を確認
Haoxiang Gao, Yaqian Li, Kaiwen Long, Ming Yang, Yiqing Shen, (参考訳) 基礎モデルの出現は、自然言語処理とコンピュータビジョンの分野に革命をもたらした。 本調査は40以上の研究論文を総合的にレビューし,ADの強化における基礎モデルの役割を実証する。 大規模な言語モデルは、特に推論、コード生成、翻訳の習熟を通じて、ADにおける計画とシミュレーションに寄与する。 並行して、ビジョンファウンデーションモデルは、3Dオブジェクトの検出やトラッキングといった重要なタスクに適応し、シミュレーションやテストのための現実的な駆動シナリオを作成している。 多様な入力を統合するマルチモーダル基礎モデルでは、視覚的理解と空間的推論が極めて重要である。 本調査は,ADドメイン内のモダリティと機能に基づいて基礎モデルを分類し,構造的な分類法を提供するだけでなく,現在の研究で採用されている手法についても検討する。 既存の基盤モデルと最先端のADアプローチのギャップを特定し、将来の研究方向性をチャート化し、これらのギャップを埋めるためのロードマップを提案します。

The advent of foundation models has revolutionized the fields of natural language processing and computer vision, paving the way for their application in autonomous driving (AD). This survey presents a comprehensive review of more than 40 research papers, demonstrating the role of foundation models in enhancing AD. Large language models contribute to planning and simulation in AD, particularly through their proficiency in reasoning, code generation and translation. In parallel, vision foundation models are increasingly adapted for critical tasks such as 3D object detection and tracking, as well as creating realistic driving scenarios for simulation and testing. Multi-modal foundation models, integrating diverse inputs, exhibit exceptional visual understanding and spatial reasoning, crucial for end-to-end AD. This survey not only provides a structured taxonomy, categorizing foundation models based on their modalities and functionalities within the AD domain but also delves into the methods employed in current research. It identifies the gaps between existing foundation models and cutting-edge AD approaches, thereby charting future research directions and proposing a roadmap for bridging these gaps.
翻訳日:2024-09-04 19:43:36 公開日:2024-08-31
# 道路網への画像翻訳:シーケンス・ツー・シーケンスの視点から

Translating Images to Road Network: A Sequence-to-Sequence Perspective ( http://arxiv.org/abs/2402.08207v2 )

ライセンス: Link先を確認
Jiachen Lu, Renyuan Peng, Xinyue Cai, Hang Xu, Feng Wen, Wei Zhang, Li Zhang, (参考訳) 道路ランドマークとその相互接続の正確な位置化を可能にするため,道路網の抽出は高精細地図の生成に不可欠である。 しかしながら、道路ネットワークの生成は、ユークリッド(例えば、道路ランドマークの位置)と非ユークリッド(例えば、道路トポロジカル接続)の構造の相違により、大きな課題となる。 既存の方法は2つのタイプのデータドメインを効果的にマージするのに苦労するが、それを適切に扱う方法はほとんどない。 代わりに、我々の研究は、ユークリッドデータと非ユークリッドデータの両方をRoadNet Sequenceと呼ばれる整数列に投影することで、両方のデータ領域の統一表現を確立します。 RoadNet Sequenceを理解するために、自動回帰シーケンスからシーケンスへの変換モデルをモデル化するだけでなく、RoadNet Sequenceの依存関係を自動回帰と非自己回帰の混在に分離する。 これに基づいて提案した非自己回帰的シーケンス・ツー・シーケンスアプローチは、非自己回帰的依存関係を活用しながら、自己回帰的依存関係へのギャップを固定し、効率と精度の両方で成功する。 さらに、BEVエンコーダによって制限されたランドマーク検出の貧弱さと、トポロジー推論へのエラー伝搬という、データセットの過度な分割に関する、現在のRoadNetTransformerの2つの主要なボトルネックを特定します。 そこで我々は,Popology-Inherited Trainingを提案し,より優れたトポロジー知識をRoadNetTransformerに継承する。 さらに、オープンソースマップデータセットからSD-Mapを収集し、この事前情報を使用してランドマークの検出と到達性を大幅に改善する。 nuScenesデータセットの大規模な実験は、既存の最先端の代替手段と比較して、RoadNet Sequence表現と非自己回帰アプローチの優位性を示している。

The extraction of road network is essential for the generation of high-definition maps since it enables the precise localization of road landmarks and their interconnections. However, generating road network poses a significant challenge due to the conflicting underlying combination of Euclidean (e.g., road landmarks location) and non-Euclidean (e.g., road topological connectivity) structures. Existing methods struggle to merge the two types of data domains effectively, but few of them address it properly. Instead, our work establishes a unified representation of both types of data domain by projecting both Euclidean and non-Euclidean data into an integer series called RoadNet Sequence. Further than modeling an auto-regressive sequence-to-sequence Transformer model to understand RoadNet Sequence, we decouple the dependency of RoadNet Sequence into a mixture of auto-regressive and non-autoregressive dependency. Building on this, our proposed non-autoregressive sequence-to-sequence approach leverages non-autoregressive dependencies while fixing the gap towards auto-regressive dependencies, resulting in success on both efficiency and accuracy. We further identify two main bottlenecks in the current RoadNetTransformer on a non-overfitting split of the dataset: poor landmark detection limited by the BEV Encoder and error propagation to topology reasoning. Therefore, we propose Topology-Inherited Training to inherit better topology knowledge into RoadNetTransformer. Additionally, we collect SD-Maps from open-source map datasets and use this prior information to significantly improve landmark detection and reachability. Extensive experiments on nuScenes dataset demonstrate the superiority of RoadNet Sequence representation and the non-autoregressive approach compared to existing state-of-the-art alternatives.
翻訳日:2024-09-04 19:43:36 公開日:2024-08-31
# 最適ランダム森林における適応的スプリットバランス

Adaptive Split Balancing for Optimal Random Forest ( http://arxiv.org/abs/2402.11228v2 )

ライセンス: Link先を確認
Yuqian Zhang, Weijie Ji, Jelena Bradic, (参考訳) 本稿では,新しい適応型分割バランス法を用いて木を構築するランダムフォレストアルゴリズムを提案する。 広範に使われているランダムな特徴選択に頼るのではなく、置換に基づくバランスの取れた分割基準を提案する。 適応スプリットバランス林(ASBF)はリプシッツ級の下で極小最適性を達成する。 リーフレベルで局所回帰に適合するローカライズされたバージョンは、任意の$q\in\mathbb{N}$と$\beta\in(0,1]$の問題を広くH\"older class $\mathcal{H}^{q,\beta}$でミニマックスレートに達する。 木構築における補助的ランダム性に対する過度な信頼は、木の近似力を損なう可能性があり、亜最適結果をもたらす。 逆に、提案された非ランダムな置換に基づくアプローチは、幅広いモデルに対して最適性を示す。 ランダムな森林は経験的によく機能することが知られているが、理論的な収束速度は遅い。 データ依存なしに木を構築する単純なバージョンは、より高速なレートを提供するが、木の成長の間に適応性に欠ける。 提案手法は,データから木構造を適応的に学習しながら,単純でスムーズなシナリオで最適性を実現する。 さらに、一様上界を確立し、平均処理効果推定問題における次元依存性を改善することを示す。 シミュレーション研究と実世界の応用は、既存のランダム林よりも優れた性能を示す。

In this paper, we propose a new random forest algorithm that constructs the trees using a novel adaptive split-balancing method. Rather than relying on the widely-used random feature selection, we propose a permutation-based balanced splitting criterion. The adaptive split balancing forest (ASBF), achieves minimax optimality under the Lipschitz class. Its localized version, which fits local regressions at the leaf level, attains the minimax rate under the broad H\"older class $\mathcal{H}^{q,\beta}$ of problems for any $q\in\mathbb{N}$ and $\beta\in(0,1]$. We identify that over-reliance on auxiliary randomness in tree construction may compromise the approximation power of trees, leading to suboptimal results. Conversely, the proposed less random, permutation-based approach demonstrates optimality over a wide range of models. Although random forests are known to perform well empirically, their theoretical convergence rates are slow. Simplified versions that construct trees without data dependence offer faster rates but lack adaptability during tree growth. Our proposed method achieves optimality in simple, smooth scenarios while adaptively learning the tree structure from the data. Additionally, we establish uniform upper bounds and demonstrate that ASBF improves dimensionality dependence in average treatment effect estimation problems. Simulation studies and real-world applications demonstrate our methods' superior performance over existing random forests.
翻訳日:2024-09-04 19:31:47 公開日:2024-08-31
# LLM用2次ファインチューニング:ヘシアンインフォームドゼロ階最適化器

Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed Zeroth-Order Optimizer ( http://arxiv.org/abs/2402.15173v2 )

ライセンス: Link先を確認
Yanjun Zhao, Sizhe Dang, Haishan Ye, Guang Dai, Yi Qian, Ivor W. Tsang, (参考訳) 古典的な1次オプティマイザを備えた微調整大型言語モデル(LLM)は、バックプロパゲーションプロセスのため、禁止的なGPUメモリを必要とする。 最近の作業は、微調整のためのゼロオーダーオプティマイザに変わり、2つのフォワードパスを使用することで、かなりのメモリを節約している。 しかし、これらのオプティマイザは異なる次元にわたるパラメータ曲率の不均一性に悩まされている。 本研究は, 対角型ヘッセン情報ゼロ階最適化器であるHiZOOを提案し, 直交型ヘッセン情報ゼロ階最適化器を初めて活用し, 微調整用ゼロ階最適化器を改良する。 さらに、HiZOOは高価なメモリコストを回避し、ステップ毎に1回のフォワードパスしか増加しません。 各種モデル(350M~66Bパラメータ)の大規模な実験により、HiZOOはモデルの収束を改善し、トレーニングステップを大幅に削減し、モデルの精度を効果的に向上することが示された。 さらに,実験関数上でのHiZOOの最適化軌跡を可視化し,不均一な曲率を扱う上での有効性を示す。 最後に、HiZOO に対する収束の理論的証明を提供する。 コードはhttps://anonymous.4open.science/r/HiZOO27F8で公開されている。

Fine-tuning large language models (LLMs) with classic first-order optimizers entails prohibitive GPU memory due to the backpropagation process. Recent works have turned to zeroth-order optimizers for fine-tuning, which save substantial memory by using two forward passes. However, these optimizers are plagued by the heterogeneity of parameter curvatures across different dimensions. In this work, we propose HiZOO, a diagonal Hessian informed zeroth-order optimizer which is the first work to leverage the diagonal Hessian to enhance zeroth-order optimizer for fine-tuning LLMs. What's more, HiZOO avoids the expensive memory cost and only increases one forward pass per step. Extensive experiments on various models (350M~66B parameters) indicate that HiZOO improves model convergence, significantly reducing training steps and effectively enhancing model accuracy. Moreover, we visualize the optimization trajectories of HiZOO on test functions, illustrating its effectiveness in handling heterogeneous curvatures. Lastly, we provide theoretical proofs of convergence for HiZOO. Code is publicly available at https://anonymous.4open.science/r/HiZOO27F8.
翻訳日:2024-09-04 19:31:47 公開日:2024-08-31
# 臨床ノートを用いた術後リスク予測における大規模言語モデルの基盤的機能

The Foundational Capabilities of Large Language Models in Predicting Postoperative Risks Using Clinical Notes ( http://arxiv.org/abs/2402.17493v5 )

ライセンス: Link先を確認
Charles Alba, Bing Xue, Joanna Abraham, Thomas Kannampallil, Chenyang Lu, (参考訳) 術後経過中に記録された臨床記録は, 膨大な情報量を有する。 大きな言語モデル(LLM)の進歩は、このギャップを埋める機会を提供する。 2018年から2021年までの84,875件の術前メモと関連する手術例を用いて, 各種微調整戦略を用いて術後6つのリスクを予測するためのLSMの性能について検討した。 事前訓練されたLLMは、AUROCが38.3%、AUPRCが33.2%で従来の単語の埋め込みよりも優れていた。 自己監督による微調整により性能は3.2%と1.5%向上した。 ラベルをトレーニングに組み込むことでAUROCはさらに1.8%、AUPRCは2%増加した。 AUROCは3.6%, AUPRCは2.6%, 自衛隊は2.6%に改善し, 術後リスク予測におけるLLMの基礎的能力を強調した。

Clinical notes recorded during a patient's perioperative journey holds immense informational value. Advances in large language models (LLMs) offer opportunities for bridging this gap. Using 84,875 pre-operative notes and its associated surgical cases from 2018 to 2021, we examine the performance of LLMs in predicting six postoperative risks using various fine-tuning strategies. Pretrained LLMs outperformed traditional word embeddings by an absolute AUROC of 38.3% and AUPRC of 33.2%. Self-supervised fine-tuning further improved performance by 3.2% and 1.5%. Incorporating labels into training further increased AUROC by 1.8% and AUPRC by 2%. The highest performance was achieved with a unified foundation model, with improvements of 3.6% for AUROC and 2.6% for AUPRC compared to self-supervision, highlighting the foundational capabilities of LLMs in predicting postoperative risks, which could be potentially beneficial when deployed for perioperative care
翻訳日:2024-09-04 19:31:47 公開日:2024-08-31
# 信頼度ダイナミクスの追跡に向けて:大規模言語モデルの事前学習期間を再考する

Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models ( http://arxiv.org/abs/2402.19465v2 )

ライセンス: Link先を確認
Chen Qian, Jie Zhang, Wei Yao, Dongrui Liu, Zhenfei Yin, Yu Qiao, Yong Liu, Jing Shao, (参考訳) 大規模言語モデル(LLM)の信頼性を確保することが重要である。 ほとんどの研究は、LLMの信頼性をよりよく理解し改善するために、完全に事前訓練されたLLMに集中している。 本稿では, 事前学習の可能性を明らかにするために, 信頼性, プライバシ, 毒性, 公正性, 堅牢性という5つの重要な側面に焦点をあてて, この期間におけるLLMの信頼性の探究を開拓した。 まず、線形探索をLLMに適用する。 早期事前学習における \textit{LLMs は、信頼度の各次元における概念を既に区別できることを示している。 そこで, 本研究は, LLMの信頼性を高めるために, LLMの事前学習チェックポイントからステアリングベクトルを抽出する。 最後に, 相互情報推定が線形探索精度によって境界づけられていることに着想を得て, 事前学習時の信頼性のダイナミクスを調べるために, 相互情報を用いたLEMを探索する。 我々は、同様の2相現象を初めて観測する: フィッティングと圧縮–\citep{shwartz2017opening} である。 本研究は, LLM事前学習における信頼性モデリングの初歩的な研究であり, 新たな知見を公表し, さらなる発展を促すことを目的としている。 コードは、 \url{https://github.com/ChnQ/TracingLLM}で公開します。

Ensuring the trustworthiness of large language models (LLMs) is crucial. Most studies concentrate on fully pre-trained LLMs to better understand and improve LLMs' trustworthiness. In this paper, to reveal the untapped potential of pre-training, we pioneer the exploration of LLMs' trustworthiness during this period, focusing on five key dimensions: reliability, privacy, toxicity, fairness, and robustness. To begin with, we apply linear probing to LLMs. The high probing accuracy suggests that \textit{LLMs in early pre-training can already distinguish concepts in each trustworthiness dimension}. Therefore, to further uncover the hidden possibilities of pre-training, we extract steering vectors from a LLM's pre-training checkpoints to enhance the LLM's trustworthiness. Finally, inspired by~\citet{choi2023understanding} that mutual information estimation is bounded by linear probing accuracy, we also probe LLMs with mutual information to investigate the dynamics of trustworthiness during pre-training. We are the first to observe a similar two-phase phenomenon: fitting and compression~\citep{shwartz2017opening}. This research provides an initial exploration of trustworthiness modeling during LLM pre-training, seeking to unveil new insights and spur further developments in the field. We will make our code publicly accessible at \url{https://github.com/ChnQ/TracingLLM}.
翻訳日:2024-09-04 19:31:47 公開日:2024-08-31
# FENICE:自然言語推論とクレーム抽出に基づく要約のファクチュアリティ評価

FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction ( http://arxiv.org/abs/2403.02270v3 )

ライセンス: Link先を確認
Alessandro Scirè, Karim Ghonim, Roberto Navigli, (参考訳) テキスト要約の最近の進歩、特にLarge Language Models(LLMs)の出現は、顕著な性能を示している。 しかし、かなりの数の自動生成サマリーが幻覚などの事実上の矛盾を示すため、注目すべき課題が続いている。 この問題に対して,要約のための一貫性評価のための様々なアプローチが出現している。 しかし、これらの新しく導入されたメトリクスは、解釈可能性の欠如、短い文書要約(ニュース記事など)、特にLLMベースのメトリクスの計算不可能性など、いくつかの制限に直面している。 これらの欠点に対処するために、より解釈可能で効率的な事実指向メトリックである自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実の間のNLIベースのアライメントを利用する。 我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTの新たな最先端を定めている。 さらに、長文要約の人間のアノテーションプロセスを実行することにより、評価をより困難な設定に拡張する。 要約事実性評価の研究の促進を願って, https://github.com/Babelscape/FENICE.comにて, 計量のコードと長文要約のファクトリティアノテーションを公表する。

Recent advancements in text summarization, particularly with the advent of Large Language Models (LLMs), have shown remarkable performance. However, a notable challenge persists as a substantial number of automatically-generated summaries exhibit factual inconsistencies, such as hallucinations. In response to this issue, various approaches for the evaluation of consistency for summarization have emerged. Yet, these newly-introduced metrics face several limitations, including lack of interpretability, focus on short document summaries (e.g., news articles), and computational impracticality, especially for LLM-based metrics. To address these shortcomings, we propose Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction (FENICE), a more interpretable and efficient factuality-oriented metric. FENICE leverages an NLI-based alignment between information in the source document and a set of atomic facts, referred to as claims, extracted from the summary. Our metric sets a new state of the art on AGGREFACT, the de-facto benchmark for factuality evaluation. Moreover, we extend our evaluation to a more challenging setting by conducting a human annotation process of long-form summarization. In the hope of fostering research in summarization factuality evaluation, we release the code of our metric and our factuality annotations of long-form summarization at https://github.com/Babelscape/FENICE.
翻訳日:2024-09-04 19:15:46 公開日:2024-08-31
# 骨格型ビデオ異常検出のためのグラフ-Jigsaw条件拡散モデル

Graph-Jigsaw Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection ( http://arxiv.org/abs/2403.12172v2 )

ライセンス: Link先を確認
Ali Karami, Thi Kieu Khanh Ho, Narges Armanfard, (参考訳) スケルトンに基づくビデオ異常検出(SVAD)はコンピュータビジョンにおいて重要な課題である。 異常パターンや事象を正確に識別することで、オペレーターは不審な行為を迅速に検出し、安全性を高めることができる。 これを達成するためには、身体レベルと地域レベルの両方において、人間の動きを包括的に理解することが必要である。 しかし、既存の研究はこれらの重要な性質を同時に解決することができない。 本稿では,SVADに関連する課題を克服するため,Skeleton-based Video Anomaly Detection (GiCiSAD) のためのグラフ-Jigsaw条件付き拡散モデル(Graph-Jigsaw Conditioned Diffusion Model)を提案する。 GiCiSADは3つの新しいモジュールで構成されている。グラフアテンションベースの予測モジュールはデータ固有の時空間的依存関係をキャプチャし、グラフレベルのJigsaw Puzzle Makerモジュールは正常な動きと異常な動きの間の微妙な領域レベルの不一致を区別し、グラフベースの条件拡散モデルは人間の動きの幅広いスペクトルを生成する。 広く使われている4つの骨格ベースのビデオデータセットの大規模な実験により、GiCiSADはトレーニングパラメータが大幅に少ない既存のメソッドよりも優れており、新しい最先端技術として確立されている。

Skeleton-based video anomaly detection (SVAD) is a crucial task in computer vision. Accurately identifying abnormal patterns or events enables operators to promptly detect suspicious activities, thereby enhancing safety. Achieving this demands a comprehensive understanding of human motions, both at body and region levels, while also accounting for the wide variations of performing a single action. However, existing studies fail to simultaneously address these crucial properties. This paper introduces a novel, practical and lightweight framework, namely Graph-Jigsaw Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection (GiCiSAD) to overcome the challenges associated with SVAD. GiCiSAD consists of three novel modules: the Graph Attention-based Forecasting module to capture the spatio-temporal dependencies inherent in the data, the Graph-level Jigsaw Puzzle Maker module to distinguish subtle region-level discrepancies between normal and abnormal motions, and the Graph-based Conditional Diffusion model to generate a wide spectrum of human motions. Extensive experiments on four widely used skeleton-based video datasets show that GiCiSAD outperforms existing methods with significantly fewer training parameters, establishing it as the new state-of-the-art.
翻訳日:2024-09-04 19:02:17 公開日:2024-08-31
# ニューラルネットワークインテリジェンスに関する調査

A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond ( http://arxiv.org/abs/2403.14734v3 )

ライセンス: Link先を確認
Qiushi Sun, Zhirui Chen, Fangzhi Xu, Kanzhi Cheng, Chang Ma, Zhangyue Yin, Jianing Wang, Chengcheng Han, Renyu Zhu, Shuai Yuan, Qipeng Guo, Xipeng Qiu, Pengcheng Yin, Xiaoli Li, Fei Yuan, Lingpeng Kong, Xiang Li, Zhiyong Wu, (参考訳) ディープラーニングを活用してコードを理解し、生成し、最適化するニューラル・コード・インテリジェンスは、社会全体に変革をもたらす大きな可能性を秘めている。 自然言語とプログラミング言語のギャップを埋めて、このドメインは、過去数年間、両方の研究コミュニティの研究者から大きな注目を集めてきた。 この調査では、50以上の代表モデルとその変種、20以上のタスクカテゴリ、および680以上の関連研究を網羅した、コードインテリジェンスの進歩に関する体系的および時系列的なレビューを提示する。 我々は、異なる研究フェーズ(例えば、リカレントニューラルネットワークによるコードモデリングから、大規模言語モデルの時代まで)にわたるパラダイムシフトをトレースするために、歴史的な進歩を追及する。 同時に、さまざまな段階にまたがるモデル、タスク、評価における主要な技術的な変遷を強調します。 アプリケーションでは、共に進化するシフトも観察します。 初期の取り組みから特定のシナリオへの対処まで、その急速な拡張の間にさまざまなタスクを探索し、現在ますます複雑で多様な現実世界の課題に取り組むことに集中している。 発達軌跡の考察に基づき、コードインテリジェンスとより広範なマシンインテリジェンスとの新たな相乗効果について検討し、新たなクロスドメインの機会を明らかにし、コードインテリジェンスが様々な領域にまたがる実質的な影響を明らかにした。 最後に、この分野での機会と課題を掘り下げ、最も有望な研究方向性についての洞察を解明する。 この調査に関連する、動的に更新されたプロジェクトとリソースがhttps://github.com/QiushiSun/NCISurvey.comでリリースされた。

Neural Code Intelligence -- leveraging deep learning to understand, generate, and optimize code -- holds immense potential for transformative impacts on the whole society. Bridging the gap between Natural Language and Programming Language, this domain has drawn significant attention from researchers in both research communities over the past few years. This survey presents a systematic and chronological review of the advancements in code intelligence, encompassing over 50 representative models and their variants, more than 20 categories of tasks, and an extensive coverage of over 680 related works. We follow the historical progression to trace the paradigm shifts across different research phases (e.g., from modeling code with recurrent neural networks to the era of Large Language Models). Concurrently, we highlight the major technical transitions in models, tasks, and evaluations spanning through different stages. For applications, we also observe a co-evolving shift. It spans from initial endeavors to tackling specific scenarios, through exploring a diverse array of tasks during its rapid expansion, to currently focusing on tackling increasingly complex and varied real-world challenges. Building on our examination of the developmental trajectories, we further investigate the emerging synergies between code intelligence and broader machine intelligence, uncovering new cross-domain opportunities and illustrating the substantial influence of code intelligence across various domains. Finally, we delve into both the opportunities and challenges associated with this field, alongside elucidating our insights on the most promising research directions. An ongoing, dynamically updated project and resources associated with this survey have been released at https://github.com/QiushiSun/NCISurvey.
翻訳日:2024-09-04 19:02:17 公開日:2024-08-31
# Associated and Hierarchical Code Description Distillationに基づく新しいICD符号化法

A Novel ICD Coding Method Based on Associated and Hierarchical Code Description Distillation ( http://arxiv.org/abs/2404.11132v2 )

ライセンス: Link先を確認
Bin Zhang, Junli Wang, (参考訳) ICD (International Classification of Diseases) コーディングは、ICD符号を診療録に基づいて患者に割り当てることを含む。 ICD符号化は、ノイズの多い医療文書入力による多ラベルテキスト分類の問題である。 近年のICD符号化の進歩により、医療用ノートやコードに付加的なデータや知識ベースを組み込むことで、性能が向上した。 しかし、そのほとんどはコード階層を無視しており、不適切なコード割り当てにつながります。 これらの問題に対処するために、コード表現学習の改善と不適切なコード代入の回避を目的とした、関連的および階層的コード記述蒸留(AHDD)に基づく新しいフレームワークを提案する。 そこで本研究では,ICDコード固有のコード記述と階層構造を利用する。 コード記述は、注意層と出力層を認識するためにも適用されます。 ベンチマークデータセットの実験結果は、いくつかの最先端ベースラインよりも提案したフレームワークの方が優れていることを示している。

ICD(International Classification of Diseases) coding involves assigning ICD codes to patients visit based on their medical notes. ICD coding is a challenging multilabel text classification problem due to noisy medical document inputs. Recent advancements in automated ICD coding have enhanced performance by integrating additional data and knowledge bases with the encoding of medical notes and codes. However, most of them ignore the code hierarchy, leading to improper code assignments. To address these problems, we propose a novel framework based on associated and hierarchical code description distillation (AHDD) for better code representation learning and avoidance of improper code assignment.we utilize the code description and the hierarchical structure inherent to the ICD codes. Therefore, in this paper, we leverage the code description and the hierarchical structure inherent to the ICD codes. The code description is also applied to aware the attention layer and output layer. Experimental results on the benchmark dataset show the superiority of the proposed framework over several state-of-the-art baselines.
翻訳日:2024-09-04 18:50:14 公開日:2024-08-31
# H4R:HaluciBot for Ratiocination, Rewriting, Ranking, Routing

Is There No Such Thing as a Bad Question? H4R: HalluciBot For Ratiocination, Rewriting, Ranking, and Routing ( http://arxiv.org/abs/2404.12535v2 )

ライセンス: Link先を確認
William Watson, Nicole Cho, Nishan Srishankar, (参考訳) 幻覚は、LLM(Large Language Models)の制度導入における最も重要な課題の1つであり続けている。 先行研究は,出力のポストジェネレーション分析と改善に重点を置いているが,本論文では,LCMからの正確な応答を抽出するクエリの有効性に着目した。 提案するHaluciBotは,クエリの正当性を推定して生成前に幻覚を発生させるモデルである。 HalluciBotは、クエリ書き換えのためのプロキシ報酬モデルとして機能し、正確性とコンセンサスに基づいてクエリ品質を見積もる一般的なフレームワークを提供する。 さらに,HaluciBotの実証的な推定値によって導かれるクエリ書き換えを用いて,複数の選択質問に対して95.7%の出力精度が得られることを示した。 HalluciBotのトレーニング手順は、369,837のクエリをn回摂動し、n+1の独立したLCMエージェントを使用し、各クエリから出力をサンプリングし、サンプル出力に対してマルチエージェントモンテカルロシミュレーションを実行し、エンコーダ分類器を訓練する。 摂動の考え方は、語彙的に異なるが意味的に類似した方法でクエリを摂動することで、出力の多様性(+12.5の合意)の増加を測定するアブレーション研究の結果である。 したがって、HaluciBotは比例接種方法(76.0%のテストF1スコア、46.6%の幻覚的クエリの保存計算)、書き直し(+30.2%の正のクラス遷移から非幻覚への正のクラス遷移)、ランク(+50.6%の正のクラス遷移から非幻覚への正のクラス遷移)、クエリーを効果的なパイプラインにルーティングする。

Hallucination continues to be one of the most critical challenges in the institutional adoption journey of Large Language Models (LLMs). While prior studies have primarily focused on the post-generation analysis and refinement of outputs, this paper centers on the effectiveness of queries in eliciting accurate responses from LLMs. We present HalluciBot, a model that estimates the query's propensity to hallucinate before generation, without invoking any LLMs during inference. HalluciBot can serve as a proxy reward model for query rewriting, offering a general framework to estimate query quality based on accuracy and consensus. In essence, HalluciBot investigates how poorly constructed queries can lead to erroneous outputs - moreover, by employing query rewriting guided by HalluciBot's empirical estimates, we demonstrate that 95.7% output accuracy can be achieved for Multiple Choice questions. The training procedure for HalluciBot consists of perturbing 369,837 queries n times, employing n+1 independent LLM agents, sampling an output from each query, conducting a Multi-Agent Monte Carlo simulation on the sampled outputs, and training an encoder classifier. The idea of perturbation is the outcome of our ablation studies that measures the increase in output diversity (+12.5 agreement spread) by perturbing a query in lexically different but semantically similar ways. Therefore, HalluciBot paves the way to ratiocinate (76.0% test F1 score, 46.6% in saved computation on hallucinatory queries), rewrite (+30.2% positive class transition from hallucinatory to non-hallucinatory), rank (+50.6% positive class transition from hallucinatory to non-hallucinatory), and route queries to effective pipelines.
翻訳日:2024-09-04 18:40:27 公開日:2024-08-31
# 非アベリア自己補正量子メモリ

Non-Abelian Self-Correcting Quantum Memory ( http://arxiv.org/abs/2405.11719v2 )

ライセンス: Link先を確認
Po-Shen Hsin, Ryohei Kobayashi, Guanyu Zhu, (参考訳) 局所可換な非パウリ安定化格子モデルと$\mathbb{Z}_2^3$高次ゲージ場の非自明なトポロジカル作用を持つ場理論を用いて、粒子励起のない時空次元のD\geq 5+1$で無限に多くの新しい候補非アベリア自己補正型トポロジカル量子メモリの族を構築する。 このような非パウリ安定化器モデルをマジック安定化器符号と呼ぶ。 トポロジカル順序の族は、アベリアの電気励起とアイシングのような融合則に従う非アベリア磁気励起を持ち、二面体群 $\mathbb{D}_8$ゲージ理論を2+1d で一般化する。 最も単純な例は、アベリアループ励起と非アベリア膜励起を含む5+1dの新しい非アベリア自己補正メモリである。 我々は、Peierls引数を用いて自己補正特性と熱安定性を示し、確率的局所セル-オートマトンデコーダを考案する。

We construct a family of infinitely many new candidate non-Abelian self-correcting topological quantum memories in $D\geq 5+1$ spacetime dimensions without particle excitations using local commuting non-Pauli stabilizer lattice models and field theories of $\mathbb{Z}_2^3$ higher-form gauge fields with nontrivial topological action. We call such non-Pauli stabilizer models magic stabilizer codes. The family of topological orders have Abelian electric excitations and non-Abelian magnetic excitations that obey Ising-like fusion rules, generalizing the dihedral group $\mathbb{D}_8$ gauge theory in 2+1d. The simplest example includes a new non-Abelian self-correcting memory in 5+1d with Abelian loop excitations and non-Abelian membrane excitations. We use a Peierls argument to demonstrate the self-correction property and the thermal stability, and devise a probablistic local cellular-automaton decoder.
翻訳日:2024-09-04 18:11:10 公開日:2024-08-31
# 生成的対向ネットワークを用いた都市交通騒音マッピングの迅速化

A rapid approach to urban traffic noise mapping with a generative adversarial network ( http://arxiv.org/abs/2405.13227v2 )

ライセンス: Link先を確認
Xinhao Yang, Zhen Han, Xiaodong Lu, Yuan Zhang, (参考訳) 急速な都市化と交通密度の増加に伴い、交通騒音は都市計画において大きな関心事となっている。 しかし、従来のグリッドノイズマッピング手法には、時間消費、ソフトウェアコスト、パラメータ統合インタフェースの欠如といった制限がある。 これらの制限は、街路規模の都市計画の初期段階において、反復的な更新と迅速なパフォーマンスフィードバックの必要性を満たす能力を妨げている。 そこで我々は,GANを代理モデルとして利用する都市交通騒音の高速マッピング手法を開発した。 提案手法は,道路や建物などの都市要素を入力として,都市交通騒音分布の迅速評価を可能にする。 平均二乗誤差(RMSE)と構造類似度指数(SSIM)はそれぞれ0.3024dB(A)と0.8528である。 トレーニングされたモデルはGrasshopperにツールとして統合され、トラフィックノイズマップの迅速な生成を容易にする。 この統合により、都市設計者やプランナーは、音響学の専門知識のない者でも、設計の初期段階における設計による音響への影響を簡単に予測できる。

With rapid urbanisation and the accompanying increase in traffic density, traffic noise has become a major concern in urban planning. However, traditional grid noise mapping methods have limitations in terms of time consumption, software costs, and a lack of parameter integration interfaces. These limitations hinder their ability to meet the need for iterative updates and rapid performance feedback in the early design stages of street-scale urban planning. Herein, we developed a rapid urban traffic noise mapping technique that leverages generative adversarial networks (GANs) as a surrogate model. This approach enables the rapid assessment of urban traffic noise distribution by using urban elements such as roads and buildings as the input. The mean values for the mean squared error (RMSE) and structural similarity index (SSIM) are 0.3024 dB(A) and 0.8528, respectively, for the validation dataset. The trained model is integrated into Grasshopper as a tool, facilitating the rapid generation of traffic noise maps. This integration allows urban designers and planners, even those without expertise in acoustics, to easily anticipate changes in acoustics impacts caused by design in the early design stages.
翻訳日:2024-09-04 18:11:10 公開日:2024-08-31
# ConSiDERS-The-Human Evaluation Framework: 生成型大規模言語モデルに対する人的評価の再考

ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models ( http://arxiv.org/abs/2405.18638v2 )

ライセンス: Link先を確認
Aparna Elangovan, Ling Liu, Lei Xu, Sravan Bodapati, Dan Roth, (参考訳) 本稿では,人為的な大規模言語モデル(LLM)の評価は,ユーザエクスペリエンス研究や人間の行動心理学といった分野から洞察を得て,実験設計と結果の信頼性を確保するための多分野的な取り組みであるべきだ,と論じる。 これらの評価から得られた結論は、ユーザビリティ、美学、認知バイアスなどの要因を考慮しなければならない。 認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。 さらに、評価は、効果的なテストセットを必要とする、ますます強力な大規模言語モデルの能力と弱点を区別するべきである。 人的評価のスケーラビリティは、広く採用するためにも不可欠である。 そこで,生成NLP時代の効果的な人的評価システムを設計するために,コンシダーS-The-Human評価フレームワークを提案する。

In this position paper, we argue that human evaluation of generative large language models (LLMs) should be a multidisciplinary undertaking that draws upon insights from disciplines such as user experience research and human behavioral psychology to ensure that the experimental design and results are reliable. The conclusions from these evaluations, thus, must consider factors such as usability, aesthetics, and cognitive biases. We highlight how cognitive biases can conflate fluent information and truthfulness, and how cognitive uncertainty affects the reliability of rating scores such as Likert. Furthermore, the evaluation should differentiate the capabilities and weaknesses of increasingly powerful large language models -- which requires effective test sets. The scalability of human evaluation is also crucial to wider adoption. Hence, to design an effective human evaluation system in the age of generative NLP, we propose the ConSiDERS-The-Human evaluation framework consisting of 6 pillars -- Consistency, Scoring Criteria, Differentiating, User Experience, Responsible, and Scalability.
翻訳日:2024-09-04 18:00:58 公開日:2024-08-31
# 深層ニューラルネットワークによる言語構造獲得の理論

Towards a theory of how the structure of language is acquired by deep neural networks ( http://arxiv.org/abs/2406.00048v2 )

ライセンス: Link先を確認
Francesco Cagnetta, Matthieu Wyart, (参考訳) 言語の構造を学ぶのにどのくらいのデータが必要か? 本研究では,確率論的文脈自由文法(PCFG)を用いて生成した合成データセットについて検討する。 モデルを用いてトークンとトークンの相関関係を解析的に決定し,文法の隠れ変数を表現できることを示す。 さらに、有限トレーニングセットは、相関の分解を、トレーニングセットのサイズが大きくなる有効範囲に制限する。 結果として、多くの例で訓練された言語モデルは、文法の構造をより深く表現することができるため、問題の高次元性にもかかわらず、優れた性能を達成することができる。 トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。 特に,トレーニングセットサイズによるテスト損失行動のスケーリング法則が,シェイクスピアの戯曲やウィキペディアの記事で実証的に確認されたコンテキストウィンドウの長さに依存するかを予測する。

How much data is required to learn the structure of a language via next-token prediction? We study this question for synthetic datasets generated via a Probabilistic Context-Free Grammar (PCFG) -- a tree-like generative model that captures many of the hierarchical structures found in natural languages. We determine token-token correlations analytically in our model and show that they can be used to build a representation of the grammar's hidden variables, the longer the range the deeper the variable. In addition, a finite training set limits the resolution of correlations to an effective range, whose size grows with that of the training set. As a result, a Language Model trained with increasingly many examples can build a deeper representation of the grammar's structure, thus reaching good performance despite the high dimensionality of the problem. We conjecture that the relationship between training set size and effective range of correlations holds beyond our synthetic datasets. In particular, our conjecture predicts how the scaling law for the test loss behaviour with training set size depends on the length of the context window, which we confirm empirically in Shakespeare's plays and Wikipedia articles.
翻訳日:2024-09-04 18:00:58 公開日:2024-08-31
# InfiniBench: ビデオ理解における大規模マルチモーダルモデルの総合ベンチマーク

InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding ( http://arxiv.org/abs/2406.19875v2 )

ライセンス: Link先を確認
Kirolos Ataallah, Chenhui Gou, Eslam Abdelrahman, Khushbu Pahwa, Jian Ding, Mohamed Elhoseiny, (参考訳) 長いビデオを理解するには、数分間から数時間かかるが、ビデオの理解にはユニークな課題がある。 長大なビデオコンテンツの重要性は高まっているが、既存のベンチマークは主に短いクリップに焦点を当てている。 このギャップに対処するため、我々はInfiniBenchを非常に長いビデオ理解のための総合的なベンチマークとして導入した。 2)質問応答対最大108.2K 3)9つの異なるスキルを検証し、複数の選択の質問とオープンエンドの質問の両方を含む質問の多様性 4) 映像ソースは映画や毎日のテレビ番組から生まれており、批判的思考と包括的理解を必要とする映画スポイラー質問のような人間レベルの質問デザインである。 InfiniBenchを用いて、GPT-4oやGemini 1.5 Flashといった商用モデルやオープンソースモデルを含む、既存のLMM(Large Multi-Modality Model)を各スキルで包括的に評価する。 この評価は、我々のベンチマークで大きな課題を示している。 GPT-4oやGemini 1.5 Flashのような主要なAIモデルでさえ、長いビデオ理解においてハイパフォーマンスを達成する上で、平均精度は49.16\%と42.72\%、平均スコアは5点中3.22と2.71である。 このベンチマークがLMMコミュニティを、長いビデオと人間レベルの理解に刺激することを期待している。 私たちのベンチマークはhttps://vision-cair.github.io/InfiniBench/でアクセスできます。

Understanding long videos, ranging from tens of minutes to several hours, presents unique challenges in video comprehension. Despite the increasing importance of long-form video content, existing benchmarks primarily focus on shorter clips. To address this gap, we introduce InfiniBench a comprehensive benchmark for very long video understanding which presents 1)The longest video duration, averaging 52.59 minutes per video 2) The largest number of question-answer pairs, 108.2K 3) Diversity in questions that examine nine different skills and include both multiple-choice questions and open-ended questions 4) Human-centric, as the video sources come from movies and daily TV shows, with specific human-level question designs such as Movie Spoiler Questions that require critical thinking and comprehensive understanding. Using InfiniBench, we comprehensively evaluate existing Large Multi-Modality Models (LMMs) on each skill, including the commercial models such as GPT-4o and Gemini 1.5 Flash and the open-source models. The evaluation shows significant challenges in our benchmark. Our findings reveal that even leading AI models like GPT-4o and Gemini 1.5 Flash face challenges in achieving high performance in long video understanding, with average accuracies of just 49.16\% and 42.72\%, and average scores of 3.22 and 2.71 out of 5, respectively. We hope this benchmark will stimulate the LMMs community towards long video and human-level understanding. Our benchmark can be accessed at https://vision-cair.github.io/InfiniBench/
翻訳日:2024-09-04 17:31:13 公開日:2024-08-31
# 会話におけるマルチモーダル感情認識のための高能率長距離遅延グラフニューラルネットワーク

Efficient Long-distance Latent Relation-aware Graph Neural Network for Multi-modal Emotion Recognition in Conversations ( http://arxiv.org/abs/2407.00119v2 )

ライセンス: Link先を確認
Yuntao Shou, Wei Ai, Jiayi Du, Tao Meng, Haiyan Liu, Nan Yin, (参考訳) 会話におけるマルチモーダル感情認識(MERC)の課題は,会話の多モーダル情報に基づいて各発話の真の感情状態を分析することである。 既存の手法では、グラフニューラルネットワーク(GNN)を使用して会話関係をモデル化し、文脈的潜在意味関係をキャプチャする。 しかし、GNNの複雑さのため、既存の手法では長距離発話間の潜在的な依存関係を効果的に捉えられず、MERCの性能が制限される。 本稿では,会話におけるマルチモーダル感情認識のための多モーダルグラフニューラルネットワーク(ELR-GNN)を提案する。 具体的には、まず、Bio-LSTMへの入力として、事前抽出されたテキスト、ビデオ、オーディオ機能を使用し、文脈意味情報をキャプチャし、低レベル発話機能を得る。 そして,低レベル発話機能を用いて対話型感情相互作用グラフを構築する。 長距離発話間の潜在的な依存関係を効率よく把握するために,拡張一般化されたフォワードプッシュアルゴリズムを用いて,大域的発話間の感情伝播を事前計算し,異なる発話間の潜在的な意味的関連を抽出する感情的関係認識演算子を設計する。 さらに、早期融合と適応後期融合機構を組み合わせることで、話者関係情報と文脈間の潜伏依存性情報を融合する。 最後に、高レベルな談話機能を取得し、感情予測のためにMLPに供給する。 ELR-GNN はベンチマークデータセット IEMOCAP と MELD に対して,それぞれ 52 % と 35 % の動作時間を短縮し,最先端の性能を達成している。

The task of multi-modal emotion recognition in conversation (MERC) aims to analyze the genuine emotional state of each utterance based on the multi-modal information in the conversation, which is crucial for conversation understanding. Existing methods focus on using graph neural networks (GNN) to model conversational relationships and capture contextual latent semantic relationships. However, due to the complexity of GNN, existing methods cannot efficiently capture the potential dependencies between long-distance utterances, which limits the performance of MERC. In this paper, we propose an Efficient Long-distance Latent Relation-aware Graph Neural Network (ELR-GNN) for multi-modal emotion recognition in conversations. Specifically, we first use pre-extracted text, video and audio features as input to Bi-LSTM to capture contextual semantic information and obtain low-level utterance features. Then, we use low-level utterance features to construct a conversational emotion interaction graph. To efficiently capture the potential dependencies between long-distance utterances, we use the dilated generalized forward push algorithm to precompute the emotional propagation between global utterances and design an emotional relation-aware operator to capture the potential semantic associations between different utterances. Furthermore, we combine early fusion and adaptive late fusion mechanisms to fuse latent dependency information between speaker relationship information and context. Finally, we obtain high-level discourse features and feed them into MLP for emotion prediction. Extensive experimental results show that ELR-GNN achieves state-of-the-art performance on the benchmark datasets IEMOCAP and MELD, with running times reduced by 52\% and 35\%, respectively.
翻訳日:2024-09-04 17:31:13 公開日:2024-08-31
# 説明可能なAI: 基礎疾患分類のための正常および拡張ResNetモデルの比較分析

Explainable AI: Comparative Analysis of Normal and Dilated ResNet Models for Fundus Disease Classification ( http://arxiv.org/abs/2407.05440v2 )

ライセンス: Link先を確認
P. N. Karthikayan, Yoga Sri Varshan V, Hitesh Gupta Kattamuri, Umarani Jayaraman, (参考訳) 本稿では網膜基底像からの疾患分類のための拡張Residual Network(ResNet)モデルを提案する。 拡張畳み込みフィルタは、ResNetモデル(Dilated ResNet)の上位層における通常の畳み込みフィルタを置き換えるために用いられる。 本研究では,ディープラーニングを応用し,説明可能なAI技術によって強化されたコンピュータ支援診断ツールを紹介する。 これらのテクニックは、ツールの意思決定プロセスを透過的にすることで、医療専門家がAIの診断決定を理解し、信頼することを可能にします。 それらは、信頼性と倫理的使用を保証するために、AIアプリケーションに透明性を求める声が高まっている、今日のヘルスケアの状況に特に関係している。 拡張ResNetは、網膜眼疾患の分類精度を高め、必要な計算時間を短縮するために、通常のResNetの代替として使用される。 この研究で使用されるデータセットは眼疾患知能認識(Ocular Disease Intelligent Recognition, ODIR)データセットである。 この研究で使用される評価指標には、精度、リコール、精度、F1スコアが含まれる。 本研究では、ResNet-18、ResNet-34、ResNet-50、ResNet-101、ResNet-152の5種類のモデルに対して、通常のResNetモデルと拡張ResNetモデルの比較研究を行った。 The dilated ResNet model showed promising results than normal ResNet with average F1 score of 0.71, 0.70, 0.69, 0.67, 0.70 for the each variants in ODIR multiclass disease classification。

This paper presents dilated Residual Network (ResNet) models for disease classification from retinal fundus images. Dilated convolution filters are used to replace normal convolution filters in the higher layers of the ResNet model (dilated ResNet) in order to improve the receptive field compared to the normal ResNet model for disease classification. This study introduces computer-assisted diagnostic tools that employ deep learning, enhanced with explainable AI techniques. These techniques aim to make the tool's decision-making process transparent, thereby enabling medical professionals to understand and trust the AI's diagnostic decision. They are particularly relevant in today's healthcare landscape, where there is a growing demand for transparency in AI applications to ensure their reliability and ethical use. The dilated ResNet is used as a replacement for the normal ResNet to enhance the classification accuracy of retinal eye diseases and reduce the required computing time. The dataset used in this work is the Ocular Disease Intelligent Recognition (ODIR) dataset which is a structured ophthalmic database with eight classes covering most of the common retinal eye diseases. The evaluation metrics used in this work include precision, recall, accuracy, and F1 score. In this work, a comparative study has been made between normal ResNet models and dilated ResNet models on five variants namely ResNet-18, ResNet-34, ResNet-50, ResNet-101, and ResNet-152. The dilated ResNet model shows promising results as compared to normal ResNet with an average F1 score of 0.71, 0.70, 0.69, 0.67, and 0.70 respectively for the above respective variants in ODIR multiclass disease classification.
翻訳日:2024-09-04 17:31:13 公開日:2024-08-31
# FORAY:DeFiプロトコルにおける深い論理的脆弱性に対する効果的な攻撃合成を目指して

FORAY: Towards Effective Attack Synthesis against Deep Logical Vulnerabilities in DeFi Protocols ( http://arxiv.org/abs/2407.06348v2 )

ライセンス: Link先を確認
Hongbo Wen, Hanzhi Liu, Jiaxin Song, Yanju Chen, Wenbo Guo, Yu Feng, (参考訳) ブロックチェーンの採用は、分散ファイナンス(DeFi)アプリケーションの増加に伴って急増している。 しかし、DeFiプロトコルが管理するデジタル資産のかなりの価値は、攻撃の標的となる。 現在のスマートコントラクトの脆弱性検出ツールは、複数のスマートコントラクト間の複雑な金融インタラクションに起因する深い論理的バグのために、DeFiプロトコルに苦労している。 これらのツールは、主に個々のコントラクトを分析し、多数のスマートコントラクトを横断するDeFiプロトコルのブルートフォースメソッドを利用する。 我々は,DeFiプロトコルの深い論理的バグに対して,非常に効果的な攻撃合成フレームワークであるForayを紹介する。 Foray氏は、新しいアタックスケッチ生成と補完フレームワークを提案する。 具体的には、DeFisを通常のプログラムとして扱う代わりに、ドメイン固有言語(DSL)を設計し、低レベルのスマートコントラクトをハイレベルな金融操作に引き上げます。 DSLに基づいて、まず指定されたDeFiプロトコルをトークンフローグラフにコンパイルします。 そして,特定の攻撃目標(価格操作,仲裁など)に対する攻撃スケッチを効率よく合成するスケッチ生成手法を設計する。 このアルゴリズムは、ランダム列挙よりもはるかに効率的なTFGの到達可能な経路を見つけることによって、候補スケッチを戦略的に同定する。 ドメイン固有のシンボリックコンパイルを設計し、それをSMT制約にコンパイルします。 我々のコンパイルは、冗長なスマートコントラクトセマンティクスを取り除き、制約を単純化する。 シンボリックコンパイルのユーザビリティを維持するが、桁違いに大きい問題にスケールする。 最後に、候補は既存のソルバで完了し、直接構文変換によって具体的な攻撃に変換される。

Blockchain adoption has surged with the rise of Decentralized Finance (DeFi) applications. However, the significant value of digital assets managed by DeFi protocols makes them prime targets for attacks. Current smart contract vulnerability detection tools struggle with DeFi protocols due to deep logical bugs arising from complex financial interactions between multiple smart contracts. These tools primarily analyze individual contracts and resort to brute-force methods for DeFi protocols crossing numerous smart contracts, leading to inefficiency. We introduce Foray, a highly effective attack synthesis framework against deep logical bugs in DeFi protocols. Foray proposes a novel attack sketch generation and completion framework. Specifically, instead of treating DeFis as regular programs, we design a domain-specific language (DSL) to lift the low-level smart contracts into their high-level financial operations. Based on our DSL, we first compile a given DeFi protocol into a token flow graph, our graphical representation of DeFi protocols. Then, we design an efficient sketch generation method to synthesize attack sketches for a certain attack goal (e.g., price manipulation, arbitrage, etc.). This algorithm strategically identifies candidate sketches by finding reachable paths in TFG, which is much more efficient than random enumeration. For each candidate sketch written in our DSL, Foray designs a domain-specific symbolic compilation to compile it into SMT constraints. Our compilation simplifies the constraints by removing redundant smart contract semantics. It maintains the usability of symbolic compilation, yet scales to problems orders of magnitude larger. Finally, the candidates are completed via existing solvers and are transformed into concrete attacks via direct syntax transformation.
翻訳日:2024-09-04 17:31:13 公開日:2024-08-31
# 予測せずに将来のオブジェクト構成を予想する

Anticipating Future Object Compositions without Forgetting ( http://arxiv.org/abs/2407.10723v2 )

ライセンス: Link先を確認
Youssef Zahran, Gertjan Burghouts, Yke Bauke Eisma, (参考訳) コンピュータビジョンモデルの大幅な進歩にもかかわらず、新しいオブジェクト属性合成に一般化する能力は依然として限られている。 合成ゼロショット学習(CZSL)の既存の手法は主に画像分類に焦点を当てている。 本稿では,従来の知識を忘れることなく,物体検出におけるCZSLの向上を目指す。 我々は、Grounding DINOを使用し、コンポジション型ソフト・プロンプティング(CSP)を組み込んで、コンポジション型予測で拡張する。 我々は、CLEVRデータセット上の見かけと見えない合成の調和平均(HM)に対して、CSPよりも70.5%改善した。 さらに、類似した構成間のモデル混乱に漸進的に対処するために、Contrastive Prompt Tuningを導入する。 本手法の有効性を実証し, プレトレイン, インクリメント, 不可視集合におけるHMの14.5%の増加を実現する。 これらの手法は、限られたデータで様々な構成を学習するためのフレームワークを提供するとともに、追加データが利用可能になったときの過度な構成の性能を向上させる。

Despite the significant advancements in computer vision models, their ability to generalize to novel object-attribute compositions remains limited. Existing methods for Compositional Zero-Shot Learning (CZSL) mainly focus on image classification. This paper aims to enhance CZSL in object detection without forgetting prior learned knowledge. We use Grounding DINO and incorporate Compositional Soft Prompting (CSP) into it and extend it with Compositional Anticipation. We achieve a 70.5% improvement over CSP on the harmonic mean (HM) between seen and unseen compositions on the CLEVR dataset. Furthermore, we introduce Contrastive Prompt Tuning to incrementally address model confusion between similar compositions. We demonstrate the effectiveness of this method and achieve an increase of 14.5% in HM across the pretrain, increment, and unseen sets. Collectively, these methods provide a framework for learning various compositions with limited data, as well as improving the performance of underperforming compositions when additional data becomes available.
翻訳日:2024-09-04 17:21:21 公開日:2024-08-31
# 公正な偽造検出におけるラシアルバイアスを考える:モデル,データセット,評価

Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations ( http://arxiv.org/abs/2407.14367v2 )

ライセンス: Link先を確認
Decheng Liu, Zongqi Wang, Chunlei Peng, Nannan Wang, Ruimin Hu, Xinbo Gao, (参考訳) 深層画像生成技術の発展が成功したため、偽造検出は社会と経済の安全保障においてより重要な役割を担っている。 深部偽造検出分野では, 顔面バイアスは徹底的に調査されていない。 本稿では、まずFair Forgery Detection(FairFD)データセットと呼ばれる専用データセットを寄贈し、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。 既存の偽造検出データセットとは異なり、自己構築されたFairFDデータセットは、バランスの取れた人種比と、最も大規模な被験者との多様な偽造生成画像を含んでいる。 さらに, 偽検出モデルのベンチマークを行う際に, 虚偽の公平度指標の問題点を同定する。 公平さを包括的に評価するために、我々は、偽装的な結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。 また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。 12の代表的な偽造検出モデルを用いて行われた大規模な実験は、提案したデータセットの価値と、設計された公正度メトリクスの理性を示す。 BPFAを既存の最良検出器に適用することにより、新しいSOTAを実現する。 さらに、より詳細な分析を行い、コミュニティの研究者に刺激を与えるための洞察を提供する。

Due to the successful development of deep image generation technology, forgery detection plays a more important role in social and economic security. Racial bias has not been explored thoroughly in the deep forgery detection field. In the paper, we first contribute a dedicated dataset called the Fair Forgery Detection (FairFD) dataset, where we prove the racial bias of public state-of-the-art (SOTA) methods. Different from existing forgery detection datasets, the self-constructed FairFD dataset contains a balanced racial ratio and diverse forgery generation images with the largest-scale subjects. Additionally, we identify the problems with naive fairness metrics when benchmarking forgery detection models. To comprehensively evaluate fairness, we design novel metrics including Approach Averaged Metric and Utility Regularized Metric, which can avoid deceptive results. We also present an effective and robust post-processing technique, Bias Pruning with Fair Activations (BPFA), which improves fairness without requiring retraining or weight updates. Extensive experiments conducted with 12 representative forgery detection models demonstrate the value of the proposed dataset and the reasonability of the designed fairness metrics. By applying the BPFA to the existing fairest detector, we achieve a new SOTA. Furthermore, we conduct more in-depth analyses to offer more insights to inspire researchers in the community.
翻訳日:2024-09-04 17:11:28 公開日:2024-08-31
# ユニタリ群を超えた低深さ・コンパクト・エラー耐性フォトニックマトリクス-ベクトル乗法

Low-depth, compact and error-tolerant photonic matrix-vector multiplication beyond the unitary group ( http://arxiv.org/abs/2408.00669v2 )

ライセンス: Link先を確認
S. A. Fldzhyan, M. Yu. Saygin, S. S. Straupe, (参考訳) 大規模プログラマブルフォトニック回路は、行列ベクトル乗算のための高速かつエネルギー効率の高い手段を提供する情報処理の新たな可能性を開く。 本稿では, フォトニックニューラルネットワーク, 反復方程式解法, 量子サンプリング器で通常必要とされる, 単項変換行列を実装可能なフォトニック回路のアーキテクチャを提案する。 我々のアーキテクチャでは、従来の設計で使用されていた大きめの完全連結ミキシングブロックではなく、小型の低深さビームスプリッターメッシュを利用しており、平面集積フォトニクス技術との互換性が向上している。 我々のアーキテクチャで設計されたフォトニック回路は、標準回路よりも奥行きが低く、ハードウェアエラーに非常に耐性があることが示されている。

Large-scale programmable photonic circuits are opening up new possibilities for information processing providing fast and energy-efficient means for matrix-vector multiplication. Here, we introduce a novel architecture of photonic circuits capable of implementing non-unitary transfer matrices, usually required by photonic neural networks, iterative equation solvers or quantum samplers. Our architecture exploits compact low-depth beam-splitter meshes rather than bulky fully connected mixing blocks used in previous designs, making it more compatible with planar integrated photonics technology. We have shown that photonic circuits designed with our architecture have lower depth than their standard counterparts and are extremely tolerant to hardware errors.
翻訳日:2024-09-04 17:01:34 公開日:2024-08-31
# ドラママシン: LLMエージェントによるキャラクタ開発シミュレーション

The Drama Machine: Simulating Character Development with LLM Agents ( http://arxiv.org/abs/2408.01725v2 )

ライセンス: Link先を確認
Liam Magee, Vanicka Arora, Gus Gollings, Norma Lam-Saw, (参考訳) 本稿では,多言語モデル (LLM) エージェントを用いたドラマティックシナリオにおける複雑な動的キャラクタのシミュレートについて検討する。 本稿では,異なる「エゴ」と「スーパーエゴ」の心理的役割を演じるLLMエージェント間の相互作用を協調するドラママシンフレームワークを提案する。 ロールプレイシミュレーションでは、この設計により、オブジェクト間対話とオブジェクト内モノローグを並列に開発することができる。 本稿では,この枠組みを2つの劇的なシナリオ – インタビューと探偵物語 – に適用し,キャラクター開発とスーパーエゴの影響の有無を比較した。 探索的ではあるが、このマルチエージェントアプローチは、対話的なターンの連続を通して進化する、よりニュアンスで適応的な物語を生み出すことを示唆している。 我々は、LLMに基づくロールプレイとキャラクタ開発の違いと、これがAI主観性の概念化に何を意味するかについて議論する。 本稿は,AIシミュレーションにおける内紛と社会的行動性の役割を考える上で,このアプローチがいかに可能性を開くかを考察して結論付ける。

This paper explores use of multiple large language model (LLM) agents to simulate complex, dynamic characters in dramatic scenarios. We introduce a drama machine framework that coordinates interactions between LLM agents playing different 'Ego' and 'Superego' psychological roles. In roleplay simulations, this design allows intersubjective dialogue and intra-subjective internal monologue to develop in parallel. We apply this framework to two dramatic scenarios - an interview and a detective story - and compare character development with and without the Superego's influence. Though exploratory, results suggest this multi-agent approach can produce more nuanced, adaptive narratives that evolve over a sequence of dialogical turns. We discuss different modalities of LLM-based roleplay and character development, along with what this might mean for conceptualization of AI subjectivity. The paper concludes by considering how this approach opens possibilities for thinking of the roles of internal conflict and social performativity in AI-based simulation.
翻訳日:2024-09-04 17:01:34 公開日:2024-08-31
# 拡散型雑音中心学習を用いたユーザ間活動認識のための対数領域適応法

Adversarial Domain Adaptation for Cross-user Activity Recognition Using Diffusion-based Noise-centred Learning ( http://arxiv.org/abs/2408.03353v2 )

ライセンス: Link先を確認
Xiaozhou Ye, Kevin I-Kai Wang, (参考訳) HAR(Human Activity Recognition)は、人間とコンピュータの相互作用や医療モニタリングなど、様々な用途において重要な役割を担っている。 しかし、HARモデルでは、トレーニングと実世界のデータ分散の違いにより、特にユーザ間のシナリオで顕著な課題が続いている。 本稿では,拡散に基づく雑音中心学習ドメイン適応(Diff-Noise-Adv-DA)と呼ばれる新しいフレームワークを提案する。 従来のHARモデルは、ユーザの振る舞いやセンサデータの分散の多様性に悩まされることが多い。 Diff-Noise-Adv-DAは、拡散モデルに固有のノイズを革新的に統合し、その潜伏情報を利用してドメイン適応を強化する。 具体的には、このフレームワークはノイズをアクティビティとドメインクラスの情報の重要なキャリアに変換し、異なるユーザドメイン間の堅牢な分類を容易にする。 Diff-Noise-Adv-DAが従来のドメイン適応手法を超越したHARモデルの性能向上に有効であることを実験的に評価した。 このフレームワークは、分散ミスマッチを緩和するだけでなく、ノイズベースの denoising 技術を通じてデータ品質を向上させる。

Human Activity Recognition (HAR) plays a crucial role in various applications such as human-computer interaction and healthcare monitoring. However, challenges persist in HAR models due to the data distribution differences between training and real-world data distributions, particularly evident in cross-user scenarios. This paper introduces a novel framework, termed Diffusion-based Noise-centered Adversarial Learning Domain Adaptation (Diff-Noise-Adv-DA), designed to address these challenges by leveraging generative diffusion modeling and adversarial learning techniques. Traditional HAR models often struggle with the diversity of user behaviors and sensor data distributions. Diff-Noise-Adv-DA innovatively integrates the inherent noise within diffusion models, harnessing its latent information to enhance domain adaptation. Specifically, the framework transforms noise into a critical carrier of activity and domain class information, facilitating robust classification across different user domains. Experimental evaluations demonstrate the effectiveness of Diff-Noise-Adv-DA in improving HAR model performance across different users, surpassing traditional domain adaptation methods. The framework not only mitigates distribution mismatches but also enhances data quality through noise-based denoising techniques.
翻訳日:2024-09-04 17:01:34 公開日:2024-08-31
# オンライン強化学習のためのKolmogorov-Arnoldネットワーク

Kolmogorov-Arnold Network for Online Reinforcement Learning ( http://arxiv.org/abs/2408.04841v3 )

ライセンス: Link先を確認
Victor Augusto Kich, Jair Augusto Bottega, Raul Steinmetz, Ricardo Bedin Grando, Ayano Yorozu, Akihisa Ohya, (参考訳) Kolmogorov-Arnold Networks (KAN) は、ニューラルネットワークにおけるマルチ層パーセプトロン(MLP)の代替としての可能性を示し、パラメータの少ない普遍関数近似とメモリ使用量の削減を実現している。 本稿では,PPOアルゴリズムにおける関数近似器としてのkanの使用について検討する。 我々は、DeepMind Control Proprio Roboticsベンチマークを用いて、その性能を元のMPPベースのPPOと比較することで、このアプローチを評価した。 以上の結果から,KAをベースとした強化学習アルゴリズムは,MLPに匹敵する性能を達成できることが示唆された。 これらの結果から,kansは強化学習モデルに対して,より効率的な選択肢を提供する可能性が示唆された。

Kolmogorov-Arnold Networks (KANs) have shown potential as an alternative to Multi-Layer Perceptrons (MLPs) in neural networks, providing universal function approximation with fewer parameters and reduced memory usage. In this paper, we explore the use of KANs as function approximators within the Proximal Policy Optimization (PPO) algorithm. We evaluate this approach by comparing its performance to the original MLP-based PPO using the DeepMind Control Proprio Robotics benchmark. Our results indicate that the KAN-based reinforcement learning algorithm can achieve comparable performance to its MLP-based counterpart, often with fewer parameters. These findings suggest that KANs may offer a more efficient option for reinforcement learning models.
翻訳日:2024-09-04 16:51:50 公開日:2024-08-31
# CURLing the Dream: Reinforcement Learningにおける世界モデリングの対照的な表現

CURLing the Dream: Contrastive Representations for World Modeling in Reinforcement Learning ( http://arxiv.org/abs/2408.05781v2 )

ライセンス: Link先を確認
Victor Augusto Kich, Jair Augusto Bottega, Raul Steinmetz, Ricardo Bedin Grando, Ayano Yorozu, Akihisa Ohya, (参考訳) 本稿では,DreamerV3フレームワークにコントラスト学習を統合した新しい強化学習アルゴリズムであるCurled-Dreamerを紹介する。 CURLアルゴリズムからの対照的な損失とオートエンコーダからの再構成損失を取り入れることで、Curled-DreamerはDeepMind Control Suiteタスクにおいて大幅な改善を実現している。 我々の広範な実験により、Curled-Dreamerは最先端のアルゴリズムを一貫して上回り、さまざまなタスクセットの平均と中央値のスコアを達成している。 その結果,提案手法は学習を促進させるだけでなく,学習方針の堅牢性を高めることが示唆された。 この研究は、強化学習アプリケーションにおいて優れた性能を達成するために、異なる学習パラダイムを組み合わせる可能性を強調している。

In this work, we present Curled-Dreamer, a novel reinforcement learning algorithm that integrates contrastive learning into the DreamerV3 framework to enhance performance in visual reinforcement learning tasks. By incorporating the contrastive loss from the CURL algorithm and a reconstruction loss from autoencoder, Curled-Dreamer achieves significant improvements in various DeepMind Control Suite tasks. Our extensive experiments demonstrate that Curled-Dreamer consistently outperforms state-of-the-art algorithms, achieving higher mean and median scores across a diverse set of tasks. The results indicate that the proposed approach not only accelerates learning but also enhances the robustness of the learned policies. This work highlights the potential of combining different learning paradigms to achieve superior performance in reinforcement learning applications.
翻訳日:2024-09-04 16:51:50 公開日:2024-08-31
# オンラインスコア支援フェデレーションラーニング:無線ネットワークにおけるリソース制約の活用

Online-Score-Aided Federated Learning: Taming the Resource Constraints in Wireless Networks ( http://arxiv.org/abs/2408.05886v2 )

ライセンス: Link先を確認
Md Ferdous Pervej, Minseok Choi, Andreas F. Molisch, (参考訳) FLはデータプライバシを保護する分散ML戦略として広く普及しているが、時間変化のある無線ネットワークパラメータと、無線デバイスの異種システム構成は重大な課題である。 ネットワークとクライアントの限られた無線リソースと計算リソースは広く認識されているが、重要な2つの側面は無視されている。 (a)無線端末は、FLタスクに限られたストレージのごく一部だけを割り当てることができる。 b)新しいトレーニングサンプルは、多くの実用的な無線アプリケーションにおいてオンラインに届く可能性がある。 そこで本研究では,これらの実践的考察に基づき,無線アプリケーションに関連するタスクを学習するために,OSAFLと呼ばれる新しいFLアルゴリズムを提案する。 過度なリソース制約の下で、クライアントは任意の数のローカルトレーニングステップを実行でき、これは統計的に不均一なデータ分布の下でクライアントのドリフトを引き起こす可能性があることが長年証明されてきたので、正規化勾配の類似性を活用し、提案したOSAFLアルゴリズムの収束率を促進する最適化スコアに基づいてクライアントの更新を重み付けする。 一般的な4つのMLモデルは、既存の6つの最先端のFLベースラインと比較してOSAFLの有効性を検証する。

While FL is a widely popular distributed ML strategy that protects data privacy, time-varying wireless network parameters and heterogeneous system configurations of the wireless device pose significant challenges. Although the limited radio and computational resources of the network and the clients, respectively, are widely acknowledged, two critical yet often ignored aspects are (a) wireless devices can only dedicate a small chunk of their limited storage for the FL task and (b) new training samples may arrive in an online manner in many practical wireless applications. Therefore, we propose a new FL algorithm called OSAFL, specifically designed to learn tasks relevant to wireless applications under these practical considerations. Since it has long been proven that under extreme resource constraints, clients may perform an arbitrary number of local training steps, which may lead to client drift under statistically heterogeneous data distributions, we leverage normalized gradient similarities and exploit weighting clients' updates based on optimized scores that facilitate the convergence rate of the proposed OSAFL algorithm. Our extensive simulation results on two different tasks -- each with three different datasets -- with four popular ML models validate the effectiveness of OSAFL compared to six existing state-of-the-art FL baselines.
翻訳日:2024-09-04 16:51:50 公開日:2024-08-31
# CMAB: オープンソースデータとGeoAIから派生した中国初の全国規模のマルチアトリビュートビルディングデータセット

CMAB: A First National-Scale Multi-Attribute Building Dataset in China Derived from Open Source Data and GeoAI ( http://arxiv.org/abs/2408.05891v3 )

ライセンス: Link先を確認
Yecheng Zhang, Huimin Zhao, Ying Long, (参考訳) 屋上、高さ、方位などの幾何学的属性や、機能、品質、年齢などの指示的属性を含む3次元の建物データを素早く取得することは、正確な都市分析、シミュレーション、政策更新に不可欠である。 現在のビルディングデータセットは、マルチ属性の構築の不完全なカバレッジに悩まされている。 本稿では,大規模建築モデリングのための地理空間人工知能(GeoAI)フレームワークについて紹介し,3,667の空間都市,29万の建物,213億平方メートルの屋上を対象とし,総面積337億立方メートルのOCRNetをベースとしたF1スコア89.93%の建物ストックを作成した。 都市の行政区分を用いて, ブートストラップを集約したXGBoostモデルを訓練し, 形態, 位置, 機能などの特徴を取り入れた。 数十億もの高解像度のGoogle Earth画像と6000万のストリートビュー画像(SVI)を含むマルチソースデータを使用して、各ビルの屋上、高さ、機能、年齢、品質特性を生成しました。 精度は、モデルベンチマーク、既存の類似製品、手動SVIバリデーションを通じて、大半が80%以上で検証された。 我々のデータセットと結果は、グローバルSDGと都市計画にとって不可欠です。

Rapidly acquiring three-dimensional (3D) building data, including geometric attributes like rooftop, height and orientations, as well as indicative attributes like function, quality, and age, is essential for accurate urban analysis, simulations, and policy updates. Current building datasets suffer from incomplete coverage of building multi-attributes. This paper introduces a geospatial artificial intelligence (GeoAI) framework for large-scale building modeling, presenting the first national-scale Multi-Attribute Building dataset (CMAB), covering 3,667 spatial cities, 29 million buildings, and 21.3 billion square meters of rooftops with an F1-Score of 89.93% in OCRNet-based extraction, totaling 337.7 billion cubic meters of building stock. We trained bootstrap aggregated XGBoost models with city administrative classifications, incorporating features such as morphology, location, and function. Using multi-source data, including billions of high-resolution Google Earth images and 60 million street view images (SVIs), we generated rooftop, height, function, age, and quality attributes for each building. Accuracy was validated through model benchmarks, existing similar products, and manual SVI validation, mostly above 80%. Our dataset and results are crucial for global SDGs and urban planning.
翻訳日:2024-09-04 16:51:50 公開日:2024-08-31
# Palantir: 超高精細ライブストリーミングのための高効率超解像を目指して

Palantir: Towards Efficient Super Resolution for Ultra-high-definition Live Streaming ( http://arxiv.org/abs/2408.06152v2 )

ライセンス: Link先を確認
Xinqi Jin, Zhui Zhu, Xikai Sun, Fan Dang, Jiangchuan Liu, Jingao Xu, Kebin Liu, Xinlei Chen, Yunhao Liu, (参考訳) 超解像度(SR)ディープニューラルネットワーク(DNN)によるニューラルエンハンスメントは、既存のエンコーディングとネットワークインフラストラクチャ上でのUHDライブストリーミングの新たな可能性を開く。 しかし、重いSR DNN推論のオーバーヘッドは、重大なデプロイメントの課題に繋がる。 オーバヘッドを低減するため、既存のシステムは、軽量リユースベースのSRアプローチにより非アンカーフレームをアップスケーリングしながら、慎重に選択されたアンカーフレームにのみDNNベースのSRを適用することを提案する。 しかし、フレームレベルのスケジューリングは粗い粒度であり、最適な効率が得られない。 本研究では,ニューラルネットワークによるUHDライブストリーミングシステムPalantirを提案する。 2つの新しいテクニックがPalantirに組み込まれ、最も有益なアンカーパッチを選択し、レイテンシに敏感なUHDライブストリーミングアプリケーションをサポートする。 まず、先駆的および理論的解析の指導のもと、Palantirは任意のアンカーパッチセットの下で、軽量かつ正確なSR品質推定のための有向非巡回グラフ(DAG)を構築した。 第2に、スケジューリング遅延をさらに最適化するために、Palantirは、推定プロセスの計算サブプロデューサをスパース行列行列行列乗算演算にリファクタリングすることにより、並列化性を向上させる。 評価結果は、Palantirが、エンドツーエンドのレイテンシ要件の5.7%未満で、無視可能なスケジュール遅延を発生していることを示唆している。 全てのフレームにDNNベースのSRを適用する単純な方法と比較すると、Palantirは品質向上の54.0-82.6%(または32.8-64.0%)を保ちながら、SR DNNの推測オーバーヘッドを20倍(60倍)削減することができる。 最先端のリアルタイムフレームレベルのスケジューリング戦略と比較すると、Palantirはビデオ品質を犠牲にすることなく、SR DNN推論のオーバーヘッドを最大80.1%(平均38.4%)削減することができる。

Neural enhancement through super-resolution (SR) deep neural networks (DNNs) opens up new possibilities for ultra-high-definition (UHD) live streaming over existing encoding and networking infrastructure. Yet, the heavy SR DNN inference overhead leads to severe deployment challenges. To reduce the overhead, existing systems propose to apply DNN-based SR only on carefully selected anchor frames while upscaling non-anchor frames via the lightweight reusing-based SR approach. However, frame-level scheduling is coarse-grained and fails to deliver optimal efficiency. In this work, we propose Palantir, the first neural-enhanced UHD live streaming system with fine-grained patch-level scheduling. Two novel techniques are incorporated into Palantir to select the most beneficial anchor patches and support latency-sensitive UHD live streaming applications. Firstly, under the guidance of our pioneering and theoretical analysis, Palantir constructs a directed acyclic graph (DAG) for lightweight yet accurate SR quality estimation under any possible anchor patch set. Secondly, to further optimize the scheduling latency, Palantir improves parallelizability by refactoring the computation subprocedure of the estimation process into a sparse matrix-matrix multiplication operation. The evaluation results suggest that Palantir incurs a negligible scheduling latency accounting for less than 5.7% of the end-to-end latency requirement. When compared to the naive method of applying DNN-based SR on all the frames, Palantir can reduce the SR DNN inference overhead by 20 times (or 60 times) while preserving 54.0-82.6% (or 32.8-64.0%) of the quality gain. When compared to the state-of-the-art real-time frame-level scheduling strategy, Palantir can reduce the SR DNN inference overhead by 80.1% at most (and 38.4% on average) without sacrificing the video quality.
翻訳日:2024-09-04 16:51:50 公開日:2024-08-31
# 2022年Mpoxアウトブレイク時のオンライン毒性の特徴:トピックとネットワークのダイナミクスの計算解析

Characterizing Online Toxicity During the 2022 Mpox Outbreak: A Computational Analysis of Topical and Network Dynamics ( http://arxiv.org/abs/2408.11962v2 )

ライセンス: Link先を確認
Lizhou Fan, Lingyao Li, Libby Hemphill, (参考訳) 背景:ハラスメント、いじめ、ヘイトスピーチ、誤報の拡散などの行動を含むオンライン毒性は、デジタル時代において社会的関心事となっている。 2022年のムポックスの流行は、当初は「モンキーポックス」と呼ばれていたが、その後、関連するスティグマや社会的懸念を緩和するために改名された。 目的:本研究では,2022年のMpox流行を取り巻く有害なオンライン談話の包括的分析を行う。 我々の目的は、その起源を解明し、その性質と内容を特徴づけ、その拡散パターンを辿り、そのより広範な社会的含意を評価し、将来の危機においてそのような毒性を緩和するための戦略を示すための洞察を提供することである。 メソッド: 我々は660万以上のユニークなツイートを収集し、コンテキスト、範囲、コンテンツ、話者、意図を含む5つの次元から分析した。 BERTベースのトピックモデリングとソーシャルネットワークコミュニティのクラスタリングを活用して、Twitter上で有害なダイナミックスを強調した。 結果:Twitter上での有害なオンライン談話では,病気(46.6%),健康政策と医療(19.3%),ホモフォビア(23.9%),政治(6.0%),人種差別(4.1%)の5つの高い話題カテゴリーを特定した。 言及やリツイート、トップユーザーによる毒性拡散ネットワークを通じて、有害コンテンツのリツイートが広まっていたのに対して、影響力のあるユーザはリツイートを通じてこの毒性に関わったり対抗したりすることはめったにないことがわかった。 結論: トピックのダイナミクスを追跡することで、有害なコンテンツの人気の変化をオンラインで追跡することができ、社会的課題の理解を深めることができます。 ネットワークのダイナミクスは、重要なソーシャルメディアインフルエンサーとその意図を浮き彫りにし、有害な談話におけるこれらの中心人物に対処することで危機コミュニケーションを高め、政策決定を通知できることを示している。

Background: Online toxicity, encompassing behaviors such as harassment, bullying, hate speech, and the dissemination of misinformation, has become a pressing social concern in the digital age. The 2022 Mpox outbreak, initially termed "Monkeypox" but subsequently renamed to mitigate associated stigmas and societal concerns, serves as a poignant backdrop to this issue. Objective: In this research, we undertake a comprehensive analysis of the toxic online discourse surrounding the 2022 Mpox outbreak. Our objective is to dissect its origins, characterize its nature and content, trace its dissemination patterns, and assess its broader societal implications, with the goal of providing insights that can inform strategies to mitigate such toxicity in future crises. Methods: We collected more than 1.6 million unique tweets and analyzed them from five dimensions, including context, extent, content, speaker, and intent. Utilizing BERT-based topic modeling and social network community clustering, we delineated the toxic dynamics on Twitter. Results: We identified five high-level topic categories in the toxic online discourse on Twitter, including disease (46.6%), health policy and healthcare (19.3%), homophobia (23.9%), politics (6.0%), and racism (4.1%). Through the toxicity diffusion networks of mentions, retweets, and the top users, we found that retweets of toxic content were widespread, while influential users rarely engaged with or countered this toxicity through retweets. Conclusions: By tracking topical dynamics, we can track the changing popularity of toxic content online, providing a better understanding of societal challenges. Network dynamics spotlight key social media influencers and their intents, indicating that addressing these central figures in toxic discourse can enhance crisis communication and inform policy-making.
翻訳日:2024-09-04 16:32:02 公開日:2024-08-31
# xGen-VideoSyn-1:圧縮表現を用いた高忠実テキスト・ビデオ合成

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations ( http://arxiv.org/abs/2408.12590v2 )

ライセンス: Link先を確認
Can Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong, (参考訳) テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルであるxGen-VideoSyn-1を提案する。 OpenAIのSoraのような最近の進歩に基づいて、潜在拡散モデル(LDM)アーキテクチャを探求し、ビデオ変分オートエンコーダ(VidVAE)を導入する。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さと長いシーケンスビデオの生成に伴う計算要求を大幅に削減する。 計算コストをさらに高めるため,ビデオセグメント間の時間的整合性を維持する分割・統合戦略を提案する。 我々の拡散変換器(DiT)モデルは空間的・時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比で堅牢な一般化を可能にする。 我々は、最初からデータ処理パイプラインを考案し、1300万以上の高品質のビデオテキストペアを収集しました。 パイプラインには、クリップ、テキスト検出、モーション推定、美学のスコアリング、社内のビデオ-LLMモデルに基づく濃密なキャプションなど、複数のステップが含まれています。 VidVAEとDiTの訓練にはそれぞれ40日と642日を要した。 我々のモデルは、14秒以上の720pビデオ生成をエンドツーエンドでサポートし、最先端のT2Vモデルと競合する性能を示す。

We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.
翻訳日:2024-09-04 16:32:02 公開日:2024-08-31
# GE-AdvGAN+による敵攻撃の伝達性向上

Enhancing Transferability of Adversarial Attacks with GE-AdvGAN+: A Comprehensive Framework for Gradient Editing ( http://arxiv.org/abs/2408.12673v2 )

ライセンス: Link先を確認
Zhibo Jin, Jiayu Zhang, Zhiyu Zhu, Yuchen Zhang, Jiahao Huang, Jianlong Zhou, Fang Chen, (参考訳) 転送可能な敵攻撃は、特に内部モデル情報がアクセスできないブラックボックスシナリオにおいて、ディープニューラルネットワークに重大な脅威をもたらす。 敵攻撃法の研究は、防御機構の性能を向上し、モデルの脆弱性を探究するのに役立つ。 これらの手法はモデルの弱点を発見し、活用し、より堅牢なアーキテクチャの開発を促進する。 しかしながら、トランスファー可能な攻撃の現在の手法は、特にエッジコンピューティングのシナリオにおいて、デプロイとアプリケーションを制限する、かなりの計算コストを伴うことが多い。 GAN(Generative Adversarial Networks)のような逆生成モデルは、最初のトレーニングフェーズ後に再トレーニングすることなくサンプルを生成する能力によって特徴付けられる。 GE-AdvGANは、この原理に基づいている。 本稿では,GE-AdvGAN+という,勾配編集に基づく転送可能な攻撃のための新しいフレームワークを提案する。 我々の実験は、我々のフレームワークの互換性と有効性を実証した。 ベースラインであるAdvGANと比較して、GE-AdvGAN++は平均47.8のASR改善を実現している。 さらに、最新の競合アルゴリズムであるGE-AdvGANを上回り、平均ASRは5.9増加した。 このフレームワークはまた、BIMやMI-FGSMといった従来の手法よりも優れた2217.7 FPSを達成し、計算効率も向上している。 GE-AdvGAN+フレームワークの実装コードはhttps://github.com/GEAdvGANPで公開されている。

Transferable adversarial attacks pose significant threats to deep neural networks, particularly in black-box scenarios where internal model information is inaccessible. Studying adversarial attack methods helps advance the performance of defense mechanisms and explore model vulnerabilities. These methods can uncover and exploit weaknesses in models, promoting the development of more robust architectures. However, current methods for transferable attacks often come with substantial computational costs, limiting their deployment and application, especially in edge computing scenarios. Adversarial generative models, such as Generative Adversarial Networks (GANs), are characterized by their ability to generate samples without the need for retraining after an initial training phase. GE-AdvGAN, a recent method for transferable adversarial attacks, is based on this principle. In this paper, we propose a novel general framework for gradient editing-based transferable attacks, named GE-AdvGAN+, which integrates nearly all mainstream attack methods to enhance transferability while significantly reducing computational resource consumption. Our experiments demonstrate the compatibility and effectiveness of our framework. Compared to the baseline AdvGAN, our best-performing method, GE-AdvGAN++, achieves an average ASR improvement of 47.8. Additionally, it surpasses the latest competing algorithm, GE-AdvGAN, with an average ASR increase of 5.9. The framework also exhibits enhanced computational efficiency, achieving 2217.7 FPS, outperforming traditional methods such as BIM and MI-FGSM. The implementation code for our GE-AdvGAN+ framework is available at https://github.com/GEAdvGANP
翻訳日:2024-09-04 16:32:02 公開日:2024-08-31
# Fire-Flyer AI-HPC - ディープラーニングのためのコスト効果のあるソフトウェアハードウェアの共同設計

Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning ( http://arxiv.org/abs/2408.14158v2 )

ライセンス: Link先を確認
Wei An, Xiao Bi, Guanting Chen, Shanhuang Chen, Chengqi Deng, Honghui Ding, Kai Dong, Qiushi Du, Wenjun Gao, Kang Guan, Jianzhong Guo, Yongqiang Guo, Zhe Fu, Ying He, Panpan Huang, Jiashi Li, Wenfeng Liang, Xiaodong Liu, Xin Liu, Yiyuan Liu, Yuxuan Liu, Shanghao Lu, Xuan Lu, Xiaotao Nie, Tian Pei, Junjie Qiu, Hui Qu, Zehui Ren, Zhangli Sha, Xuecheng Su, Xiaowen Sun, Yixuan Tan, Minghui Tang, Shiyu Wang, Yaohui Wang, Yongji Wang, Ziwei Xie, Yiliang Xiong, Yanhong Xu, Shengfeng Ye, Shuiping Yu, Yukun Zha, Liyue Zhang, Haowei Zhang, Mingchuan Zhang, Wentao Zhang, Yichao Zhang, Chenggang Zhao, Yao Zhao, Shangyan Zhou, Shunfeng Zhou, Yuheng Zou, (参考訳) ディープラーニング(DL)と大規模言語モデル(LLM)の急速な進歩により、計算能力と帯域幅の需要が指数関数的に増加した。 これは高速な計算チップとインターコネクトの高コストと組み合わさって、ハイパフォーマンス・コンピューティング(HPC)の構築コストを大幅に膨らませた。 これらの課題に対処するために、シナジスティックなハードウェアとソフトウェアの共同設計フレームワークであるFire-Flyer AI-HPCアーキテクチャとそのベストプラクティスを紹介します。 DLトレーニングでは,1万台のPCIe A100 GPUでFire-Flyer 2をデプロイし,DGX-A100の性能評価を達成し,コストを半減し,エネルギー消費を40%削減した。 我々は、アレーダ通信を高速化するためにHFReduceを特別に設計し、計算-ストレージ統合ネットワークの混雑を抑えるために多数の対策を実行した。 HaiScaleや3FS,HAI-Platformといったソフトウェアスタックを通じて,計算処理と通信を重複させることで,大幅なスケーラビリティを実現しました。 DLトレーニングによるシステム指向エクスペリエンスは、AI-HPCの今後の進歩を促進する上で、貴重な洞察を提供する。

The rapid progress in Deep Learning (DL) and Large Language Models (LLMs) has exponentially increased demands of computational power and bandwidth. This, combined with the high costs of faster computing chips and interconnects, has significantly inflated High Performance Computing (HPC) construction costs. To address these challenges, we introduce the Fire-Flyer AI-HPC architecture, a synergistic hardware-software co-design framework and its best practices. For DL training, we deployed the Fire-Flyer 2 with 10,000 PCIe A100 GPUs, achieved performance approximating the DGX-A100 while reducing costs by half and energy consumption by 40%. We specifically engineered HFReduce to accelerate allreduce communication and implemented numerous measures to keep our Computation-Storage Integrated Network congestion-free. Through our software stack, including HaiScale, 3FS, and HAI-Platform, we achieved substantial scalability by overlapping computation and communication. Our system-oriented experience from DL training provides valuable insights to drive future advancements in AI-HPC.
翻訳日:2024-09-04 16:21:29 公開日:2024-08-31
# ブラジリアンテレグラムにおけるアンチバックスとオフラベルの薬物群集--門口としての密教と偽奇跡的治療の収益化-

Antivax and off-label medication communities on brazilian Telegram: between esotericism as a gateway and the monetization of false miraculous cures ( http://arxiv.org/abs/2408.15308v2 )

ライセンス: Link先を確認
Ergon Cugler de Moraes Silva, (参考訳) 陰謀論、特に抗ワクチン説やMMSやCDSのような非ラベル薬の促進に焦点を当てた理論は、ブラジルを含むテレグラムで増加し、神秘的な信念を共有し、科学機関に不信感を抱くコミュニティの中で肥厚な基盤を見いだした。 本研究は, ブラジルのテレグラムにおける陰謀論のコミュニティが, 予防接種テーマやオフラベル医薬品に関してどのように特徴づけられ, 具体化されているかを理解することを目的とする。 本研究は,テレグラム上でのブラジルの陰謀論コミュニティの理解と特徴化を目的とした7つの研究のシリーズの一部である点を強調することが重要である。 この7つの研究のシリーズは、コーネル大学のarXivで公開され、すべての研究にミラー化手法を適用し、分析の主題だけを変更し、プロプライエタリおよびオリジナルコードを含むレプリカブルな研究を提供し、フリーおよびオープンソースソフトウェアの文化に寄与する。 新世界秩序やアポカリプス、サバイバル主義といったテーマは、反ワクチン説の重大な入り口として機能し、世界支配の理論と結びついている; グローバル主義と新世界秩序は、反ワクチンコミュニティからの招待を受ける主要なコミュニティとして際立っている; 職業主義と密教は、非ラベル医学コミュニティへの招待の最大の源として出現し、密教と非科学的治療の促進の間に強いつながりを生み出している; 反ワクチン説は、COVID-19パンデミックの間に290%増加した。

Conspiracy theories, particularly those focused on anti-vaccine narratives and the promotion of off-label medications such as MMS and CDS, have proliferated on Telegram, including in Brazil, finding fertile ground among communities that share esoteric beliefs and distrust towards scientific institutions. In this context, this study seeks to answer how Brazilian conspiracy theory communities on Telegram are characterized and articulated concerning anti-vaccine themes and off-label medications? It is important to highlight that this study is part of a series of seven studies aimed at understanding and characterizing Brazilian conspiracy theory communities on Telegram. This series of seven studies is openly and originally available on the arXiv of Cornell University, applying a mirrored method across all studies, changing only the thematic object of analysis and providing replicable research, including proprietary and original codes developed, contributing to the culture of free and open-source software. Regarding the main findings of this study, it was observed: Themes such as the New World Order and Apocalypse and Survivalism act as significant gateways to anti-vaccine narratives, connecting them to theories of global control; Globalism and New World Order stand out as the main communities receiving invitations from anti-vaccine communities; Occultism and Esotericism emerge as the largest sources of invitations to off-label medication communities, creating a strong connection between esoteric beliefs and the promotion of non-scientific treatments; Anti-vaccine narratives experienced a 290% increase during the COVID-19 pandemic, evidencing a growing interconnectedness with other conspiracy theories; The overlap of themes between anti-vaccine and other conspiracy theories creates an interdependent disinformation network, where different narratives mutually reinforce each other.
翻訳日:2024-09-04 16:21:29 公開日:2024-08-31
# ブラジルテレグラムにおける気候変動の否定と反科学コミュニティ--より広範な陰謀ネットワークへの入り口としての気候変動の偽情報

Climate change denial and anti-science communities on brazilian Telegram: climate disinformation as a gateway to broader conspiracy networks ( http://arxiv.org/abs/2408.15311v2 )

ライセンス: Link先を確認
Ergon Cugler de Moraes Silva, (参考訳) 気候変動の否定と反科学に関する陰謀論は、特に科学機関に不信感を抱き、地球環境政策に反対するブラジルのコミュニティの中で、テレグラムに肥大な基盤を見出している。 この研究は、ブラジルの陰謀論コミュニティが気候変動や反科学のテーマについて、どのようにTelegramで明らかにされているかという研究課題に答えようとしている。 この研究は、テレグラムにおけるブラジルの陰謀論コミュニティの理解と特徴化を目的とした7つの研究のシリーズの一部であることは注目に値する。 この一連の研究は、コーネル大学のarXivで公開され、最初は7つの研究すべてにミラー化手法を適用し、分析のテーマのみを変更し、カスタム開発およびプロプライエタリなコードを含む複製可能な調査方法を提供し、オープンソースソフトウェアの文化に寄与した。 気候変動の否定と反科学のコミュニティは相乗的に相互作用し、異文化の物語を相互に補強する複雑なネットワークを作り、アポカリプスやサバイバル主義のようなアポカリプス的なテーマは、これらのコミュニティに向けられた5,057のゲートウェイとして行動し、アンチサイエンスコミュニティはゲートキーパーとして機能し、新世界秩序やグローバリズムなどの理論と等しく結びつく。

Conspiracy theories related to climate change denial and anti-science have found fertile ground on Telegram, particularly among Brazilian communities that distrust scientific institutions and oppose global environmental policies. This study seeks to answer the research question: how are Brazilian conspiracy theory communities on climate change and anti-science themes characterized and articulated on Telegram? It is worth noting that this study is part of a series of seven studies aimed at understanding and characterizing Brazilian conspiracy theory communities on Telegram. This series of studies is openly and originally available on arXiv from Cornell University, applying a mirrored method across all seven studies, changing only the thematic focus of analysis, and providing replicable investigation methods, including custom-developed and proprietary codes, contributing to the culture of open-source software. Regarding the main findings of this study, the following observations were made: Climate change denial and anti-science communities interact synergistically, creating a complex network that mutually reinforces disinformation narratives; Apocalyptic themes, such as Apocalypse and Survivalism, act as gateways to climate denial, with 5,057 links directed to these communities; Anti-science communities function as gatekeepers, distributing links evenly to theories such as the New World Order and Globalism, among others; During the COVID-19 pandemic, anti-science discussions experienced a significant peak, driven by vaccine disinformation; The intersection between anti-science narratives and esoteric beliefs reinforces the idea of a supposed alternative truth that challenges science; Since 2022, discussions on climate change have evolved to align with global domination theories; Additionally, the UN's 2030 Agenda is portrayed as part of a global conspiracy.
翻訳日:2024-09-04 16:21:29 公開日:2024-08-31