このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240317となっている論文です。

PDF登録状況(公開日: 20240317)

TitleAuthorsAbstract論文公表日・翻訳日
# FlowMind: LLMによるワークフローの自動生成

FlowMind: Automatic Workflow Generation with LLMs ( http://arxiv.org/abs/2404.13050v1 )

ライセンス: Link先を確認
Zhen Zeng, William Watson, Nicole Cho, Saba Rahimi, Shayleen Reynolds, Tucker Balch, Manuela Veloso, (参考訳) ロボットプロセス自動化(RPA)の急速に発展する分野は、反復的なプロセスを自動化するために大きな進歩を遂げてきたが、その効果は、ユーザが要求する自然的または予測不能なタスクを必要とするシナリオにおいて減少している。 本稿では,GPT(Generative Pretrained Transformer)のような大規模言語モデル(LLM)の機能を活用して,この制限に対処し,自動ワークフロー生成システムを構築する,新しいアプローチであるFlowMindを紹介する。 FlowMindでは、信頼性の高いアプリケーションプログラミングインタフェース(API)を用いたLLM推論を支援する講義の一般的なプロンプトレシピを提案する。 これによってFlowMindは、LLMにおける幻覚の一般的な問題を緩和するだけでなく、LLMとプロプライエタリなデータやコードとの直接的な相互作用を排除し、情報の完全性と機密性を保証する。 FlowMindはさらに、自動生成ワークフローの高レベルな説明を提供することで、ユーザインタラクションをさらに単純化し、ユーザが効率的に調査し、フィードバックを提供することができる。 また、N-CENレポートからの質問応答タスクをベンチマークするための金融の新しいデータセットであるNCEN-QAについても紹介する。 NCEN-QAを用いて、FlowMindのベースラインおよびアブレーション変種に対して、FlowMindが生成したワークフローの性能を評価した。 本稿では,FlowMindの成功,提案する講義レシピにおける各コンポーネントの重要性,およびFlowMindにおけるユーザインタラクションとフィードバックの有効性を示す。

The rapidly evolving field of Robotic Process Automation (RPA) has made significant strides in automating repetitive processes, yet its effectiveness diminishes in scenarios requiring spontaneous or unpredictable tasks demanded by users. This paper introduces a novel approach, FlowMind, leveraging the capabilities of Large Language Models (LLMs) such as Generative Pretrained Transformer (GPT), to address this limitation and create an automatic workflow generation system. In FlowMind, we propose a generic prompt recipe for a lecture that helps ground LLM reasoning with reliable Application Programming Interfaces (APIs). With this, FlowMind not only mitigates the common issue of hallucinations in LLMs, but also eliminates direct interaction between LLMs and proprietary data or code, thus ensuring the integrity and confidentiality of information - a cornerstone in financial services. FlowMind further simplifies user interaction by presenting high-level descriptions of auto-generated workflows, enabling users to inspect and provide feedback effectively. We also introduce NCEN-QA, a new dataset in finance for benchmarking question-answering tasks from N-CEN reports on funds. We used NCEN-QA to evaluate the performance of workflows generated by FlowMind against baseline and ablation variants of FlowMind. We demonstrate the success of FlowMind, the importance of each component in the proposed lecture recipe, and the effectiveness of user interaction and feedback in FlowMind.
翻訳日:2024-07-01 11:58:46 公開日:2024-03-17
# ダイナミックヒューリスティックによる総合的自律走行車両最適ルーティング

Comprehensive Autonomous Vehicle Optimal Routing With Dynamic Heuristics ( http://arxiv.org/abs/2405.15774v1 )

ライセンス: Link先を確認
Ragav V, Jesher Joshua M, Syed Ibrahim S P, (参考訳) 自動車メーカーや研究グループは長い間自動運転に取り組んでおり、大きな進歩を遂げている。 自動運転車(AV)は、交通渋滞や交通渋滞を避けるため、現在の状況から道路交通量削減を転換すると予想されている。 自動運転車のエコシステムの実装には、複雑な自動車技術、倫理、乗客の行動、交通管理方針、責任などが含まれるため、AVソリューションの成熟度はまだ発展途上である。 提案するAVユーザエクスペリエンス向上モデルでは,人間駆動車両が共有する環境下で相互に通信する複数の連結自動運転車のハイブリッドAVネットワークを使用する。 提案したOAVN(Optimal AV Network)ソリューションは、自動運転車のコーディネーションと最適化の改善、交通効率の向上、乗客の快適性と安全性の向上、交通・道路条件のリアルタイム動的適応、各種センサからの入力によるインキャビンアシストの改善を提供する。 この問題に対する真の最適解決策は、AVネットワークにおける車両の自動誘導システムを考案し、乗客の快適さと安全性とともに、最良の経路の目的地に到達することである。 ユーザエクスペリエンス向上のためのカスタム情報検索モデルが,他のヒューリスティックな目標とともに提案されている。 結果は分析され、解の有効性を評価し、ギャップと将来の拡張を識別するために比較される。

Auto manufacturers and research groups are working on autonomous driving for long period and achieved significant progress. Autonomous vehicles (AV) are expected to transform road traffic reduction from current conditions, avoiding accidents and congestion. As the implementation of an autonomous vehicle ecosystem includes complex automotive technology, ethics, passenger behaviour, traffic management policies and liability etc., the maturity of AV solutions are still evolving. The proposed model to improve AV user experience, uses a hybrid AV Network of multiple connected autonomous vehicles which communicate with each other in an environment shared by human driven vehicles. The proposed Optimal AV Network (OAVN) solution provides better coordination and optimization of autonomous vehicles, improved Transportation efficiency, improved passenger comfort and safety, real-time dynamic adaption of traffic & road conditions along with improved in-cabin assistance with inputs from various sensors. The true optimal solution for this problem, is to devise an automated guidance system for vehicles in an AV network, to reach destinations in best possible routes along with passenger comfort and safety. A custom informed search model is proposed along with other heuristic goals for better user experience. The results are analysed and compared to evaluate the effectiveness of the solution and identify gaps and future enhancements.
翻訳日:2024-07-01 08:29:41 公開日:2024-03-17
# 思考の論理的問合せ:知識グラフを用いた複雑な論理的クエリに対する大規模言語モデルの適用

Logic Query of Thoughts: Guiding Large Language Models to Answer Complex Logic Queries with Knowledge Graphs ( http://arxiv.org/abs/2404.04264v1 )

ライセンス: Link先を確認
Lihui Liu, Zihao Wang, Ruizhong Qiu, Yikun Ban, Hanghang Tong, (参考訳) 多くのタスクにおける最高のパフォーマンスにもかかわらず、大きな言語モデル(LLM)は、知識の正確さを要求するタスクに直面したときに、幻覚や誤った回答を引き起こすリスクを負う。 問題は、複数の論理推論ステップを必要とするロジッククエリに対処するときにさらに顕著になる。 一方、知識グラフに基づく質問応答法では、知識グラフの助けを借りて正しい回答を正確に識別することができるが、知識グラフ自体が疎結合で不完全である場合には、その精度は急速に低下する可能性がある。 LLMの幻覚問題と知識グラフの不完全性問題を緩和するために、LLMの知識グラフ推論を相互に有益な方法で統合する方法は、依然として重要な課題である。 本稿では,LSMと知識グラフに基づく論理クエリ推論を組み合わせた最初の手法として,LGOT(Logic-Query-of-Thoughts)を提案する。 LGOTは知識グラフ推論とLLMをシームレスに組み合わせ、複雑な論理クエリを効果的に分割して、要求に答えやすくする。 知識グラフ推論とLLMの両方を利用して、各サブクエストに対する回答を導出する。 これらの結果を集約し、各ステップごとの最高品質候補回答を選択することで、LGOTは複雑な質問に対して正確な結果を得る。 実験の結果,ChatGPTよりも20%向上した。

Despite the superb performance in many tasks, large language models (LLMs) bear the risk of generating hallucination or even wrong answers when confronted with tasks that demand the accuracy of knowledge. The issue becomes even more noticeable when addressing logic queries that require multiple logic reasoning steps. On the other hand, knowledge graph (KG) based question answering methods are capable of accurately identifying the correct answers with the help of knowledge graph, yet its accuracy could quickly deteriorate when the knowledge graph itself is sparse and incomplete. It remains a critical challenge on how to integrate knowledge graph reasoning with LLMs in a mutually beneficial way so as to mitigate both the hallucination problem of LLMs as well as the incompleteness issue of knowledge graphs. In this paper, we propose 'Logic-Query-of-Thoughts' (LGOT) which is the first of its kind to combine LLMs with knowledge graph based logic query reasoning. LGOT seamlessly combines knowledge graph reasoning and LLMs, effectively breaking down complex logic queries into easy to answer subquestions. Through the utilization of both knowledge graph reasoning and LLMs, it successfully derives answers for each subquestion. By aggregating these results and selecting the highest quality candidate answers for each step, LGOT achieves accurate results to complex questions. Our experimental findings demonstrate substantial performance enhancements, with up to 20% improvement over ChatGPT.
翻訳日:2024-04-14 13:21:48 公開日:2024-03-17
# イノベーションのPsittacines : AI創造の真新しさを評価する

Psittacines of Innovation? Assessing the True Novelty of AI Creations ( http://arxiv.org/abs/2404.00017v1 )

ライセンス: Link先を確認
Anirban Mukherjee, (参考訳) 人工知能(AI)システムが、学習中に学んだパターンを単に取り除くのではなく、真に新しいアイデアを生み出すかどうかを検討する。 新たな実験設計を用いることで、仮説的クラウドファンディングキャンペーンのためのプロジェクトタイトルの生成をAIに委ねる。 AI生成したプロジェクトタイトルで比較し、繰り返しと複雑さを測定します。 カーネル平均分布の埋め込みを高次元の機械学習(大規模言語)埋め込みベクトルに適用し,AI出力の新規性を構造化解析することで,AI生成タイトルと実観測フィールドデータの比較を行った。 その結果,(1)AIはタスクの複雑さが増大してもユニークなコンテンツを生成し,その計算能力の限界において,(2)生成したコンテンツは,他の生成的AIへの入力と,フィールドデータとの質的比較の両面に整合性があり,(3)フィールドデータから分岐し,知的財産権に関する懸念が緩和されることが示唆された。 著作権及び商標法の意義について論じる。

We examine whether Artificial Intelligence (AI) systems generate truly novel ideas rather than merely regurgitating patterns learned during training. Utilizing a novel experimental design, we task an AI with generating project titles for hypothetical crowdfunding campaigns. We compare within AI-generated project titles, measuring repetition and complexity. We compare between the AI-generated titles and actual observed field data using an extension of maximum mean discrepancy--a metric derived from the application of kernel mean embeddings of statistical distributions to high-dimensional machine learning (large language) embedding vectors--yielding a structured analysis of AI output novelty. Results suggest that (1) the AI generates unique content even under increasing task complexity, and at the limits of its computational capabilities, (2) the generated content has face validity, being consistent with both inputs to other generative AI and in qualitative comparison to field data, and (3) exhibits divergence from field data, mitigating concerns relating to intellectual property rights. We discuss implications for copyright and trademark law.
翻訳日:2024-04-07 23:17:33 公開日:2024-03-17
# 最小の連立論理

A minimal coalition logic ( http://arxiv.org/abs/2403.14704v1 )

ライセンス: Link先を確認
Yinfeng Li, Fengkui Ju, (参考訳) 合理論理は戦略的推論研究の中心的な論理である。 本稿では,並列ゲームモデルであるCoalition Logicモデルが3つの強大な仮定を持つことを最初に論じる。 ひとつはエージェントの独立であり、2つの非加盟連合の2つの共同行動の合併は、常に2つの連立連合の連合のために利用可能である。 2つ目は連帯であり、連立は常に共同行動が可能である。 3つ目は決定論、すなわち大連立の合同行動は常に独特な結果をもたらす。 第2に,3つの仮定を持たない一般的な並列ゲームモデルに基づく連立論理を提案する。 この論理の完全性を示し、Coalition Logicと詳細に比較する。 この論理は、戦略的推論の文脈では最小限に思える。

Coalition logic is a central logic in strategic reasoning studies. In this paper, we first argue that Coalition Logic models, concurrent game models, have three too-strong assumptions. The first one is the independence of agents; that is, the merge of two available joint actions of two disjoint coalitions is always available for the union of the two coalitions. The second one is seriality; that is, coalitions always have available joint actions. The third one is determinism, that is, the grand coalition's joint actions always have a unique outcome. Second, we present a coalition logic based on general concurrent game models, which do not have the three assumptions. We show the completeness of this logic and compare it with Coalition Logic in detail. This logic seems minimal in the context of strategic reasoning.
翻訳日:2024-04-01 03:23:33 公開日:2024-03-17
# 概念ベストマッチング:創発的コミュニケーションにおける構成性の評価

Concept-Best-Matching: Evaluating Compositionality in Emergent Communication ( http://arxiv.org/abs/2403.14705v1 )

ライセンス: Link先を確認
Boaz Carmeli, Yonatan Belinkov, Ron Meir, (参考訳) 与えられたタスクを達成するためにコミュニケーションを学ぶ人工エージェントは、通常人間に不透明な通信プロトコルを取得する。 多くの研究が様々な評価手段を通じて創発的コミュニケーションを評価しようと試みており、顕著な望ましい特徴として「emph{compositionality"」が挙げられている。 しかし、現在の評価手順は、創発的コミュニケーションの構成性を直接公開しない。 本稿では,出現語と自然言語概念のベストマッチを見出すことにより,創発的コミュニケーションの合成性を評価する手法を提案する。 ベストマッチアルゴリズムは、創発語から自然言語の概念へのグローバルスコアと翻訳マップの両方を提供する。 我々の知る限りでは、創発語と人間の概念の直接的かつ解釈可能なマッピングが提供されるのは初めてである。

Artificial agents that learn to communicate in order to accomplish a given task acquire communication protocols that are typically opaque to a human. A large body of work has attempted to evaluate the emergent communication via various evaluation measures, with \emph{compositionality} featuring as a prominent desired trait. However, current evaluation procedures do not directly expose the compositionality of the emergent communication. We propose a procedure to assess the compositionality of emergent communication by finding the best-match between emerged words and natural language concepts. The best-match algorithm provides both a global score and a translation-map from emergent words to natural language concepts. To the best of our knowledge, it is the first time that such direct and interpretable mapping between emergent words and human concepts is provided.
翻訳日:2024-04-01 03:23:33 公開日:2024-03-17
# マーケティング研究の保護:AIによる偽情報の生成・識別・緩和

Safeguarding Marketing Research: The Generation, Identification, and Mitigation of AI-Fabricated Disinformation ( http://arxiv.org/abs/2403.14706v1 )

ライセンス: Link先を確認
Anirban Mukherjee, (参考訳) 大量にデプロイされたこれらのモデルは、世論を操り、認識を歪ませるために使用することができ、結果としてデジタルプラットフォームに対する信頼が低下する。 本研究は,マーケティング文献と実践に3つの方法で貢献する。 第一に、AIが真正コンテンツの形を模倣する変形的ユーザ生成コンテンツ(UGC)を作製する能力を示す。 第二に、このようなUGCがマーケティング研究に破壊的な影響を及ぼす影響を定量化し、分析フレームワークが最小限の偽情報のレベルに受け入れられることを強調している。 第3に、AI生成した偽情報のフィルタリングに標準技術が不十分であることを明らかにする、高度な検出フレームワークの提案と評価を行う。 我々は、高度なアルゴリズムソリューションを統合し、人間の監視を強化し、規制と倫理の枠組みを再評価するマーケティング研究の保護のための包括的アプローチを提唱する。 本研究は,技術・倫理・マーケティングのネクサスにおける複雑な課題をナビゲートすることを目的とした,今後の研究・政策立案の基盤となる触媒として機能することを目指している。

Generative AI has ushered in the ability to generate content that closely mimics human contributions, introducing an unprecedented threat: Deployed en masse, these models can be used to manipulate public opinion and distort perceptions, resulting in a decline in trust towards digital platforms. This study contributes to marketing literature and practice in three ways. First, it demonstrates the proficiency of AI in fabricating disinformative user-generated content (UGC) that mimics the form of authentic content. Second, it quantifies the disruptive impact of such UGC on marketing research, highlighting the susceptibility of analytics frameworks to even minimal levels of disinformation. Third, it proposes and evaluates advanced detection frameworks, revealing that standard techniques are insufficient for filtering out AI-generated disinformation. We advocate for a comprehensive approach to safeguarding marketing research that integrates advanced algorithmic solutions, enhanced human oversight, and a reevaluation of regulatory and ethical frameworks. Our study seeks to serve as a catalyst, providing a foundation for future research and policy-making aimed at navigating the intricate challenges at the nexus of technology, ethics, and marketing.
翻訳日:2024-04-01 03:13:49 公開日:2024-03-17
# マルチモーダルIoTシステムにおける情報のシナジー -- 日常行動ルーチンが身体活動レベルに与える影響を明らかにする

Synergy of Information in Multimodal IoT Systems -- Discovering the impact of daily behaviour routines on physical activity level ( http://arxiv.org/abs/2403.14707v1 )

ライセンス: Link先を確認
Mohsen Shirali, Zahra Ahmadi, Carlos Fernández-Llatas, Jose-Luis Bayo-Monton, (参考訳) 日々の行動と健康の複雑な関係は、堅牢な行動監視、特にIoTシステムの出現に必要である。 本研究では、様々なIoTソースの情報の相乗効果を利用して、行動ルーチンと健康ガイドラインの整合性を評価する革新的なアプローチを提案する。 ガイドラインの遵守に基づいてルーチンをグループ化し、クラスタリング手法を用いて、各クラスタ内の振る舞いとキー特性の類似性を同定した。 高齢者のケアケーススタディに応用して,推奨された日常的ステップに基づいて,日々の分類によって身体的不活性につながるパターンを明らかにする。 この研究は、リストバンド、スマートフォン、環境センサーからのデータを利用して、単一ソースのデータでは達成できない洞察を提供する。 カレンダービューでの可視化は、医療専門家が患者の行動を理解するのを助け、正確な介入を可能にする。 このアプローチは、私たちのデータセットで利用可能な、COVID-19やRamadanといったイベント中の行動変化を早期に検出する上で有効です。 この研究は、行動分析と、スマートヘルスケアを強化するためのバリエーションを発見するための有望な道を示すもので、継続的IoT駆動のデータ分析を通じて、患者の健康、個人化された介入、より健康的なルーチンに関する洞察を提供する。

The intricate connection between daily behaviours and health necessitates robust behaviour monitoring, particularly with the advent of IoT systems. This study introduces an innovative approach, exploiting the synergy of information from various IoT sources, to assess the alignment of behaviour routines with health guidelines. We grouped routines based on guideline compliance and used a clustering method to identify similarities in behaviours and key characteristics within each cluster. Applied to an elderly care case study, our approach unveils patterns leading to physical inactivity by categorising days based on recommended daily steps. Utilising data from wristbands, smartphones, and ambient sensors, the study provides insights not achievable with single-source data. Visualisation in a calendar view aids health experts in understanding patient behaviours, enabling precise interventions. Notably, the approach facilitates early detection of behaviour changes during events like COVID-19 and Ramadan, available in our dataset. This work signifies a promising path for behavioural analysis and discovering variations to empower smart healthcare, offering insights into patient health, personalised interventions, and healthier routines through continuous IoT-driven data analysis.
翻訳日:2024-04-01 03:13:49 公開日:2024-03-17
# ベイジアンフローネットワークによる3次元分子の統一生成モデル

Unified Generative Modeling of 3D Molecules via Bayesian Flow Networks ( http://arxiv.org/abs/2403.15441v1 )

ライセンス: Link先を確認
Yuxuan Song, Jingjing Gong, Yanru Qu, Hao Zhou, Mingyue Zheng, Jingjing Liu, Wei-Ying Ma, (参考訳) データ分布の単純化された連続性仮定から導かれる高度な生成モデル(例えば拡散モデル)は、将来性を示すが、分子幾何学の多モード性やノイズ感受性の性質から、幾何学的生成アプリケーションに直接適用することは困難である。 この研究はGeoBFN(Geometric Bayesian Flow Networks)を導入し、分布の微分可能なパラメータ空間の様々なモジュラリティをモデル化することによって分子幾何学に自然に適合する。 GeoBFNは、分布のパラメータに同変の依存性間モデリングを導入し、異なるモードの確率的モデリングを統合することで、SE-(3)不変密度モデリング特性を維持している。 その結果,GeoBFNはQM9では90.87%,GEOM-DRUGでは85.6%の原子安定性を示す。 GeoBFNは、効率と品質の最適なトレードオフ(例えば、性能を犠牲にすることなく20倍のスピードアップ)を達成するために、任意のステップでサンプリングを行うこともできる。

Advanced generative model (e.g., diffusion model) derived from simplified continuity assumptions of data distribution, though showing promising progress, has been difficult to apply directly to geometry generation applications due to the multi-modality and noise-sensitive nature of molecule geometry. This work introduces Geometric Bayesian Flow Networks (GeoBFN), which naturally fits molecule geometry by modeling diverse modalities in the differentiable parameter space of distributions. GeoBFN maintains the SE-(3) invariant density modeling property by incorporating equivariant inter-dependency modeling on parameters of distributions and unifying the probabilistic modeling of different modalities. Through optimized training and sampling techniques, we demonstrate that GeoBFN achieves state-of-the-art performance on multiple 3D molecule generation benchmarks in terms of generation quality (90.87% molecule stability in QM9 and 85.6% atom stability in GEOM-DRUG. GeoBFN can also conduct sampling with any number of steps to reach an optimal trade-off between efficiency and quality (e.g., 20-times speedup without sacrificing performance).
翻訳日:2024-04-01 02:54:20 公開日:2024-03-17
# 人工内耳における高度な人工知能アルゴリズム:医療戦略,課題,展望

Advanced Artificial Intelligence Algorithms in Cochlear Implants: Review of Healthcare Strategies, Challenges, and Perspectives ( http://arxiv.org/abs/2403.15442v1 )

ライセンス: Link先を確認
Billel Essaid, Hamza Kheddar, Noureddine Batel, Abderrahmane Lakas, Muhammad E. H. Chowdhury, (参考訳) 自動音声認識(ASR)は, 日常生活において重要な役割を担い, 機械との対話だけでなく, 難聴者や難聴者に対するコミュニケーションの促進にも有効である。 このプロセスでは、音声信号をアナログ形式で受信し、次いで様々な信号処理アルゴリズムを用いて、人工内耳(CI)のような限られた容量のデバイスと互換性を持たせる。 残念なことに、これらのインプラントは有限個の電極を備えており、しばしば合成中に音声の歪みを引き起こす。 様々な最先端の信号処理技術を用いて、受話器の音質を向上しようとする研究者の努力にもかかわらず、特に複数の音声源、環境騒音、その他の状況における課題が続いている。 新しい人工知能(AI)手法の出現は、CI専用の従来の信号処理技術に関連する制限と困難に対処するための最先端戦略に根ざしている。 本レビューは、CIベースのASRと音声強調の進歩を包括的にレビューすることを目的としている。 主な目的は、メトリクスとデータセットの完全な概要を提供し、このバイオメディカル分野におけるAIアルゴリズムの能力を探求し、得られた最良の結果を要約し、コメントすることである。 さらに、このレビューは潜在的な応用を掘り下げ、この領域の既存の研究ギャップを埋めるための今後の方向性を提案する。

Automatic speech recognition (ASR) plays a pivotal role in our daily lives, offering utility not only for interacting with machines but also for facilitating communication for individuals with either partial or profound hearing impairments. The process involves receiving the speech signal in analogue form, followed by various signal processing algorithms to make it compatible with devices of limited capacity, such as cochlear implants (CIs). Unfortunately, these implants, equipped with a finite number of electrodes, often result in speech distortion during synthesis. Despite efforts by researchers to enhance received speech quality using various state-of-the-art signal processing techniques, challenges persist, especially in scenarios involving multiple sources of speech, environmental noise, and other circumstances. The advent of new artificial intelligence (AI) methods has ushered in cutting-edge strategies to address the limitations and difficulties associated with traditional signal processing techniques dedicated to CIs. This review aims to comprehensively review advancements in CI-based ASR and speech enhancement, among other related aspects. The primary objective is to provide a thorough overview of metrics and datasets, exploring the capabilities of AI algorithms in this biomedical field, summarizing and commenting on the best results obtained. Additionally, the review will delve into potential applications and suggest future directions to bridge existing research gaps in this domain.
翻訳日:2024-04-01 02:54:20 公開日:2024-03-17
# PETスキャン画像解析によるアルツハイマー病早期発見のためのアンサンブル法の導入

Introducing an ensemble method for the early detection of Alzheimer's disease through the analysis of PET scan images ( http://arxiv.org/abs/2403.15443v1 )

ライセンス: Link先を確認
Arezoo Borji, Taha-Hossein Hejazi, Abbas Seifi, (参考訳) アルツハイマー病(英: Alzheimer disease)は、主に記憶、思考、行動などの認知機能に影響を与える進行性神経変性疾患である。 この疾患では、進行性MCI患者が発症するので、早期に診断することが非常に重要である。 本研究は、アルツハイマー病を制御正常(CN)、進行性軽度認知障害(pMCI)、安定性軽度認知障害(sMCI)、アルツハイマー病(AD)の4つのグループに分類する難しい課題について考察した。 この分類は、ADNIデータセットから得られたPETスキャン画像の徹底的な検査に基づいており、疾患の進行を徹底的に理解している。 アルツハイマー病を検出するために、いくつかのディープラーニングモデルと伝統的な機械学習モデルが使用されている。 本稿では、VGG16とAlexNetという3つのディープラーニングモデルと、8倍のクロスバリデーションを持つカスタム畳み込みニューラルネットワーク(CNN)を用いて分類を行った。 最後に、これらのモデル全体の結果を改善するためにアンサンブル技術を用いる。 その結果、深層学習モデルを用いてMCI患者間の差異を判断すると、全体の平均精度は93.13%、AUCは94.4%となることがわかった。

Alzheimer's disease is a progressive neurodegenerative disorder that primarily affects cognitive functions such as memory, thinking, and behavior. In this disease, there is a critical phase, mild cognitive impairment, that is really important to be diagnosed early since some patients with progressive MCI will develop the disease. This study delves into the challenging task of classifying Alzheimer's disease into four distinct groups: control normal (CN), progressive mild cognitive impairment (pMCI), stable mild cognitive impairment (sMCI), and Alzheimer's disease (AD). This classification is based on a thorough examination of PET scan images obtained from the ADNI dataset, which provides a thorough understanding of the disease's progression. Several deep-learning and traditional machine-learning models have been used to detect Alzheimer's disease. In this paper, three deep-learning models, namely VGG16 and AlexNet, and a custom Convolutional neural network (CNN) with 8-fold cross-validation have been used for classification. Finally, an ensemble technique is used to improve the overall result of these models. The results show that using deep-learning models to tell the difference between MCI patients gives an overall average accuracy of 93.13% and an AUC of 94.4%.
翻訳日:2024-04-01 02:54:20 公開日:2024-03-17
# ヒト活動認識におけるIMUを用いたクロスモーダルトランスファー学習の実態調査

A Survey of IMU Based Cross-Modal Transfer Learning in Human Activity Recognition ( http://arxiv.org/abs/2403.15444v1 )

ライセンス: Link先を確認
Abhi Kamboj, Minh Do, (参考訳) マルチ感覚の世界に生きているにもかかわらず、ほとんどのAIモデルは、人間の動きと行動のテキスト的および視覚的理解に限られている。 実際、人間の動きに対する完全な状況認識は、センサーの組み合わせで理解することができる。 本研究では,HAR(Human Activity/Action Recognition)のモダリティ,すなわち相互モダリティ伝達学習における知識の伝達と活用について検討する。 我々は,IMUデータの重要性と可能性,およびモダリティ間の学習における適用性,およびHAR問題研究の重要性を動機付けている。 我々は,HAR関連タスクを時間的・抽象的に分類し,様々なタイプのマルチモーダルHARデータセットを比較した。 また, 伝達学習, ドメイン適応, 表現学習, センサ融合, マルチモーダル学習などの文献において, 相互学習がこれらの概念にどのように適合するかを記述した。 次に、IMUを用いたHARのクロスモーダル転送の文献をレビューする。 クロスモーダルトランスファーの2つの主要なアプローチは、あるモダリティのインスタンスを別のモダリティにマッピングするインスタンスベースのトランスファー(例えば、入力空間で知識が転送される)または、中間潜在空間におけるモダリティをモデルが関連付ける機能ベースのトランスファー(例えば、特徴空間で知識が転送される)である。 最後に,クロスモーダルHARにおける今後の研究の方向性と応用について論じる。

Despite living in a multi-sensory world, most AI models are limited to textual and visual understanding of human motion and behavior. In fact, full situational awareness of human motion could best be understood through a combination of sensors. In this survey we investigate how knowledge can be transferred and utilized amongst modalities for Human Activity/Action Recognition (HAR), i.e. cross-modality transfer learning. We motivate the importance and potential of IMU data and its applicability in cross-modality learning as well as the importance of studying the HAR problem. We categorize HAR related tasks by time and abstractness and then compare various types of multimodal HAR datasets. We also distinguish and expound on many related but inconsistently used terms in the literature, such as transfer learning, domain adaptation, representation learning, sensor fusion, and multimodal learning, and describe how cross-modal learning fits with all these concepts. We then review the literature in IMU-based cross-modal transfer for HAR. The two main approaches for cross-modal transfer are instance-based transfer, where instances of one modality are mapped to another (e.g. knowledge is transferred in the input space), or feature-based transfer, where the model relates the modalities in an intermediate latent space (e.g. knowledge is transferred in the feature space). Finally, we discuss future research directions and applications in cross-modal HAR.
翻訳日:2024-04-01 02:54:20 公開日:2024-03-17
# マイクロ構造雑音下における非パラメトリックベイズ変動学習

Nonparametric Bayesian volatility learning under microstructure noise ( http://arxiv.org/abs/1805.05606v2 )

ライセンス: Link先を確認
Shota Gugushvili, Frank van der Meulen, Moritz Schauer, Peter Spreij, (参考訳) 本研究では,市場マイクロ構造騒音下でのボラティリティ学習の課題について検討する。 具体的には、確率微分方程式からノイズの多い離散時間観測を考察し、方程式の拡散係数を学習するための新しい計算法を開発する。 非パラメトリックベイズ的アプローチでは、ボラティリティ関数を断片的定数としてモデル化する。 その前者は逆ガンママルコフ鎖によって特定される。 後方からのサンプリングは、ギブスサンプリング装置にフォワードフィルタの後方シミュレーションアルゴリズムを組み込むことで達成される。 本手法の優れた性能は,2つの代表的な合成データ例に示す。 また,本手法をEUR/USD交換レートデータセットに適用する。 最後に、先行分布に対する極限結果を示す。

In this work, we study the problem of learning the volatility under market microstructure noise. Specifically, we consider noisy discrete time observations from a stochastic differential equation and develop a novel computational method to learn the diffusion coefficient of the equation. We take a nonparametric Bayesian approach, where we \emph{a priori} model the volatility function as piecewise constant. Its prior is specified via the inverse Gamma Markov chain. Sampling from the posterior is accomplished by incorporating the Forward Filtering Backward Simulation algorithm in the Gibbs sampler. Good performance of the method is demonstrated on two representative synthetic data examples. We also apply the method on a EUR/USD exchange rate dataset. Finally we present a limit result on the prior distribution.
翻訳日:2024-03-26 00:17:07 公開日:2024-03-17
# 香港における新型コロナウイルスパンデミック・ウェーブにおける救急部門ボードの変動分析と予測モデルの転送可能性 : ビルレベルの社会生態リスクを定量化するためのハイブリッドCNN-LSTMアプローチ

Analyzing the Variations in Emergency Department Boarding and Testing the Transferability of Forecasting Models across COVID-19 Pandemic Waves in Hong Kong: Hybrid CNN-LSTM approach to quantifying building-level socioecological risk ( http://arxiv.org/abs/2403.13842v1 )

ライセンス: Link先を確認
Eman Leung, Jingjing Guan, Kin On Kwok, CT Hung, CC. Ching, CK. Chung, Hector Tsang, EK Yeoh, Albert Lee, (参考訳) 救急部門(ED)の搭乗時間(ED待ち時間は4時間以上と定義されている)は、患者の予後や健康システムのパフォーマンスに関連付けられている。 しかし、新型コロナウイルス(COVID-19)に先立って効果的な予測モデルは稀であり、近日中には欠落している。 ここでは、香港の病院局、保健省、住宅局から得られたパブリックドメインデータに対して、ハイブリッド畳み込みニューラルネットワーク(CNN)-Long短期記憶(LSTM)モデルを適用した。 さらに、我々は、私たちの複雑な適応医療システムに最も大きな影響を与えている新型コロナウイルスパンデミックの段階を特定し、深層移動学習手法を用いて、コンポーネント間の相互接続性の安定したパターンを明らかにすることを模索した。 私たちの結果は 1) ED搭乗日数が最も多いのは4~5波であった。 2) 時変住宅の建築環境と社会デマロジカルな特徴を反映した4~5波間におけるED搭乗予測のベストパフォーマンスモデルを, 時系列特徴のみに基づくベストパフォーマンス予測を行う場合と比較して, ED搭乗数とケースカウントの履歴時系列に基づいて検討した。 3) 深層移動学習により, 4波から5波までの期間に構築したモデルを他の波からのデータに適用すると, 移動モデルにより固有モデルの性能が向上した。

Emergency department's (ED) boarding (defined as ED waiting time greater than four hours) has been linked to poor patient outcomes and health system performance. Yet, effective forecasting models is rare before COVID-19, lacking during the peri-COVID era. Here, a hybrid convolutional neural network (CNN)-Long short-term memory (LSTM) model was applied to public-domain data sourced from Hong Kong's Hospital Authority, Department of Health, and Housing Authority. In addition, we sought to identify the phase of the COVID-19 pandemic that most significantly perturbed our complex adaptive healthcare system, thereby revealing a stable pattern of interconnectedness among its components, using deep transfer learning methodology. Our result shows that 1) the greatest proportion of days with ED boarding was found between waves four and five; 2) the best-performing model for forecasting ED boarding was observed between waves four and five, which was based on features representing time-invariant residential buildings' built environment and sociodemographic profiles and the historical time series of ED boarding and case counts, compared to during the waves when best-performing forecasting is based on time-series features alone; and 3) when the model built from the period between waves four and five was applied to data from other waves via deep transfer learning, the transferred model enhanced the performance of indigenous models.
翻訳日:2024-03-22 18:28:52 公開日:2024-03-17
# 甲状腺癌診断のための機械学習と視覚変換器

Machine Learning and Vision Transformers for Thyroid Carcinoma Diagnosis: A review ( http://arxiv.org/abs/2403.13843v1 )

ライセンス: Link先を確認
Yassine Habchi, Hamza Kheddar, Yassine Himeur, Abdelkrim Boukabou, Ammar Chouchane, Abdelmalik Ouamane, Shadi Atalla, Wathiq Mansoor, (参考訳) 医療専門家が不治の病気を治療するための広範なデータ処理を支援するスマート診断システムの開発への関心が高まっている。 特に甲状腺癌(TC)を特定することの課題は、機械学習(ML)とビッグデータ分析を使用することで進展しており、TC予後を評価し、個人の悪性度リスクを決定するためにトランスフォーマーを取り入れている。 本稿では,TCLの診断におけるAIベースのアプローチ,特にトランスフォーマーを用いたアプローチに関するさまざまな研究の概要を紹介する。 人工知能(AI)アルゴリズム,フレームワークの目標,使用するコンピューティング環境に基づいて,これらの手法の新たな分類システムを導入する。 さらに、利用可能なTCデータセットの機能を精査し、対比する。 本稿では, 医療診断と疾患管理におけるトランスフォーマーの継続的な重要性に焦点をあて, 教師なし, 教師なし, あるいは混成アプローチを通じて, TCの診断と治療を支援するためのAI機器の重要性を強調した。 さらに、この領域における進歩と継続的な障害について論じる。 最後に、今後の方向性を探求し、この研究課題に焦点をあてる。

The growing interest in developing smart diagnostic systems to help medical experts process extensive data for treating incurable diseases has been notable. In particular, the challenge of identifying thyroid cancer (TC) has seen progress with the use of machine learning (ML) and big data analysis, incorporating transformers to evaluate TC prognosis and determine the risk of malignancy in individuals. This review article presents a summary of various studies on AIbased approaches, especially those employing transformers, for diagnosing TC. It introduces a new categorization system for these methods based on artifcial intelligence (AI) algorithms, the goals of the framework, and the computing environments used. Additionally, it scrutinizes and contrasts the available TC datasets by their features. The paper highlights the importance of AI instruments in aiding the diagnosis and treatment of TC through supervised, unsupervised, or mixed approaches, with a special focus on the ongoing importance of transformers in medical diagnostics and disease management. It further discusses the progress made and the continuing obstacles in this area. Lastly, it explores future directions and focuses within this research feld.
翻訳日:2024-03-22 18:28:52 公開日:2024-03-17
# 2階層適応型1クラス分類IDSによるサイバースリート作成

A Dual-Tier Adaptive One-Class Classification IDS for Emerging Cyberthreats ( http://arxiv.org/abs/2403.13010v1 )

ライセンス: Link先を確認
Md. Ashraf Uddin, Sunil Aryal, Mohamed Reda Bouadjenek, Muna Al-Hawawreh, Md. Alamin Talukder, (参考訳) 今日のデジタル時代には、IoT(IoT of Things)とIIoT(Industrial IoT)システムへの依存が大きくなり、銀行取引や個人データ、企業データ、法的文書交換といった機密性の高い活動が容易になりました。 サイバーアタックは、弱いセキュリティ対策やツールを常に利用している。 ネットワーク侵入検知システム(IDS)は、このようなサイバー脅威に対する主要なツールとして機能する。 しかし、特定の攻撃パターンに基づいてトレーニングされた機械学習ベースのIDSは、しばしば新たなサイバー攻撃を誤って分類する。 さらに、教師付き学習者の訓練のための攻撃インスタンスの可用性が制限され、サイバー脅威の進化を続ける性質がさらに複雑になる。 これは適応可能なIDSフレームワークの必要性を強調しており、慣れていない攻撃や見知らぬ攻撃からの認識と学習を時間をかけて行うことができる。 本研究では,2層構造を有する一級分類駆動型IDSシステムを提案する。 第1層は通常の活動と攻撃/脅威を区別し、第2層は検出された攻撃が未知であるかを判定する。 この第2階層内には、クラスタリングアルゴリズムと組み合わせた多重分類機構が組み込まれている。 このモデルは、目に見えない攻撃を識別するだけでなく、目に見えない攻撃をクラスタリングすることでそれらを再トレーニングするために使用する。 これにより、当社のモデルは将来的な防御が可能となり、新たな脅威パターンで進化することが可能になります。 第1のレベルで一級分類器(OCC)を活用することで、攻撃サンプルの必要性を回避し、データの不均衡とゼロデイ攻撃の懸念に対処し、第2のレベルでOCCは既知の攻撃から未知の攻撃を効果的に分離することができる。 提案手法と評価は,提案フレームワークが実世界の展開に有望な可能性を示唆している。

In today's digital age, our dependence on IoT (Internet of Things) and IIoT (Industrial IoT) systems has grown immensely, which facilitates sensitive activities such as banking transactions and personal, enterprise data, and legal document exchanges. Cyberattackers consistently exploit weak security measures and tools. The Network Intrusion Detection System (IDS) acts as a primary tool against such cyber threats. However, machine learning-based IDSs, when trained on specific attack patterns, often misclassify new emerging cyberattacks. Further, the limited availability of attack instances for training a supervised learner and the ever-evolving nature of cyber threats further complicate the matter. This emphasizes the need for an adaptable IDS framework capable of recognizing and learning from unfamiliar/unseen attacks over time. In this research, we propose a one-class classification-driven IDS system structured on two tiers. The first tier distinguishes between normal activities and attacks/threats, while the second tier determines if the detected attack is known or unknown. Within this second tier, we also embed a multi-classification mechanism coupled with a clustering algorithm. This model not only identifies unseen attacks but also uses them for retraining them by clustering unseen attacks. This enables our model to be future-proofed, capable of evolving with emerging threat patterns. Leveraging one-class classifiers (OCC) at the first level, our approach bypasses the need for attack samples, addressing data imbalance and zero-day attack concerns and OCC at the second level can effectively separate unknown attacks from the known attacks. Our methodology and evaluations indicate that the presented framework exhibits promising potential for real-world deployments.
翻訳日:2024-03-21 21:08:57 公開日:2024-03-17
# 3レベル原子系における2次元等方性負透過性

2D isotropic negative permeability in a Λ-type three-level atomic system ( http://arxiv.org/abs/2403.13011v1 )

ライセンス: Link先を確認
Shuang-Ying Zhan Shun-Cai Zhao, Ai-Ling Gong, (参考訳) プローブ磁場と相互作用する$\Lambda$型3レベル原子系の2次元負透過性と2つの直交定常波場の重ね合わせを提案する。 理論解析と数値シミュレーションにより、x-y平面では2つの負の磁気応答の等質かつ調整可能なピーク極大が観測され、ピーク極大付近では負の透過性が等方性である。 2次元等方性負への新たな道

A approach for two-dimensional(2D) negative permeability in a $\Lambda$-type three-level atomic system interacting with a probe magnetic and the superposition of two orthogonal standing-wave fields is proposed. Through the theoretical analysis and numerical simulation, two equally and tunable peak maxima of negative magnetic responses are observed in the x-y plane, and around the peak maxima region the negative permeability is isotropic. A new avenue to 2D isotropic negative
翻訳日:2024-03-21 21:08:57 公開日:2024-03-17
# メソスコピック・ディスラプティブ左利き送電線における転位スクリュッド・フォック状態による負屈折率の操作

Negative refraction index manipulated by a displaced squeezed Fock state in the mesoscopic dissipative left-handed transmission line ( http://arxiv.org/abs/2403.13012v1 )

ライセンス: Link先を確認
Hong-Wei Guo, Shun-Cai Zhao, Xiao-Jing Wei, (参考訳) 光学的消散左利得伝送線路(LHTL)の負の屈折率(NRI)は、変位された押出フォック状態(DSFS)と、抵抗及び伝導によって提示される消散によって操作される。 古典的なLHTLと比較して、いくつかの特定の量子特性がLHTLに示されている。

Negative refractive index (NRI) of the mescopic dissipative left-handed transmission line (LHTL) is manipulated by the displaced squeezed Fock state (DSFS) and the dissipation presented by the resistance and conductance. Comparing to the classical LHTL, some specific quantum characteristics are shown in the LHTL because of quantum effect, which will be significant to its miniaturization application in microwave frequency.
翻訳日:2024-03-21 21:08:57 公開日:2024-03-17
# 侵入検知システムの階層的分類:効果的な設計と実証分析

Hierarchical Classification for Intrusion Detection System: Effective Design and Empirical Analysis ( http://arxiv.org/abs/2403.13013v1 )

ライセンス: Link先を確認
Md. Ashraf Uddin, Sunil Aryal, Mohamed Reda Bouadjenek, Muna Al-Hawawreh, Md. Alamin Talukder, (参考訳) 多くの現実世界のアプリケーションでIoT(Internet of Things)のようなネットワーク技術の利用が増加し、新しいタイプのサイバー攻撃が出現している。 これらの脅威から重要なインフラを保護するため、偽の警報を最小化しながら、異なる種類の攻撃を正確に検出できる侵入検知システム(IDS)を配備することが重要である。 機械学習のアプローチはIDSで広く使われており、通常トラフィックと異なるタイプの攻撃を区別するために、主にフラットなマルチクラス分類を使用している。 サイバー攻撃型は、類似の粒度の攻撃サブタイプをより高レベルな攻撃タイプに分類できる階層構造を示すが、階層的分類アプローチはよく研究されていない。 本稿では,IDSにおける階層的分類手法の有効性について検討する。 ネットワーク攻撃の分類には3レベルの階層的分類モデルを用いており、第1のレベルは良性または攻撃を分類し、第2のレベルは粗度の高い攻撃タイプを分類し、第3のレベルは粒度の高い攻撃タイプを分類する。 10の異なる分類アルゴリズムを10の異なるデータセットに用いた経験的結果は、階層的および平坦な分類手法の全体的な分類性能(通常および異なる種類の攻撃を正しく検出する)に有意な差がないことを示している。 しかし、フラットな分類アプローチは攻撃を通常のものと誤分類する一方、階層的なアプローチは攻撃のタイプを別の攻撃タイプと誤分類する。 言い換えれば、階層的な分類アプローチは、致命的なシステムにおいてより重要である通常のトラフィックとして誤分類された攻撃を著しく最小化する。

With the increased use of network technologies like Internet of Things (IoT) in many real-world applications, new types of cyberattacks have been emerging. To safeguard critical infrastructures from these emerging threats, it is crucial to deploy an Intrusion Detection System (IDS) that can detect different types of attacks accurately while minimizing false alarms. Machine learning approaches have been used extensively in IDS and they are mainly using flat multi-class classification to differentiate normal traffic and different types of attacks. Though cyberattack types exhibit a hierarchical structure where similar granular attack subtypes can be grouped into more high-level attack types, hierarchical classification approach has not been explored well. In this paper, we investigate the effectiveness of hierarchical classification approach in IDS. We use a three-level hierarchical classification model to classify various network attacks, where the first level classifies benign or attack, the second level classifies coarse high-level attack types, and the third level classifies a granular level attack types. Our empirical results of using 10 different classification algorithms in 10 different datasets show that there is no significant difference in terms of overall classification performance (i.e., detecting normal and different types of attack correctly) of hierarchical and flat classification approaches. However, flat classification approach misclassify attacks as normal whereas hierarchical approach misclassify one type of attack as another attack type. In other words, the hierarchical classification approach significantly minimises attacks from misclassified as normal traffic, which is more important in critical systems.
翻訳日:2024-03-21 21:08:57 公開日:2024-03-17
# 一般線3次元座標

General Line Coordinates in 3D ( http://arxiv.org/abs/2403.13014v1 )

ライセンス: Link先を確認
Joshua Martinez, Boris Kovalerchuk, (参考訳) ロスレス3Dビジュアライゼーションにおける解釈可能なインタラクティブな視覚パターン発見は、機械学習を前進させる有望な方法である。 これにより、データサイエンティストではないエンドユーザが、セルフサービスとしてモデル開発プロセスをコントロールできるようになる。 GLC (3D General Line Coordinates) 可視化空間で行われ、3D内のすべてのn-D情報を保存している。 本稿では,3種類のLCC: Shifted Paired Coordinates (SPC), Shifted Tripled Coordinates (STC), General Line Coordinates-Linear (GLC-L) を組み合わせた対話型視覚パターン探索システムを提案する。 2次元ビジュアライゼーションから3次元ビジュアライゼーションへの移行により、2次元よりも視覚的なパターンがより明確になり、また、2次元では利用できない最高のデータ表示位置を見つけることもできる。 元の解釈可能な属性のエンドユーザーにとって理解しやすい、様々なクラス固有のデータサブセットの詳細なビジュアル分析を可能にする。 エンドユーザーによるモデルオーバージェネリゼーションの制御は、このアプローチのさらなる利点である。

Interpretable interactive visual pattern discovery in lossless 3D visualization is a promising way to advance machine learning. It enables end users who are not data scientists to take control of the model development process as a self-service. It is conducted in 3D General Line Coordinates (GLC) visualization space, which preserves all n-D information in 3D. This paper presents a system which combines three types of GLC: Shifted Paired Coordinates (SPC), Shifted Tripled Coordinates (STC), and General Line Coordinates-Linear (GLC-L) for interactive visual pattern discovery. A transition from 2-D visualization to 3-D visualization allows for a more distinct visual pattern than in 2-D and it also allows for finding the best data viewing positions, which are not available in 2-D. It enables in-depth visual analysis of various class-specific data subsets comprehensible for end users in the original interpretable attributes. Controlling model overgeneralization by end users is an additional benefit of this approach.
翻訳日:2024-03-21 21:08:57 公開日:2024-03-17
# 漸近量子チャネル識別における適応戦略の有用性

Usefulness of adaptive strategies in asymptotic quantum channel discrimination ( http://arxiv.org/abs/2011.06569v3 )

ライセンス: Link先を確認
Farzin Salek, Masahito Hayashi, Andreas Winter, (参考訳) 適応性(Adaptiveness)は、統計や機械学習を含む情報処理における重要な原則である。 本稿では,各仮説が量子チャネルの漸近的に多くの独立なインスタンスを表す場合の漸近二分仮説テストの枠組みにおける適応的手法の有用性について検討し,その検証は未知のチャネルを用いて出力を観測することに基づいている。 量子状態の仮説として慣れ親しんだ設定とは異なり、チャネルの使用に関して適応的戦略と非適応的戦略の間には根本的な違いがあり、テスト戦略に異なる制約を課すことで、さらに多くの差別タスクの変種を導入する。 1)古典量子チャネルの場合,適応的戦略と非適応的戦略が対称(Chernoff)と非対称(Hoeffding, Stein)の両方で同じ誤差指数に導かれることを示す。 2)適応的および非適応的対称性試験指数の最初の分離は、非適応的戦略の誤差確率の一般的な下限から導かれる量子チャネルに対する適応的および非適応的対称性試験指数である。 (3) 前述を一般化する意味では、古典的フィードフォワードや製品状態チャネルの入力に制限された一般的なチャネル適応戦略は、非適応的製品状態戦略に対する漸近的限界において優位ではないことが証明される。 (4) 本研究の応用として, 任意の量子チャネルの識別能力に対処し, 古典的フィードバックによる適応的戦略と入力時の量子メモリによる適応的戦略が, 非適応的テンソル積入力戦略を超えてチャネルの識別能力を高めないことを示す。

Adaptiveness is a key principle in information processing including statistics and machine learning. We investigate the usefulness of adaptive methods in the framework of asymptotic binary hypothesis testing, when each hypothesis represents asymptotically many independent instances of a quantum channel, and the tests are based on using the unknown channel and observing outputs. Unlike the familiar setting of quantum states as hypotheses, there is a fundamental distinction between adaptive and non-adaptive strategies with respect to the channel uses, and we introduce a number of further variants of the discrimination tasks by imposing different restrictions on the test strategies. The following results are obtained: (1) We prove that for classical-quantum channels, adaptive and non-adaptive strategies lead to the same error exponents both in the symmetric (Chernoff) and asymmetric (Hoeffding, Stein) settings. (2) The first separation between adaptive and non-adaptive symmetric hypothesis testing exponents for quantum channels, which we derive from a general lower bound on the error probability for non-adaptive strategies; the concrete example we analyze is a pair of entanglement-breaking channels. (3)We prove, in some sense generalizing the previous statement, that for general channels adaptive strategies restricted to classical feed-forward and product state channel inputs are not superior in the asymptotic limit to non-adaptive product state strategies. (4) As an application of our findings, we address the discrimination power of an arbitrary quantum channel and show that adaptive strategies with classical feedback and no quantum memory at the input do not increase the discrimination power of the channel beyond non-adaptive tensor product input strategies.
翻訳日:2024-03-21 04:02:20 公開日:2024-03-17
# GaAs/AlGaAs三重量子ドット系における非コヒーレントポンピング場とドット間トンネルによって調整された3つのゼロ吸収窓による左利き性

Left-handedness with three zero-absorption windows tuned by the incoherent pumping field and inter-dot tunnelings in a GaAs/AlGaAs triple quantum dots system ( http://arxiv.org/abs/2403.12099v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, Shuang-Ying Zhang, Qi-Xuan Wu, Jing Jia, (参考訳) 3つのゼロ吸収窓を持つ左利きは、トリプル量子ドット(TQD)システムで達成される。 GaAs/AlGaAsヘテロ構造の典型的なパラメータにより、調整可能な非コヒーレントポンプ場と2つのドット間トンネルにより、同時に負の電気誘電率と磁透過性が得られる。 さらに、左利き周波数帯の3つのゼロ吸収窓がTQD系で観測されている。 固体ヘテロ構造におけるゼロ吸収による左利きは、左利き材料(LHMs)のフォトニック共鳴スキームの課題だけでなく、吸収量の多い負屈折材料の応用限界も解決できる。

Left-handedness with three zero-absorption windows is achieved in a triple-quantum dot (TQD) system. With the typical parameters of a GaAs/AlGaAs heterostructure, the simultaneous negative relative electric permittivity and magnetic permeability are obtained by the adjustable incoherent pumping field and two inter-dot tunnelings. What's more, three zero-absorption windows in the left-handedness frequency bands are observed in the TQD system. The left-handedness with zero-absorption in solid state heterostructure may solve not only the challenge in the photonic resonant scheme for left-handed materials (LHMs) but also the application limitation of the negative refractive materials with large amount of absorption.
翻訳日:2024-03-20 18:51:33 公開日:2024-03-17
# 次回POI勧告のためのモビリティツリーによるタイムスロットの選好学習

Learning Time Slot Preferences via Mobility Tree for Next POI Recommendation ( http://arxiv.org/abs/2403.12100v1 )

ライセンス: Link先を確認
Tianhao Huang, Xuan Pan, Xiangrui Cai, Ying Zhang, Xiaojie Yuan, (参考訳) Next Point-of-Interests(POI)レコメンデーションタスクは、ユーザの現在のチェックイントラジェクトリに基づいて、POIの動的ランキングを提供することを目的としている。 このタスクのレコメンデーションパフォーマンスは、位置情報ベースのソーシャルネットワーク(LBSN)データを通じて、ユーザのパーソナライズされた行動パターンを包括的に理解することに基づいている。 過去の研究では、ユーザのチェックイン軌跡内でのシーケンシャルなパターンとトランザクショナルな関係が顕著に捉えられてきたが、昼、昼、夜といった異なる時間帯において、特別な行動パターンを識別するメカニズムを考案する際、顕著なギャップが持続している。 本稿では,ユーザのチェックイン記録を階層的に記述する「モビリティツリー」という,革新的なデータ構造を導入する。 Mobility Treeは、複数の粒度時間スロットノードを含み、異なる時間周期でユーザの好みを学習する。 一方,モビリティ・ツリー・ネットワーク(MTNet)は,モビリティ・ツリーをベースとしたパーソナライズされた嗜好学習のためのマルチタスク・フレームワークである。 葉ノードから根ノードへ特徴情報を伝達する4ステップのノードインタラクション操作を開発する。 さらに、マルチタスクのトレーニング戦略を採用して、ロバストな表現の学習に向けてモデルを推し進める。 総合的な実験結果から,MTNetは実世界の3つのLBSNデータセットにまたがる,最先端の次世代POIレコメンデーションモデルよりも優れていることが示され,モビリティツリーが促進する時間スロット選好学習の有効性が実証された。

Next Point-of-Interests (POIs) recommendation task aims to provide a dynamic ranking of POIs based on users' current check-in trajectories. The recommendation performance of this task is contingent upon a comprehensive understanding of users' personalized behavioral patterns through Location-based Social Networks (LBSNs) data. While prior studies have adeptly captured sequential patterns and transitional relationships within users' check-in trajectories, a noticeable gap persists in devising a mechanism for discerning specialized behavioral patterns during distinct time slots, such as noon, afternoon, or evening. In this paper, we introduce an innovative data structure termed the ``Mobility Tree'', tailored for hierarchically describing users' check-in records. The Mobility Tree encompasses multi-granularity time slot nodes to learn user preferences across varying temporal periods. Meanwhile, we propose the Mobility Tree Network (MTNet), a multitask framework for personalized preference learning based on Mobility Trees. We develop a four-step node interaction operation to propagate feature information from the leaf nodes to the root node. Additionally, we adopt a multitask training strategy to push the model towards learning a robust representation. The comprehensive experimental results demonstrate the superiority of MTNet over ten state-of-the-art next POI recommendation models across three real-world LBSN datasets, substantiating the efficacy of time slot preference learning facilitated by Mobility Tree.
翻訳日:2024-03-20 18:41:45 公開日:2024-03-17
# SUSYオシレータの代替手法

An Alternative Approach to SUSY Oscillators ( http://arxiv.org/abs/2403.12101v1 )

ライセンス: Link先を確認
Dheeraj Shukla, (参考訳) 本稿では熱力学および統計力学の文脈におけるフェルミオン振動子について論じる。 さらに、一般型の振動子対、すなわちボソニック-ボソニック、フェルミオン-フェルミオン、ボソニック-フェルミオンの系に対するシュヴィンガー代数の一般化と物理的実現を提供する。 得られた結果のいくつかの応用についても論じる。

In this article, we shall discuss the fermionic oscillators in the context of thermodynamic and statistical framework. Further, we shall also provide a generalization and physical realization of Schwinger algebra for a system of pair of oscillators of general types, i.e. bosonic-bosonic, fermionic-fermionic, bosonic-fermionic. We shall also discuss a few applications of the results obtained.
翻訳日:2024-03-20 18:41:45 公開日:2024-03-17
# 直交定在波場の2次元原子局在に及ぼす自然発生コヒーレンスとデチューニングの影響

Effect of Spontaneously Generated Coherence and Detuning on 2D Atom Localization in Two Orthogonal Standing-Wave Fields ( http://arxiv.org/abs/2403.12102v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, Qi-Xuan Wu, Ai-Ling Gong, (参考訳) 3レベルV型原子系における自発コヒーレンス(SGC)による2次元(2次元)原子の局在とプローブおよび定常波駆動場に関連する変形について検討した。 ゲインプロセスでは、デチューニングによる平面内位置分布の2つの等値および調整可能なピーク最大値が観察される。 しかし、SGCによる吸収過程におけるピーク最大値の増大は、x-y平面の四分数I,IIIにおいて達成される。 提案手法における2次元原子の局在化の精度と新規性について検討した。

Two-dimensional (2D) atom localization via the spontaneously generated coherence (SGC) and detunings associated with the probe and standing-wave driving fields in a three-level V-type atomic system are investigated. In the gain process, two equal and tunable peak maxima of position distribution in the plane via the detunings are observed. However, one decreasing and the other increasing peak maxima in the absorption process via the SGC are achieved in the quadrants I and III of the x-y plane. A better resolution and more novelty for the 2D atom localization in our scheme are obtained.
翻訳日:2024-03-20 18:41:45 公開日:2024-03-17
# レーザーとゲート電圧による非対称二重量子ドットのマニピュレータ特性

Manipulative Properties of the Asymmetry Double Quantum Dots via Laser and Gate Voltage ( http://arxiv.org/abs/2403.12103v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, Zheng-Dong Liu, (参考訳) 本稿では,非対称二重量子ドット(QD)系の理論的記述のための密度行列法を提案する。この結果は,二重QD系の利得・吸収・分散特性,1つのドットに1つの穴を持つ状態の集団と,トンネルによって伝達される他のドットの電子をレーザパルスまたはゲート電圧で操作できることを示し,我々の計画では,量子システムの電気光学的操作の可能性を示唆している。

We present the density matrix approach for theoretical description of an asymmetric double quantum dot(QD)system.The results show that the properties of gain,absorption and dispersion of the double QD system ,the population of the state with one hole in one dot and an electron in other dot transferred by tunneling can be manipulated by the laser pulse or gate voltage.Our scheme may propose a probability of electro-optical manipulation of quantum system.
翻訳日:2024-03-20 18:41:45 公開日:2024-03-17
# N型4レベル原子系における2次元等方性負屈折率

2-D isotropic negative refractive index in a N-type four-level atomic system ( http://arxiv.org/abs/2403.12105v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, Qi-Xuan Wu, Kun Ma, (参考訳) 2-D(2次元)等方性負屈折率(NRI)は直交信号とN型4レベル原子系を結合する定常波場を結合することによって明確に実現される。 密度の強い蒸気媒質のいくつかの重要なパラメータの下で、原子系は2次元のx-y平面において同時に負の誘電率と透過性(すなわち左利き)を持つ等方性NRIを示す。 他の2次元NRI方式と比較して、この方式におけるコヒーレントな原子蒸気媒体は理想の2次元等方性NRI候補であり、さらなる研究における潜在的な利点、重要性、応用を有する。

2-D(Two-dimensional) isotropic negative refractive index (NRI) is explicitly realized via the orthogonal signal and coupling standing-wave fields coupling the N-type four-level atomic system. Under some key parameters of the dense vapor media, the atomic system exhibits isotropic NRI with simultaneous negative permittivity and permeability (i.e. Left-handedness) in the 2-D x-y plane. Compared with other 2-D NRI schemes, the coherent atomic vapor media in our scheme may be an ideal 2-D isotropic NRI candidate and has some potential advantages, significance or applications in the further investigation.
翻訳日:2024-03-20 18:41:45 公開日:2024-03-17
# 近似確率的推論のための循環的信念伝播

Circular Belief Propagation for Approximate Probabilistic Inference ( http://arxiv.org/abs/2403.12106v1 )

ライセンス: Link先を確認
Vincent Bouttier, Renaud Jardri, Sophie Deneve, (参考訳) Belief Propagation (BP) は、確率分布を表すグラフのノード間でメッセージを渡す単純な確率的推論アルゴリズムである。 ニューラルネットワークの類似性から、神経科学や人工知能の幅広い応用が期待できる。 残念ながら、それはアルゴリズムのポテンシャルを制限するサイクルフリーグラフに適用されたときだけ正確である。 本稿では,BPの拡張であるCircular Belief Propagation(CBP)を提案する。これは,周期によるメッセージ残響の有害な影響を制限するもので,素早い相関や信念の増幅を検知・キャンセルする学習である。 CBP が BP をはるかに上回り,従来提案したアルゴリズムと比較して優れた性能を示すバイナリ確率グラフを含む数値実験を行った。

Belief Propagation (BP) is a simple probabilistic inference algorithm, consisting of passing messages between nodes of a graph representing a probability distribution. Its analogy with a neural network suggests that it could have far-ranging applications for neuroscience and artificial intelligence. Unfortunately, it is only exact when applied to cycle-free graphs, which restricts the potential of the algorithm. In this paper, we propose Circular Belief Propagation (CBP), an extension of BP which limits the detrimental effects of message reverberation caused by cycles by learning to detect and cancel spurious correlations and belief amplifications. We show in numerical experiments involving binary probabilistic graphs that CBP far outperforms BP and reaches good performance compared to that of previously proposed algorithms.
翻訳日:2024-03-20 18:41:45 公開日:2024-03-17
# AGIへの移行シナリオ

Scenarios for the Transition to AGI ( http://arxiv.org/abs/2403.12107v1 )

ライセンス: Link先を確認
Anton Korinek, Donghyun Suh, (参考訳) 我々は、AIシステムが人間が実行できる全てのタスクを実行する能力として定義される人工知能(AGI)において、技術進歩の異なるシナリオ下でのアウトプットと賃金がどのように振る舞うかを分析する。 人間の作業は、複雑さが異なる原子論的なタスクに分解できると仮定する。 テクノロジーの進歩は、より複雑なタスクを自動化しやすくする。 賃金への影響は、自動化と資本蓄積の間の競争に依存する。 タスクの複雑さの分布が十分厚い無限尾を示すなら、人間には必ず十分な仕事があり、賃金は永遠に上昇する可能性がある。 対照的に、人間が実行できるタスクの複雑さが束縛され、完全な自動化が達成されれば、賃金は崩壊する。 しかし、大規模な自動化が資本蓄積を超過し、労働力を過剰にしすぎれば、下降が起きる可能性がある。 生産性向上の自動化は、すべての要因に対するリターンの広範に利益をもたらす可能性がある。 対照的に、生産不可能な不足要因からの成長のボトルネックは賃金の低下を悪化させる可能性がある。

We analyze how output and wages behave under different scenarios for technological progress that may culminate in Artificial General Intelligence (AGI), defined as the ability of AI systems to perform all tasks that humans can perform. We assume that human work can be decomposed into atomistic tasks that differ in their complexity. Advances in technology make ever more complex tasks amenable to automation. The effects on wages depend on a race between automation and capital accumulation. If the distribution of task complexity exhibits a sufficiently thick infinite tail, then there is always enough work for humans, and wages may rise forever. By contrast, if the complexity of tasks that humans can perform is bounded and full automation is reached, then wages collapse. But declines may occur even before if large-scale automation outpaces capital accumulation and makes labor too abundant. Automating productivity growth may lead to broad-based gains in the returns to all factors. By contrast, bottlenecks to growth from irreproducible scarce factors may exacerbate the decline in wages.
翻訳日:2024-03-20 18:41:45 公開日:2024-03-17
# トランスを用いた局所的物体検出におけるグローバルローカル表現の統一

Unifying Global-Local Representations in Salient Object Detection with Transformer ( http://arxiv.org/abs/2108.02759v2 )

ライセンス: Link先を確認
Sucheng Ren, Qiang Wen, Nanxuan Zhao, Guoqiang Han, Shengfeng He, (参考訳) 完全畳み込みネットワーク (FCN) は, 長期間にわたって有能な物体検出を支配してきた。 しかし、CNNの局所性は、グローバルな受容場を持つのに十分な深さのモデルを必要とし、そのような深いモデルは、常に局所的な詳細が失われる。 本稿では,浅層から深層への表現のグローバル化を保証するために,新しい注目型エンコーダである視覚変換器をサルエントオブジェクト検出に導入する。 非常に浅い層のグローバルビューにより、トランスフォーマーエンコーダはより局所的な表現を保存し、最終的なサリエンシマップの空間的詳細を復元する。 さらに、各レイヤが前のレイヤのグローバルなビューをキャプチャできるため、隣接するレイヤは表現の差を暗黙的に最大化し、冗長な機能を最小化することができるため、トランスフォーマー層の出力機能は最終的な予測に一意に寄与する。 変換器から特徴量を復号するために, 単純かつ効果的に変換された復号器を提案する。 デコーダは変換器の特徴を密にデコードし、増幅し、ノイズ注入の少ない最終的なサリエンシマップを生成する。 実験により,本手法は,平均絶対誤差(MAE)において平均12.17%向上した5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも有意に優れていた。 コードはhttps://github.com/OliverRensu/GLSTR.comから入手できる。

The fully convolutional network (FCN) has dominated salient object detection for a long period. However, the locality of CNN requires the model deep enough to have a global receptive field and such a deep model always leads to the loss of local details. In this paper, we introduce a new attention-based encoder, vision transformer, into salient object detection to ensure the globalization of the representations from shallow to deep layers. With the global view in very shallow layers, the transformer encoder preserves more local representations to recover the spatial details in final saliency maps. Besides, as each layer can capture a global view of its previous layer, adjacent layers can implicitly maximize the representation differences and minimize the redundant features, making that every output feature of transformer layers contributes uniquely for final prediction. To decode features from the transformer, we propose a simple yet effective deeply-transformed decoder. The decoder densely decodes and upsamples the transformer features, generating the final saliency map with less noise injection. Experimental results demonstrate that our method significantly outperforms other FCN-based and transformer-based methods in five benchmarks by a large margin, with an average of 12.17% improvement in terms of Mean Absolute Error (MAE). Code will be available at https://github.com/OliverRensu/GLSTR.
翻訳日:2024-03-20 07:06:24 公開日:2024-03-17
# マルチモーダルRGB-Dビデオにおけるビジュアルオブジェクト追跡

Visual Object Tracking on Multi-modal RGB-D Videos: A Review ( http://arxiv.org/abs/2201.09207v3 )

ライセンス: Link先を確認
Xue-Feng Zhu, Tianyang Xu, Xiao-Jun Wu, (参考訳) 視覚的物体追跡の開発は何十年も続いている。 近年,ローコストなRGBDセンサの広範囲なアクセシビリティ向上に伴い,RGB-Dビデオにおける視覚的物体追跡の課題が注目されている。 従来のRGBのみのトラッキングと比較して、RGB-Dビデオは複雑なシナリオでオブジェクト追跡を容易にする情報を提供することができる。 本研究の目的は,RGB-D追跡研究の相対的知識を要約することである。 具体的には、関連するRGB-D追跡ベンチマークデータセットと、対応するパフォーマンス測定を一般化する。 また,既存のRGB-D追跡手法についても概説した。 さらに,RGB-Dトラッキング分野における今後の方向性についても検討する。

The development of visual object tracking has continued for decades. Recent years, as the wide accessibility of the low-cost RGBD sensors, the task of visual object tracking on RGB-D videos has drawn much attention. Compared to conventional RGB-only tracking, the RGB-D videos can provide more information that facilitates objecting tracking in some complicated scenarios. The goal of this review is to summarize the relative knowledge of the research filed of RGB-D tracking. To be specific, we will generalize the related RGB-D tracking benchmarking datasets as well as the corresponding performance measurements. Besides, the existing RGB-D tracking methods are summarized in the paper. Moreover, we discuss the possible future direction in the field of RGB-D tracking.
翻訳日:2024-03-20 07:06:24 公開日:2024-03-17
# TRIP:トラストリミテッド・クーシオン・レジストント・イン・パーソンの投票登録

TRIP: Trust-Limited Coercion-Resistant In-Person Voter Registration ( http://arxiv.org/abs/2202.06692v2 )

ライセンス: Link先を確認
Louis-Henri Merino, Simone Colombo, Rene Reyes, Alaleh Azhir, Haoqian Zhang, Jeff Allen, Bernhard Tellenbach, Vero Estrada-Galiñanes, Bryan Ford, (参考訳) 遠隔電子投票は便利で柔軟性があるが、強制と投票のリスクがある。 1つの有望な緩和戦略は、有権者が不正な偽の投票資格を付与することを可能にし、無言で数えない票を投じる。 しかし、現在の提案では、信頼できる登録者、信頼できるハードウェア、複数の登録者と対話する有権者など、資格発行中に問題のある仮定がなされている。 本稿では,この課題に対処する最初の投票者登録方式であるTRIPについて述べる。 投票者はプライバシーブースでキオスクを使って、本物と偽の紙の認証情報を印刷する。 投票者は1つの権限のみと対話し、認証発行時に信頼できるハードウェアを必要とせず、実際に強制された場合を除いて登録官を信頼する必要はない。 検証可能性について、各資格にはインタラクティブなゼロ知識証明が含まれている。 投票者は印刷工程の順序を観察して違いを学習し、技術的な詳細を理解する必要はない。 TRIPが耐余効性と妥当性を満たすことを正式に証明する。 150名を対象にしたユーザスタディでは,83%がTRIPをうまく利用した。

Remote electronic voting is convenient and flexible, but presents risks of coercion and vote buying. One promising mitigation strategy enables voters to give a coercer fake voting credentials, which silently cast votes that do not count. However, current proposals make problematic assumptions during credential issuance, such as relying on a trustworthy registrar, on trusted hardware, or on voters interacting with multiple registrars. We present TRIP, the first voter registration scheme that addresses these challenges by leveraging the physical security of in-person interaction. Voters use a kiosk in a privacy booth to print real and fake paper credentials, which appear indistinguishable to others. Voters interact with only one authority, need no trusted hardware during credential issuance, and need not trust the registrar except when actually under coercion. For verifiability, each credential includes an interactive zero-knowledge proof, which is sound in real credentials and unsound in fake credentials. Voters learn the difference by observing the order of printing steps, and need not understand the technical details. We prove formally that TRIP satisfies coercion-resistance and verifiability. In a user study with 150 participants, 83% successfully used TRIP.
翻訳日:2024-03-20 07:06:24 公開日:2024-03-17
# PyGOD: グラフ出力検出のためのPythonライブラリ

PyGOD: A Python Library for Graph Outlier Detection ( http://arxiv.org/abs/2204.12095v2 )

ライセンス: Link先を確認
Kay Liu, Yingtong Dou, Xueying Ding, Xiyang Hu, Ruitong Zhang, Hao Peng, Lichao Sun, Philip S. Yu, (参考訳) PyGODはオープンソースのPythonライブラリで、グラフデータの外れ値を検出する。 この種の最初の包括的ライブラリとして、PyGODは、研究者と実践者の両方が使用するように設計された、使いやすく、文書化されたAPIの下で、外れ値検出のための主要なグラフベースのメソッドを幅広くサポートする。 PyGODは、ユーザーがそれぞれの検出器を簡単にカスタマイズできるように、実装された異なる検出器のモジュール化されたコンポーネントを提供する。 検出ワークフローの構築を容易にするため、PyGODは多くの一般的なユーティリティ機能を提供している。 大規模なグラフに計算をスケールするために、PyGODはサンプリングやミニバッチ処理のような深層モデルの機能をサポートする。 PyGODは、ユニットテスト、継続的インテグレーション、コードカバレッジなど、コードの信頼性と保守性を促進するためのベストプラクティスを使用している。 アクセシビリティを容易にするため、PyGODはBSD 2-Clauseライセンスの下でhttps://pygod.orgとPython Package Index (PyPI)でリリースされている。

PyGOD is an open-source Python library for detecting outliers in graph data. As the first comprehensive library of its kind, PyGOD supports a wide array of leading graph-based methods for outlier detection under an easy-to-use, well-documented API designed for use by both researchers and practitioners. PyGOD provides modularized components of the different detectors implemented so that users can easily customize each detector for their purposes. To ease the construction of detection workflows, PyGOD offers numerous commonly used utility functions. To scale computation to large graphs, PyGOD supports functionalities for deep models such as sampling and mini-batch processing. PyGOD uses best practices in fostering code reliability and maintainability, including unit testing, continuous integration, and code coverage. To facilitate accessibility, PyGOD is released under a BSD 2-Clause license at https://pygod.org and at the Python Package Index (PyPI).
翻訳日:2024-03-20 07:06:24 公開日:2024-03-17
# Opportunistic Mobile Relayingによる非同期フェデレーション学習収束の高速化

Accelerating Asynchronous Federated Learning Convergence via Opportunistic Mobile Relaying ( http://arxiv.org/abs/2206.04742v2 )

ライセンス: Link先を確認
Jieming Bian, Jie Xu, (参考訳) 本稿では,モバイルネットワーク環境における非同期フェデレート学習(FL)について述べる。 FLアルゴリズムの大部分は、クライアントとサーバ間の通信が常に可能であると仮定しているが、現実のシステムではそうではない。 そこで本研究では,非同期FLの収束性能に及ぼすモビリティの影響について検討する。 モビリティを活用することで、クライアントはリレーとして機能する別のクライアントを介してサーバと間接的に通信でき、新たな通信機会が生まれる。 これにより、クライアントはより早くローカルモデルの更新をアップロードしたり、より新しいグローバルモデルを受け取ることができる。 我々はFedMobileと呼ばれる新しいFLアルゴリズムを提案し、機会論的リレーを取り入れ、いつ、どのようにリレーするかといった重要な問題に対処する。 我々はFedMobileがコンバージェンスレート$O(\frac{1}{\sqrt{NT}})$を達成することを証明し、$N$はクライアント数、$T$は通信スロット数であることを示す。 また、リレー前にデータ操作を考慮し、コストを削減し、プライバシーを高める拡張も提案する。 合成データセットと実世界の2つのデータセットの実験結果により、我々の理論的な結果が検証された。

This paper presents a study on asynchronous Federated Learning (FL) in a mobile network setting. The majority of FL algorithms assume that communication between clients and the server is always available, however, this is not the case in many real-world systems. To address this issue, the paper explores the impact of mobility on the convergence performance of asynchronous FL. By exploiting mobility, the study shows that clients can indirectly communicate with the server through another client serving as a relay, creating additional communication opportunities. This enables clients to upload local model updates sooner or receive fresher global models. We propose a new FL algorithm, called FedMobile, that incorporates opportunistic relaying and addresses key questions such as when and how to relay. We prove that FedMobile achieves a convergence rate $O(\frac{1}{\sqrt{NT}})$, where $N$ is the number of clients and $T$ is the number of communication slots, and show that the optimal design involves an interesting trade-off on the best timing of relaying. The paper also presents an extension that considers data manipulation before relaying to reduce the cost and enhance privacy. Experiment results on a synthetic dataset and two real-world datasets verify our theoretical findings.
翻訳日:2024-03-20 07:06:24 公開日:2024-03-17
# サンプルストラップのためのロボットスキル学習による実験室自動化の高速化

Accelerating Laboratory Automation Through Robot Skill Learning For Sample Scraping ( http://arxiv.org/abs/2209.14875v2 )

ライセンス: Link先を確認
Gabriella Pizzuto, Hetong Wang, Hatem Fakhruldeen, Bei Peng, Kevin S. Luck, Andrew I. Cooper, (参考訳) 自律的な実験にラボロボティクスを使うことは、気候変動や医薬品といったトピックの問題に対する物質発見を加速させながら、退屈な作業から科学者を緩和するための魅力的なルートを提供する。 いくつかの実験的なワークフローは、既に自動化の恩恵を受けているが、異なるツール、化学物質、ガラス製品を扱う際に必要とされる高い運動機能と器用さのために、サンプルの準備は手作業で行われている。 化学分野における基本的なワークフローは結晶化であり、1つの応用はポリモルフィックスクリーニング(つまり結晶から3次元分子構造を得る)である。 このプロセスでは、分子の合成は時間とお金の両方で費用がかかるため、できるだけ多くのサンプルを回収することが最も重要である。 この目的のために、化学者は、イメージングプレートの転写に先立って、サンプル内容を回収するためにバイアルをスクラップする。 このプロセスの自動化は、制約された環境(サンプルバイアル)内で細かい粒状運動を実行するという基本的な要件のため、ロボット挿入タスクを超えたため、難しい。 本研究は, 人体化学者がバイアルから粉末を抽出する方法に触発されて, スクラップ政策を学習するモデルレス強化学習法を提案し, 完全自律的な試料スクラップ法を提案する。 まず,実験室のスクレイパーを模擬バイアルに挿入したPanda Franka Emikaロボットを用いて,シナリオ固有のシミュレーション環境を構築し,シミュレーションにおいてスクレーピングポリシーをどのように学習するかを実証する。 次に,実験室環境下での実際のロボットマニピュレータ上での手法の訓練と評価を行い,粉体を各種の装置で自律的にスクラップできることを示す。

The use of laboratory robotics for autonomous experiments offers an attractive route to alleviate scientists from tedious tasks while accelerating material discovery for topical issues such as climate change and pharmaceuticals. While some experimental workflows can already benefit from automation, sample preparation is still carried out manually due to the high level of motor function and dexterity required when dealing with different tools, chemicals, and glassware. A fundamental workflow in chemical fields is crystallisation, where one application is polymorph screening, i.e., obtaining a three dimensional molecular structure from a crystal. For this process, it is of utmost importance to recover as much of the sample as possible since synthesising molecules is both costly in time and money. To this aim, chemists scrape vials to retrieve sample contents prior to imaging plate transfer. Automating this process is challenging as it goes beyond robotic insertion tasks due to a fundamental requirement of having to execute fine-granular movements within a constrained environment (sample vial). Motivated by how human chemists carry out this process of scraping powder from vials, our work proposes a model-free reinforcement learning method for learning a scraping policy, leading to a fully autonomous sample scraping procedure. We first create a scenario-specific simulation environment with a Panda Franka Emika robot using a laboratory scraper that is inserted into a simulated vial, to demonstrate how a scraping policy can be learned successfully in simulation. We then train and evaluate our method on a real robotic manipulator in laboratory settings, and show that our method can autonomously scrape powder across various setups.
翻訳日:2024-03-20 06:58:04 公開日:2024-03-17
# AISFormer: Transformerを使ったアモーダルインスタンスセグメンテーション

AISFormer: Amodal Instance Segmentation with Transformer ( http://arxiv.org/abs/2210.06323v4 )

ライセンス: Link先を確認
Minh Tran, Khoa Vo, Kashu Yamazaki, Arthur Fernandes, Michael Kidd, Ngan Le, (参考訳) Amodal Instance Segmentation (AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。 Mask R-CNNベースのAISアプローチは有望な結果を示しているが、受容領域が限られているため、高レベルの特徴コヒーレンスをモデル化することはできない。 最新のトランスフォーマーベースのモデルでは、コンボリューションニューラルネットワーク(CNN)よりも優れた、視覚タスクのパフォーマンスを示している。 本稿では,Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。 AISFormerは、学習可能なクエリとして扱うことにより、オブジェクトの関心領域内のオクルーダー、可視性、アモーダル性、および見えないマスク間の複雑なコヒーレンスを明示的にモデル化する。 具体的には、AISFormerには4つのモジュールがある。 (i)特徴符号化:ROIを抽出し、短距離と長距離の両方の視覚特徴を学ぶ。 (ii)マスクトランスデコーディング:トランスデコーダによるオクルーダ、可視、およびアモーダルマスククエリの埋め込みを生成する (三)目に見えないマスクの埋め込み:アモーダルマスクと可視マスクのコヒーレンスをモデル化し、 (iv)マスク予測:オクルーダー、可視性、アモダル、可視性を含む出力マスクを推定する。 AISFormerの有効性を評価するために、KINS、D2SA、COCOA-clsの3つの挑戦的ベンチマークに関する広範な実験とアブレーション研究を行った。 コードは、https://github.com/UARK-AICV/AISFormerで入手できる。

Amodal Instance Segmentation (AIS) aims to segment the region of both visible and possible occluded parts of an object instance. While Mask R-CNN-based AIS approaches have shown promising results, they are unable to model high-level features coherence due to the limited receptive field. The most recent transformer-based models show impressive performance on vision tasks, even better than Convolution Neural Networks (CNN). In this work, we present AISFormer, an AIS framework, with a Transformer-based mask head. AISFormer explicitly models the complex coherence between occluder, visible, amodal, and invisible masks within an object's regions of interest by treating them as learnable queries. Specifically, AISFormer contains four modules: (i) feature encoding: extract ROI and learn both short-range and long-range visual features. (ii) mask transformer decoding: generate the occluder, visible, and amodal mask query embeddings by a transformer decoder (iii) invisible mask embedding: model the coherence between the amodal and visible masks, and (iv) mask predicting: estimate output masks including occluder, visible, amodal and invisible. We conduct extensive experiments and ablation studies on three challenging benchmarks i.e. KINS, D2SA, and COCOA-cls to evaluate the effectiveness of AISFormer. The code is available at: https://github.com/UARK-AICV/AISFormer
翻訳日:2024-03-20 06:58:04 公開日:2024-03-17
# タスク駆動型特徴選択によるマルチチャネルイメージングの実験設計

Experimental Design for Multi-Channel Imaging via Task-Driven Feature Selection ( http://arxiv.org/abs/2210.06891v4 )

ライセンス: Link先を確認
Stefano B. Blumberg, Paddy J. Slator, Daniel C. Alexander, (参考訳) 本稿では,実験設計のためのデータ駆動型タスク固有パラダイムを提案し,取得時間を短縮し,コストを低減し,撮像装置の配置を高速化する。 実験的な設計における現在のアプローチはモデルパラメータの推定に重点を置いており、特定のモデルの仕様を必要とする。 さらに、そのようなアプローチは、実世界のイメージングアプリケーションにおいて、難解な最適化問題を引き起こすことが多い。 本稿では,その設計(画像チャネルのセット)を同時に最適化し,ユーザが特定した画像解析タスクを実行するための機械学習モデルを訓練する実験設計のための新しいパラダイムを提案する。 このアプローチは、少数の取得のために測定空間(多数の画像チャネル)上に密にサンプリングされたデータを取得し、そのタスクを最もよく支援する所定のサイズのチャネルのサブセットを特定する。 本稿では,TAsk-DRiven実験設計のためのTADREDを提案する。 様々な画像応用におけるTADREDの可能性を示す実験は、磁気共鳴イメージングにおけるいくつかの臨床的タスク、およびハイパースペクトルイメージングのリモートセンシングおよび生理学的応用である。 その結果、従来の実験設計よりも大幅に改善され、新しいパラダイムにおけるアプリケーション固有の方法が2つ、教師付き特徴選択における最先端のアプローチが2つあった。 我々は我々のアプローチのさらなる応用を期待する。 https://github.com/sbb-gh/experimental-design-multi channel

This paper presents a data-driven, task-specific paradigm for experimental design, to shorten acquisition time, reduce costs, and accelerate the deployment of imaging devices. Current approaches in experimental design focus on model-parameter estimation and require specification of a particular model, whereas in imaging, other tasks may drive the design. Furthermore, such approaches often lead to intractable optimization problems in real-world imaging applications. Here we present a new paradigm for experimental design that simultaneously optimizes the design (set of image channels) and trains a machine-learning model to execute a user-specified image-analysis task. The approach obtains data densely-sampled over the measurement space (many image channels) for a small number of acquisitions, then identifies a subset of channels of prespecified size that best supports the task. We propose a method: TADRED for TAsk-DRiven Experimental Design in imaging, to identify the most informative channel-subset whilst simultaneously training a network to execute the task given the subset. Experiments demonstrate the potential of TADRED in diverse imaging applications: several clinically-relevant tasks in magnetic resonance imaging; and remote sensing and physiological applications of hyperspectral imaging. Results show substantial improvement over classical experimental design, two recent application-specific methods within the new paradigm, and state-of-the-art approaches in supervised feature selection. We anticipate further applications of our approach. Code is available: https://github.com/sbb-gh/experimental-design-multichannel
翻訳日:2024-03-20 06:58:04 公開日:2024-03-17
# 非CPプロセスの量子プロセス能力によるフォトニック非マルコビアン性同定

Photonic non-Markovianity identification by quantum process capabilities of non-CP processes ( http://arxiv.org/abs/2212.03676v2 )

ライセンス: Link先を確認
Chan Hsu, Yu-Chien Kao, Hong-Bin Chen, Shih-Hsuan Chen, Che-Ming Li, (参考訳) マルコフ量子過程は、任意に2つまたはそれ以上の正の完全正(CP)サブプロセスに分けることができる。 分裂過程の間に少なくとも1つの非CP過程が存在するとき、力学は非マルコフ過程と見なされる。 しかし、すべてのプロセス入力状態を調べたり、絡み合う資源を使わずに、最小限の実験的努力をどのように活用するかは、まだ決定されていない。 本稿では、状態最適化と絡み合いの負担を伴わずに非マルコフ性を特定し、測定するための非CPプロセスの定量化手法を提案する。 これは、新しい量子プロセス能力として非CPプロセスに依存しており、量子プロセストモグラフィーによって体系的に実装することができる。 さらに,プロセストモグラフィーを使わずに,少なくとも4つのシステム状態を分析することによって,非マルコビアン性を見極めるアプローチを提案する。 両屈折結晶における単光子と2光子の非マルコビアン性を特定するために、全光学的設定を用いて、本手法を明示的に実装できることを忠実に証明する。 プロセストモグラフィーや状態トモグラフィーが実装可能な他の力学系における非マルコビアン性についても検討することができる。

A Markovian quantum process can be arbitrarily divided into two or more legitimate completely-positive (CP) subprocesses. When at least one non-CP process exists among the divided processes, the dynamics is considered non-Markovian. However, how to utilize minimum experimental efforts, without examining all process input states and using entanglement resources, to identify or measure non-Markovianity is still being determined. Herein, we propose a method to quantify non-CP processes for identifying and measuring non-Markovianity without the burden of state optimization and entanglement. This relies on the non-CP processes as new quantum process capabilities and can be systematically implemented by quantum process tomography. We additionally provide an approach for witnessing non-Markovianity by analyzing at least four system states without process tomography. We faithfully demonstrate that our method can be explicitly implemented using all-optical setups and applied to identify the non-Markovianity of single-photon and two-photon dynamics in birefringent crystals. Our results can also be used to explore non-Markovianity in other dynamical systems where process or state tomography is implementable.
翻訳日:2024-03-20 06:58:04 公開日:2024-03-17
# マスク自己学習による質問応答のためのソースフリードメイン適応

Source-Free Domain Adaptation for Question Answering with Masked Self-training ( http://arxiv.org/abs/2212.09563v2 )

ライセンス: Link先を確認
M. Yin, B. Wang, Y. Dong, C. Ling, (参考訳) 質問応答(QA)のための従来の教師なしドメイン適応(UDA)メソッドは、ターゲットドメインのモデルを微調整しながらソースドメインデータにアクセスする必要がある。 しかし、ソースドメインデータは機密情報を含み、制限されることもある。 本研究では、ソースドメインデータにアクセスすることなく、事前訓練されたソースモデルとターゲットドメインデータしか持たない、より困難な、ソースフリーなUDAについて検討する。 ドメイン適応のためのユニークなマスクモジュールを統合したQAモデルに対する新しい自己学習手法を提案する。 マスクは、ソースドメインでトレーニング中に重要なドメイン知識を抽出するために自動調整される。 学習済みのドメイン知識を維持するために、特定のマスク重みは適応中に凍結され、他の重みはターゲットドメインで生成された擬似ラベルサンプルでドメインシフトを緩和するために調整される。 %) の自己学習プロセスの一環として, ソース領域で訓練されたモデルに基づいて, 対象領域に擬似ラベル付きサンプルを生成する。 4つのベンチマークデータセットに対する実験結果から,本手法は対象領域における事前学習されたQAモデルの性能を著しく向上させ,適応中にソースデータにアクセス可能なモデルよりも優れていることが示唆された。

Most previous unsupervised domain adaptation (UDA) methods for question answering(QA) require access to source domain data while fine-tuning the model for the target domain. Source domain data may, however, contain sensitive information and may be restricted. In this study, we investigate a more challenging setting, source-free UDA, in which we have only the pretrained source model and target domain data, without access to source domain data. We propose a novel self-training approach to QA models that integrates a unique mask module for domain adaptation. The mask is auto-adjusted to extract key domain knowledge while trained on the source domain. To maintain previously learned domain knowledge, certain mask weights are frozen during adaptation, while other weights are adjusted to mitigate domain shifts with pseudo-labeled samples generated in the target domain. %As part of the self-training process, we generate pseudo-labeled samples in the target domain based on models trained in the source domain. Our empirical results on four benchmark datasets suggest that our approach significantly enhances the performance of pretrained QA models on the target domain, and even outperforms models that have access to the source data during adaptation.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-17
# 高次元量子テクスチュアリティのキャラクタリゼーション

Characterizing high-dimensional quantum contextuality ( http://arxiv.org/abs/2212.11559v2 )

ライセンス: Link先を確認
Xiao-Dong Yu, Isadora Veeren, Otfried Gühne, (参考訳) 測定の不整合性とベル非局所性を含む現象として、量子文脈性は量子力学の理解の中心であるだけでなく、多くの量子情報処理タスクにおいて重要な資源でもある。 量子テクスチュアリティの次元依存的特徴は、その発見以来ずっと知られているが、固定次元を持つ系における量子コンテクストリティを特徴づける体系的手法はまだ不足している。 本研究では,この問題を解く。 得られた確率分布が$d$次元量子システムから得られるかどうかを検証するための体系的かつ信頼性の高い方法と、一般の非文脈不等式に対する有限次元の違反を計算する方法を提供する。 応用として, 有限次元量子テクスチュアリティの非凸構造を明らかにする。

As a phenomenon encompassing measurement incompatibility and Bell nonlocality, quantum contextuality is not only central to our understanding of quantum mechanics, but also an essential resource in many quantum information processing tasks. The dimension-dependent feature of quantum contextuality is known ever since its discovery, but systematic methods for characterizing the quantum contextuality in systems with fixed dimension are still lacking. In this work, we solve this problem. We provide systematic and reliable methods for verifying whether or not an obtained probability distribution can result from a $d$-dimensional quantum system, as well as calculating finite-dimensional violation of a general noncontextuality inequality. As an application, our methods reveal the non-convex structure of finite-dimensional quantum contextuality.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-17
# 深部学習屈折光学のカリキュラム学習

Curriculum Learning for ab initio Deep Learned Refractive Optics ( http://arxiv.org/abs/2302.01089v3 )

ライセンス: Link先を確認
Xinge Yang, Qiang Fu, Wolfgang Heidrich, (参考訳) 近年,出力画像のみを目的とする計算イメージングシステムの設計パラダイムとして,深部光学最適化が登場している。 しかし、これは、回折光学素子(DOE)やメタレンのような単一の要素からなる単純な光学系、あるいは優れた初期設計からの複合レンズの微調整に限られている。 本稿では、人間の介入なしにランダムに初期化面から複合レンズの光学設計を学習できるカリキュラム学習に基づくDeepLens設計手法を提案する。 本研究では,従来の画像レンズと大視野拡大深度計算レンズの両方を,非球面と短焦点長の携帯電話式形状因子で完全に設計し,提案手法の有効性を実証する。

Deep optical optimization has recently emerged as a new paradigm for designing computational imaging systems using only the output image as the objective. However, it has been limited to either simple optical systems consisting of a single element such as a diffractive optical element (DOE) or metalens, or the fine-tuning of compound lenses from good initial designs. Here we present a DeepLens design method based on curriculum learning, which is able to learn optical designs of compound lenses ab initio from randomly initialized surfaces without human intervention, therefore overcoming the need for a good initial design. We demonstrate the effectiveness of our approach by fully automatically designing both classical imaging lenses and a large field-of-view extended depth-of-field computational lens in a cellphone-style form factor, with highly aspheric surfaces and a short back focal length.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-17
# ニューラルネットワークの予兆を想像する(動画あり)

Provably Bounding Neural Network Preimages ( http://arxiv.org/abs/2302.01404v4 )

ライセンス: Link先を確認
Suhas Kotha, Christopher Brix, Zico Kolter, Krishnamurthy Dvijotham, Huan Zhang, (参考訳) ニューラルネットワークの形式的検証に関するほとんどの研究は、与えられた入力の集合に対応する出力の集合(例えば、名目入力の有界摂動)の有界化に焦点を当てている。 しかし、ニューラルネットワーク検証の多くのユースケースでは、逆問題を解決するか、特定の出力につながる入力の集合を過度に近似する必要がある。 InVPROPアルゴリズムは線形に制約された出力セットのプリイメージ上の特性を検証し、分岐とバウンドを組み合わせて精度を向上させる。 他のアプローチとは対照的に、効率的なアルゴリズムはGPU加速であり、線形プログラミング解決器を必要としない。 本稿では,動的システムの安全制御領域を後方到達性解析により同定し,逆方向のロバスト性を検証し,ニューラルネットワークへのアウト・オブ・ディストリビューションの入力を検出するアルゴリズムを実証する。 その結果, 従来よりも2.5倍速く, 2500倍以上の過近似が得られていることがわかった。 出力制約によるロバスト性検証を強化することで、VNN-COMP 2023の167kのニューロンを含む複数のベンチマークにおいて、従来よりも多くの特性を一貫して検証する。 私たちのアルゴリズムは$\alpha,\! https://abcrown.orgで入手できる。

Most work on the formal verification of neural networks has focused on bounding the set of outputs that correspond to a given set of inputs (for example, bounded perturbations of a nominal input). However, many use cases of neural network verification require solving the inverse problem, or over-approximating the set of inputs that lead to certain outputs. We present the INVPROP algorithm for verifying properties over the preimage of a linearly constrained output set, which can be combined with branch-and-bound to increase precision. Contrary to other approaches, our efficient algorithm is GPU-accelerated and does not require a linear programming solver. We demonstrate our algorithm for identifying safe control regions for a dynamical system via backward reachability analysis, verifying adversarial robustness, and detecting out-of-distribution inputs to a neural network. Our results show that in certain settings, we find over-approximations over 2500x tighter than prior work while being 2.5x faster. By strengthening robustness verification with output constraints, we consistently verify more properties than the previous state-of-the-art on multiple benchmarks, including a large model with 167k neurons in VNN-COMP 2023. Our algorithm has been incorporated into the $\alpha,\!\beta$-CROWN verifier, available at https://abcrown.org.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-17
# 正確性のための論理

A Logic for Veracity ( http://arxiv.org/abs/2302.06164v4 )

ライセンス: Link先を確認
Steve Reeves, (参考訳) 本稿は,形式論理の第一原理から特徴づけに至るまでの開発の初期段階を,実証可能性,真理,信頼,真正性といった特性を含む,広く定義された正当性の概念で考察する。

This paper shows the initial stages of development, from first principles, of a formal logic to characterise and then explore issues in a broadly defined idea of Veracity, which includes properties of demonstrability, truth, trust and authenticity.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-17
# 深層学習による魚ペアの長期集団行動予測

Predicting the long-term collective behaviour of fish pairs with deep learning ( http://arxiv.org/abs/2302.06839v2 )

ライセンス: Link先を確認
Vaios Papaspyros, Ramón Escobedo, Alexandre Alahi, Guy Theraulaz, Clément Sire, Francesco Mondada, (参考訳) 現代コンピューティングは、動物社会における社会的相互作用が集団行動をどのように形成するかについての理解を深めた。 集団行動の研究において分析モデルが支配的だが,本研究では,魚種Hemigrammus rhodostomusの社会的相互作用を評価するための深層学習モデルを導入する。 我々は、ディープラーニングのアプローチの結果と実験結果と、最先端の分析モデルの結果を比較した。 そこで本研究では,集団運動モデルの忠実度を評価するための体系的手法を提案する。 我々は,ソーシャルインタラクションの機械学習モデルが,微妙な実験観測対象を再現する上で,その分析モデルと直接競合できることを実証した。 さらに、この研究は異なる時間スケールで一貫した検証の必要性を強調し、短期的および長期的両方のダイナミクスを捉えるためのディープラーニングアプローチを可能にする重要な設計側面を特定します。 また,本手法は深層学習ネットワークのアーキテクチャを保ちながら,再訓練なしに大規模群や他の魚種に拡張可能であることも示している。 最後に,動物群における集団運動研究の文脈における機械学習の付加価値とその分析モデルへの補完的アプローチとしての可能性について論じる。

Modern computing has enhanced our understanding of how social interactions shape collective behaviour in animal societies. Although analytical models dominate in studying collective behaviour, this study introduces a deep learning model to assess social interactions in the fish species Hemigrammus rhodostomus. We compare the results of our deep learning approach to experiments and to the results of a state-of-the-art analytical model. To that end, we propose a systematic methodology to assess the faithfulness of a collective motion model, exploiting a set of stringent individual and collective spatio-temporal observables. We demonstrate that machine learning models of social interactions can directly compete with their analytical counterparts in reproducing subtle experimental observables. Moreover, this work emphasises the need for consistent validation across different timescales, and identifies key design aspects that enable our deep learning approach to capture both short- and long-term dynamics. We also show that our approach can be extended to larger groups without any retraining, and to other fish species, while retaining the same architecture of the deep learning network. Finally, we discuss the added value of machine learning in the context of the study of collective motion in animal groups and its potential as a complementary approach to analytical models.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-17
# パワーの一般化--シュトゥルマーの不等式

Generalizations of Powers--Størmer's inequality ( http://arxiv.org/abs/2302.07818v3 )

ライセンス: Link先を確認
Mohsen Kian, Mohammad Sal Moslehian, Hiroyuki Osaka, (参考訳) 2つの量子状態間での判別における誤差の確率の上限を求めることに関連して、 \begin{align*} \mathrm{tr}(A+B) - \mathrm{tr}|A-B|\leq 2\, \mathrm{tr}\big(f(A)g(B)\big) \end{align*} が任意の正値行列単調関数 $f$ を持ち、$g(x)=x/f(x)$ とすべての正定行列が $A$ と $B$ である。 この不等式を満たす関数の集合には追加の要素が含まれており、この主張を支持するための図示的な例が示されている。 さらに、上記の不等式の行列バージョンに基づく行列減少関数の特性について述べる。

Relating to finding possible upper bounds for the probability of error for discriminating between two quantum states, it is well-known that \begin{align*} \mathrm{tr}(A+B) - \mathrm{tr}|A-B|\leq 2\, \mathrm{tr}\big(f(A)g(B)\big) \end{align*} holds for every positive-valued matrix monotone function $f$, where $g(x)=x/f(x)$, and all positive definite matrices $A$ and $B$. This study demonstrates that the set of functions satisfying this inequality includes additional elements and provides illustrative examples to support this claim. Furthermore, we present a characterization of matrix decreasing functions based on a matrix version of the above inequality.
翻訳日:2024-03-20 06:38:27 公開日:2024-03-17
# 3次元クラウド物体追跡のための連続運動のモデル化

Modeling Continuous Motion for 3D Point Cloud Object Tracking ( http://arxiv.org/abs/2303.07605v2 )

ライセンス: Link先を確認
Zhipeng Luo, Gongjie Zhang, Changqing Zhou, Zhonghua Wu, Qingyi Tao, Lewei Lu, Shijian Lu, (参考訳) LiDAR点雲を用いた3Dシングルオブジェクトトラッキング(SOT)のタスクは、自律運転やロボット工学など、さまざまなアプリケーションに不可欠である。 しかし、既存のアプローチは主に2つの連続するフレーム内での出現マッチングや動きのモデリングに依存しており、3次元空間における物体の長距離連続運動特性を見落としている。 本稿では,各トラックレットを連続的ストリームとみなす新しい手法を提案する。各タイムスタンプにおいて,現在のフレームのみをネットワークに供給し,メモリバンクに格納された複数フレームの歴史的特徴と相互作用させ,シーケンシャル情報の効率的な活用を可能にする。 クロスフレームなメッセージパッシングを効果的に実現するために、長距離関係モデリングと局所幾何学的特徴抽出の両方を考慮したハイブリッドアテンション機構が設計されている。 さらに、ロバストなトラッキングのためのマルチフレーム機能の利用を高めるために、ストレートなシークエンスエンハンスメント戦略を提案し、ストレートな真理トラックレットを用いてトレーニングシーケンスを強化し、コントラッシブな方法で偽陽性に対する差別を促進する。 大規模な実験により,提案手法は複数のベンチマークにおいて,最先端の手法よりも高い性能を示した。

The task of 3D single object tracking (SOT) with LiDAR point clouds is crucial for various applications, such as autonomous driving and robotics. However, existing approaches have primarily relied on appearance matching or motion modeling within only two successive frames, thereby overlooking the long-range continuous motion property of objects in 3D space. To address this issue, this paper presents a novel approach that views each tracklet as a continuous stream: at each timestamp, only the current frame is fed into the network to interact with multi-frame historical features stored in a memory bank, enabling efficient exploitation of sequential information. To achieve effective cross-frame message passing, a hybrid attention mechanism is designed to account for both long-range relation modeling and local geometric feature extraction. Furthermore, to enhance the utilization of multi-frame features for robust tracking, a contrastive sequence enhancement strategy is proposed, which uses ground truth tracklets to augment training sequences and promote discrimination against false positives in a contrastive manner. Extensive experiments demonstrate that the proposed method outperforms the state-of-the-art method by significant margins on multiple benchmarks.
翻訳日:2024-03-20 06:38:27 公開日:2024-03-17
# ニューロン活性化空間における逆学習による視覚質問応答のインスタンスレベルトロイの木馬攻撃

Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space ( http://arxiv.org/abs/2304.00436v2 )

ライセンス: Link先を確認
Yuwei Sun, Hideya Ochiai, Jun Sakuma, (参考訳) トロイの木馬攻撃は入力データに摂動を埋め込み、ニューラルネットワークモデルに悪意のある振る舞いをもたらす。 異なるモダリティにおける様々なトロイの木馬の組み合わせは、視覚的質問回答(VQA)のようなマルチモーダル学習に対する高度な攻撃を敵に実装することを可能にする。 しかし、従来の手法のマルチモーダルトロイの木馬は微調整などのプロセスにおけるパラメータ調整の影響を受けやすい。 そこで本研究では,VQAに対するインスタンスレベルのマルチモーダルトロイの木馬攻撃を提案する。 この方法は、事前訓練されたモデルの特定の摂動層の2つの特定のニューロンを妥協し、過剰に大きなニューロン活性化を発生させる。 そして、これらの過剰活動ニューロンと微調整モデルの悪質な出力との悪質な相関関係を、逆学習により確立する。 VQA-v2データセットを使用して、サンプル効率、ステルスネス、ロバストネスなど幅広い測定値に基づいて、大規模な実験を行う。 提案した攻撃は、各サンプルに合わせた多様な視覚とテキストトロイの木馬による性能向上を示す。 提案した攻撃はトロイの木馬のサンプルを数枚注入することで、異なる微調整モデルに効率的に適応できることを実証した。 さらに,従来の防御下での攻撃性能について検討し,攻撃を効果的に軽減できないような攻撃性能について検討した。

Trojan attacks embed perturbations in input data leading to malicious behavior in neural network models. A combination of various Trojans in different modalities enables an adversary to mount a sophisticated attack on multimodal learning such as Visual Question Answering (VQA). However, multimodal Trojans in conventional methods are susceptible to parameter adjustment during processes such as fine-tuning. To this end, we propose an instance-level multimodal Trojan attack on VQA that efficiently adapts to fine-tuned models through a dual-modality adversarial learning method. This method compromises two specific neurons in a specific perturbation layer in the pretrained model to produce overly large neuron activations. Then, a malicious correlation between these overactive neurons and the malicious output of a fine-tuned model is established through adversarial learning. Extensive experiments are conducted using the VQA-v2 dataset, based on a wide range of metrics including sample efficiency, stealthiness, and robustness. The proposed attack demonstrates enhanced performance with diverse vision and text Trojans tailored for each sample. We demonstrate that the proposed attack can be efficiently adapted to different fine-tuned models, by injecting only a few shots of Trojan samples. Moreover, we investigate the attack performance under conventional defenses, where the defenses cannot effectively mitigate the attack.
翻訳日:2024-03-20 06:38:27 公開日:2024-03-17
# 天相IR-テンソル逆レンダリング

TensoIR: Tensorial Inverse Rendering ( http://arxiv.org/abs/2304.12461v3 )

ライセンス: Link先を確認
Haian Jin, Isabella Liu, Peijia Xu, Xiaoshuai Zhang, Songfang Han, Sai Bi, Xiaowei Zhou, Zexiang Xu, Hao Su, (参考訳) テンソル分解とニューラルネットワークに基づく新しい逆レンダリング手法であるテンソルIRを提案する。 純粋にMLPベースのニューラルフィールドを使用する従来の研究とは異なり、低容量で計算コストが高いため、照度場モデリングのための最先端のアプローチであるTensoRFを拡張して、未知の照明条件下で撮影されたマルチビュー画像からシーン形状、表面反射率、環境照度を推定する。 提案手法は、放射場再構成と物理モデル推定を併用して実現し、フォトリアリスティックな新しいビュー合成とリライティング結果をもたらす。 テンソRF表現の効率性と拡張性から,本手法は2次シェーディング効果(影や間接照明など)を正確にモデル化し,単一あるいは複数の未知の照明条件下での入力画像の撮影を支援する。 低ランクテンソル表現は、高速かつコンパクトな再構成を実現するだけでなく、任意の数の撮影照明条件下で共有情報を利用することができる。 本手法は,様々な難易度の高い合成シーンと実世界のシーンにおいて,質的かつ定量的にベースライン法に優越することを示す。

We propose TensoIR, a novel inverse rendering approach based on tensor factorization and neural fields. Unlike previous works that use purely MLP-based neural fields, thus suffering from low capacity and high computation costs, we extend TensoRF, a state-of-the-art approach for radiance field modeling, to estimate scene geometry, surface reflectance, and environment illumination from multi-view images captured under unknown lighting conditions. Our approach jointly achieves radiance field reconstruction and physically-based model estimation, leading to photo-realistic novel view synthesis and relighting results. Benefiting from the efficiency and extensibility of the TensoRF-based representation, our method can accurately model secondary shading effects (like shadows and indirect lighting) and generally support input images captured under single or multiple unknown lighting conditions. The low-rank tensor representation allows us to not only achieve fast and compact reconstruction but also better exploit shared information under an arbitrary number of capturing lighting conditions. We demonstrate the superiority of our method to baseline methods qualitatively and quantitatively on various challenging synthetic and real-world scenes.
翻訳日:2024-03-20 06:28:31 公開日:2024-03-17
# 決定時間計画のための更新等価フレームワーク

The Update-Equivalence Framework for Decision-Time Planning ( http://arxiv.org/abs/2304.13138v2 )

ライセンス: Link先を確認
Samuel Sokota, Gabriele Farina, David J. Wu, Hengyuan Hu, Kevin A. Wang, J. Zico Kolter, Noam Brown, (参考訳) チェスや囲碁といった完全情報ゲームにおいて、実行時にポリシーを改訂(あるいは構築)するプロセスは、超人的なパフォーマンスを達成するための鍵となった。 最近の研究は、不完全な情報ゲームに対する意思決定時間を延長し、ポーカーにおける超人的なパフォーマンスにつながった。 しかし,これらの手法は,非公開情報の量が多い場合,そのサイズが急速に大きくなるサブゲームの解決に関係している。 この問題に触発されて、サブゲームの解決ではなく、更新等価性に基づく意思決定時計画のための代替フレームワークを導入する。 この更新等価フレームワークでは、決定時計画アルゴリズムは、公開情報に頼る必要のない最終段階のアルゴリズムの更新を複製する。 これにより、大量の非公開情報を持つゲームへのスケーラビリティが向上する。 この枠組みを用いて,ミラー降下に基づく完全協調型ゲームに対する検証可能な音声探索アルゴリズムと,磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。 完全協調不完全情報ゲームにおける検索の標準ベンチマークであるハナビにおいて,これらのアルゴリズムの性能を協調的・敵対的領域で検証する。 ここでは, ミラー降下法は, 検索時間を大幅に短縮しながら, 公開情報に基づく検索性能を上回り, 一致させる。 これは、歴史的に支配されてきた領域において、公開情報に基づくアルゴリズムが公開情報に基づくアプローチを上回った最初の例である。

The process of revising (or constructing) a policy at execution time -- known as decision-time planning -- has been key to achieving superhuman performance in perfect-information games like chess and Go. A recent line of work has extended decision-time planning to imperfect-information games, leading to superhuman performance in poker. However, these methods involve solving subgames whose sizes grow quickly in the amount of non-public information, making them unhelpful when the amount of non-public information is large. Motivated by this issue, we introduce an alternative framework for decision-time planning that is not based on solving subgames, but rather on update equivalence. In this update-equivalence framework, decision-time planning algorithms replicate the updates of last-iterate algorithms, which need not rely on public information. This facilitates scalability to games with large amounts of non-public information. Using this framework, we derive a provably sound search algorithm for fully cooperative games based on mirror descent and a search algorithm for adversarial games based on magnetic mirror descent. We validate the performance of these algorithms in cooperative and adversarial domains, notably in Hanabi, the standard benchmark for search in fully cooperative imperfect-information games. Here, our mirror descent approach exceeds or matches the performance of public information-based search while using two orders of magnitude less search time. This is the first instance of a non-public-information-based algorithm outperforming public-information-based approaches in a domain they have historically dominated.
翻訳日:2024-03-20 06:28:31 公開日:2024-03-17
# 情報アップの原理:量子理論の基礎における情報ゲインの運用的視点

Principle of Information Increase: An Operational Perspective of Information Gain in the Foundations of Quantum Theory ( http://arxiv.org/abs/2305.00080v2 )

ライセンス: Link先を確認
Yang Yu, Philip Goyal, (参考訳) 量子システム上で行われる測定は、その状態に関する情報を得る行為である。 しかし、量子論の再構成における情報の概念は多元的に定義されており、その概念的基礎は驚くほど過小評価されている。 本稿では,量子計測における情報の獲得について,運用の観点から検討する。 シャノンエントロピーの連続的拡張は、情報ゲイン、差分情報ゲイン、相対情報ゲインの2つの異なる尺度を自然に許容し、これらが根本的に異なる特徴を持つことを示す。 特に、差分情報ゲインは、追加データが取得されると増加または減少するが、相対情報ゲインは一貫して増加し、さらに、ベイズ以前のデータや選択に対する漸近的無関心を示す。 これらの尺度を原則として選択するために、スムハンマーの提案を取り入れた情報量増加原理を定式化し、測定結果からより多くのデータがシステムに関するより多くの知識をもたらすとともに、黒白鳥の出来事も考慮する。 この原理は、2アウトカム量子系においてより関連性の高い指標として微分情報ゲインを好んでおり、これらの情報測度に対する事前の選択を導く。 最後に, ベータ分布前では, ジェフリーズ二項前は, 実験によって得られた特定のデータ列に対する情報取得の最大ロバスト性を保証する前であることを示す。

A measurement performed on a quantum system is an act of gaining information about its state, a view that is widespread in practical and foundational work in quantum theory. However, the concept of information in quantum theory reconstructions is multiply-defined, and its conceptual foundations remain surprisingly under-explored. In this paper, we investigate the gain of information in quantum measurements from an operational viewpoint. We show that the continuous extension of the Shannon entropy naturally admits two distinct measures of information gain, differential information gain and relative information gain, and that these have radically different characteristics. In particular, while differential information gain can increase or decrease as additional data is acquired, relative information gain consistently grows, and moreover exhibits asymptotic indifference to the data or choice of Bayesian prior. In order to make a principled choice between these measures, we articulate a Principle of Information Increase, which incorporates Summhammer's proposal that more data from measurements leads to more knowledge about the system, and also takes into consideration black swan events. This principle favors differential information gain as the more relevant metric in two-outcome quantum systems, and guides the selection of priors for these information measures. Finally, we show that, of the beta distribution priors, the Jeffreys' binomial prior is the prior ensures maximal robustness of information gain to the particular data sequence obtained in a run of experiments.
翻訳日:2024-03-20 06:28:31 公開日:2024-03-17
# Bi-parametric MRIにおける臨床上重要な前立腺癌検出のための自己教師付きWindowsトランス

Cross-Shaped Windows Transformer with Self-supervised Pretraining for Clinically Significant Prostate Cancer Detection in Bi-parametric MRI ( http://arxiv.org/abs/2305.00385v2 )

ライセンス: Link先を確認
Yuheng Li, Jacob Wynne, Jing Wang, Richard L. J. Qiu, Justin Roper, Shaoyan Pan, Ashesh B. Jani, Tian Liu, Pretesh R. Patel, Hui Mao, Xiaofeng Yang, (参考訳) Biparametric magnetic resonance imaging (bpMRI) は、畳み込みニューラルネットワーク(CNN)を用いた前立腺癌(PCa)の検出において有望な結果を示した。 近年,コンピュータビジョンにおけるCNNと比較して競争性能が向上している。 大規模なトランスフォーマーは、医用画像の取得が困難であるトレーニングのために、豊富な注釈付きデータを必要とする。 自己教師付き学習(SSL)は、ラベル付きデータを使用して、コストのかかるアノテーションを必要とせずに意味のあるセマンティック表現を生成し、ラベル付きデータに制限のあるタスクにおけるモデルパフォーマンスを向上させる。 前立腺バイパラメトリックMR画像(bpMRI)における臨床上重要な前立腺癌(csPCa)を検出するためにCSwin UNetモデル(CSwin Transformer UNet)を導入した。 1500人の患者を対象とした大規模前立腺bpMRIデータセットを用いて、まずマルチタスク自己教師型学習を用いてCSwin変換器を事前訓練し、データ効率とネットワークの一般化性を向上させる。 次に病変アノテーションを用いてcsPCa検出を行う。 5倍のクロスバリデーションは、自己教師型CSwin UNetが0.888 AUCと0.545 Average Precision(AP)を達成し、4つの同等のモデル(Swin UNETR、DynUNet、Atention UNet、UNet)を著しく上回っていることを示している。 158例の別個のbpMRIデータセットを用いて,外部ホールドアウトデータに対するロバスト性を評価した。 CSwin UNet は 0.79 AUC と 0.45 AP を達成しており、他の同等の手法よりも優れており、外部データへの優れた一般化を示している。

Biparametric magnetic resonance imaging (bpMRI) has demonstrated promising results in prostate cancer (PCa) detection using convolutional neural networks (CNNs). Recently, transformers have achieved competitive performance compared to CNNs in computer vision. Large scale transformers need abundant annotated data for training, which are difficult to obtain in medical imaging. Self-supervised learning (SSL) utilizes unlabeled data to generate meaningful semantic representations without the need for costly annotations, enhancing model performance on tasks with limited labeled data. We introduce a novel end-to-end Cross-Shaped windows (CSwin) transformer UNet model, CSwin UNet, to detect clinically significant prostate cancer (csPCa) in prostate bi-parametric MR imaging (bpMRI) and demonstrate the effectiveness of our proposed self-supervised pre-training framework. Using a large prostate bpMRI dataset with 1500 patients, we first pretrain CSwin transformer using multi-task self-supervised learning to improve data-efficiency and network generalizability. We then finetune using lesion annotations to perform csPCa detection. Five-fold cross validation shows that self-supervised CSwin UNet achieves 0.888 AUC and 0.545 Average Precision (AP), significantly outperforming four comparable models (Swin UNETR, DynUNet, Attention UNet, UNet). Using a separate bpMRI dataset with 158 patients, we evaluate our method robustness to external hold-out data. Self-supervised CSwin UNet achieves 0.79 AUC and 0.45 AP, still outperforming all other comparable methods and demonstrating good generalization to external data.
翻訳日:2024-03-20 06:28:31 公開日:2024-03-17
# 主観的タスクに対するアノテーションの分解のモデル化

When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks ( http://arxiv.org/abs/2305.06626v5 )

ライセンス: Link先を確認
Eve Fleisig, Rediet Abebe, Dan Klein, (参考訳) アノテーターの過半数の投票は、自然言語処理における基礎的な真理ラベルに使われるのが一般的であるが、ヘイトスピーチ検出のようなタスクにおけるアノテーターの不一致は、グループ間での意見の相違を反映し、ノイズではない。 したがって、ヘイトスピーチ検出における重要な問題は、そのグループがアノテータプールのごく一部を構成する場合、対象とする人口集団に対して、声明が攻撃的であるかどうかを決定することである。 本研究では,攻撃的可能性のあるテキストに基づいて個々のアノテータ評価を予測し,この情報をテキストの予測対象グループと組み合わせて,対象メンバーの意見をモデル化するモデルを構築した。 例えば,個々のアノテータのレーティングの予測では22%,アノテータ間のばらつきの予測では33%,ダウンストリームのモデル不確実性の指標を提供する。 その結果、アノテータの評価は、アノテータと評価をリンクするアノテータIDを追跡せずに、彼らの人口統計情報とオンラインコンテンツに関する意見を用いて予測できることがわかった。 また、アノテータのオンライン体験における非侵襲的な調査質問の使用は、アノテータの意見を予測する際に、プライバシーを最大化し、不要な人口統計情報の収集を最小化するのに役立ちます。

Though majority vote among annotators is typically used for ground truth labels in natural language processing, annotator disagreement in tasks such as hate speech detection may reflect differences in opinion across groups, not noise. Thus, a crucial problem in hate speech detection is determining whether a statement is offensive to the demographic group that it targets, when that group may constitute a small fraction of the annotator pool. We construct a model that predicts individual annotator ratings on potentially offensive text and combines this information with the predicted target group of the text to model the opinions of target group members. We show gains across a range of metrics, including raising performance over the baseline by 22% at predicting individual annotators' ratings and by 33% at predicting variance among annotators, which provides a metric for model uncertainty downstream. We find that annotator ratings can be predicted using their demographic information and opinions on online content, without the need to track identifying annotator IDs that link each annotator to their ratings. We also find that use of non-invasive survey questions on annotators' online experiences helps to maximize privacy and minimize unnecessary collection of demographic information when predicting annotators' opinions.
翻訳日:2024-03-20 06:28:31 公開日:2024-03-17
# 局所交絡測定に基づく古典的影

Classical shadows based on locally-entangled measurements ( http://arxiv.org/abs/2305.10723v3 )

ライセンス: Link先を確認
Matteo Ippoliti, (参考訳) ランダムなパウリ測度プロトコル(n = 1$)を一般化し、$n$-qubit 絡み合った基底のランダム化測定に基づいて古典的なシャドウプロトコルを研究する。 絡み合った測定(n\geq 2$)は、パウリ予想値の学習のサンプル複雑さにおいて、非自明で潜在的に有利なトレードオフを可能にすることを示す。 Pauli 重み $k$ によるサンプル複雑性のスケーリングは、多くの演算子に対して二次的に($\sim 3^k$ から $\sim 3^{k/2}$ まで)改善するが、他の演算子では学習できない。 測定基地における絡み合いの量を調整することは、パウリとベルの影の間を横切る一連のプロトコルを定義し、両方の利点のいくつかを維持している。 大規模な$n$の場合、$n$-qubit GHZ基底でのランダム化測定により、より制限された演算子の集合ではあるものの、$\sim (3/2)^k$へのスケーリングがより良くなることを示す。 単純さとハードウェア要件の低さにもかかわらず、これらのプロトコルは、最近導入された"シャロウシャドー"と実際に関連するいくつかのパウリ推定タスクで一致または性能を向上することができる。

We study classical shadows protocols based on randomized measurements in $n$-qubit entangled bases, generalizing the random Pauli measurement protocol ($n = 1$). We show that entangled measurements ($n\geq 2$) enable nontrivial and potentially advantageous trade-offs in the sample complexity of learning Pauli expectation values. This is sharply illustrated by shadows based on two-qubit Bell measurements: the scaling of sample complexity with Pauli weight $k$ improves quadratically (from $\sim 3^k$ down to $\sim 3^{k/2}$) for many operators, while others become impossible to learn. Tuning the amount of entanglement in the measurement bases defines a family of protocols that interpolate between Pauli and Bell shadows, retaining some of the benefits of both. For large $n$, we show that randomized measurements in $n$-qubit GHZ bases further improve the best scaling to $\sim (3/2)^k$, albeit on an increasingly restricted set of operators. Despite their simplicity and lower hardware requirements, these protocols can match or outperform recently-introduced "shallow shadows" in some practically-relevant Pauli estimation tasks.
翻訳日:2024-03-20 06:28:31 公開日:2024-03-17
# RDA-INR:入射神経表現によるリーマン微分同相自己符号化

RDA-INR: Riemannian Diffeomorphic Autoencoding via Implicit Neural Representations ( http://arxiv.org/abs/2305.12854v2 )

ライセンス: Link先を確認
Sven Dummer, Nicola Strisciuglio, Christoph Brune, (参考訳) コンピュータグラフィックスやアトラス構築のための医学領域、統計的潜在モデリング、ペアワイズおよびグループワイズ登録において、LDDMM(Large deformation Diffeomorphic Metric Mapping)などの微分型登録フレームワークが使用される。 近年, 従来の手法の精度と計算効率を向上させるために, 拡散型登録に関するニューラルネットワークに基づくアプローチが開発されている。 本研究では、ニューラルネットワークに基づくアトラス構築の制限と統計的潜在モデリング手法、すなわちそれらがいずれであるかの制限に焦点を当てる。 i)分解能に依存しているか、または (II)適切な平均分散分析に必要なデータ/プロブレム固有の幾何を無視する。 特に、分解能に依存しない暗黙的ニューラル表現に基づく新しいエンコーダを設計することで、この制限を克服する。 エンコーダは, LDDMMに基づく統計的潜在モデリングのための分解能不変性を実現する。 さらに、エンコーダはLDDMMリーマン幾何学を統計的潜在モデルのための解像度非依存のディープラーニングモデルに追加する。 リーマン幾何学的側面が潜在モデリングを改善し、適切な平均分散解析に必要であることを示す。 さらに, LDDMMに基づくデータ可変性モデリングにおける分解能独立性の利点を示すために, 提案手法が他のニューラルネットワークベースの LDDMM 潜在コードモデルより優れていることを示す。 我々の研究は、リーマン幾何学、形状・像解析、深層学習の組み合わせに関するさらなる研究の道を開いた。

Diffeomorphic registration frameworks such as Large Deformation Diffeomorphic Metric Mapping (LDDMM) are used in computer graphics and the medical domain for atlas building, statistical latent modeling, and pairwise and groupwise registration. In recent years, researchers have developed neural network-based approaches regarding diffeomorphic registration to improve the accuracy and computational efficiency of traditional methods. In this work, we focus on a limitation of neural network-based atlas building and statistical latent modeling methods, namely that they either are (i) resolution dependent or (ii) disregard any data/problem-specific geometry needed for proper mean-variance analysis. In particular, we overcome this limitation by designing a novel encoder based on resolution-independent implicit neural representations. The encoder achieves resolution invariance for LDDMM-based statistical latent modeling. Additionally, the encoder adds LDDMM Riemannian geometry to resolution-independent deep learning models for statistical latent modeling. We showcase that the Riemannian geometry aspect improves latent modeling and is required for a proper mean-variance analysis. Furthermore, to showcase the benefit of resolution independence for LDDMM-based data variability modeling, we show that our approach outperforms another neural network-based LDDMM latent code model. Our work paves a way to more research into how Riemannian geometry, shape/image analysis, and deep learning can be combined.
翻訳日:2024-03-20 04:32:24 公開日:2024-03-17
# 深部ニューラルネットワークの確率インフォームド校正

Proximity-Informed Calibration for Deep Neural Networks ( http://arxiv.org/abs/2306.04590v2 )

ライセンス: Link先を確認
Miao Xiong, Ailin Deng, Pang Wei Koh, Jiaying Wu, Shen Li, Jianqing Xu, Bryan Hooi, (参考訳) 信頼性キャリブレーションは、特に安全クリティカルなシナリオにおいて、正確で解釈可能な不確実性推定を提供することの中心である。 しかし, 従来のキャリブレーションアルゴリズムでは, 低近接データ(つまりデータ分布のスパース領域にあるデータ)において, 高近接データよりもモデルの方が過度に信頼される傾向にあり, 異なる近接サンプル間での不整合な誤校正に悩まされる, という問題もしばしば見過ごされる。 我々は、504以上の事前学習されたImageNetモデルの問題を調べ、それを観察する。 1) 確率バイアスは,多種多様なモデルアーキテクチャやサイズにわたって存在する。 2)トランスフォーマーベースモデルは,CNNベースモデルよりも近接バイアスに比較的敏感である。 3)温度スケーリングのような一般的な校正アルゴリズムを実行した後でも、確率バイアスは持続する。 4) モデルは高近接サンプルよりも低近接サンプルに過度に適合する傾向にある。 実験結果に触発されたProCalは,近接性に基づく標本の信頼度調整を理論的に保証するプラグアンドプレイアルゴリズムである。 近接バイアス低減のためのキャリブレーションアルゴリズムの有効性をさらに定量化するため,理論解析による近接インフォームド予測キャリブレーション誤差(PIECE)を導入する。 ProCalは, モデルアーキテクチャ上の4つの指標の下で, 近接バイアスに対処し, バランス, ロングテール, 分布シフトの設定のキャリブレーションを改善するのに有効であることを示す。 近接バイアスに関する我々の発見は、信頼に値するAIの幅広い追求に寄与し、*fairerとより良い校正された*モデルの開発を導いてくれると信じています。 私たちのコードは、https://github.com/MiaoXiong2320/ProximityBias-Calibrationで利用可能です。

Confidence calibration is central to providing accurate and interpretable uncertainty estimates, especially under safety-critical scenarios. However, we find that existing calibration algorithms often overlook the issue of *proximity bias*, a phenomenon where models tend to be more overconfident in low proximity data (i.e., data lying in the sparse region of the data distribution) compared to high proximity samples, and thus suffer from inconsistent miscalibration across different proximity samples. We examine the problem over 504 pretrained ImageNet models and observe that: 1) Proximity bias exists across a wide variety of model architectures and sizes; 2) Transformer-based models are relatively more susceptible to proximity bias than CNN-based models; 3) Proximity bias persists even after performing popular calibration algorithms like temperature scaling; 4) Models tend to overfit more heavily on low proximity samples than on high proximity samples. Motivated by the empirical findings, we propose ProCal, a plug-and-play algorithm with a theoretical guarantee to adjust sample confidence based on proximity. To further quantify the effectiveness of calibration algorithms in mitigating proximity bias, we introduce proximity-informed expected calibration error (PIECE) with theoretical analysis. We show that ProCal is effective in addressing proximity bias and improving calibration on balanced, long-tail, and distribution-shift settings under four metrics over various model architectures. We believe our findings on proximity bias will guide the development of *fairer and better-calibrated* models, contributing to the broader pursuit of trustworthy AI. Our code is available at: https://github.com/MiaoXiong2320/ProximityBias-Calibration.
翻訳日:2024-03-20 04:32:24 公開日:2024-03-17
# MOFI:ノイズのあるエンティティアノテート画像から画像表現を学習する

MOFI: Learning Image Representations from Noisy Entity Annotated Images ( http://arxiv.org/abs/2306.07952v3 )

ライセンス: Link先を確認
Wentao Wu, Aleksei Timofeev, Chen Chen, Bowen Zhang, Kun Duan, Shuangning Liu, Yantao Zheng, Jonathon Shlens, Xianzhi Du, Zhe Gan, Yinfei Yang, (参考訳) ノイズのあるエンティティアノテート画像から画像表現を学習するための新しいビジョン基盤モデルであるMOFIを提案する。 MOFIは、以前のものと2つの重要な側面で異なる。 (i)事前学習データ、及び (II) トレーニングのレシピ。 データに関して、ノイズの多い画像とテキストのペアの画像にエンティティラベルを自動的に割り当てる新しいアプローチを導入する。 提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。 数十億ものウェブマイニングされた画像とテキストのペアを扱うための、シンプルで費用対効果の高い方法です。 この方法で、私たちは10億の画像と200万の異なるエンティティを持つ新しいデータセットであるImage-to-Entities (I2E)を作成しました。 I2Eデータセットに基づいて、教師付き事前学習、コントラスト付き事前学習、マルチタスク学習など、さまざまなトレーニングレシピを研究します。 対照的な事前学習では、エンティティ名を自由形式のテキストとして扱い、エンティティ記述をさらに充実させます。 実験により,大規模粒度ラベルによる教師付き事前学習が画像検索作業に極めて有効であることが示され,マルチタスクトレーニングによりパフォーマンスがさらに向上した。 最後のMOFIモデルは、挑戦的なGPR1200データセット上で86.66%のmAPを達成し、OpenAIのCLIPモデルから72.19%の最先端パフォーマンスを達成している。 ゼロショットおよび線形プローブ画像分類に関するさらなる実験により、MOFIは元の画像テキストデータに基づいて訓練されたCLIPモデルよりも優れており、強い画像表現を学習する際のI2Eデータセットの有効性が示されている。 コードとモデルの重み付けはhttps://github.com/apple/ml-mofi.comで公開しています。

We present MOFI, Manifold OF Images, a new vision foundation model designed to learn image representations from noisy entity annotated images. MOFI differs from previous work in two key aspects: (i) pre-training data, and (ii) training recipe. Regarding data, we introduce a new approach to automatically assign entity labels to images from noisy image-text pairs. Our approach involves employing a named entity recognition model to extract entities from the alt-text, and then using a CLIP model to select the correct entities as labels of the paired image. It's a simple, cost-effective method that can scale to handle billions of web-mined image-text pairs. Through this method, we have created Image-to-Entities (I2E), a new dataset with 1 billion images and 2 million distinct entities, covering rich visual concepts in the wild. Building upon the I2E dataset, we study different training recipes like supervised pre-training, contrastive pre-training, and multi-task learning. For contrastive pre-training, we treat entity names as free-form text, and further enrich them with entity descriptions. Experiments show that supervised pre-training with large-scale fine-grained entity labels is highly effective for image retrieval tasks, and multi-task training further improves the performance. The final MOFI model achieves 86.66% mAP on the challenging GPR1200 dataset, surpassing the previous state-of-the-art performance of 72.19% from OpenAI's CLIP model. Further experiments on zero-shot and linear probe image classification also show that MOFI outperforms a CLIP model trained on the original image-text data, demonstrating the effectiveness of the I2E dataset in learning strong image representations. We release our code and model weights at https://github.com/apple/ml-mofi.
翻訳日:2024-03-20 04:22:24 公開日:2024-03-17
# LLMは不確かさを表現できるか? : LLMにおける信頼緩和の実証評価

Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs ( http://arxiv.org/abs/2306.13063v2 )

ライセンス: Link先を確認
Miao Xiong, Zhiyuan Hu, Xinyang Lu, Yifei Li, Jie Fu, Junxian He, Bryan Hooi, (参考訳) 信頼できる意思決定には、大きな言語モデルを活用して、彼らの回答に対する信頼を正確に表現することが不可欠です。 従来は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに主に依存していたが、LCM、特にクローズドソース商用APIにはあまり適していなかった。 これにより、LCMの不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。 問題をよりよく解き明かすために,言語的信頼を導き出すための戦略の推進,複数の応答を生成するためのサンプリング方法,一貫性を計算するための集約技術という,3つのコンポーネントからなる体系的フレームワークを定義した。 次に、これらの手法を、GPT-4とLLaMA 2 Chatを含む5種類のデータセット(例えば、コモンセンスと算術推論)と5つの広く使われているLLMの2つの主要なタスク信頼度校正と故障予測にベンチマークする。 私たちの分析は、いくつかの重要な洞察を明らかにします。 1) LLMは, 自信を言葉で表すと, 自信を表わす人間のパターンを模倣し, 過度に自信を抱く傾向にある。 2) モデル能力の増大に伴い,キャリブレーションと故障予測性能が向上した。 3)人間にインスパイアされたプロンプト,複数応答間の一貫性,アグリゲーション戦略の改善など,提案した戦略を活用することで,この過信をさまざまな観点から緩和することができる。 4) ホワイトボックス法との比較では, ホワイトボックス法の方が優れているが, ギャップは狭く, AUROCでは0.522~0.605である。 これらの進歩にもかかわらず、これらのテクニックは一貫して他よりも優れておらず、すべての調査手法は、専門家の知識を必要とするような困難な課題に苦しむ。 我々は,この研究が強力なベースラインとして機能し,ブラックボックスLSMの信頼性を引き出すための洞察を与えることができると考えている。

Empowering large language models to accurately express confidence in their answers is essential for trustworthy decision-making. Previous confidence elicitation methods, which primarily rely on white-box access to internal model information or model fine-tuning, have become less suitable for LLMs, especially closed-source commercial APIs. This leads to a growing need to explore the untapped area of black-box approaches for LLM uncertainty estimation. To better break down the problem, we define a systematic framework with three components: prompting strategies for eliciting verbalized confidence, sampling methods for generating multiple responses, and aggregation techniques for computing consistency. We then benchmark these methods on two key tasks-confidence calibration and failure prediction-across five types of datasets (e.g., commonsense and arithmetic reasoning) and five widely-used LLMs including GPT-4 and LLaMA 2 Chat. Our analysis uncovers several key insights: 1) LLMs, when verbalizing their confidence, tend to be overconfident, potentially imitating human patterns of expressing confidence. 2) As model capability scales up, both calibration and failure prediction performance improve. 3) Employing our proposed strategies, such as human-inspired prompts, consistency among multiple responses, and better aggregation strategies can help mitigate this overconfidence from various perspectives. 4) Comparisons with white-box methods indicate that while white-box methods perform better, the gap is narrow, e.g., 0.522 to 0.605 in AUROC. Despite these advancements, none of these techniques consistently outperform others, and all investigated methods struggle in challenging tasks, such as those requiring professional knowledge, indicating significant scope for improvement. We believe this study can serve as a strong baseline and provide insights for eliciting confidence in black-box LLMs.
翻訳日:2024-03-20 04:22:24 公開日:2024-03-17
# MME:マルチモーダル大言語モデルの総合評価ベンチマーク

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models ( http://arxiv.org/abs/2306.13394v4 )

ライセンス: Link先を確認
Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, Yunsheng Wu, Rongrong Ji, (参考訳) MLLM(Multimodal Large Language Model)は、マルチモーダルなタスクを実行するための強力なLLMに依存しており、画像に基づいた詩を書くなど、近年の研究において驚くべき創発的な能力を示している。 しかし、これらのケーススタディは、総合的な評価を欠いて、MLLMの性能を完全に反映することは困難である。 本稿では,MLLM 評価ベンチマーク MME について述べる。 知覚能力と認知能力の両方を合計14のサブタスクで測定する。 評価に公開データセットを直接使用することから生じるデータ漏洩を避けるため、インストラクション・アンサーペアのアノテーションはすべて手動で設計されている。 簡潔な命令設計により、迅速なエンジニアリングに苦しむのではなく、MLLMを適切に比較することができる。 また,このような命令により,定量的な統計処理も容易に行うことができる。 既存のMLLMには改善の余地がまだ大きいだけでなく,その後のモデル最適化の可能性も明らかにしている。 データアプリケーションの方法とオンラインのリーダボードはhttps://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluationで公開されている。

Multimodal Large Language Model (MLLM) relies on the powerful LLM to perform multimodal tasks, showing amazing emergent abilities in recent studies, such as writing poems based on an image. However, it is difficult for these case studies to fully reflect the performance of MLLM, lacking a comprehensive evaluation. In this paper, we fill in this blank, presenting the first comprehensive MLLM Evaluation benchmark MME. It measures both perception and cognition abilities on a total of 14 subtasks. In order to avoid data leakage that may arise from direct use of public datasets for evaluation, the annotations of instruction-answer pairs are all manually designed. The concise instruction design allows us to fairly compare MLLMs, instead of struggling in prompt engineering. Besides, with such an instruction, we can also easily carry out quantitative statistics. A total of 30 advanced MLLMs are comprehensively evaluated on our MME, which not only suggests that existing MLLMs still have a large room for improvement, but also reveals the potential directions for the subsequent model optimization. The data application manner and online leaderboards are released at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation.
翻訳日:2024-03-20 04:22:24 公開日:2024-03-17
# 伸展性漏洩記憶ニューロン--高能率・高能率現象ニューロンモデルによる長期的課題の解決

The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks ( http://arxiv.org/abs/2306.16922v3 )

ライセンス: Link先を確認
Aaron Spieler, Nasim Rahaman, Georg Martius, Bernhard Schölkopf, Anna Levina, (参考訳) 生物学的皮質ニューロンは驚くほど洗練された計算装置であり、複雑な樹状樹上に巨大なシナプス入力を時間的に統合する。 最近の研究では、詳細な生体物理学的皮質錐体ニューロンモデルの入力-出力関係を再現するために正確な代理モデルに適合させることにより、この複雑さを特徴づけることが提案され、数百万のパラメータを持つ時間畳み込みネットワーク(TCN)が必要であることが判明した。 しかし、これらの多くのパラメータを必要とすることは、TCNの誘導バイアスと皮質ニューロンの計算のミスアライメントに起因する可能性がある。 これを踏まえ, 漏洩メモリユニットと非線形樹状突起処理の計算的意義を考察するために, 生物学的に着想を得た皮質ニューロンの現象モデルであるExpressive Leaky Memory (ELM) ニューロンモデルを導入する。 注目すべきは、そのような緩やかに崩壊するメモリライクな隠れ状態と、シナプス入力の2層非線形統合を利用することで、ELMニューロンは上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができることである。 ニューロン設計の計算的影響を更に評価するために、Long Range Arena(LRA)データセットや、Spyking Heidelberg Digitsデータセット(SHD-Adding)に基づく新しいニューロモルフィックデータセットなど、時間的構造を必要とする様々なタスクで評価した。 十分な時間スケールのメモリユニットを多用し、それに対応する洗練されたシナプス統合により、EMMニューロンは、LRA上の古典的なトランスフォーマーやクロノLSTMアーキテクチャを確実に上回り、精度が70%以上でPathfinder-Xタスクを解く(16kコンテキスト長)。

Biological cortical neurons are remarkably sophisticated computational devices, temporally integrating their vast synaptic input over an intricate dendritic tree, subject to complex, nonlinearly interacting internal biological processes. A recent study proposed to characterize this complexity by fitting accurate surrogate models to replicate the input-output relationship of a detailed biophysical cortical pyramidal neuron model and discovered it needed temporal convolutional networks (TCN) with millions of parameters. Requiring these many parameters, however, could stem from a misalignment between the inductive biases of the TCN and cortical neuron's computations. In light of this, and to explore the computational implications of leaky memory units and nonlinear dendritic processing, we introduce the Expressive Leaky Memory (ELM) neuron model, a biologically inspired phenomenological model of a cortical neuron. Remarkably, by exploiting such slowly decaying memory-like hidden states and two-layered nonlinear integration of synaptic input, our ELM neuron can accurately match the aforementioned input-output relationship with under ten thousand trainable parameters. To further assess the computational ramifications of our neuron design, we evaluate it on various tasks with demanding temporal structures, including the Long Range Arena (LRA) datasets, as well as a novel neuromorphic dataset based on the Spiking Heidelberg Digits dataset (SHD-Adding). Leveraging a larger number of memory units with sufficiently long timescales, and correspondingly sophisticated synaptic integration, the ELM neuron displays substantial long-range processing capabilities, reliably outperforming the classic Transformer or Chrono-LSTM architectures on LRA, and even solving the Pathfinder-X task with over 70% accuracy (16k context length).
翻訳日:2024-03-20 04:22:24 公開日:2024-03-17
# 私たちのモデルはMovieLensの優れたパフォーマンスを実現します。それは何を意味するのか?

Our Model Achieves Excellent Performance on MovieLens: What Does it Mean? ( http://arxiv.org/abs/2307.09985v2 )

ライセンス: Link先を確認
Yu-chen Fan, Yitong Ji, Jie Zhang, Aixin Sun, (参考訳) レコメンデータシステム(RecSys)評価のための典型的なベンチマークデータセットは、時間内にプラットフォーム上で生成されるユーザとテムのインタラクションで構成されている。 インタラクション生成メカニズムは、ユーザがアイテム(例えば、購入、レート)と相互作用する理由と、特定のインタラクションが発生した時のコンテキストを部分的に説明します。 本研究では,MovieLensデータセットの精巧な分析を行い,提案アルゴリズムの評価にデータセットを使用することによる潜在的影響を説明する。 分析からいくつかの主な知見を得た。 まず、ユーザーがMovieLensプラットフォームと対話する場合、異なる段階でのユーザインタラクションには大きな違いがある。 初期のインタラクションは、主にその後のインタラクションに影響を与えるユーザポートレートを定義します。 第2に、ユーザインタラクションは、プラットフォームの内部推奨アルゴリズムによって推奨される候補映画に大きく影響を受ける。 ユーザの最後の数少ないインタラクションに近く発生するインタラクションの削除は、ユーザの好みを学習することの難しさを増し、レコメンデーションの精度を低下させる。 第3に、ユーザインタラクションの順序を変更することで、シーケンシャルアルゴリズムがプログレッシブインタラクションプロセスをキャプチャすることがより困難になる。 これらの知見に基づいて,MovieLensシステムで使用されるインタラクション生成機構と,一般的な実世界のレコメンデーションシナリオとの相違について考察する。 要約すると、MovieLensデータセット上で優れたレコメンデーション精度を達成するモデルは、少なくとも2種類の違いに対して、実際に優れたパフォーマンスを示すことができないかもしれない。 一 ユーザ・イテムインタラクション生成の文脈の違い、及び (2)アイテムコレクションに関するユーザ知識の違い。

A typical benchmark dataset for recommender system (RecSys) evaluation consists of user-item interactions generated on a platform within a time period. The interaction generation mechanism partially explains why a user interacts with (e.g.,like, purchase, rate) an item, and the context of when a particular interaction happened. In this study, we conduct a meticulous analysis on the MovieLens dataset and explain the potential impact on using the dataset for evaluating recommendation algorithms. We make a few main findings from our analysis. First, there are significant differences in user interactions at the different stages when a user interacts with the MovieLens platform. The early interactions largely define the user portrait which affect the subsequent interactions. Second, user interactions are highly affected by the candidate movies that are recommended by the platform's internal recommendation algorithm(s). Removal of interactions that happen nearer to the last few interactions of a user leads to increasing difficulty in learning user preference, thus deteriorating recommendation accuracy. Third, changing the order of user interactions makes it more difficult for sequential algorithms to capture the progressive interaction process. Based on these findings, we further discuss the discrepancy between the interaction generation mechanism that is employed by the MovieLens system and that of typical real world recommendation scenarios. In summary, models that achieve excellent recommendation accuracy on the MovieLens dataset may not demonstrate superior performance in practice for at least two kinds of differences: (i) the differences in the contexts of user-item interaction generation, and (ii) the differences in user knowledge about the item collections.
翻訳日:2024-03-20 04:12:33 公開日:2024-03-17
# Recursive Least Squares と Recursive Kernel Methods を用いたオンラインマルチタスク学習

Online Multi-Task Learning with Recursive Least Squares and Recursive Kernel Methods ( http://arxiv.org/abs/2308.01938v2 )

ライセンス: Link先を確認
Gabriel R. Lencione, Fernando J. Von Zuben, (参考訳) 本稿では,オンラインマルチタスク学習(MTL)回帰問題に対する2つの新しいアプローチを紹介する。 我々は、グラフベースの高性能MTL定式化を採用し、重み付き再帰最小広場(WRLS)とオンラインスパース最小広場支援ベクトル回帰(OSLSSVR)戦略に基づく2つの再帰版を開発する。 タスクスタック変換を導入し、複数のタスクの関係を取り入れ、MT-WRLS法で具現化される構造情報を初期化手順で、MT-OSLSSVRをマルチタスクカーネル関数で提供する単一行列の存在を実証する。 オンライングラディエント・ダイアンス(OGD)や立方体不正確なアプローチを主とする既存の文献とは対照的に,入力空間の次元(MT-WRLS)やインスタンスの辞書(MT-OSLSSVR)のサイズ(MT-OSLSSVR)の2乗当たりの精度と近似的再帰を実現する。 実世界の風速予測ケーススタディにおいて,我々のオンラインMTL手法と他の競技者との比較を行い,提案手法の有効性を検証した。

This paper introduces two novel approaches for Online Multi-Task Learning (MTL) Regression Problems. We employ a high performance graph-based MTL formulation and develop two alternative recursive versions based on the Weighted Recursive Least Squares (WRLS) and the Online Sparse Least Squares Support Vector Regression (OSLSSVR) strategies. Adopting task-stacking transformations, we demonstrate the existence of a single matrix incorporating the relationship of multiple tasks and providing structural information to be embodied by the MT-WRLS method in its initialization procedure and by the MT-OSLSSVR in its multi-task kernel function. Contrasting the existing literature, which is mostly based on Online Gradient Descent (OGD) or cubic inexact approaches, we achieve exact and approximate recursions with quadratic per-instance cost on the dimension of the input space (MT-WRLS) or on the size of the dictionary of instances (MT-OSLSSVR). We compare our online MTL methods to other contenders in a real-world wind speed forecasting case study, evidencing the significant gain in performance of both proposed approaches.
翻訳日:2024-03-20 04:12:33 公開日:2024-03-17
# DCNFIS:Deep Convolutional Neuro-Fuzzy Inference System

DCNFIS: Deep Convolutional Neuro-Fuzzy Inference System ( http://arxiv.org/abs/2308.06378v3 )

ライセンス: Link先を確認
Mojtaba Yeganejou, Kimia Honari, Ryan Kluzinski, Scott Dick, Michael Lipsett, James Miller, (参考訳) eXplainable Artificial Intelligenceの鍵となる課題は、アルゴリズムの透明性(つまり、人間がポストホックな説明を受けるのとは対照的に、どのようにしてアルゴリズムを直接理解できるか)と、その正確さの間のよく知られたトレードオフである。 精度を犠牲にすることなく透明性を向上させる新しいディープネットワークの設計について報告する。 ファジィ論理とディープラーニングモデルのハイブリッド化による深部畳み込みニューラルファジィ推論システム(DCNFIS)を設計し、DCNFISが4つのよく知られたデータセットと3つの有名なアーキテクチャ上で既存の畳み込みニューラルネットと同程度に正確に機能することを示す。 利用可能なファジィ法との比較により,DCNFISは現在最先端のファジィシステムであり,浅いファジィ法や深いファジィ法よりも優れた性能を示している。 最後に、ネットワークに符号化されたファジィルールから、正規のディープラーニング手法によるファジィ論理の利点を活かすために、サリエンシマップの形で説明を導き出すことにより、ファジィ論理の透明性を活用する。 本稿では、Fashion-MNISTデータセットを用いて、これらの説明の特性をより深く研究する。

A key challenge in eXplainable Artificial Intelligence is the well-known tradeoff between the transparency of an algorithm (i.e., how easily a human can directly understand the algorithm, as opposed to receiving a post-hoc explanation), and its accuracy. We report on the design of a new deep network that achieves improved transparency without sacrificing accuracy. We design a deep convolutional neuro-fuzzy inference system (DCNFIS) by hybridizing fuzzy logic and deep learning models and show that DCNFIS performs as accurately as existing convolutional neural networks on four well-known datasets and 3 famous architectures. Our performance comparison with available fuzzy methods show that DCNFIS is now state-of-the-art fuzzy system and outperforms other shallow and deep fuzzy methods to the best of our knowledge. At the end, we exploit the transparency of fuzzy logic by deriving explanations, in the form of saliency maps, from the fuzzy rules encoded in the network to take benefit of fuzzy logic upon regular deep learning methods. We investigate the properties of these explanations in greater depth using the Fashion-MNIST dataset.
翻訳日:2024-03-20 04:12:33 公開日:2024-03-17
# スマート農業における大規模言語モデルと基礎モデル:基礎,機会,課題

Large Language Models and Foundation Models in Smart Agriculture: Basics, Opportunities, and Challenges ( http://arxiv.org/abs/2308.06668v4 )

ライセンス: Link先を確認
Jiajia Li, Mingle Xu, Lirong Xiang, Dong Chen, Weichao Zhuang, Xunyuan Yin, Zhaojian Li, (参考訳) 過去10年間、農業システムにおけるML & DL方法論の急速な発展と導入を目撃してきた。 しかし、これらの従来のML/DLモデルは、トレーニングのために大きくて費用がかかるラベル付きデータセットに強く依存し、開発とメンテナンスに特別な専門知識を必要とし、主に特定のタスクに適したため、一般化性に欠ける、ある種の制限がある。 近年、FMとして知られる大規模な事前学習モデルが、言語、ビジョン、そして様々な領域における意思決定タスクにおいて顕著な成功を収めている。 これらのモデルは、複数のドメインとモダリティから大量のデータに基づいて訓練される。 トレーニングが完了すれば、小さな微調整と最小限のタスク固有のラベル付きデータだけで、多目的なタスクを達成できる。 その実証された効果と大きな潜在能力にもかかわらず、農業AIにFMを適用するという調査はほとんど行われていない。 そこで本研究では,スマート農業分野におけるFMの可能性を探究する。 特に、問題空間の理解と新たな研究の方向性を明らかにするために、概念ツールと技術的な背景が提示される。 この目的のために、CS領域における最近のFMを概説し、言語FM、視覚FM、マルチモーダルFM、強化学習FMの4つのカテゴリに分類される。 次に、農業用FM(AFM)の開発手順を概説し、スマート農業への応用の可能性について論じる。 さらに、モデルトレーニング、検証、デプロイメントなど、AFMの開発に伴う課題とリスクについても論じる。 まとめると、農業におけるAIの進歩は、AMMを広範なラベル付きデータセットへの依存を著しく軽減し、農業AIシステムの効率性、有効性、一般化を高める、有望なパラダイムとして導入することによって検討される。

The past decade has witnessed the rapid development and adoption of ML & DL methodologies in agricultural systems, showcased by great successes in agricultural applications. However, these conventional ML/DL models have certain limitations: they heavily rely on large, costly-to-acquire labeled datasets for training, require specialized expertise for development and maintenance, and are mostly tailored for specific tasks, thus lacking generalizability. Recently, large pre-trained models, also known as FMs, have demonstrated remarkable successes in language, vision, and decision-making tasks across various domains. These models are trained on a large amount of data from multiple domains and modalities. Once trained, they can accomplish versatile tasks with just minor fine-tuning and minimal task-specific labeled data. Despite their proven effectiveness and huge potential, there has been little exploration of applying FMs to agriculture AI. Thus, this study aims to explore the potential of FMs in the field of smart agriculture. In particular, conceptual tools and technical background are presented to help the understanding of the problem space and uncover new research directions. To this end, recent FMs in the general CS domain are reviewed, and the models are categorized into four categories: language FMs, vision FMs, multimodal FMs, and reinforcement learning FMs. Then, the steps of developing agriculture FMs (AFMs) are outlined and potential applications in smart agriculture are discussed. Moreover, challenges and risks associated with developing AFMs are discussed, including model training, validation, and deployment. In summary, the advancement of AI in agriculture is explored by introducing AFMs as a promising paradigm that can significantly mitigate the reliance on extensive labeled datasets and enhance the efficiency, effectiveness, and generalization of agricultural AI systems.
翻訳日:2024-03-20 04:12:33 公開日:2024-03-17
# バイオハイブリッドロボットと魚のバイオミミクリーギャップの定量化

Quantifying the biomimicry gap in biohybrid robot-fish pairs ( http://arxiv.org/abs/2308.08978v2 )

ライセンス: Link先を確認
Vaios Papaspyros, Guy Theraulaz, Clément Sire, Francesco Mondada, (参考訳) ロボットが動物と相互作用するバイオハイブリッドシステムは、動物の集団行動のメカニズムを探索し特定するための魅力的なツールとなっている。 重要な課題の1つは、シミュレーションから現実への社会的相互作用モデルの移行であり、ロボットを使ってモデリング仮説を検証することである。 この課題は、不完全なロボットレプリカ、コミュニケーションキュー、シミュレーションに組み込まれていない物理学的制約によって引き起こされる「バイオミミクリーギャップ」と呼ばれるものをブリッジすることで、動物の非現実的な行動反応を引き起こす可能性がある。 本研究では,ヒラメの4魚(Hemigrammus rhodostomus)とニューラルネット(NN)モデルを用いた生体模倣的社会相互作用の創出について検討した。 魚とロボットルアーを組み合わせたバイオハイブリッド・ペアの実験と、魚のペアのシミュレーションを通して、我々のバイオハイブリッド・システムは、本物の魚のペアのペアを反映した社会的相互作用を生成することを実証した。 私たちの分析では、次のように強調しています。 1) ルアーとNNは, シミュレーションや魚のみの実験と比較して, 実世界の相互作用において最小限の偏差を保っている。 2)我々のNNはロボットをリアルタイムで効率的に制御し、 3) バイオミミクリーギャップを埋め, 現実的なバイオハイブリッドシステムを確保するためには, 包括的検証が不可欠である。

Biohybrid systems in which robotic lures interact with animals have become compelling tools for probing and identifying the mechanisms underlying collective animal behavior. One key challenge lies in the transfer of social interaction models from simulations to reality, using robotics to validate the modeling hypotheses. This challenge arises in bridging what we term the "biomimicry gap", which is caused by imperfect robotic replicas, communication cues and physics constraints not incorporated in the simulations, that may elicit unrealistic behavioral responses in animals. In this work, we used a biomimetic lure of a rummy-nose tetra fish (Hemigrammus rhodostomus) and a neural network (NN) model for generating biomimetic social interactions. Through experiments with a biohybrid pair comprising a fish and the robotic lure, a pair of real fish, and simulations of pairs of fish, we demonstrate that our biohybrid system generates social interactions mirroring those of genuine fish pairs. Our analyses highlight that: 1) the lure and NN maintain minimal deviation in real-world interactions compared to simulations and fish-only experiments, 2) our NN controls the robot efficiently in real-time, and 3) a comprehensive validation is crucial to bridge the biomimicry gap, ensuring realistic biohybrid systems.
翻訳日:2024-03-20 04:02:28 公開日:2024-03-17
# LatEval: 横方向思考パズルからの不完全な情報を備えた対話型LLM評価ベンチマーク

LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles ( http://arxiv.org/abs/2308.10855v3 )

ライセンス: Link先を確認
Shulin Huang, Shirong Ma, Yinghui Li, Mengzuo Huang, Wuhe Zou, Weidong Zhang, Hai-Tao Zheng, (参考訳) LLMの継続的な進化と改良により、それらは印象的な論理的推論や垂直思考能力に恵まれている。 しかし、彼らは箱から抜け出すことができるだろうか? 彼らは有能な側方思考能力を持っているか? 横方向思考パズルのセットアップに続いて,インタラクティブなフレームワーク内でモデルの横方向思考を評価する新しい評価ベンチマークであるLatEvalを提案する。 本ベンチマークでは,モデルが提示する質問の質と,問題解決のための情報の統合能力の2つの側面でLCMに挑戦する。 LLMのほとんど全てが、インタラクション中に横方向の思考を採用するのに苦労していることがわかった。 例えば、最も先進的なモデルであるGPT-4でさえある程度の優位性を示しているが、人間と比較しても顕著な差は維持されている。 この評価ベンチマークは、効果的なAIアシスタントにとって極めて困難で独特なタスクをLLMに提供する。

With the continuous evolution and refinement of LLMs, they are endowed with impressive logical reasoning or vertical thinking capabilities. But can they think out of the box? Do they possess proficient lateral thinking abilities? Following the setup of Lateral Thinking Puzzles, we propose a novel evaluation benchmark, LatEval, which assesses the model's lateral thinking within an interactive framework. In our benchmark, we challenge LLMs with 2 aspects: the quality of questions posed by the model and the model's capability to integrate information for problem-solving. We find that nearly all LLMs struggle with employing lateral thinking during interactions. For example, even the most advanced model, GPT-4, exhibits the advantage to some extent, yet still maintain a noticeable gap when compared to human. This evaluation benchmark provides LLMs with a highly challenging and distinctive task that is crucial to an effective AI assistant.
翻訳日:2024-03-20 04:02:28 公開日:2024-03-17
# Compact: セキュア計算のための複雑なアクティベーション関数の近似

Compact: Approximating Complex Activation Functions for Secure Computation ( http://arxiv.org/abs/2309.04664v2 )

ライセンス: Link先を確認
Mazharul Islam, Sunpreet S. Arora, Rahul Chatterjee, Peter Rindal, Maliheh Shirvanian, (参考訳) パブリッククラウドにホストされているディープニューラルネットワーク(DNN)モデルに問い合わせる場合、セキュアなマルチパーティ計算(MPC)技術を使用してデータのプライバシを提供することができる。 最先端のMPC技術は、ReLUのような単純なアクティベーション関数を使用するDNNモデルに直接利用することができる。 しかし、これらの手法は、最先端DNNモデルで使用される複雑で非線形な活性化関数に対して非効率かつ/または非効率である。 本稿では,複雑な AF の多項式近似を部品的に生成し,最先端の MPC 技術で効率的に利用できるようにする。 コンパクトはモデルトレーニングにいかなる制限も必要とせず、ほぼ同一のモデルの精度をもたらす。 そこで我々は,入力密度を意識したCompactを設計し,アプリケーション固有のアニール型最適化を用いて複雑なAFのより効率的な近似を生成する。 我々は,DNNアーキテクチャを用いた4種類の機械学習タスクにおいて,コンプレックスを広範に評価した。 実験結果から,多くの隠れ層を有するDNNモデルに対して,コンプレックスは2x-5倍の計算効率を保ちながら,無視可能な精度損失を生じさせることが示された。 我々の作業は、クエリされたDNNモデルが複数の隠れレイヤで構成され、複雑なAFでトレーニングされた場合でも、ユーザデータプライバシを提供するために、簡単にMPC技術を採用することを加速します。

Secure multi-party computation (MPC) techniques can be used to provide data privacy when users query deep neural network (DNN) models hosted on a public cloud. State-of-the-art MPC techniques can be directly leveraged for DNN models that use simple activation functions such as ReLU. However, these techniques are ineffective and/or inefficient for the complex and highly non-linear activation functions used in cutting-edge DNN models. We present Compact, which produces piece-wise polynomial approximations of complex AFs to enable their efficient use with state-of-the-art MPC techniques. Compact neither requires nor imposes any restriction on model training and results in near-identical model accuracy. To achieve this, we design Compact with input density awareness and use an application-specific simulated annealing type optimization to generate computationally more efficient approximations of complex AFs. We extensively evaluate Compact on four different machine-learning tasks with DNN architectures that use popular complex AFs silu, gelu, and mish. Our experimental results show that Compact incurs negligible accuracy loss while being 2x-5x computationally more efficient than state-of-the-art approaches for DNN models with large number of hidden layers. Our work accelerates easy adoption of MPC techniques to provide user data privacy even when the queried DNN models consist of a number of hidden layers and trained over complex AFs.
翻訳日:2024-03-20 04:02:28 公開日:2024-03-17
# 高真空中における回転浮遊ダイヤモンド中の電子スピンの量子制御とベリー相

Quantum control and Berry phase of electron spins in rotating levitated diamonds in high vacuum ( http://arxiv.org/abs/2309.05821v2 )

ライセンス: Link先を確認
Yuanbin Jin, Kunhong Shen, Peng Ju, Xingyu Gao, Chong Zu, Alejandro J. Grine, Tongcang Li, (参考訳) 内部スピン量子ビットを持つ高真空中での浮遊ダイヤモンド粒子は、マクロ的な量子力学、量子重力、精密測定のために提案されている。 スピンと粒子の回転の結合は、量子幾何学的位相の研究、ジャイロスコープと回転物質波干渉計の作成に利用することができる。 しかし、浮遊ダイヤモンドの以前の取り組みは真空レベルやスピン状態の読み出しに苦しんだ。 これらのギャップに対処するため、複数の安定化電極を持つ一体型表面イオントラップを作製する。 これによりオンチップ浮揚が容易になり、高真空で浮遊したナノダイアモンドの磁気共鳴測定が初めて光学的に検出された。 浮遊したナノダイヤモンドの内部温度は10〜5ドル以下である。 印象的なことに、私たちはナノダイアモンドを20MHz (1.2 \times 10^{9}$ rpm) まで回転させ、窒素空孔中心電子スピンの脱落速度を上回りました。 これらのNVスピンを用いて,粒子回転によるベリー相の影響を観測した。 さらに、回転するナノダイヤモンドにおけるスピンの量子制御を実証する。 これらの結果は、スピン量子ビットと対向する機械的回転において重要な進展を示し、量子現象を研究する能力を拡張した。

Levitated diamond particles in high vacuum with internal spin qubits have been proposed for exploring macroscopic quantum mechanics, quantum gravity, and precision measurements. The coupling between spins and particle rotation can be utilized to study quantum geometric phase, create gyroscopes and rotational matter-wave interferometers. However, previous efforts in levitated diamonds struggled with vacuum level or spin state readouts. To address these gaps, we fabricate an integrated surface ion trap with multiple stabilization electrodes. This facilitates on-chip levitation and, for the first time, optically detected magnetic resonance measurements of a nanodiamond levitated in high vacuum. The internal temperature of our levitated nanodiamond remains moderate below $10^{-5}$ Torr. Impressively, we have driven a nanodiamond to rotate up to 20 MHz ($1.2 \times 10^{9}$ rpm), surpassing typical nitrogen-vacancy (NV) center electron spin dephasing rates. Using these NV spins, we observe the effect of the Berry phase arising from particle rotation. In addition, we demonstrate quantum control of spins in a rotating nanodiamond. These results mark an important development in interfacing mechanical rotation with spin qubits, expanding our capacity to study quantum phenomena.
翻訳日:2024-03-20 04:02:28 公開日:2024-03-17
# 2層ニューラルネットワーク上でのロジスティック損失に対するSGDのグローバル収束

Global Convergence of SGD For Logistic Loss on Two Layer Neural Nets ( http://arxiv.org/abs/2309.09258v2 )

ライセンス: Link先を確認
Pulkit Gopalani, Samyak Jha, Anirbit Mukherjee, (参考訳) 本稿では、任意のデータとシグモイドやタンのような適切に滑らかで有界なアクティベーションを持つゲート数に対して、SGDが適切に正規化された2ドルネットのロジスティックな経験的リスクのグローバルミニマに、一級の証明可能な収束を実証する。 また、SoftPlusのようなスムーズな非有界な活性化にも適用可能な、連続時間 SGD に対する指数関数的に高速な収束速度を証明した。 我々のキーとなる考え方は、「ビラニ関数」である定数サイズのニューラルネット上でのフロベニウスノルム正規化ロジスティック損失関数の存在を示し、そのような目的に基づいてSGDを解析することによって最近の進歩を構築できることである。

In this note, we demonstrate a first-of-its-kind provable convergence of SGD to the global minima of appropriately regularized logistic empirical risk of depth $2$ nets -- for arbitrary data and with any number of gates with adequately smooth and bounded activations like sigmoid and tanh. We also prove an exponentially fast convergence rate for continuous time SGD that also applies to smooth unbounded activations like SoftPlus. Our key idea is to show the existence of Frobenius norm regularized logistic loss functions on constant-sized neural nets which are "Villani functions" and thus be able to build on recent progress with analyzing SGD on such objectives.
翻訳日:2024-03-20 04:02:28 公開日:2024-03-17
# 浅部ニューラルネットワークの幾何学的構造と建設的${\mathcal L}^2$コスト最小化

Geometric structure of shallow neural networks and constructive ${\mathcal L}^2$ cost minimization ( http://arxiv.org/abs/2309.10370v2 )

ライセンス: Link先を確認
Thomas Chen, Patricia Muñoz Ewald, (参考訳) 本稿では、勾配勾配を使わずに、上界の明示的な構築を通じて、過度にパラメータ化された浅層ニューラルネットワークにおけるコスト(損失)最小化の問題にアプローチする。 鍵となる焦点は、近似的かつ正確な最小値の幾何学的構造を解明することである。 隠れた1つの層を持つ浅層ニューラルネットワーク、ReLU活性化関数、${\mathcal L}^2$ Schattenクラス(またはHilbert-Schmidt)コスト関数、入力空間${\mathbb R}^M$、出力空間${\mathbb R}^Q$ with $Q\leq M$、入力サンプルサイズ$N>QM$。 我々は、$O(\delta_P)$のコスト関数の最小値上の上限を証明し、$\delta_P$は、トレーニング入力のノイズ比に対する信号を測定する。 特別の場合、$M=Q$ において、コスト関数の正確な退化局所極小を明示的に決定し、そのシャープ値が、相対誤差$O(\delta_P^2)$ で得られた$Q\leq M$ の上限値と異なることを示す。 上界の証明は構成的に訓練されたネットワークとなり、入力空間 ${\mathbb R}^M$ 内の特定の$Q$-次元部分空間を測ることを示す。 我々は、与えられたコンテキストにおけるコスト関数のグローバルな最小値の特徴についてコメントする。

In this paper, we approach the problem of cost (loss) minimization in underparametrized shallow neural networks through the explicit construction of upper bounds, without any use of gradient descent. A key focus is on elucidating the geometric structure of approximate and precise minimizers. We consider shallow neural networks with one hidden layer, a ReLU activation function, an ${\mathcal L}^2$ Schatten class (or Hilbert-Schmidt) cost function, input space ${\mathbb R}^M$, output space ${\mathbb R}^Q$ with $Q\leq M$, and training input sample size $N>QM$ that can be arbitrarily large. We prove an upper bound on the minimum of the cost function of order $O(\delta_P)$ where $\delta_P$ measures the signal to noise ratio of training inputs. In the special case $M=Q$, we explicitly determine an exact degenerate local minimum of the cost function, and show that the sharp value differs from the upper bound obtained for $Q\leq M$ by a relative error $O(\delta_P^2)$. The proof of the upper bound yields a constructively trained network; we show that it metrizes a particular $Q$-dimensional subspace in the input space ${\mathbb R}^M$. We comment on the characterization of the global minimum of the cost function in the given context.
翻訳日:2024-03-20 03:52:43 公開日:2024-03-17
# Forgedit: 学習と学習によるテキストガイド画像編集

Forgedit: Text Guided Image Editing via Learning and Forgetting ( http://arxiv.org/abs/2309.10556v2 )

ライセンス: Link先を確認
Shiwen Zhang, Shuai Xiao, Weilin Huang, (参考訳) 実際の画像や合成画像のテキストガイドによる画像編集は、原画像自体とターゲットのテキストプロンプトのみを入力として考慮すれば、非常に一般的で困難な作業である。 編集モデルは、画像のどの部分を編集すべきかを自身で推定し、元の画像の特徴を保ちながら剛性または非剛性的な編集を行う必要がある。 本稿では,新しいテキスト誘導画像編集手法であるForgeditを設計する。 まず、従来のSOTAよりもはるかに高速で、過度に収まることなく、元の画像を30秒で再構築できる視覚言語共同最適化フレームワークを提案する。 次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。 最後に、拡散モデルにおけるUNetの一般的な性質を発見した。すなわち、Unetエンコーダは空間と構造を、Unetデコーダは外観とアイデンティティを学習する。 このような特性により,1つの画像上の微調整拡散モデルにおいて,致命的かつ避けられない過適合問題に対処する機構を設計し,拡散モデルの編集能力を大幅に向上させる。 TEdBenchは、CLIPスコアとLPIPSスコアの両方の観点から、Imagic with Imagenのような従来のSOTAメソッドに勝っている。 コードはhttps://github.com/witcherofresearch/Forgeditで公開されている。

Text-guided image editing on real or synthetic images, given only the original image itself and the target text prompt as inputs, is a very general and challenging task. It requires an editing model to estimate by itself which part of the image should be edited, and then perform either rigid or non-rigid editing while preserving the characteristics of original image. In this paper, we design a novel text-guided image editing method, named as Forgedit. First, we propose a vision-language joint optimization framework capable of reconstructing the original image in 30 seconds, much faster than previous SOTA and much less overfitting. Then we propose a novel vector projection mechanism in text embedding space of Diffusion Models, which is capable to control the identity similarity and editing strength seperately. Finally, we discovered a general property of UNet in Diffusion Models, i.e., Unet encoder learns space and structure, Unet decoder learns appearance and identity. With such a property, we design forgetting mechanisms to successfully tackle the fatal and inevitable overfitting issues when fine-tuning Diffusion Models on one image, thus significantly boosting the editing capability of Diffusion Models. Our method, Forgedit, built on Stable Diffusion, achieves new state-of-the-art results on the challenging text-guided image editing benchmark: TEdBench, surpassing the previous SOTA methods such as Imagic with Imagen, in terms of both CLIP score and LPIPS score. Codes are available at https://github.com/witcherofresearch/Forgedit
翻訳日:2024-03-20 03:52:43 公開日:2024-03-17
# BAMBOO:大規模言語モデルの長文モデリング能力評価のための総合ベンチマーク

BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models ( http://arxiv.org/abs/2309.13345v2 )

ライセンス: Link先を確認
Zican Dong, Tianyi Tang, Junyi Li, Wayne Xin Zhao, Ji-Rong Wen, (参考訳) 大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。 近年,LLMの文脈長の延長と長文モデリング機能の向上に,複数の研究が取り組んでいる。 LLMの長期コンテキスト能力を総合的に評価するために,マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。 BAMBOOは、包括的なキャパシティ評価、データ汚染の回避、正確な自動評価、異なる長さレベルという4つの原則で設計されている。 質問応答、幻覚検出、テキストソート、言語モデリング、コード補完の5つの異なる長文理解タスクから10のデータセットで構成され、中核容量とLLMの様々な領域をカバーする。 BAMBOO上で5つの長期文脈モデルを用いて実験を行い、さらに長文の4つの重要な研究課題について考察する。 また、現状の長期文脈モデルを定性的に分析し、長期テキストモデリング能力を高めるための今後の方向性を指摘する。 データ、プロンプト、コードはhttps://github.com/RUCAIBox/BAMBOO.comで公開しています。

Large language models (LLMs) have achieved dramatic proficiency over NLP tasks with normal length. Recently, multiple studies have committed to extending the context length and enhancing the long text modeling capabilities of LLMs. To comprehensively evaluate the long context ability of LLMs, we propose BAMBOO, a multi-task long context benchmark. BAMBOO has been designed with four principles: comprehensive capacity evaluation, avoidance of data contamination, accurate automatic evaluation, and different length levels. It consists of 10 datasets from 5 different long text understanding tasks, i.e. question answering, hallucination detection, text sorting, language modeling, and code completion, to cover core capacities and various domains of LLMs. We conduct experiments with five long context models on BAMBOO and further discuss four key research questions of long text. We also qualitatively analyze current long context models and point out future directions for enhancing long text modeling capacities. We release our data, prompts, and code at https://github.com/RUCAIBox/BAMBOO.
翻訳日:2024-03-20 03:52:43 公開日:2024-03-17
# EX-Graph:EthereumとXを橋渡しするピアネリングデータセット

EX-Graph: A Pioneering Dataset Bridging Ethereum and X ( http://arxiv.org/abs/2310.01015v3 )

ライセンス: Link先を確認
Qian Wang, Zhen Zhang, Zemin Liu, Shengliang Lu, Bingqiao Luo, Bingsheng He, (参考訳) 多くのパブリックブロックチェーンデータセットが利用可能だが、そのユーティリティはブロックチェーンデータに排他的な焦点を絞っている。 この制約は、関連するソーシャルネットワークデータのブロックチェーン分析への取り込みを制限するため、導出可能な洞察の幅と深さを減少させる。 上記の制限に対処するために,EthereumとXを直交する新しいデータセットであるEx-Graphを導入し,この種の最初の,かつ最大のデータセットを示す。 Ex-GraphはEthereumトランザクションレコード(200万ノード、3000万エッジ)とXに続くデータ(100万ノード、300万エッジ)を組み合わせて,3067のEthereumアドレスとOpenSeaからの認証されたXアカウントを結合する。 EX-Graphの詳細な統計分析では、X-matchedと非X-matchedのEthereumアドレスの構造的な違いが強調されている。 Ethereumリンク予測、ハッシュトレーディングEthereumアドレス検出、X-Ethereumマッチングリンク予測などの大規模な実験は、Ethereum分析の強化におけるXデータの重要性を強調している。 EX-Graph は \url{https://exgraph.deno.dev/} で利用可能である。

While numerous public blockchain datasets are available, their utility is constrained by an exclusive focus on blockchain data. This constraint limits the incorporation of relevant social network data into blockchain analysis, thereby diminishing the breadth and depth of insight that can be derived. To address the above limitation, we introduce EX-Graph, a novel dataset that authentically links Ethereum and X, marking the first and largest dataset of its kind. EX-Graph combines Ethereum transaction records (2 million nodes and 30 million edges) and X following data (1 million nodes and 3 million edges), bonding 30,667 Ethereum addresses with verified X accounts sourced from OpenSea. Detailed statistical analysis on EX-Graph highlights the structural differences between X-matched and non-X-matched Ethereum addresses. Extensive experiments, including Ethereum link prediction, wash-trading Ethereum addresses detection, and X-Ethereum matching link prediction, emphasize the significant role of X data in enhancing Ethereum analysis. EX-Graph is available at \url{https://exgraph.deno.dev/}.
翻訳日:2024-03-20 03:42:41 公開日:2024-03-17
# LLMを圧縮する:真実は極めて純粋でシンプルではない

Compressing LLMs: The Truth is Rarely Pure and Never Simple ( http://arxiv.org/abs/2310.01382v2 )

ライセンス: Link先を確認
Ajay Jaiswal, Zhe Gan, Xianzhi Du, Bowen Zhang, Zhangyang Wang, Yinfei Yang, (参考訳) 彼らの顕著な業績にもかかわらず、現代のLarge Language Models (LLMs) は計算量とメモリフットプリントに直面する。 近年, LLMのトレーニングフリー・データフリー圧縮(プルーニングと量子化)において, 50~60%の幅を実現し, ビット幅を3~4ビットに減らし, 圧縮されていないベースライン上でのパープレキシティの劣化を無視できることを示す研究がいくつか行われている。 近年の研究では,高度な圧縮手法の開発に重点を置いているため,従来のSoTA圧縮手法の有効性を再評価する。 本稿では, 圧縮LDMの評価プロトコルを再定義する, 精巧に調整されたタスクの集合であるLLM BenchmarK (LLM-KICK) を紹介する。 LLM-KICK は、現在の SoTA 圧縮手法の利点や不運な点を多数明らかにしている: 全てのプルーニング手法は、時として、ささいなスパーシティ比 (例: 25-30%) で大きなパフォーマンス劣化を被り、知識集約的なタスクにおいて N:M のスパーシリティに失敗する; 現在の量子化手法は、プルーニングよりも成功している; しかし、$\geq 50$% のプルーニング LLM は、コンテキスト内検索と要約システムに堅牢である。 LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。 我々は,より優れたLCM圧縮手法の開発を促進することができることを願っている。 再現されたコードはhttps://github.com/VITA-Group/llm-kick.comで入手できる。

Despite their remarkable achievements, modern Large Language Models (LLMs) face exorbitant computational and memory footprints. Recently, several works have shown significant success in training-free and data-free compression (pruning and quantization) of LLMs that achieve 50 - 60% sparsity and reduce the bit width to 3 or 4 bits per weight, with negligible degradation of perplexity over the uncompressed baseline. As recent research efforts are focused on developing increasingly sophisticated compression methods, our work takes a step back and re-evaluates the effectiveness of existing SoTA compression methods, which rely on a fairly simple and widely questioned metric, perplexity (even for dense LLMs). We introduce Knowledge-Intensive Compressed LLM BenchmarK (LLM-KICK), a collection of carefully curated tasks to redefine the evaluation protocol for compressed LLMs, which have significant alignment with their dense counterparts and perplexity fail to capture subtle change in their true capabilities. LLM-KICK unveils many favorable merits and unfortunate plights of current SoTA compression methods: all pruning methods suffer significant performance degradation, sometimes at trivial sparsity ratios (e.g., 25-30%), and fail for N:M sparsity in knowledge-intensive tasks; current quantization methods are more successful than pruning; yet, pruned LLMs even at $\geq 50$% sparsity are robust in-context retrieval and summarization systems; among others. LLM-KICK is designed to holistically access compressed LLMs' ability for language understanding, reasoning, generation, in-context retrieval, in-context summarization, etc. We hope our study can foster the development of better LLM compression methods. The reproduced codes are available at https://github.com/VITA-Group/llm-kick.
翻訳日:2024-03-20 03:42:41 公開日:2024-03-17
# SmartPlay: インテリジェントエージェントとしてのLLMのベンチマーク

SmartPlay: A Benchmark for LLMs as Intelligent Agents ( http://arxiv.org/abs/2310.01557v5 )

ライセンス: Link先を確認
Yue Wu, Xuan Tang, Tom M. Mitchell, Yuanzhi Li, (参考訳) 近年の大規模言語モデル(LLM)は、インテリジェントエージェントや次世代自動化に対して大きな可能性を示しているが、LLMのエージェントとしての能力を評価するための体系的なベンチマークは存在しない。 SmartPlay: LLMをエージェントとして評価するための、挑戦的なベンチマークと方法論の両方を紹介します。 SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど,6つの異なるゲームで構成されている。 各ゲームには独自の設定があり、最大20評価設定と無限環境のバリエーションを提供する。 SmartPlayの各ゲームは、オブジェクト依存による推論、事前計画、空間的推論、履歴からの学習、ランダム性の理解を含む、知的LLMエージェントの9つの重要な機能のサブセットに固有の挑戦をする。 各ゲームテストの能力のセットを区別することで、各能力を別々に分析することができます。 SmartPlayは、LLMエージェントの全体的なパフォーマンスを評価するための厳格なテスト基盤としてだけでなく、現在の方法論におけるギャップを識別するためのロードマップとしても機能する。 ベンチマークはgithub.com/Microsoft/SmartPlayで公開しています。

Recent large language models (LLMs) have demonstrated great potential toward intelligent agents and next-gen automation, but there currently lacks a systematic benchmark for evaluating LLMs' abilities as agents. We introduce SmartPlay: both a challenging benchmark and a methodology for evaluating LLMs as agents. SmartPlay consists of 6 different games, including Rock-Paper-Scissors, Tower of Hanoi, Minecraft. Each game features a unique setting, providing up to 20 evaluation settings and infinite environment variations. Each game in SmartPlay uniquely challenges a subset of 9 important capabilities of an intelligent LLM agent, including reasoning with object dependencies, planning ahead, spatial reasoning, learning from history, and understanding randomness. The distinction between the set of capabilities each game test allows us to analyze each capability separately. SmartPlay serves not only as a rigorous testing ground for evaluating the overall performance of LLM agents but also as a road-map for identifying gaps in current methodologies. We release our benchmark at github.com/Microsoft/SmartPlay
翻訳日:2024-03-20 03:42:41 公開日:2024-03-17
# PolySketchFormer: Sketching Polynomial Kernelsによる高速トランスフォーマー

PolySketchFormer: Fast Transformers via Sketching Polynomial Kernels ( http://arxiv.org/abs/2310.01655v3 )

ライセンス: Link先を確認
Praneeth Kacham, Vahab Mirrokni, Peilin Zhong, (参考訳) 2次時間とメモリの複雑さは、シーケンス長に関して、大規模トランスフォーマーベースの言語モデルのトレーニングと展開において重要な計算ボトルネックを示す。 近年の理論的結果は, 四分法的ソフトマックスアテンション近似の合理的な複雑性仮定による抽出可能性を示している。 本稿では,高次多項式注意がモデル品質を犠牲にすることなく,ソフトマックスを効果的に置き換えることができることを最初に示すことで,この問題に対処する。 次に,数値線形代数を用いた多項式スケッチ手法を開発し,近似保証付き線形時間多項式注意を実現する。 重要なこととして,本手法は注意行列のスパース化を必要とせず,この高速化を実現する。 また,因果マスキングを効率的に適用するためのブロックベースアルゴリズムを提案する。 これらの技術を組み合わせることで、証明可能な保証を提供する言語モデリングのための実用的な線形時間変換アーキテクチャである \emph{PolySketchFormer} を提供する。 長いコンテキストを処理可能な言語モデルをトレーニングすることで,PolySketchFormerを実証的に検証する。 これらの実験では、Google Cloud TPU上の合成データセットと実世界のデータセット(PG19、Wikipedia、C4)の両方を利用している。 文脈長32k, GPT-2モデルでは,FlashAttentionと比較して2.5~4倍の高速化を実現している。

The quadratic time and memory complexity inherent to self-attention mechanisms, with respect to sequence length, presents a critical computational bottleneck in the training and deployment of large-scale Transformer-based language models. Recent theoretical results indicate the intractability of sub-quadratic softmax attention approximation under reasonable complexity assumptions. This paper addresses this challenge by first demonstrating that polynomial attention with high degree can effectively replace softmax without sacrificing model quality. Next, we develop polynomial sketching techniques from numerical linear algebra to achieve linear-time polynomial attention with approximation guarantees. Crucially, our approach achieves this speedup without requiring the sparsification of attention matrices. We also present a block-based algorithm to apply causal masking efficiently. Combining these techniques, we provide \emph{PolySketchFormer}, a practical linear-time Transformer architecture for language modeling that offers provable guarantees. We validate PolySketchFormer empirically by training language models capable of handling long contexts. These experiments utilize both synthetic and real-world datasets (PG19, Wikipedia and C4) on Google Cloud TPUs. For context lengths of 32k and GPT-2 style models, our model achieves a 2.5-4x speedup in training compared to FlashAttention, with no observed degradation in quality across our experiments.
翻訳日:2024-03-20 03:42:41 公開日:2024-03-17
# グラフニューラルネットワークの説明可能性評価のためのロバスト忠実性を目指して

Towards Robust Fidelity for Evaluating Explainability of Graph Neural Networks ( http://arxiv.org/abs/2310.01820v2 )

ライセンス: Link先を確認
Xu Zheng, Farhad Shirani, Tianchun Wang, Wei Cheng, Zhuomin Chen, Haifeng Chen, Hua Wei, Dongsheng Luo, (参考訳) グラフニューラルネットワーク(GNN)は、グラフノード間のメッセージパッシングを介してグラフィカルデータの依存性構造を利用するニューラルネットワークである。 GNNはグラフ構造化データの解析において重要なアーキテクチャとして登場し、機密性のあるドメインにおけるその広範な適用には、GNNの説明可能性のためのフレームワークを必要とする、意思決定プロセスの包括的な理解が必要である。 GNNの説明関数は、事前訓練されたGNNとグラフを入力として取り、グラフラベルに関する 'sufficient statistic' 部分グラフを生成する。 GNN説明可能性の研究における主な課題は、これらの説明機能の性能を評価するための忠実度尺度を提供することである。 本稿では,Fid_+$,$Fid_-$,$Fid_\Delta$,$Fid_\Delta$など,広く普及しているフィデリティ指標の本来の限界を浮き彫りにして,この基礎的課題を考察する。 具体的には、説明可能性の形式的で情報理論的な定義を導入し、既存のメトリクスが様々な統計的シナリオでこの定義と一致しないことが示されている。 理由は、これらの忠実度測定の計算において、サブグラフが取り除かれたときの潜在的分布シフトが原因である。 その後、忠実度尺度の頑健なクラスを導入し、分布シフト問題に耐性があり、幅広いシナリオに適用可能であることを分析的に示す。 合成データと実データの両方に関する大規模な実験分析を行い、提案した指標がゴールド標準メトリクスとより密接であることを示す。 ソースコードはhttps://trustai4s-lab.github.io/fidelity.comで入手できる。

Graph Neural Networks (GNNs) are neural models that leverage the dependency structure in graphical data via message passing among the graph nodes. GNNs have emerged as pivotal architectures in analyzing graph-structured data, and their expansive application in sensitive domains requires a comprehensive understanding of their decision-making processes -- necessitating a framework for GNN explainability. An explanation function for GNNs takes a pre-trained GNN along with a graph as input, to produce a `sufficient statistic' subgraph with respect to the graph label. A main challenge in studying GNN explainability is to provide fidelity measures that evaluate the performance of these explanation functions. This paper studies this foundational challenge, spotlighting the inherent limitations of prevailing fidelity metrics, including $Fid_+$, $Fid_-$, and $Fid_\Delta$. Specifically, a formal, information-theoretic definition of explainability is introduced and it is shown that existing metrics often fail to align with this definition across various statistical scenarios. The reason is due to potential distribution shifts when subgraphs are removed in computing these fidelity measures. Subsequently, a robust class of fidelity measures are introduced, and it is shown analytically that they are resilient to distribution shift issues and are applicable in a wide range of scenarios. Extensive empirical analysis on both synthetic and real datasets are provided to illustrate that the proposed metrics are more coherent with gold standard metrics. The source code is available at https://trustai4s-lab.github.io/fidelity.
翻訳日:2024-03-20 03:42:41 公開日:2024-03-17
# 物理と背景がロボットマニピュレーションにおける映像トランスフォーマーに与える影響 : 平面プッシュを事例として

How Physics and Background Attributes Impact Video Transformers in Robotic Manipulation: A Case Study on Planar Pushing ( http://arxiv.org/abs/2310.02044v3 )

ライセンス: Link先を確認
Shutong Jin, Ruiyu Wang, Muhammad Zahid, Florian T. Pokorny, (参考訳) ロボット学習において、モデルとデータセットのサイズが拡大し続けるにつれて、コスト効率の高いデータ収集とモデルパフォーマンスを保証するために、モデルパフォーマンスに影響を与えるデータセットの特定の要因が何であるかを理解する必要がある。 本研究では,背景物体との相互作用の複雑度や動的度などの物理特性(色,摩擦係数,形状)とシーン背景特性が,映像変換器の性能に与える影響を実験的に検討した。 物理特性と背景環境特性はモデル性能にどのように影響するのか? モデル一般化に最も有害な属性の変化は何か? 新たなシナリオにモデルを適応させるためには、どのような微調整データが必要か? この研究を促進するために,1278時間46万本のビデオと,異なる物理特性と背景特性を持つ物体との相互作用を平面的にプッシュする,大規模な実世界の視覚ベースのロボットプッシュデータセットであるCloudGripper-Push-1Kを紹介した。 また,ビデオ・オクルージョン・トランスフォーマ (VOT) を提案する。ビデオ・オクルージョン・トランスフォーマ (VOT) は2次元空間エンコーダの3つの選択をケーススタディの主題としている。 データセットとコードはhttps://cloudgripper.org.comで入手できる。

As model and dataset sizes continue to scale in robot learning, the need to understand what is the specific factor in the dataset that affects model performance becomes increasingly urgent to ensure cost-effective data collection and model performance. In this work, we empirically investigate how physics attributes (color, friction coefficient, shape) and scene background characteristics, such as the complexity and dynamics of interactions with background objects, influence the performance of Video Transformers in predicting planar pushing trajectories. We aim to investigate three primary questions: How do physics attributes and background scene characteristics influence model performance? What kind of changes in attributes are most detrimental to model generalization? What proportion of fine-tuning data is required to adapt models to novel scenarios? To facilitate this research, we present CloudGripper-Push-1K, a large real-world vision-based robot pushing dataset comprising 1278 hours and 460,000 videos of planar pushing interactions with objects with different physics and background attributes. We also propose Video Occlusion Transformer (VOT), a generic modular video-transformer-based trajectory prediction framework which features 3 choices of 2D-spatial encoders as the subject of our case study. Dataset and codes will be available at https://cloudgripper.org.
翻訳日:2024-03-20 03:42:41 公開日:2024-03-17
# 分散シフトに対するマルチモーダルコントラスト学習のロバスト性を理解する

Understanding the Robustness of Multi-modal Contrastive Learning to Distribution Shift ( http://arxiv.org/abs/2310.04971v2 )

ライセンス: Link先を確認
Yihao Xue, Siddharth Joshi, Dang Nguyen, Baharan Mirzasoleiman, (参考訳) 近年、CLIPのようなマルチモーダルコントラスト学習(MMCL)アプローチは、分散シフトに対して堅牢で、新しいドメインに一般化する学習表現において顕著な成功を収めている。 実証的な成功にもかかわらず、そのような一般化可能な表現を学習するメカニズムは理解されていない。 本研究では,この問題を厳密に分析し,MMCLの強靭性の背後にある2つのメカニズムを明らかにする。すなわち,高分散性で特徴を学習可能な \emph{intra-class contrasting} と,あるクラスにおける注釈付き詳細が他のクラスをよりよく学習するための \emph{inter-class feature sharing} である。 どちらのメカニズムも、トレーニングデータに過剰に表現された刺激的な特徴を防ぎ、一般化可能なコア特徴を覆い隠す。 これにより、分布シフト時のゼロショット分類精度が向上する。 さらに, リッチキャプションによるロバスト性向上のメリットを理論的に実証し, キャプション内の様々な種類の詳細に注釈を付ける効果について検討する。 MSCOCO/Conceptual CaptionsでCLIPモデルをトレーニングし、シフトしたイメージネット上で評価する実験を含む、よく設計された合成実験を含む実験を通して、理論的な結果を検証する。

Recently, multimodal contrastive learning (MMCL) approaches, such as CLIP, have achieved a remarkable success in learning representations that are robust against distribution shift and generalize to new domains. Despite the empirical success, the mechanism behind learning such generalizable representations is not understood. In this work, we rigorously analyze this problem and uncover two mechanisms behind MMCL's robustness: \emph{intra-class contrasting}, which allows the model to learn features with a high variance, and \emph{inter-class feature sharing}, where annotated details in one class help learning other classes better. Both mechanisms prevent spurious features that are over-represented in the training data to overshadow the generalizable core features. This yields superior zero-shot classification accuracy under distribution shift. Furthermore, we theoretically demonstrate the benefits of using rich captions on robustness and explore the effect of annotating different types of details in the captions. We validate our theoretical findings through experiments, including a well-designed synthetic experiment and an experiment involving training CLIP models on MSCOCO/Conceptual Captions and evaluating them on shifted ImageNets.
翻訳日:2024-03-20 03:32:38 公開日:2024-03-17
# 気象深度:逆気象条件下における自己監督深度推定のためのカリキュラムコントラスト学習

WeatherDepth: Curriculum Contrastive Learning for Self-Supervised Depth Estimation under Adverse Weather Conditions ( http://arxiv.org/abs/2310.05556v2 )

ライセンス: Link先を確認
Jiyuan Wang, Chunyu Lin, Lang Nie, Shujun Huang, Yao Zhao, Xing Pan, Rui Ai, (参考訳) 深度推定モデルでは、鮮明な場面で有望な性能を示したが、照明の変動や天候粒子等による悪天候条件の一般化には至らなかった。 本稿では,複雑な気象条件下での性能劣化に対処するために,カリキュラムのコントラスト学習を用いた自己教師型頑健度推定モデルであるWeatherDepthを提案する。 具体的には,まず3つの単純・複雑カリキュラムを用いた漸進的なカリキュラム学習手法を提案する。 このモデルでは、気象効果に対して適切な深さの手がかりを徐々に把握し、よりスムーズでドメイン適応性も向上する。 一方、モデルが以前のカリキュラムを忘れないようにするため、コントラスト学習を異なるカリキュラムに統合する。 本研究の戦略は, 過去のコースから参照知識を抽出することにより, 多様な天候下での頑健な深度推定に向けて, 異なるコース間の深度一貫性の制約を確立するものである。 さらに,手作業による介入を低減し,異なるモデルへの適応性を向上するために,コース切替の最適なタイミングを自動検索する適応型カリキュラムスケジューラを設計した。 実験では,提案手法は様々なアーキテクチャに容易に組み込めることが証明され,合成および実際の気象データセット上での最先端(SoTA)性能を示す。 ソースコードとデータは \url{https://github.com/wangjiyuan9/WeatherDepth} で公開されている。

Depth estimation models have shown promising performance on clear scenes but fail to generalize to adverse weather conditions due to illumination variations, weather particles, etc. In this paper, we propose WeatherDepth, a self-supervised robust depth estimation model with curriculum contrastive learning, to tackle performance degradation in complex weather conditions. Concretely, we first present a progressive curriculum learning scheme with three simple-to-complex curricula to gradually adapt the model from clear to relative adverse, and then to adverse weather scenes. It encourages the model to gradually grasp beneficial depth cues against the weather effect, yielding smoother and better domain adaption. Meanwhile, to prevent the model from forgetting previous curricula, we integrate contrastive learning into different curricula. By drawing reference knowledge from the previous course, our strategy establishes a depth consistency constraint between different courses toward robust depth estimation in diverse weather. Besides, to reduce manual intervention and better adapt to different models, we designed an adaptive curriculum scheduler to automatically search for the best timing for course switching. In the experiment, the proposed solution is proven to be easily incorporated into various architectures and demonstrates state-of-the-art (SoTA) performance on both synthetic and real weather datasets. Source code and data are available at \url{https://github.com/wangjiyuan9/WeatherDepth}.
翻訳日:2024-03-20 03:32:38 公開日:2024-03-17
# 自動微分によるデータ駆動動的モデリングにおける予測能力の強化:クープマンとニューラルODEアプローチ

Enhancing Predictive Capabilities in Data-Driven Dynamical Modeling with Automatic Differentiation: Koopman and Neural ODE Approaches ( http://arxiv.org/abs/2310.06790v2 )

ライセンス: Link先を確認
C. Ricardo Constante-Amores, Alec J. Linot, Michael D. Graham, (参考訳) クープマン作用素のデータ駆動近似は、複雑な力学によって特徴づけられるシステムの時間進化を予測することを約束している。 これらの手法の中で,辞書学習(EDMD-DL)を用いた拡張動的モード分解法が注目されている。 ここでは、観測可能な辞書とクープマン作用素の対応する近似の両方を同時に決定するEDMD-DLの修正について述べる。 この革新は、擬似逆数による勾配降下計算を容易にするために自動微分を利用する。 また、いくつかの代替手法の性能についても論じる。 観測可能空間内の力学を制御した線形高次元系の直接時間積分を含む「純粋」クープマンアプローチを評価する。 さらに、状態空間と観測可能空間をそれぞれのステップで交互に交互に交互に扱うような、修正されたアプローチも検討する。 さらに比較するために、状態空間アプローチ (neural ODEs) を適用する。 定常的, 振動的, カオス的誘引子を特徴とする2次元および3次元常微分方程式系と, より複雑かつ複雑な振る舞いを示す偏微分方程式を包含するシステムを考える。 我々のフレームワークはEDMD-DLを大きく上回っている。 さらに、状態空間のアプローチは、観測可能な空間で全体の時間進化が起こる「純粋な」クープマンアプローチよりも優れたパフォーマンスを提供する。 しかし、クープマンのアプローチの時間的進化が各ステップで状態と可観測物の間で交互に変化するとき、その予測は状態空間アプローチのそれと同等になる。

Data-driven approximations of the Koopman operator are promising for predicting the time evolution of systems characterized by complex dynamics. Among these methods, the approach known as extended dynamic mode decomposition with dictionary learning (EDMD-DL) has garnered significant attention. Here we present a modification of EDMD-DL that concurrently determines both the dictionary of observables and the corresponding approximation of the Koopman operator. This innovation leverages automatic differentiation to facilitate gradient descent computations through the pseudoinverse. We also address the performance of several alternative methodologies. We assess a 'pure' Koopman approach, which involves the direct time-integration of a linear, high-dimensional system governing the dynamics within the space of observables. Additionally, we explore a modified approach where the system alternates between spaces of states and observables at each time step -- this approach no longer satisfies the linearity of the true Koopman operator representation. For further comparisons, we also apply a state space approach (neural ODEs). We consider systems encompassing two and three-dimensional ordinary differential equation systems featuring steady, oscillatory, and chaotic attractors, as well as partial differential equations exhibiting increasingly complex and intricate behaviors. Our framework significantly outperforms EDMD-DL. Furthermore, the state space approach offers superior performance compared to the 'pure' Koopman approach where the entire time evolution occurs in the space of observables. When the temporal evolution of the Koopman approach alternates between states and observables at each time step, however, its predictions become comparable to those of the state space approach.
翻訳日:2024-03-20 03:32:38 公開日:2024-03-17
# LLMトレーニングのための tokenizer Choice: 無視可能か、それとも致命的か?

Tokenizer Choice For LLM Training: Negligible or Crucial? ( http://arxiv.org/abs/2310.08754v4 )

ライセンス: Link先を確認
Mehdi Ali, Michael Fromm, Klaudia Thellmann, Richard Rutmann, Max Lübbering, Johannes Leveling, Katrin Klug, Jan Ebert, Niclas Doll, Jasper Schulze Buschhoff, Charvi Jain, Alexander Arno Weber, Lena Jurkschat, Hammam Abdelwahab, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Samuel Weinbach, Rafet Sifa, Stefan Kesselheim, Nicolas Flores-Herr, (参考訳) 最近のLarge Language Models(LLMs)の成功は、トレーニングデータセットの構成のキュレーション、モデルアーキテクチャとデータセットサイズの拡大、事前トレーニング目標の進歩、トークン化ツールの影響を盲点として残すことで、大きく推進されている。 この未探索領域に光を当てると,24個の単言語 LLM と多言語 LLM を2.6B のパラメータスケールで訓練し,異なるトークン化アルゴリズムとパラメータ化を非難することにより,トークン化選択が LLM 下流性能に与える影響を包括的に研究する。 我々の研究は、トークン化ツールの選択が、モデルの下流のパフォーマンスとトレーニングコストに大きな影響を与えることを強調している。 特に、一般的なトークンーザ評価指標の肥大度とパリティは、必ずしも下流のパフォーマンスを予測できるとは限らないことが分かり、これらの指標が下流のパフォーマンスを疑わしいプロキシにする。 さらに,最も頻度の高い5つの言語で訓練された多言語トークンは,英語と比較して語彙サイズを3倍に増やす必要があることを示した。 英語中心のトークン化器は, 過去に多言語LLMのトレーニングに応用されてきたが, 非効率なトークン化語彙により, ダウンストリーム性能が著しく低下し, トレーニングコストが最大68%増加した。

The recent success of Large Language Models (LLMs) has been predominantly driven by curating the training dataset composition, scaling of model architectures and dataset sizes and advancements in pretraining objectives, leaving tokenizer influence as a blind spot. Shedding light on this underexplored area, we conduct a comprehensive study on the influence of tokenizer choice on LLM downstream performance by training 24 mono- and multilingual LLMs at a 2.6B parameter scale, ablating different tokenizer algorithms and parameterizations. Our studies highlight that the tokenizer choice can significantly impact the model's downstream performance and training costs. In particular, we find that the common tokenizer evaluation metrics fertility and parity are not always predictive of model downstream performance, rendering these metrics a questionable proxy for the model's downstream performance. Furthermore, we show that multilingual tokenizers trained on the five most frequent European languages require vocabulary size increases of factor three in comparison to English. While English-centric tokenizers have been applied to the training of multi-lingual LLMs in the past, we find that this approach results in a severe downstream performance degradation and additional training costs of up to 68%, due to an inefficient tokenization vocabulary.
翻訳日:2024-03-20 03:32:38 公開日:2024-03-17
# 極多ラベル分類のためのデュアルエンコーダ

Dual-Encoders for Extreme Multi-Label Classification ( http://arxiv.org/abs/2310.10636v2 )

ライセンス: Link先を確認
Nilesh Gupta, Devvrit Khatri, Ankit S Rawat, Srinadh Bhojanapalli, Prateek Jain, Inderjit Dhillon, (参考訳) デュアルエンコーダ(DE)モデルは検索タスクで広く使われており、多くの場合、マルチクラスおよび限られたトレーニングデータによって特徴づけられるオープンQAベンチマークで研究されている。 対照的に、極端なマルチラベル分類(XMC)のようなマルチラベルおよびデータリッチな検索設定におけるそれらの性能は、未探索のままである。 現在の実証的な証拠は、DECモデルがXMCベンチマークで著しく不足していることを示しており、SOTA法では、クラスごとの分類ヘッドを用いて、学習可能なパラメータの数を、コーパス内のドキュメントの総数で線形にスケールする。 この目的のために,XMCタスク上でのDECモデルのトレーニングには,既存のマルチラベルコントラストトレーニング損失が適さないことをまず研究し,強調する。 我々は、既存の対照的な損失の限界を克服する、分離されたソフトマックス損失(InfoNCE損失の単純な修正)を提案する。 さらに、損失設計をソフトなトップk演算子ベースの損失に拡張し、トップk予測性能を最適化する。 提案した損失関数をトレーニングすると、トレーニング可能なパラメータの数を20倍小さくしながら、Precision@1で最大2%の精度でSOTAメソッドにマッチまたは性能を向上することができる。 これにより、よりパラメータ効率が高く、より普遍的に適用可能な検索タスクの解が得られる。 私たちのコードとモデルはhttps://github.com/nilesh2797/dexml.comで公開されています。

Dual-encoder (DE) models are widely used in retrieval tasks, most commonly studied on open QA benchmarks that are often characterized by multi-class and limited training data. In contrast, their performance in multi-label and data-rich retrieval settings like extreme multi-label classification (XMC), remains under-explored. Current empirical evidence indicates that DE models fall significantly short on XMC benchmarks, where SOTA methods linearly scale the number of learnable parameters with the total number of classes (documents in the corpus) by employing per-class classification head. To this end, we first study and highlight that existing multi-label contrastive training losses are not appropriate for training DE models on XMC tasks. We propose decoupled softmax loss - a simple modification to the InfoNCE loss - that overcomes the limitations of existing contrastive losses. We further extend our loss design to a soft top-k operator-based loss which is tailored to optimize top-k prediction performance. When trained with our proposed loss functions, standard DE models alone can match or outperform SOTA methods by up to 2% at Precision@1 even on the largest XMC datasets while being 20x smaller in terms of the number of trainable parameters. This leads to more parameter-efficient and universally applicable solutions for retrieval tasks. Our code and models are publicly available at https://github.com/nilesh2797/dexml.
翻訳日:2024-03-20 03:22:50 公開日:2024-03-17
# 開集合監督型異常検出のための異常不均一性学習

Anomaly Heterogeneity Learning for Open-set Supervised Anomaly Detection ( http://arxiv.org/abs/2310.12790v3 )

ライセンス: Link先を確認
Jiawen Zhu, Choubo Ding, Yu Tian, Guansong Pang, (参考訳) オープンセット監視された異常検出(OSAD)は、最近出現している異常検出領域であり、トレーニング中に見られるいくつかの異常クラスのサンプルを利用して、未確認の異常(すなわち、オープンセットの異常クラスからのサンプル)を検出し、その異常を効果的に識別することを目的としている。 従来の知識から見れば、現在のOSAD法は、しばしば偽陽性の誤りを大幅に減らすことができる。 しかし、これらの手法は閉集合で訓練され、異常な例を均質な分布から扱い、任意の分布から引き出すことができる未知の異常に一般化する効果が低い。 本稿では,本問題に対処するために,限られた異常例を用いて異種異常分布を学習することを提案する。 そこで本研究では,AHL(Anomaly Heterogeneity Learning)という,異種分布の多様集合をシミュレートした新しい手法を導入する。 さらに、AHLは既存のOSADモデルをプラグインし、それらの異常モデリングを強化するための一般的なフレームワークである。 9つの実世界の異常検出データセットの大規模な実験は、AHLが可能であることを示している 1)見知らぬ異常の検出において、最先端OSADモデルを著しく強化し、 2)新規ドメインの異常を効果的に一般化する。 コードはhttps://github.com/mala-lab/AHLで入手できる。

Open-set supervised anomaly detection (OSAD) - a recently emerging anomaly detection area - aims at utilizing a few samples of anomaly classes seen during training to detect unseen anomalies (i.e., samples from open-set anomaly classes), while effectively identifying the seen anomalies. Benefiting from the prior knowledge illustrated by the seen anomalies, current OSAD methods can often largely reduce false positive errors. However, these methods are trained in a closed-set setting and treat the anomaly examples as from a homogeneous distribution, rendering them less effective in generalizing to unseen anomalies that can be drawn from any distribution. This paper proposes to learn heterogeneous anomaly distributions using the limited anomaly examples to address this issue. To this end, we introduce a novel approach, namely Anomaly Heterogeneity Learning (AHL), that simulates a diverse set of heterogeneous anomaly distributions and then utilizes them to learn a unified heterogeneous abnormality model in surrogate open-set environments. Further, AHL is a generic framework that existing OSAD models can plug and play for enhancing their abnormality modeling. Extensive experiments on nine real-world anomaly detection datasets show that AHL can 1) substantially enhance different state-of-the-art OSAD models in detecting seen and unseen anomalies, and 2) effectively generalize to unseen anomalies in new domains. Code is available at https://github.com/mala-lab/AHL.
翻訳日:2024-03-20 03:22:50 公開日:2024-03-17
# CLEX: 大規模言語モデルのための連続長外挿法

CLEX: Continuous Length Extrapolation for Large Language Models ( http://arxiv.org/abs/2310.16450v2 )

ライセンス: Link先を確認
Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing, (参考訳) Transformer-based Large Language Models (LLM) は、多くの自然言語処理タスクにおいて先駆的な進歩を遂げている。 位置埋め込み(PE)スケーリング手法は、コンテキストウィンドウを特定の長さに拡張するのに有効であるが、外挿能力の顕著な制限を示すか、コンテキストウィンドウ内の部分的なパフォーマンスを犠牲にする。 長さ外挿法は、理論的にはトレーニングシーケンス長を超えてコンテキストウィンドウを拡張することができるが、実際的なロングコンテキスト応用では性能が劣ることが多い。 これらの課題に対処するため,LLMのためのCLEX(Continuous Length Extrapolation)を提案する。 PEスケーリング手法を一般化し、長さスケーリング係数上の常微分方程式による連続力学をモデル化し、その結果、特定の長さのために設計された現在のPEスケーリング手法の制約を克服する。 さらに、動的をトレーニングシーケンス長を超えて所望のコンテキスト長に拡張することにより、CLEXは、実用的なタスクにおいて印象的なパフォーマンスを持つ長さ外挿を容易にする。 CLEX は LLaMA や GPT-NeoX などのロータリー位置埋め込みを備えた LLM にシームレスに組み込むことができ、トレーニングや推論の遅延には何の影響も与えないことを示した。 実験の結果,CLEXはコンテキストウィンドウを4倍,約8倍のトレーニング長に効果的に拡張でき,性能は劣化しないことがわかった。 さらに,実用的LongBenchベンチマークで評価すると,4k長でトレーニングしたモデルでは,コンテクスト長でトレーニングした最先端のオープンソースモデルに対して,最大32kまでの競合性能を示す。 私たちのコードはhttps://github.com/DAMO-NLP-SG/CLEXで公開されています。

Transformer-based Large Language Models (LLMs) are pioneering advances in many natural language processing tasks, however, their exceptional capabilities are restricted within the preset context window of Transformer. Position Embedding (PE) scaling methods, while effective in extending the context window to a specific length, demonstrate either notable limitations in their extrapolation abilities or sacrificing partial performance within the context window. Length extrapolation methods, although theoretically capable of extending the context window beyond the training sequence length, often underperform in practical long-context applications. To address these challenges, we propose Continuous Length EXtrapolation (CLEX) for LLMs. We generalise the PE scaling approaches to model the continuous dynamics by ordinary differential equations over the length scaling factor, thereby overcoming the constraints of current PE scaling methods designed for specific lengths. Moreover, by extending the dynamics to desired context lengths beyond the training sequence length, CLEX facilitates the length extrapolation with impressive performance in practical tasks. We demonstrate that CLEX can be seamlessly incorporated into LLMs equipped with Rotary Position Embedding, such as LLaMA and GPT-NeoX, with negligible impact on training and inference latency. Experimental results reveal that CLEX can effectively extend the context window to over 4x or almost 8x training length, with no deterioration in performance. Furthermore, when evaluated on the practical LongBench benchmark, our model trained on a 4k length exhibits competitive performance against state-of-the-art open-source models trained on context lengths up to 32k. Our code is available at https://github.com/DAMO-NLP-SG/CLEX.
翻訳日:2024-03-20 03:22:50 公開日:2024-03-17
# PubDef: パブリックモデルからの転送攻撃を擁護

PubDef: Defending Against Transfer Attacks From Public Models ( http://arxiv.org/abs/2310.17645v2 )

ライセンス: Link先を確認
Chawin Sitawarin, Jaewon Chang, David Huang, Wesson Altoyan, David Wagner, (参考訳) 敵の攻撃は、業界における略奪的かつ不当な脅威だった。 しかし,強靭性評価文献の10年の歴史を通じて,強靭性や最適な攻撃の実施が困難であることが判明した。 機械学習とドメインの専門知識の両方を必要とする。 言い換えれば、過去の文献の大半が宗教的に想定していたホワイトボックスの脅威モデルは非現実的である。 本稿では,公用サロゲートモデルによる移動攻撃に依存する新たな実用的脅威モデルを提案する。 この設定は、将来セキュリティに敏感なアプリケーションにとって最も一般的なものになる、と私たちは主張する。 本研究では,この環境での移動攻撃を評価し,ゲーム理論の観点から専門的な防御手法を提案する。 防御は、24の公開モデルと3つのデータセット(CIFAR-10、CIFAR-100、ImageNet)にわたる11の攻撃アルゴリズムで評価される。 この脅威モデルの下では、我々の防衛であるPubDefは、最先端のホワイトボックス対敵訓練を、通常の精度でほとんど損なわない大きなマージンで上回っている。 例えば、ImageNetでは、最強の転送攻撃の下で、我々の防御は62%の精度を達成しています。 攻撃を受けていない場合の精度は、防御されていないモデルよりもわずか2%低い(78%対80%)。 コードについてはhttps://github.com/wagner-group/pubdef.comで公開しています。

Adversarial attacks have been a looming and unaddressed threat in the industry. However, through a decade-long history of the robustness evaluation literature, we have learned that mounting a strong or optimal attack is challenging. It requires both machine learning and domain expertise. In other words, the white-box threat model, religiously assumed by a large majority of the past literature, is unrealistic. In this paper, we propose a new practical threat model where the adversary relies on transfer attacks through publicly available surrogate models. We argue that this setting will become the most prevalent for security-sensitive applications in the future. We evaluate the transfer attacks in this setting and propose a specialized defense method based on a game-theoretic perspective. The defenses are evaluated under 24 public models and 11 attack algorithms across three datasets (CIFAR-10, CIFAR-100, and ImageNet). Under this threat model, our defense, PubDef, outperforms the state-of-the-art white-box adversarial training by a large margin with almost no loss in the normal accuracy. For instance, on ImageNet, our defense achieves 62% accuracy under the strongest transfer attack vs only 36% of the best adversarially trained model. Its accuracy when not under attack is only 2% lower than that of an undefended model (78% vs 80%). We release our code at https://github.com/wagner-group/pubdef.
翻訳日:2024-03-20 03:12:40 公開日:2024-03-17
# Uni-O4: マルチステップオンライン最適化によるオンラインとオフラインの深層強化学習の統合

Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization ( http://arxiv.org/abs/2311.03351v4 )

ライセンス: Link先を確認
Kun Lei, Zhengmao He, Chenhao Lu, Kaizhe Hu, Yang Gao, Huazhe Xu, (参考訳) オフラインとオンライン強化学習(RL)を組み合わせることは、効率的かつ安全な学習に不可欠である。 しかし、従来の手法はオフラインとオンラインの学習を個別の手順として扱い、冗長な設計と限られた性能をもたらす。 私たちは、余分な保守主義や正規化を導入することなく、簡単で効果的なオフラインとオンラインの学習を達成できますか? 本研究では,オンライン学習とオフライン学習の両面において,政治上の目的を生かしたUni-o4を提案する。 目的のアライメントを2つのフェーズで保持することで、RLエージェントはオフラインとオンラインの学習をシームレスに転送することができる。 この特性は学習パラダイムの柔軟性を高め、事前学習、微調整、オフライン、オンライン学習の任意の組み合わせを可能にする。 オフラインフェーズでは、特にUni-o4は、さまざまなアンサンブルポリシーを活用して、推定された振る舞いポリシーとオフラインデータセット間のミスマッチ問題に対処する。 単純なオフラインポリシー評価(OPE)アプローチにより、Uni-o4はマルチステップポリシーを安全に改善することができる。 以上の手法を用いることで、これらの2つのパラダイムの融合により、より優れたオフライン初期化と、安定かつ迅速なオンライン微調整能力が得られることを示す。 現実のロボットタスクを通じて、このパラダイムの利点を、挑戦的な、以前は目に見えない現実の環境に迅速に展開する上で強調する。 さらに,多数のシミュレーションベンチマークを用いた総合評価により,本手法がオフラインとオフラインのファインチューニング学習の両方で最先端の性能を実現することを実証した。 私たちのWebサイト: https://lei-kun.github.io/uni-o4/

Combining offline and online reinforcement learning (RL) is crucial for efficient and safe learning. However, previous approaches treat offline and online learning as separate procedures, resulting in redundant designs and limited performance. We ask: Can we achieve straightforward yet effective offline and online learning without introducing extra conservatism or regularization? In this study, we propose Uni-o4, which utilizes an on-policy objective for both offline and online learning. Owning to the alignment of objectives in two phases, the RL agent can transfer between offline and online learning seamlessly. This property enhances the flexibility of the learning paradigm, allowing for arbitrary combinations of pretraining, fine-tuning, offline, and online learning. In the offline phase, specifically, Uni-o4 leverages diverse ensemble policies to address the mismatch issues between the estimated behavior policy and the offline dataset. Through a simple offline policy evaluation (OPE) approach, Uni-o4 can achieve multi-step policy improvement safely. We demonstrate that by employing the method above, the fusion of these two paradigms can yield superior offline initialization as well as stable and rapid online fine-tuning capabilities. Through real-world robot tasks, we highlight the benefits of this paradigm for rapid deployment in challenging, previously unseen real-world environments. Additionally, through comprehensive evaluations using numerous simulated benchmarks, we substantiate that our method achieves state-of-the-art performance in both offline and offline-to-online fine-tuning learning. Our website: https://lei-kun.github.io/uni-o4/ .
翻訳日:2024-03-20 03:12:40 公開日:2024-03-17
# Swin UNETR++: 完全自動放射線腫瘍治療に向けたトランスフォーマーベースの高線量予測

Swin UNETR++: Advancing Transformer-Based Dense Dose Prediction Towards Fully Automated Radiation Oncology Treatments ( http://arxiv.org/abs/2311.06572v2 )

ライセンス: Link先を確認
Kuancheng Wang, Hai Siong Tan, Rafe Mcbeth, (参考訳) 放射線腫瘍学の分野は、がん治療のための放射線治療計画の作成を完全に自動化するための人工知能の使用の恩恵を受けるために、一意に位置づけられている。 この時間的および専門的なタスクは、患者の画像と臓器と腫瘍のセグメンテーションを組み合わせて、3次元放射線線量分布を生成して臨床治療目標を満たす。 本研究では,DCA(Dual Cross-Attention)モジュールを軽量に備えたSwin UNETR++を提案する。 私たちのモデルは、Open Knowledge-Based Planningデータセットでトレーニングされ、検証され、テストされました。 Dose Score $\overline{S_{\text{Dose}}}$およびDVH Score $\overline{S_{\text{DVH}}}$の計測値に加えて、予測された3D線量分布と地上の3D線量分布の差を定量的に測定する指標として、平均容積受入率$\overline{R_{\text{VA}}}$と平均臨床受入率$\overline{R_{\text{PA}}}$の定性測定値を提案し、予測の臨床的信頼性を評価する。 Swin UNETR++は、バリデーションとテストデータセット(バリデーション: $\overline{S_{\text{DVH}}}$=1.492 Gy, $\overline{S_{\text{Dose}}}$=2.649 Gy, $\overline{R_{\text{VA}}}$=88.58%, $\overline{R_{\text{PA}}}$=100.0%; test: $\overline{S_{\text{DVH}}}$=1.634 Gy, $\overline{S_{\text{Dose}}}$=2.757 Gy, $\overline{R_{\text{VA}}}$=9050%, $\overline{R_{\text{PA}}}$=90.98%; テスト: $\overline{S_{\text{Dose}}} $=2.757 Gy, $\overline{R_{\text{S_{\text{Dose}}} $=90.0%; テストは、将来の3Dの処理を円滑化するための基礎となる。

The field of Radiation Oncology is uniquely positioned to benefit from the use of artificial intelligence to fully automate the creation of radiation treatment plans for cancer therapy. This time-consuming and specialized task combines patient imaging with organ and tumor segmentation to generate a 3D radiation dose distribution to meet clinical treatment goals, similar to voxel-level dense prediction. In this work, we propose Swin UNETR++, that contains a lightweight 3D Dual Cross-Attention (DCA) module to capture the intra and inter-volume relationships of each patient's unique anatomy, which fully convolutional neural networks lack. Our model was trained, validated, and tested on the Open Knowledge-Based Planning dataset. In addition to metrics of Dose Score $\overline{S_{\text{Dose}}}$ and DVH Score $\overline{S_{\text{DVH}}}$ that quantitatively measure the difference between the predicted and ground-truth 3D radiation dose distribution, we propose the qualitative metrics of average volume-wise acceptance rate $\overline{R_{\text{VA}}}$ and average patient-wise clinical acceptance rate $\overline{R_{\text{PA}}}$ to assess the clinical reliability of the predictions. Swin UNETR++ demonstrates near-state-of-the-art performance on validation and test dataset (validation: $\overline{S_{\text{DVH}}}$=1.492 Gy, $\overline{S_{\text{Dose}}}$=2.649 Gy, $\overline{R_{\text{VA}}}$=88.58%, $\overline{R_{\text{PA}}}$=100.0%; test: $\overline{S_{\text{DVH}}}$=1.634 Gy, $\overline{S_{\text{Dose}}}$=2.757 Gy, $\overline{R_{\text{VA}}}$=90.50%, $\overline{R_{\text{PA}}}$=98.0%), establishing a basis for future studies to translate 3D dose predictions into a deliverable treatment plan, facilitating full automation.
翻訳日:2024-03-20 03:12:40 公開日:2024-03-17
# 大規模言語を用いたゼロショット名前付きエンティティ認識のための自己改善

Self-Improving for Zero-Shot Named Entity Recognition with Large Language ( http://arxiv.org/abs/2311.08921v2 )

ライセンス: Link先を確認
Tingyu Xie, Qi Li, Yan Zhang, Zuozhu Liu, Hongwei Wang, (参考訳) 名前付きエンティティ認識(NER)タスクへの強力な大規模言語モデル(LLM)の適用を探求する動きが,近年注目されている。 本研究は,ゼロショットNERとLLMの性能境界を,ラベルのないコーパスを用いてLLMの自己学習能力を刺激する学習自由な自己改善フレームワークを提案する。 まず,LLMを用いて自己整合性を用いてラベルなしコーパスの予測を行い,自己注釈付きデータセットを得る。 第2に、信頼できるアノテーションを選択して、信頼できる自己アノテーションデータセットを構築するための様々な戦略について検討する。 最後に、各テスト入力に対して、信頼性の高い自己アノテートデータセットからデモを取得し、コンテキスト内学習を通じて推論を行う。 4つのベンチマークの実験は、我々のフレームワークによって達成された大幅なパフォーマンス改善を示している。 包括的実験分析により,未ラベルコーパスの増大や自己改善の繰り返しはさらなる改善を保証しないが,信頼性の高いアノテーション選択のためのより高度な戦略により,性能が向上する可能性が示唆された。 コードとデータはhttps://github.com/Emma1066/Self-Improve-Zero-Shot-NERで公開されている。

Exploring the application of powerful large language models (LLMs) on the named entity recognition (NER) task has drawn much attention recently. This work pushes the performance boundary of zero-shot NER with LLMs by proposing a training-free self-improving framework, which utilizes an unlabeled corpus to stimulate the self-learning ability of LLMs. First, we use the LLM to make predictions on the unlabeled corpus using self-consistency and obtain a self-annotated dataset. Second, we explore various strategies to select reliable annotations to form a reliable self-annotated dataset. Finally, for each test input, we retrieve demonstrations from the reliable self-annotated dataset and perform inference via in-context learning. Experiments on four benchmarks show substantial performance improvements achieved by our framework. Through comprehensive experimental analysis, we find that increasing the size of unlabeled corpus or iterations of self-improving does not guarantee further improvement, but the performance might be boosted via more advanced strategies for reliable annotation selection. Code and data are publicly available at https://github.com/Emma1066/Self-Improve-Zero-Shot-NER
翻訳日:2024-03-20 03:02:46 公開日:2024-03-17
# 入射RGBDニューラルSLAM

Implicit Event-RGBD Neural SLAM ( http://arxiv.org/abs/2311.11013v3 )

ライセンス: Link先を確認
Delin Qu, Chi Yan, Dong Wang, Jie Yin, Dan Xu, Bin Zhao, Xuelong Li, (参考訳) 神経性SLAMは近年顕著な進歩を遂げている。 それにもかかわらず、既存の手法は、動きのぼやけや照明の変動など、非理想的なシナリオにおいて重大な課題に直面しており、しばしば収束障害、局所化ドリフト、歪んだマッピングといった問題に繋がる。 これらの課題に対処するため,EN-SLAMを提案する。これは最初のイベント-RGBD暗黙的ニューラルSLAMフレームワークで,追跡とマッピングにイベントデータの高速かつ高ダイナミックレンジの利点を効果的に活用する。 特に、EN-SLAMは、異なるRGBおよびイベントカメラデータを共有放射場を介して生成する、識別可能なCRF(Camera Response Function)レンダリング技術を提案する。 さらに,イベントの時間的差分特性に基づいて,イベントの連続的な差分制約に着目し,追跡精度とロバスト性を大幅に向上させるとともに,イベント関節追跡とグローバルバンドル調整のための時間的アグリゲーション最適化戦略を提案する。 最後に,6つのシーンを含むシミュレーションデータセットDev-Indoorsと実撮データセットDev-Realsを構築する。 実験結果から,本手法は ATE の追跡と ACC のマッピングにおいて, 様々な難易度環境における 17 FPS のリアルタイムマッピングにおいて, SOTA の手法よりも優れていることがわかった。 プロジェクトページ: https://delinqu.github.io/EN-SLAM。

Implicit neural SLAM has achieved remarkable progress recently. Nevertheless, existing methods face significant challenges in non-ideal scenarios, such as motion blur or lighting variation, which often leads to issues like convergence failures, localization drifts, and distorted mapping. To address these challenges, we propose EN-SLAM, the first event-RGBD implicit neural SLAM framework, which effectively leverages the high rate and high dynamic range advantages of event data for tracking and mapping. Specifically, EN-SLAM proposes a differentiable CRF (Camera Response Function) rendering technique to generate distinct RGB and event camera data via a shared radiance field, which is optimized by learning a unified implicit representation with the captured event and RGBD supervision. Moreover, based on the temporal difference property of events, we propose a temporal aggregating optimization strategy for the event joint tracking and global bundle adjustment, capitalizing on the consecutive difference constraints of events, significantly enhancing tracking accuracy and robustness. Finally, we construct the simulated dataset DEV-Indoors and real captured dataset DEV-Reals containing 6 scenes, 17 sequences with practical motion blur and lighting changes for evaluations. Experimental results show that our method outperforms the SOTA methods in both tracking ATE and mapping ACC with a real-time 17 FPS in various challenging environments. Project page: https://delinqu.github.io/EN-SLAM.
翻訳日:2024-03-20 03:02:46 公開日:2024-03-17
# 0/1クナップサック問題の解法における振幅エンサンブル量子インスパイアされたタブ探索アルゴリズム

Amplitude-Ensemble Quantum-Inspired Tabu Search Algorithm for Solving 0/1 Knapsack Problems ( http://arxiv.org/abs/2311.12867v2 )

ライセンス: Link先を確認
Kuo-Chun Tseng, Wei-Chieh Lai, I-Chia Chen, Yun-Hsiang Hsiao, Jr-Yu Chiue, Wei-Chun Huang, (参考訳) 本稿では,QTS(Quantum-inspired Tabu Search)の改良版を提案する。 これにより、AE-QTSは、アルゴリズムの単純さを維持しつつ、抽象的な概念で実際の量子検索アルゴリズムであるGrover Search Algorithmによく似ている。 その後、AE-QTSを古典的組合せ最適化0/1knapsack問題で実証する。 実験の結果,AE-QTSはQTSを含む他のアルゴリズムよりも高い性能を示した。 問題複雑性が増大しても,本手法の解の質はQTSよりも優れている。 これらの結果から,本手法は検索性能が向上することが示された。

In this paper, an improved version of QTS (Quantum-inspired Tabu Search) has been proposed, which enhances the utilization of population information, called "amplitude-ensemble" QTS (AE-QTS). This makes AE-QTS more similar to the real quantum search algorithm, Grover Search Algorithm, in abstract concept, while keeping the simplicity of the algorithm. Later, we demonstrate the AE-QTS on the classical combinatorial optimization 0/1 knapsack problem. Experimental results show that the AE-QTS outperforms other algorithms, including the QTS, by at least an average of 20% in all cases and even by 30% in some cases. Even as the problem complexity increases, the quality of the solutions found by our method remains superior to that of the QTS. These results prove that our method has better search performance.
翻訳日:2024-03-20 03:02:46 公開日:2024-03-17
# CalibFormer: トランスフォーマーによるLiDARカメラ自動校正ネットワーク

CalibFormer: A Transformer-based Automatic LiDAR-Camera Calibration Network ( http://arxiv.org/abs/2311.15241v2 )

ライセンス: Link先を確認
Yuxuan Xiao, Yao Li, Chengzhen Meng, Xingchen Li, Jianmin Ji, Yanyong Zhang, (参考訳) LiDARとカメラの融合は、認識タスクの自動運転にますます採用されている。 このような融合に基づくアルゴリズムの性能は、センサーキャリブレーションの精度に大きく依存する。 以前は、多くの校正手法には特定の目標や手動による介入が含まれていたが、これは煩雑でコストがかかることが証明された。 学習ベースのオンライン校正手法が提案されているが、ほとんどの場合、その性能はほとんど満足していない。 これらの手法は通常、スパース特徴写像、信頼できない相互モダリティアソシエーション、不正確な校正パラメータ回帰などの問題に悩まされる。 本稿では,これらの問題に対処するために,自動LiDARカメラキャリブレーションのためのエンドツーエンドネットワークCalibFormerを提案する。 高精細度表現を実現するために、複数のカメラ層とLiDAR画像層を集約する。 マルチヘッド相関モジュールを用いて特徴間の相関をより正確に識別する。 最後に、相関情報から正確な校正パラメータを推定するためにトランスフォーマーアーキテクチャを用いる。 提案手法は, KITTIデータセット上で平均翻訳誤差が0.8751 \mathrm{cm}$, 平均回転誤差が0.0562 ^{\circ}$となり, 既存の最先端手法を超越し, 強靭性, 精度, 一般化能力を示した。

The fusion of LiDARs and cameras has been increasingly adopted in autonomous driving for perception tasks. The performance of such fusion-based algorithms largely depends on the accuracy of sensor calibration, which is challenging due to the difficulty of identifying common features across different data modalities. Previously, many calibration methods involved specific targets and/or manual intervention, which has proven to be cumbersome and costly. Learning-based online calibration methods have been proposed, but their performance is barely satisfactory in most cases. These methods usually suffer from issues such as sparse feature maps, unreliable cross-modality association, inaccurate calibration parameter regression, etc. In this paper, to address these issues, we propose CalibFormer, an end-to-end network for automatic LiDAR-camera calibration. We aggregate multiple layers of camera and LiDAR image features to achieve high-resolution representations. A multi-head correlation module is utilized to identify correlations between features more accurately. Lastly, we employ transformer architectures to estimate accurate calibration parameters from the correlation information. Our method achieved a mean translation error of $0.8751 \mathrm{cm}$ and a mean rotation error of $0.0562 ^{\circ}$ on the KITTI dataset, surpassing existing state-of-the-art methods and demonstrating strong robustness, accuracy, and generalization capabilities.
翻訳日:2024-03-20 03:02:46 公開日:2024-03-17
# ビデオオブジェクト追跡のための単一モデルと任意のモダリティ

Single-Model and Any-Modality for Video Object Tracking ( http://arxiv.org/abs/2311.15851v2 )

ライセンス: Link先を確認
Zongwei Wu, Jilai Zheng, Xiangxuan Ren, Florin-Alexandru Vasluianu, Chao Ma, Danda Pani Paudel, Luc Van Gool, Radu Timofte, (参考訳) ビデオオブジェクト追跡の分野では、RGBトラッカーを補完する貴重な資産として、深度、熱、イベントデータなどの補助的なモダリティが出現している。 実際には、既存のRGBトラッカーのほとんどは、データセットとアプリケーション間でそれらを使用するためのパラメータセットを1セット学習している。 しかし、類似したマルチモーダリティ追跡のための単一モデル統一はいくつかの課題を呈している。 これらの課題は、入力の固有の不均一性、それぞれがモダリティ固有の表現、マルチモーダルデータセットの不足、そして常にすべてのモダリティが欠如していることに起因している。 本研究では,任意のモダリティに対するパラメータセットの統一トラッカーUn-Trackを紹介する。 任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。 さらに重要なのは、RGB-Xペアのみを使用して、一般的な潜在空間を学習することです。 このユニークな共有表現は、すべてのモダリティをシームレスに結合し、効率的な統一と、欠落したモダリティの調整を可能にする。 我々のUn-Trackは2.14(21.50以上)のGFLOPと+6.6M(93M以上)のパラメータのみを導入し、DepthTrackデータセットで+8.1絶対Fスコアゲインを達成した。 異なるモダリティを持つ5つのベンチマークデータセットの大規模な比較は、Un-TrackがSOTA統合トラッカーとモダリティ固有のトラッカーの両方を上回り、我々の有効性と実用性を検証していることを示している。 ソースコードはhttps://github.com/Zongwei97/UnTrack.comで公開されている。

In the realm of video object tracking, auxiliary modalities such as depth, thermal, or event data have emerged as valuable assets to complement the RGB trackers. In practice, most existing RGB trackers learn a single set of parameters to use them across datasets and applications. However, a similar single-model unification for multi-modality tracking presents several challenges. These challenges stem from the inherent heterogeneity of inputs -- each with modality-specific representations, the scarcity of multi-modal datasets, and the absence of all the modalities at all times. In this work, we introduce Un-Track, a Unified Tracker of a single set of parameters for any modality. To handle any modality, our method learns their common latent space through low-rank factorization and reconstruction techniques. More importantly, we use only the RGB-X pairs to learn the common latent space. This unique shared representation seamlessly binds all modalities together, enabling effective unification and accommodating any missing modality, all within a single transformer-based architecture. Our Un-Track achieves +8.1 absolute F-score gain, on the DepthTrack dataset, by introducing only +2.14 (over 21.50) GFLOPs with +6.6M (over 93M) parameters, through a simple yet efficient prompting strategy. Extensive comparisons on five benchmark datasets with different modalities show that Un-Track surpasses both SOTA unified trackers and modality-specific counterparts, validating our effectiveness and practicality. The source code is publicly available at https://github.com/Zongwei97/UnTrack.
翻訳日:2024-03-20 02:52:49 公開日:2024-03-17
# 各種バックボーンと統計的マッチングによる大規模データの一般化

Generalized Large-Scale Data Condensation via Various Backbone and Statistical Matching ( http://arxiv.org/abs/2311.17950v3 )

ライセンス: Link先を確認
Shitong Shao, Zeyuan Yin, Muxin Zhou, Xindong Zhang, Zhiqiang Shen, (参考訳) SRe2Lによって導入された軽量な"ローカル・マッチ・グロバル"マッチングは、完全な224x224 ImageNet-1kに関する包括的な情報を持つ蒸留データセットを作成することに成功した。 しかし、この一方的なアプローチは特定のバックボーン、層、統計に限られており、これは蒸留データセットの一般化を制限している。 我々は, 十分かつ多様な"ローカル・マッチ・グロバル"マッチングが単一手法よりも正確かつ効果的であり, より豊かな情報とより優れた一般化が可能な蒸留データセットを作成することができることを示唆する。 我々はこの観点を「一般化されたマッチング」と呼び、様々なバックボーン、層、統計量にまたがる完全なデータセットとの整合性を確保し、密度のある合成データセットを作成することを目的とした、一般化された様々なバックボーンと統計マッチング(G-VBSM)を提案する。 実験的に実証されたように、G-VBSMは、小規模と大規模の両方のデータセットで強力な性能を得る最初のアルゴリズムである。 特に、G-VBSMは、CIFAR-100で128幅のConvNetで38.7%、Tiny-ImageNetで47.6%、ResNet18で224x224 ImageNet-1kで31.4%、クラス毎の画像(IPC)10,50,10でそれぞれパフォーマンスを達成している。 これらの結果は、それぞれ3.9%、6.5%、および10.1%の利率で全てのSOTA法を上回っている。

The lightweight "local-match-global" matching introduced by SRe2L successfully creates a distilled dataset with comprehensive information on the full 224x224 ImageNet-1k. However, this one-sided approach is limited to a particular backbone, layer, and statistics, which limits the improvement of the generalization of a distilled dataset. We suggest that sufficient and various "local-match-global" matching are more precise and effective than a single one and has the ability to create a distilled dataset with richer information and better generalization. We call this perspective "generalized matching" and propose Generalized Various Backbone and Statistical Matching (G-VBSM) in this work, which aims to create a synthetic dataset with densities, ensuring consistency with the complete dataset across various backbones, layers, and statistics. As experimentally demonstrated, G-VBSM is the first algorithm to obtain strong performance across both small-scale and large-scale datasets. Specifically, G-VBSM achieves a performance of 38.7% on CIFAR-100 with 128-width ConvNet, 47.6% on Tiny-ImageNet with ResNet18, and 31.4% on the full 224x224 ImageNet-1k with ResNet18, under images per class (IPC) 10, 50, and 10, respectively. These results surpass all SOTA methods by margins of 3.9%, 6.5%, and 10.1%, respectively.
翻訳日:2024-03-20 02:52:49 公開日:2024-03-17
# DP-OPT:大きな言語モデルをプライバシ保護のプロンプトエンジニアに

DP-OPT: Make Large Language Model Your Privacy-Preserving Prompt Engineer ( http://arxiv.org/abs/2312.03724v2 )

ライセンス: Link先を確認
Junyuan Hong, Jiachen T. Wang, Chenhui Zhang, Zhangheng Li, Bo Li, Zhangyang Wang, (参考訳) 大規模言語モデル(LLM)は、特に迅速なチューニングによって特定のターゲットに合わせて調整された場合、様々なタスクのための支配的なツールとして登場した。 それでも、データプライバシに関する懸念は、調整されたプロンプトが機密性のある個人情報に依存しているため、障害となる。 実践的な解決策は、ローカルなLLMをホストし、データを使ってソフトなプロンプトをプライベートに最適化することである。 しかし、モデルオーナシップが保護されると、ローカルモデルのホスティングが問題になる。 トレーニングのためにモデルのプロバイダにデータを送信するなど、別の方法によって、信頼できないプロバイダが直面するこれらのプライバシの問題が強化される。 本稿では,DP-OPT(differially-Private Offsite Prompt Tuning)と呼ばれる新しい手法を提案する。 このアプローチでは、クライアント側で個別のプロンプトをチューニングし、必要なクラウドモデルに適用します。 我々は,LLM自体が提案するプロンプトを,性能を著しく損なうことなく転送できることを実証した。 プライベートな情報を漏らさないようにするため,初となるプライベートなプロンプト生成機構を,個人による実演によるインコンテキスト学習の差分プライベート(DP)アンサンブルによって導入する。 DP-OPTでは、Vicuna-7bによるプライバシ保護プロンプトの生成は、GPT3.5やローカルプライベートプロンプトチューニングの非プライベートなインコンテキスト学習と比較して、競合的なパフォーマンスが得られる。 コードはhttps://github.com/VITA-Group/DP-OPT で公開されている。

Large Language Models (LLMs) have emerged as dominant tools for various tasks, particularly when tailored for a specific target by prompt tuning. Nevertheless, concerns surrounding data privacy present obstacles due to the tuned prompts' dependency on sensitive private information. A practical solution is to host a local LLM and optimize a soft prompt privately using data. Yet, hosting a local model becomes problematic when model ownership is protected. Alternative methods, like sending data to the model's provider for training, intensify these privacy issues facing an untrusted provider. In this paper, we present a novel solution called Differentially-Private Offsite Prompt Tuning (DP-OPT) to address this challenge. Our approach involves tuning a discrete prompt on the client side and then applying it to the desired cloud models. We demonstrate that prompts suggested by LLMs themselves can be transferred without compromising performance significantly. To ensure that the prompts do not leak private information, we introduce the first private prompt generation mechanism, by a differentially-private (DP) ensemble of in-context learning with private demonstrations. With DP-OPT, generating privacy-preserving prompts by Vicuna-7b can yield competitive performance compared to non-private in-context learning on GPT3.5 or local private prompt tuning. Codes are available at https://github.com/VITA-Group/DP-OPT .
翻訳日:2024-03-20 02:52:49 公開日:2024-03-17
# コンテクスト・スタブルとビジュアル・コンシステント・イメージ・インペインティングを目指して

Towards Context-Stable and Visual-Consistent Image Inpainting ( http://arxiv.org/abs/2312.04831v2 )

ライセンス: Link先を確認
Yikai Wang, Chenjie Cao, Ke Fan Xiangyang Xue Yanwei Fu, (参考訳) 塗装の最近の進歩は、大きな不規則マスクに対処する強力な生成能力を活用して、生成モデルにますます依存している。 しかし、この拡張された生成は、しばしばコンテキスト不安定をもたらし、マスクされた領域内で任意のオブジェクト生成をもたらす。 本稿では, 創出能力を維持しつつ, ペンキを塗布する際の未成熟領域の重要性を強調し, バランスの取れた解を提案する。 ASUKA(Aigned Staable Inpainting with UnKnown Areas Prior)では,Masked Auto-Encoder (MAE) を用いて,事前の再構築を行う。 ASUKAは、SD(Stable Diffusion Inpainting Model)と相まって、コンテキスト安定性を著しく改善する。 ASUKAはさらに、彩色専用デコーダを採用し、SDの色の不整合を著しく低減し、より視覚的に整合性を確保する。 ベンチマークデータセットPlaces 2と、MISATOと呼ばれる、さまざまなドメインやマスキングシナリオにまたがる既存のデータセットのコレクションに対して、インペイントアルゴリズムの有効性を検証する。 これらのベンチマークデータセットの結果は、SDや他の塗装アルゴリズムと比較して、コンテキスト安定性と視覚一貫性の両方においてASUKAの有効性を確認している。

Recent progress in inpainting increasingly relies on generative models, leveraging their strong generation capabilities for addressing large irregular masks. However, this enhanced generation often introduces context-instability, leading to arbitrary object generation within masked regions. This paper proposes a balanced solution, emphasizing the importance of unmasked regions in guiding inpainting while preserving generation capacity. Our approach, Aligned Stable Inpainting with UnKnown Areas Prior (ASUKA), employs a Masked Auto-Encoder (MAE) to produce reconstruction-based prior. Aligned with the powerful Stable Diffusion inpainting model (SD), ASUKA significantly improves context stability. ASUKA further adopts an inpainting-specialized decoder, highly reducing the color inconsistency issue of SD and thus ensuring more visual-consistent inpainting. We validate effectiveness of inpainting algorithms on benchmark dataset Places 2 and a collection of several existing datasets, dubbed MISATO, across diverse domains and masking scenarios. Results on these benchmark datasets confirm ASUKA's efficacy in both context-stability and visual-consistency compared to SD and other inpainting algorithms.
翻訳日:2024-03-20 02:42:50 公開日:2024-03-17
# TMT-VIS:ビデオインスタンスセグメンテーションのための分類学対応マルチデータセット共同トレーニング

TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation ( http://arxiv.org/abs/2312.06630v3 )

ライセンス: Link先を確認
Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Yu Qiao, Hengshuang Zhao, (参考訳) 大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを向上すると同時に、VIS用の注釈付きデータセットは、高い労働コストのためにスケールアップが難しい。 私たちが持っているものは、多数の独立した提出された特定のデータセットであり、データ量と多様性を高めるためにデータセットの集合をまたいだモデルを共同でトレーニングすることが魅力です。 しかし、カテゴリ空間における不均一性のため、マスクの精度がデータ量とともに増大するにつれて、複数のデータセットを利用するだけで、異なる分類のモデルの注意を薄めることになる。 したがって、分類精度を向上しつつ、データスケールの増大と分類空間の充実が重要である。 本研究では,この課題に対処するために,分類情報の提供が特定の分類に焦点をあてる上で有効であることを示すとともに,ビデオインスタンス分割のためのマルチデータセット統合トレーニング(TMT-VIS)というモデルを提案する。 具体的には、2段階の分類集計モジュールを設計し、まず入力ビデオから分類情報をコンパイルし、変換器デコーダの前にこれらの分類先行情報をインスタンスクエリに集約する。 我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気かつ挑戦的なベンチマークに対して、広範な実験的評価を行う。 本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。 これらの魅力的で奨励的な結果は、我々のアプローチの有効性と汎用性を示している。 コードはhttps://github.com/rkzheng99/TMT-VIS で公開されている。

Training on large-scale datasets can boost the performance of video instance segmentation while the annotated datasets for VIS are hard to scale up due to the high labor cost. What we possess are numerous isolated filed-specific datasets, thus, it is appealing to jointly train models across the aggregation of datasets to enhance data volume and diversity. However, due to the heterogeneity in category space, as mask precision increases with the data volume, simply utilizing multiple datasets will dilute the attention of models on different taxonomies. Thus, increasing the data scale and enriching taxonomy space while improving classification precision is important. In this work, we analyze that providing extra taxonomy information can help models concentrate on specific taxonomy, and propose our model named Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation (TMT-VIS) to address this vital challenge. Specifically, we design a two-stage taxonomy aggregation module that first compiles taxonomy information from input videos and then aggregates these taxonomy priors into instance queries before the transformer decoder. We conduct extensive experimental evaluations on four popular and challenging benchmarks, including YouTube-VIS 2019, YouTube-VIS 2021, OVIS, and UVO. Our model shows significant improvement over the baseline solutions, and sets new state-of-the-art records on all benchmarks. These appealing and encouraging results demonstrate the effectiveness and generality of our approach. The code is available at https://github.com/rkzheng99/TMT-VIS .
翻訳日:2024-03-20 02:42:50 公開日:2024-03-17
# MaxQ: N:Mスパシティネットワークのためのマルチアクシスクエリ

MaxQ: Multi-Axis Query for N:M Sparsity Network ( http://arxiv.org/abs/2312.07061v2 )

ライセンス: Link先を確認
Jingyang Xiang, Siqi Li, Junhao Chen, Zhuangzhi Chen, Tianxin Huang, Linpeng Peng, Yong Liu, (参考訳) N:Mスパシティは、構造化および非構造化のスパシティと比較して、顕著なパフォーマンスと遅延トレードオフのために注目されている。 しかし、既存のN:Mスパシティ法はブロック間の重みの相対的重要性を区別せず、重要な重みを過小評価している。 さらに、ネットワーク全体にN:M空間を直接適用し、深刻な情報損失を引き起こす。 したがって、それらはまだ準最適である。 本稿では,これらの問題を修正するために,MaxQと呼ばれる効率的かつ効果的なマルチアクシスクエリ手法を提案する。 訓練中、マックスQは複数の軸にまたがる重みの重要性を考慮して、ソフトなN:Mマスクを生成するためにダイナミックなアプローチを採用している。 この方法は重みを重要視し、より効果的な更新を保証する。 一方、N:M重みブロックの割合を徐々に増加させるスペーサ戦略が適用され、プルーニングによる損傷からネットワークが徐々に修復される。 実行中、N:Mソフトマスクは定数としてプリ計算され、スパースパターンに歪みを生じさせることなく重みに折り畳まれる。 総合的な実験により、MaxQは画像分類、オブジェクト検出、インスタンスセグメンテーションを含む様々なコンピュータビジョンタスクにおいて、多様なCNNアーキテクチャ間で一貫した改善を達成している。 1:16スパースパターンのResNet50では、MaxQはImageNetで74.6\%のトップ-1の精度を達成でき、最先端よりも2.8\%以上改善できる。 コードとチェックポイントは \url{https://github.com/JingyangXiang/MaxQ} で入手できる。

N:M sparsity has received increasing attention due to its remarkable performance and latency trade-off compared with structured and unstructured sparsity. However, existing N:M sparsity methods do not differentiate the relative importance of weights among blocks and leave important weights underappreciated. Besides, they directly apply N:M sparsity to the whole network, which will cause severe information loss. Thus, they are still sub-optimal. In this paper, we propose an efficient and effective Multi-Axis Query methodology, dubbed as MaxQ, to rectify these problems. During the training, MaxQ employs a dynamic approach to generate soft N:M masks, considering the weight importance across multiple axes. This method enhances the weights with more importance and ensures more effective updates. Meanwhile, a sparsity strategy that gradually increases the percentage of N:M weight blocks is applied, which allows the network to heal from the pruning-induced damage progressively. During the runtime, the N:M soft masks can be precomputed as constants and folded into weights without causing any distortion to the sparse pattern and incurring additional computational overhead. Comprehensive experiments demonstrate that MaxQ achieves consistent improvements across diverse CNN architectures in various computer vision tasks, including image classification, object detection and instance segmentation. For ResNet50 with 1:16 sparse pattern, MaxQ can achieve 74.6\% top-1 accuracy on ImageNet and improve by over 2.8\% over the state-of-the-art. Codes and checkpoints are available at \url{https://github.com/JingyangXiang/MaxQ}.
翻訳日:2024-03-20 02:42:50 公開日:2024-03-17
# FaceTalk:ニューラルパラメトリックヘッドモデルのための音声駆動型モーション拡散

FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models ( http://arxiv.org/abs/2312.08459v2 )

ライセンス: Link先を確認
Shivangi Aneja, Justus Thies, Angela Dai, Matthias Nießner, (参考訳) 入力音声信号から人間の頭部の高忠実度3次元モーションシーケンスを合成するための新しい生成手法であるFaceTalkを紹介する。 頭髪,耳,より微細な眼球運動など,人間の頭部の表現的,詳細な性質を捉えるため,ニューラルパラメトリックヘッドモデルの潜在空間と音声信号を結合して,高忠実で時間的に整合した動き列を生成することを提案する。 本稿では,ニューラルパラメトリックヘッドモデルの表現空間で動作する新しい潜時拡散モデルを提案し,音声駆動型現実的ヘッドシーケンスを合成する。 音声に対応するNPHM表現のデータセットがない場合、これらの対応を最適化し、時間的に最適化されたNPHM表現のデータセットを、話している人の音声ビデオ記録に適合させる。 我々の知る限り、これは、音駆動3Dアニメーションの分野における大きな進歩を象徴する、容積的な人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案する最初の試みである。 提案手法は,NPHM形状空間に結合した高忠実度頭部アニメーションを生成可能な,可塑性な動き列を生成する能力に顕著である。 実験の結果,FaceTalkの有効性を実証し,顔の表情やスタイルを多種多様に包含し,知覚的ユーザスタディ評価において既存の手法を75%上回る結果を得た。

We introduce FaceTalk, a novel generative approach designed for synthesizing high-fidelity 3D motion sequences of talking human heads from input audio signal. To capture the expressive, detailed nature of human heads, including hair, ears, and finer-scale eye movements, we propose to couple speech signal with the latent space of neural parametric head models to create high-fidelity, temporally coherent motion sequences. We propose a new latent diffusion model for this task, operating in the expression space of neural parametric head models, to synthesize audio-driven realistic head sequences. In the absence of a dataset with corresponding NPHM expressions to audio, we optimize for these correspondences to produce a dataset of temporally-optimized NPHM expressions fit to audio-video recordings of people talking. To the best of our knowledge, this is the first work to propose a generative approach for realistic and high-quality motion synthesis of volumetric human heads, representing a significant advancement in the field of audio-driven 3D animation. Notably, our approach stands out in its ability to generate plausible motion sequences that can produce high-fidelity head animation coupled with the NPHM shape space. Our experimental results substantiate the effectiveness of FaceTalk, consistently achieving superior and visually natural motion, encompassing diverse facial expressions and styles, outperforming existing methods by 75% in perceptual user study evaluation.
翻訳日:2024-03-20 02:42:50 公開日:2024-03-17
# 変種不明の2アーマドガウスバンドにおける局所的最適固定ベストアーム同定

Locally Optimal Fixed-Budget Best Arm Identification in Two-Armed Gaussian Bandits with Unknown Variances ( http://arxiv.org/abs/2312.12741v2 )

ライセンス: Link先を確認
Masahiro Kato, (参考訳) 両腕のガウスバンドの固定予算によるベストアーム識別(BAI)の問題に対処する。 複数の腕が与えられたBAIでは、適応的な実験を通して、最高の腕、最も期待される報酬を持つ腕を見つけることを目指しています。 Kaufmann et al (2016) は、最良の腕を誤識別する確率の低い境界を開発する。 また、報酬の分散が知られていると仮定して戦略を提案し、予算が無限に近づくと、その誤認の確率が下限と一致するという意味で、漸近的に最適であることを示す。 しかし、その違いが不明な場合には、漸近的に最適な戦略が不明である。 本稿では,適応実験における分散を推定し,推定標準偏差の比でアームを描画する手法を提案する。 我々はこの戦略をNeyman Allocation (NA)-Augmented Inverse Probability weighting (AIPW)戦略と呼ぶ。 次に、この戦略が漸近的に最適であることを示し、予算が無限に近づくと、その誤識別確率が下限と一致し、両腕の期待される報酬の差がゼロに近づくことを示した。 以上の結果から,小ギャップ体制を特徴とする最悪のシナリオでは,予測分散を用いた我々の戦略は,変動が未知であっても漸近的に最適であることが示唆された。

We address the problem of best arm identification (BAI) with a fixed budget for two-armed Gaussian bandits. In BAI, given multiple arms, we aim to find the best arm, an arm with the highest expected reward, through an adaptive experiment. Kaufmann et al. (2016) develops a lower bound for the probability of misidentifying the best arm. They also propose a strategy, assuming that the variances of rewards are known, and show that it is asymptotically optimal in the sense that its probability of misidentification matches the lower bound as the budget approaches infinity. However, an asymptotically optimal strategy is unknown when the variances are unknown. For this open issue, we propose a strategy that estimates variances during an adaptive experiment and draws arms with a ratio of the estimated standard deviations. We refer to this strategy as the Neyman Allocation (NA)-Augmented Inverse Probability weighting (AIPW) strategy. We then demonstrate that this strategy is asymptotically optimal by showing that its probability of misidentification matches the lower bound when the budget approaches infinity, and the gap between the expected rewards of two arms approaches zero (small-gap regime). Our results suggest that under the worst-case scenario characterized by the small-gap regime, our strategy, which employs estimated variance, is asymptotically optimal even when the variances are unknown.
翻訳日:2024-03-20 02:42:50 公開日:2024-03-17
# オンチェーンオークションにおける戦略的入札戦争

Strategic Bidding Wars in On-chain Auctions ( http://arxiv.org/abs/2312.14510v3 )

ライセンス: Link先を確認
Fei Wu, Thomas Thiery, Stefanos Leonardos, Carmine Ventre, (参考訳) Proposer-Builder 分離の出現以来,Ethereum ブロック構築プロセスは大きく変化している。 バリデータはマーケットプレースを通じてブロックにアクセスし、ブロック構築者はブロックを構築し、MEV-boostオークションとして知られるオンチェーンコンペティションでMEV(Maximal Extractable Value)の報酬を得る権利を入札する。 現在、ブロックの90%以上がMEV-Boost経由で構築されているが、ビルダーの戦略行動とオークションデザインのトレードオフはよく分かっていない。 本稿ではこのギャップに対処する。 本稿では,MEV-Boostオークションのゲーム理論モデルを導入し,シミュレーションを用いて,実際に観察されたビルダーの入札戦略について検討する。 各種の戦略的相互作用とオークション設定について検討し,MEVの機会へのアクセスやリレーへの接続性の向上といった重要な要素間の相互作用が,入札性能に与える影響を評価する。 提案手法は,建設業者の戦略の有効性に対する遅延の重要性と,提案者の視点からの全体的なオークション結果を示すものである。

The Ethereum block-building process has changed significantly since the emergence of Proposer-Builder Separation. Validators access blocks through a marketplace, where block builders bid for the right to construct the block and earn MEV (Maximal Extractable Value) rewards in an on-chain competition, known as the MEV-boost auction. While more than 90% of blocks are currently built via MEV-Boost, trade-offs between builders' strategic behaviors and auction design remain poorly understood. In this paper we address this gap. We introduce a game-theoretic model for MEV-Boost auctions and use simulations to study different builders' bidding strategies observed in practice. We study various strategic interactions and auction setups and evaluate how the interplay between critical elements such as access to MEV opportunities and improved connectivity to relays impact bidding performance. Our results demonstrate the importance of latency on the effectiveness of builders' strategies and the overall auction outcome from the proposer's perspective.
翻訳日:2024-03-20 02:32:43 公開日:2024-03-17
# 異方性勾配雑音下での確率重ボール法の加速収束

Accelerated Convergence of Stochastic Heavy Ball Method under Anisotropic Gradient Noise ( http://arxiv.org/abs/2312.14567v2 )

ライセンス: Link先を確認
Rui Pan, Yuxing Liu, Xiaoyu Wang, Tong Zhang, (参考訳) 学習速度が減衰する重い球運動量は、深層学習モデルの最適化にSGDで広く利用されている。 その経験的人気とは対照的に、その理論的性質の理解は、特に二次回帰問題に対する標準的な異方性勾配雑音条件の下では、依然として非常に限定的である。 重い球運動量法は加速収束を提供し、大きなバッチ設定でうまく機能すると広く推測されているが、厳密な理論的解析は存在しない。 本稿では,2次目的のステップ減衰スケジューラを用いた確率重畳法における非漸近収束境界を異方性勾配雑音条件下で確立することにより,この理論的ギャップを埋める。 直接的含意として、重球運動量によってSGDのバイアス項の加速収束が得られ、確率的分散項に関して準最適収束率が達成できることが示される。 この組み合わせ効果は、統計的ミニマックスレートからログファクタ内の全体的な収束率を意味する。 つまり、重い球運動量を持つSGDは、分散機械学習やフェデレーション学習のような大規模なバッチ設定において有用である。

Heavy-ball momentum with decaying learning rates is widely used with SGD for optimizing deep learning models. In contrast to its empirical popularity, the understanding of its theoretical property is still quite limited, especially under the standard anisotropic gradient noise condition for quadratic regression problems. Although it is widely conjectured that heavy-ball momentum method can provide accelerated convergence and should work well in large batch settings, there is no rigorous theoretical analysis. In this paper, we fill this theoretical gap by establishing a non-asymptotic convergence bound for stochastic heavy-ball methods with step decay scheduler on quadratic objectives, under the anisotropic gradient noise condition. As a direct implication, we show that heavy-ball momentum can provide $\tilde{\mathcal{O}}(\sqrt{\kappa})$ accelerated convergence of the bias term of SGD while still achieving near-optimal convergence rate with respect to the stochastic variance term. The combined effect implies an overall convergence rate within log factors from the statistical minimax rate. This means SGD with heavy-ball momentum is useful in the large-batch settings such as distributed machine learning or federated learning, where a smaller number of iterations can significantly reduce the number of communication rounds, leading to acceleration in practice.
翻訳日:2024-03-20 02:32:43 公開日:2024-03-17
# SVGDreamer:拡散モデルによるテキストガイドSVG生成

SVGDreamer: Text Guided SVG Generation with Diffusion Model ( http://arxiv.org/abs/2312.16476v3 )

ライセンス: Link先を確認
Ximing Xing, Haitao Zhou, Chuang Wang, Jing Zhang, Dong Xu, Qian Yu, (参考訳) 近年,テキスト誘導型スケーラブルベクターグラフィックス (SVG) 合成はイコノグラフィやスケッチなどの領域で有望であることが示されている。 しかし、既存のテキスト-SVG生成手法は編集性に欠け、視覚的品質と結果の多様性に苦慮している。 これらの制約に対処するために,SVGDreamer と呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。 SVGDreamerは、前景オブジェクトと背景への合成の分解を可能にする意味駆動画像ベクトル化(SIVE)プロセスを導入し、編集性を向上させる。 具体的には、SIVEプロセスは、注目に基づくプリミティブ制御と、個々の要素の効果的な制御と操作のためのアテンションマスク損失関数を導入している。 さらに,色過飽和,ベクトルプリミティブ過平滑化,および既存のテキスト-SVG生成手法における限られた結果の多様性に対処するために,ベクトル化粒子を用いたスコア蒸留(VPSD)手法を提案する。 さらに,VPSDをベースとしたReward Feedback Learning(ReFL)を導入し,VPSDの収束を加速し,美的魅力を向上させる。 SVGDreamerの有効性を検証するために大規模な実験が行われ、編集性、視覚的品質、多様性の点でベースライン法よりも優れていることが示されている。 SVGDreamerのコードとデモはhttps://ximinng.github.io/SVGDreamer-project/にある。

Recently, text-guided scalable vector graphics (SVGs) synthesis has shown promise in domains such as iconography and sketch. However, existing text-to-SVG generation methods lack editability and struggle with visual quality and result diversity. To address these limitations, we propose a novel text-guided vector graphics synthesis method called SVGDreamer. SVGDreamer incorporates a semantic-driven image vectorization (SIVE) process that enables the decomposition of synthesis into foreground objects and background, thereby enhancing editability. Specifically, the SIVE process introduce attention-based primitive control and an attention-mask loss function for effective control and manipulation of individual elements. Additionally, we propose a Vectorized Particle-based Score Distillation (VPSD) approach to tackle the challenges of color over-saturation, vector primitives over-smoothing, and limited result diversity in existing text-to-SVG generation methods. Furthermore, on the basis of VPSD, we introduce Reward Feedback Learning (ReFL) to accelerate VPSD convergence and improve aesthetic appeal. Extensive experiments have been conducted to validate the effectiveness of SVGDreamer, demonstrating its superiority over baseline methods in terms of editability, visual quality, and diversity. The code and demo of SVGDreamer can be found at https://ximinng.github.io/SVGDreamer-project/
翻訳日:2024-03-20 02:32:43 公開日:2024-03-17
# 4DGen:時空間一貫性を備えた地上4Dコンテンツ生成

4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency ( http://arxiv.org/abs/2312.17225v2 )

ライセンス: Link先を確認
Yuyang Yin, Dejia Xu, Zhangyang Wang, Yao Zhao, Yunchao Wei, (参考訳) テキスト・ツー・画像拡散モデルとテキスト・ツー・ビデオ拡散モデルにより、既存の4Dコンテンツ生成パイプラインは、スコア蒸留サンプリングを使用して動的3Dシーン全体を最適化する。 しかし、これらのパイプラインはテキストや画像入力から4Dコンテンツを生成するため、試行錯誤によるエンジニアリングの促進にはかなりの時間と労力を要する。 この研究は、4D生成タスクを複数のステージに分解する、4Dコンテンツ作成のための新しい総合的なフレームワークである4DGenを紹介している。 静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。 我々のパイプラインは条件付き4D生成を容易にし、ユーザがジオメトリ(3Dアセット)とモーション(眼球ビデオ)を指定できるようにし、コンテンツ生成に対する優れた制御を提供する。 さらに,ダイナミックな3Dガウス表現を用いて4D表現を構築し,トレーニング中のレンダリングによる高精細な監督を可能にし,高品質な4D生成を容易にする。 さらに, アンカーフレームに空間的擬似ラベルを付加し, 3D-Aware スコア蒸留サンプリングと滑らか度正規化により, シームレスな一貫性を実現する。 既存のベースラインと比較すると,入力信号を忠実に再構成し,新たな視点やタイムステップからリアルに描画を推測する競争結果が得られる。 また,提案手法は,従来手法では実現が困難であった制御の強化を実現するため,基底生成をサポートする。 プロジェクトページ: https://vita-group.github.io/4DGen/

Aided by text-to-image and text-to-video diffusion models, existing 4D content creation pipelines utilize score distillation sampling to optimize the entire dynamic 3D scene. However, as these pipelines generate 4D content from text or image inputs, they incur significant time and effort in prompt engineering through trial and error. This work introduces 4DGen, a novel, holistic framework for grounded 4D content creation that decomposes the 4D generation task into multiple stages. We identify static 3D assets and monocular video sequences as key components in constructing the 4D content. Our pipeline facilitates conditional 4D generation, enabling users to specify geometry (3D assets) and motion (monocular videos), thus offering superior control over content creation. Furthermore, we construct our 4D representation using dynamic 3D Gaussians, which permits efficient, high-resolution supervision through rendering during training, thereby facilitating high-quality 4D generation. Additionally, we employ spatial-temporal pseudo labels on anchor frames, along with seamless consistency priors implemented through 3D-aware score distillation sampling and smoothness regularizations. Compared to existing baselines, our approach yields competitive results in faithfully reconstructing input signals and realistically inferring renderings from novel viewpoints and timesteps. Most importantly, our method supports grounded generation, offering users enhanced control, a feature difficult to achieve with previous methods. Project page: https://vita-group.github.io/4DGen/
翻訳日:2024-03-20 02:32:43 公開日:2024-03-17
# 病変局所化のためのマルチモーダル自己教師型学習

Multimodal self-supervised learning for lesion localization ( http://arxiv.org/abs/2401.01524v2 )

ライセンス: Link先を確認
Hao Yang, Hong-Yu Zhou, Cheng Li, Weijian Huang, Jiarun Liu, Yong Liang, Shanshan Wang, (参考訳) 画像診断と診断レポートを利用したマルチモーダル深層学習は, 医用画像診断の分野で顕著な進歩を遂げており, 十分なアノテーション情報が欠如している場合に, 特に補助的診断能力を示す。 それにもかかわらず、詳細な位置アノテーションを使わずに、病気を正確に位置決めすることは依然として困難である。 既存の手法では,局所的な情報を利用して詳細なセマンティックアライメントを実現しているが,レポート内の包括的コンテキストの詳細なセマンティックスを抽出する能力は限られている。 この問題に対処するため,テキストレポートから全文を局所的セマンティックアライメントの基本単位として取り出す新しい手法が導入された。 このアプローチは胸部X線画像と対応するテキストレポートを組み合わせることで、グローバルレベルとローカルレベルの両方でコントラスト学習を行う。 本手法を複数のデータセットに適用し, 病変局所化作業における有効性を確認した。

Multimodal deep learning utilizing imaging and diagnostic reports has made impressive progress in the field of medical imaging diagnostics, demonstrating a particularly strong capability for auxiliary diagnosis in cases where sufficient annotation information is lacking. Nonetheless, localizing diseases accurately without detailed positional annotations remains a challenge. Although existing methods have attempted to utilize local information to achieve fine-grained semantic alignment, their capability in extracting the fine-grained semantics of the comprehensive context within reports is limited. To address this problem, a new method is introduced that takes full sentences from textual reports as the basic units for local semantic alignment. This approach combines chest X-ray images with their corresponding textual reports, performing contrastive learning at both global and local levels. The leading results obtained by this method on multiple datasets confirm its efficacy in the task of lesion localization.
翻訳日:2024-03-20 02:32:43 公開日:2024-03-17
# 一般化可能なアノテーションのない病理病変の局所化のためのマルチモーダル視覚言語モデル

Multi-modal vision-language model for generalizable annotation-free pathological lesions localization ( http://arxiv.org/abs/2401.02044v2 )

ライセンス: Link先を確認
Hao Yang, Hong-Yu Zhou, Zhihuan Li, Yuanxu Gao, Cheng Li, Weijian Huang, Jiarun Liu, Hairong Zheng, Kang Zhang, Shanshan Wang, (参考訳) 医用画像から病理を自動的に定義することは、疾患の発生と進展の理解に役立ち、臨床診断においてそのような能力は不可欠である。 しかし、既存のディープラーニングモデルは専門家のアノテーションに大きく依存しており、オープンな臨床環境での一般化機能が欠如している。 本研究では,AFLOC (Anotation-Free pathological lesions Localization) に対する視覚言語事前学習モデルを提案する。 AFLocのコアとなる強みは、多段階のセマンティックな構造に基づくコントラスト学習であり、多彩な画像特徴を持つレポートから多彩な医療概念を包括的に整合させ、専門家のイメージアノテーションに頼らずに、多彩な病理と見えない病理の表現に適応する。 CXR画像における概念の証明を実証し、11種類の胸部病理を含む4つの異なる外部データセットにわたる広範な実験的検証を行った。 その結果、AFLOCは6つの最先端の手法を超越し、5つの病因の特定においてヒトのベンチマークを上回ります。 網膜底部画像像の局所像における一般化能について検討した。 本手法は, AFLOC の多様性を実証し, 複雑な臨床環境における適合性を裏付けるものである。

Defining pathologies automatically from medical images aids the understanding of the emergence and progression of diseases, and such an ability is crucial in clinical diagnostics. However, existing deep learning models heavily rely on expert annotations and lack generalization capabilities in open clinical environments. In this study, we present a generalizable vision-language pre-training model for Annotation-Free pathological lesions Localization (AFLoc). The core strength of AFLoc lies in its extensive multi-level semantic structure-based contrastive learning, which comprehensively aligns multi-granularity medical concepts from reports with abundant image features, to adapt to the diverse expressions of pathologies and unseen pathologies without the reliance on image annotations from experts. We demonstrate the proof of concept on CXR images, with extensive experimental validation across 4 distinct external datasets, encompassing 11 types of chest pathologies. The results demonstrate that AFLoc surpasses 6 state-of-the-art methods and even outperforms the human benchmark in locating 5 different pathologies. We further verify its generalization ability in retinal fundus image pathological lesions localization. Our approach showcases AFLoc versatilities and underscores its suitability in complex clinical environments.
翻訳日:2024-03-20 02:32:42 公開日:2024-03-17
# 効果的なマルチインワン画像復元に向けて : シークエンシャルでプロンプトな学習戦略

Towards Effective Multiple-in-One Image Restoration: A Sequential and Prompt Learning Strategy ( http://arxiv.org/abs/2401.03379v2 )

ライセンス: Link先を確認
Xiangtao Kong, Chao Dong, Lei Zhang, (参考訳) 単一タスクイメージ復元(IR)は大きな成功を収めているが、複数のIRタスクに対処できる単一モデルのトレーニングは依然として難しい課題である。 本研究では,7つのIRタスクからなるMultiple-in-one (MiO) IR問題について詳細に検討する。 MiO IRは、多様な目的の最適化と複数のタスクへの適応という、2つの重要な課題に直面している。 これらの課題に対処するために、我々は2つの単純かつ効果的な戦略を提示した。 最初の戦略はシーケンシャルラーニング(Sequence learning)と呼ばれ、多様な目的を最適化する方法に対処し、ネットワークがそれらを混ぜるのではなく、個別のIRタスクを逐次的に学習するように誘導する。 第2の戦略、即興学習は、ネットワークが特定のタスクを理解し、一般化能力を向上させるために、異なるIRタスクへの適応方法に対処しようとするものである。 19個のテストセットで評価することにより、シーケンシャルおよび即時学習戦略が、一般的なCNNとTransformerのバックボーンのMiO性能を大幅に向上させることができることを示す。 実験の結果, 2つの戦略が相互に補完し, より優れた劣化表現を学習し, モデルロバスト性を高めることが判明した。 提案したMiO IRの定式化と戦略により,高一般化能力のIRモデルの訓練方法の研究が促進されることが期待できる。

While single task image restoration (IR) has achieved significant successes, it remains a challenging issue to train a single model which can tackle multiple IR tasks. In this work, we investigate in-depth the multiple-in-one (MiO) IR problem, which comprises seven popular IR tasks. We point out that MiO IR faces two pivotal challenges: the optimization of diverse objectives and the adaptation to multiple tasks. To tackle these challenges, we present two simple yet effective strategies. The first strategy, referred to as sequential learning, attempts to address how to optimize the diverse objectives, which guides the network to incrementally learn individual IR tasks in a sequential manner rather than mixing them together. The second strategy, i.e., prompt learning, attempts to address how to adapt to the different IR tasks, which assists the network to understand the specific task and improves the generalization ability. By evaluating on 19 test sets, we demonstrate that the sequential and prompt learning strategies can significantly enhance the MiO performance of commonly used CNN and Transformer backbones. Our experiments also reveal that the two strategies can supplement each other to learn better degradation representations and enhance the model robustness. It is expected that our proposed MiO IR formulation and strategies could facilitate the research on how to train IR models with higher generalization capabilities.
翻訳日:2024-03-20 02:32:42 公開日:2024-03-17
# 協調多エージェントグラフバンド: UCBアルゴリズムとレグレト解析

Cooperative Multi-Agent Graph Bandits: UCB Algorithm and Regret Analysis ( http://arxiv.org/abs/2401.10383v2 )

ライセンス: Link先を確認
Phevos Paschalidis, Runyu Zhang, Na Li, (参考訳) 本稿では,Zhang, Johansson, Li [CISS 57, 1-6 (2023)] が導入したグラフバンディット問題のマルチエージェント拡張として,マルチエージェントグラフバンディット問題を定式化する。 我々の定式化において、$N$協調エージェントは、$K$ノードを持つ連結グラフ$G$を走行する。 各ノードに到着すると、エージェントはノード依存確率分布から引き出されたランダムな報酬を観測する。 システムの報酬は、エージェントが観察する報酬の重み付けされた和としてモデル化され、重み付けは複数のエージェントが同時に同じノードをサンプリングする報酬の変換をキャプチャする。 重み関数に関連付けられた有界性パラメータとして$O(\gamma N\log(T)[\sqrt{KT} + DK])$,$D$がグラフの直径$G$,$\gamma$が用いられる。 最後に,提案手法を代替手法と比較することにより,アルゴリズムを数値的に検証する。

In this paper, we formulate the multi-agent graph bandit problem as a multi-agent extension of the graph bandit problem introduced by Zhang, Johansson, and Li [CISS 57, 1-6 (2023)]. In our formulation, $N$ cooperative agents travel on a connected graph $G$ with $K$ nodes. Upon arrival at each node, agents observe a random reward drawn from a node-dependent probability distribution. The reward of the system is modeled as a weighted sum of the rewards the agents observe, where the weights capture some transformation of the reward associated with multiple agents sampling the same node at the same time. We propose an Upper Confidence Bound (UCB)-based learning algorithm, Multi-G-UCB, and prove that its expected regret over $T$ steps is bounded by $O(\gamma N\log(T)[\sqrt{KT} + DK])$, where $D$ is the diameter of graph $G$ and $\gamma$ a boundedness parameter associated with the weight functions. Lastly, we numerically test our algorithm by comparing it to alternative methods.
翻訳日:2024-03-20 02:22:38 公開日:2024-03-17
# ライブストリーミングプラットフォームTwitchのコミュニティ管理のためのサードパーティ開発者とツール開発

Third-Party Developers and Tool Development For Community Management on Live Streaming Platform Twitch ( http://arxiv.org/abs/2401.11317v3 )

ライセンス: Link先を確認
Jie Cai, Ya-Fang Lin, He Zhang, John M. Carroll, (参考訳) コミュニティマネジメントは、利害関係者が社会技術的支援のあるコミュニティを共同で構築し、維持するために重要である。 しかし、既存の研究の大部分は、主にコミュニティメンバーとプラットフォームに焦点を当てており、プラットフォームとコミュニティメンバーの間の仲介役を担い、コミュニティマネジメントをサポートするツールを開発する開発者にはほとんど注目されていない。 本研究は、ライブストリーミングプラットフォームTwitchのサードパーティ開発者(TPD)に焦点を当て、ツール開発プラクティスを探求する。 詳細な質的分析と混合手法を用いて、PDは異なる利害関係者(ストリーマー、視聴者、プラットフォーム、プロの開発者)との複雑な関係を維持し、多層化政策はアイデアの革新とツール開発に関するエージェンシーを制限する。 我々は、HCI研究は、ツールユーザから、コミュニティ管理に関してツール開発者へと焦点を移すべきだと論じている。 我々は、TPDSとプラットフォームとプロの開発者との緊密なコラボレーションをサポートし、統合されたツールキットとポリシー文書でPDの開発プロセスを合理化するための設計を提案する。

Community management is critical for stakeholders to collaboratively build and sustain communities with socio-technical support. However, most of the existing research has mainly focused on the community members and the platform, with little attention given to the developers who act as intermediaries between the platform and community members and develop tools to support community management. This study focuses on third-party developers (TPDs) for the live streaming platform Twitch and explores their tool development practices. Using a mixed method with in-depth qualitative analysis, we found that TPDs maintain complex relationships with different stakeholders (streamers, viewers, platform, professional developers), and the multi-layered policy restricts their agency regarding idea innovation and tool development. We argue that HCI research should shift its focus from tool users to tool developers with regard to community management. We propose designs to support closer collaboration between TPDS and the platform and professional developers and streamline TPDs' development process with unified toolkits and policy documentation.
翻訳日:2024-03-20 02:22:38 公開日:2024-03-17
# 言語モデルにおける3次元分子テキスト解釈に向けて

Towards 3D Molecule-Text Interpretation in Language Models ( http://arxiv.org/abs/2401.13923v2 )

ライセンス: Link先を確認
Sihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian, (参考訳) 言語モデル(LM)は多様なドメインに大きな影響を与えている。 しかし、3D分子構造を解釈する際の固有の制限は、生体分子領域におけるそのポテンシャルを著しく制限している。 このギャップを埋めるために、3次元分子文の解釈に注目し、3次元分子言語モデリング(3D-MoLM: 3D-Molecular Language Modeling)を提案する。 具体的には、3D-MoLMは、LMに3D分子エンコーダを装着することにより、3D分子の解釈と解析を可能にする。 この積分は、3D分子テキストプロジェクターによって達成され、3D分子エンコーダの表現空間とLMの入力空間をブリッジする。 さらに, 3D-MoLMの分子間理解とその後の指示能力を高めるために, 3D分子中心の命令チューニングデータセット -- 3D-MoITを精巧にキュレートした。 3D分子テキストアライメントと3D分子中心の命令チューニングを通じて、3D-MoLMは3D分子エンコーダとLMの統合を確立する。 これは、分子文検索、分子キャプション、そしてより困難なオープンテキスト分子QAタスク、特に3D依存性に焦点を当てた、下流タスクの既存のベースラインを大幅に上回っている。 コードとデータセットはhttps://github.com/lsh0520/3D-MoLM.comで公開しています。

Language Models (LMs) have greatly influenced diverse domains. However, their inherent limitation in comprehending 3D molecular structures has considerably constrained their potential in the biomolecular domain. To bridge this gap, we focus on 3D molecule-text interpretation, and propose 3D-MoLM: 3D-Molecular Language Modeling. Specifically, 3D-MoLM enables an LM to interpret and analyze 3D molecules by equipping the LM with a 3D molecular encoder. This integration is achieved by a 3D molecule-text projector, bridging the 3D molecular encoder's representation space and the LM's input space. Moreover, to enhance 3D-MoLM's ability of cross-modal molecular understanding and instruction following, we meticulously curated a 3D molecule-centric instruction tuning dataset -- 3D-MoIT. Through 3D molecule-text alignment and 3D molecule-centric instruction tuning, 3D-MoLM establishes an integration of 3D molecular encoder and LM. It significantly surpasses existing baselines on downstream tasks, including molecule-text retrieval, molecule captioning, and more challenging open-text molecular QA tasks, especially focusing on 3D-dependent properties. We release our codes and datasets at https://github.com/lsh0520/3D-MoLM.
翻訳日:2024-03-20 02:12:30 公開日:2024-03-17
# 画像内の主題の再配置

Repositioning the Subject within Image ( http://arxiv.org/abs/2401.16861v2 )

ライセンス: Link先を確認
Yikai Wang, Chenjie Cao, Ke Fan, Qiaole Dong, Yifan Li, Xiangyang Xue, Yanwei Fu, (参考訳) 現在の画像操作は、画像内の特定の領域の置き換えや全体的なスタイルの変更など、主に静的な操作に焦点を当てている。 本稿では,革新的動的操作タスクである主観的再配置を提案する。 このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。 本研究は, 被験者が残した空白を埋める, 未確認部分を再構築する, 周囲の領域と整合性のあるものをブレンドするなどの基礎的なサブタスクを, 統一的かつ迅速な塗装作業として効果的に再構築できることを明らかにする。 その結果,提案手法を用いて学習したタスクプロンプトを用いて,これらのサブタスクに単一の拡散生成モデルを適用することが可能となった。 さらに,前処理技術と後処理技術を統合し,対象再配置の質をさらに向上させる。 これらの要素は共に、SEgment-gEnerate-and-bLEnd(SEELE)フレームワークを形成します。 主観的再配置におけるSEELEの有効性を評価するために,ReSと呼ばれる実世界の主観的再配置データセットを組み立てる。 SEELE on ReSの結果は有効性を示した。

Current image manipulation primarily centers on static manipulation, such as replacing specific regions within an image or altering its overall style. In this paper, we introduce an innovative dynamic manipulation task, subject repositioning. This task involves relocating a user-specified subject to a desired position while preserving the image's fidelity. Our research reveals that the fundamental sub-tasks of subject repositioning, which include filling the void left by the repositioned subject, reconstructing obscured portions of the subject and blending the subject to be consistent with surrounding areas, can be effectively reformulated as a unified, prompt-guided inpainting task. Consequently, we can employ a single diffusion generative model to address these sub-tasks using various task prompts learned through our proposed task inversion technique. Additionally, we integrate pre-processing and post-processing techniques to further enhance the quality of subject repositioning. These elements together form our SEgment-gEnerate-and-bLEnd (SEELE) framework. To assess SEELE's effectiveness in subject repositioning, we assemble a real-world subject repositioning dataset called ReS. Results of SEELE on ReS demonstrate its efficacy.
翻訳日:2024-03-20 02:12:30 公開日:2024-03-17
# 組合せ図書館における構造・品質関係の解明のための複数機器の共設計

Co-orchestration of Multiple Instruments to Uncover Structure-Property Relationships in Combinatorial Libraries ( http://arxiv.org/abs/2402.02198v2 )

ライセンス: Link先を確認
Boris N. Slautin, Utkarsh Pratiush, Ilia N. Ivanov, Yongtao Liu, Rohit Pant, Xiaohang Zhang, Ichiro Takeuchi, Maxim A. Ziatdinov, Sergei V. Kalinin, (参考訳) 自動および自律的な機器の急速な成長は、複数のシーケンシャルな検出方法や、同一のサンプルを探索するいくつかの特徴付けツールを備えたマルチモーダルツールの共同開発の機会を生み出した。 これは、複数のツールで同時に複数の場所で探索できる組合せライブラリや、自動合成システムにおける下流のキャラクタリゼーションによって例示することができる。 協調的アプローチでは、1つのモダリティで得られる情報は、他のモダリティの発見を加速する。 それに対応して、オーケストレーションエージェントは、期待される知識獲得と測定コストに基づいて測定モダリティを選択するべきである。 本稿では,スペクトルや画像などの複雑な可観測物を用いて測定を行うための協調手法を提案し,実装する。 この手法は,変分自己エンコーダと表現学習を組み合わせることで,潜在空間構造を制御し,マルチタスクガウス過程(GP)を介して反復的ワークフローに統合する。 このアプローチにより、GPの平均関数として確率モデルを介して系の物理をネイティブに組み込むことができる。 Sm-BiFeO_3$ライブラリ上で圧電力顕微鏡とマイクロラマンの異なるモーダル性について検討した。 しかし,提案手法は汎用的であり,測定信号の多次元性や任意次元性にも拡張可能である。 この資金調達をサポートする分析コードはhttps://github.com/Slautin/2024_Co-orchestrationで公開されている。

The rapid growth of automated and autonomous instrumentations brings forth an opportunity for the co-orchestration of multimodal tools, equipped with multiple sequential detection methods, or several characterization tools to explore identical samples. This can be exemplified by the combinatorial libraries that can be explored in multiple locations by multiple tools simultaneously, or downstream characterization in automated synthesis systems. In the co-orchestration approaches, information gained in one modality should accelerate the discovery of other modalities. Correspondingly, the orchestrating agent should select the measurement modality based on the anticipated knowledge gain and measurement cost. Here, we propose and implement a co-orchestration approach for conducting measurements with complex observables such as spectra or images. The method relies on combining dimensionality reduction by variational autoencoders with representation learning for control over the latent space structure, and integrated into iterative workflow via multi-task Gaussian Processes (GP). This approach further allows for the native incorporation of the system's physics via a probabilistic model as a mean function of the GP. We illustrated this method for different modalities of piezoresponse force microscopy and micro-Raman on combinatorial $Sm-BiFeO_3$ library. However, the proposed framework is general and can be extended to multiple measurement modalities and arbitrary dimensionality of measured signals. The analysis code that supports the funding is publicly available at https://github.com/Slautin/2024_Co-orchestration.
翻訳日:2024-03-20 02:12:30 公開日:2024-03-17
# カシミールポラリトンによる超振動遷移の理論

Theory of Supervibronic Transitions via Casimir Polaritons ( http://arxiv.org/abs/2402.04246v2 )

ライセンス: Link先を確認
Tao E. Li, (参考訳) 振動強い結合条件下では、赤外線光キャビティ内において、電子自由度から振動自由度までの遠隔エネルギー伝達経路を同定する。 このメカニズムは、異方性分子の突然の電子遷移により、実際の赤外線光子が生成される、動的カシミール効果に依存している。 さらに、振動偏光子の形成により、励起光子エネルギーは、散逸が起こる前に振動自由度に伝達される。 解析解と数値シミュレーションの両方で、この電子と振動のエネルギー移動の大きさは分子の数に二乗依存し、振動キャビティデチューニングに共鳴することがわかった。 この「超振動」遷移過程では、分子当たりの振動エネルギーの利得がマクロ的な限界において意味を持つため、この過程は従来の振動強い結合装置を用いて観察される可能性がある。

A remote energy transfer pathway from electronic to vibrational degrees of freedom is identified inside an infrared optical cavity under vibrational strong coupling conditions. This mechanism relies on the dynamical Casimir effect, whereby real infrared photons are generated due to a sudden electronic transition of anisotropic molecules. Moreover, the formation of vibrational polaritons enables the excited photon energy to be transferred to the vibrational degrees of freedom before any dissipation occurs. Both analytic solutions and numerical simulations reveal that the magnitude of this electronic to vibrational energy transfer depends quadratically on the number of molecules and resonantly on the vibration-cavity detuning. During this "supervibronic" transition process, because the vibrational energy gain per molecule can be meaningful in the macroscopic limit, this process may potentially be observed using conventional vibrational strong coupling devices.
翻訳日:2024-03-20 02:12:30 公開日:2024-03-17
# 逆カリキュラム強化学習による推論のための大規模言語モデルの訓練

Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning ( http://arxiv.org/abs/2402.05808v2 )

ライセンス: Link先を確認
Zhiheng Xi, Wenxiang Chen, Boyang Hong, Senjie Jin, Rui Zheng, Wei He, Yiwen Ding, Shichun Liu, Xin Guo, Junzhe Wang, Honglin Guo, Wei Shen, Xiaoran Fan, Yuhao Zhou, Shihan Dou, Xiao Wang, Xinbo Zhang, Peng Sun, Tao Gui, Qi Zhang, Xuanjing Huang, (参考訳) 本稿では,R$^3$: Learning Reasoning through Reverse Curriculum Reinforcement Learning (RL)を提案する。 複雑な推論にRLを適用する上での最大の課題は、正の報酬をもたらす一連の行動を特定し、最適化のための適切な監督を提供することである。 アウトカムの監督はエラー箇所を特定せずに最終結果に対してまばらな報酬を提供するが、プロセスの監督はステップワイズな報酬を提供するが、広範な手動のアノテーションを必要とする。 R$^3$は、正しい実演から学習することでこれらの制限を克服する。 具体的には、R$^3$は、デモの終わりから開始までの推論の開始状態を段階的にスライドさせ、あらゆる段階でモデルの探索を容易にする。 したがって、R$^3$は段階的なカリキュラムを確立し、結果の監督がステップレベルの信号と正確なピンポイントエラーを提供する。 Llama2-7Bを用いて、8つの推論タスクにおけるRLベースラインを平均4.1ドルポイント越える。 GSM8Kのプログラムベースの推論では、ベースラインを3つのバックボーンモデルで4.2ドル、追加データなしではCodellama-7B + R$^3$はより大きなモデルやクローズドソースモデルに匹敵する性能を持つ。

In this paper, we propose R$^3$: Learning Reasoning through Reverse Curriculum Reinforcement Learning (RL), a novel method that employs only outcome supervision to achieve the benefits of process supervision for large language models. The core challenge in applying RL to complex reasoning is to identify a sequence of actions that result in positive rewards and provide appropriate supervision for optimization. Outcome supervision provides sparse rewards for final results without identifying error locations, whereas process supervision offers step-wise rewards but requires extensive manual annotation. R$^3$ overcomes these limitations by learning from correct demonstrations. Specifically, R$^3$ progressively slides the start state of reasoning from a demonstration's end to its beginning, facilitating easier model exploration at all stages. Thus, R$^3$ establishes a step-wise curriculum, allowing outcome supervision to offer step-level signals and precisely pinpoint errors. Using Llama2-7B, our method surpasses RL baseline on eight reasoning tasks by $4.1$ points on average. Notebaly, in program-based reasoning on GSM8K, it exceeds the baseline by $4.2$ points across three backbone models, and without any extra data, Codellama-7B + R$^3$ performs comparable to larger models or closed-source models.
翻訳日:2024-03-20 02:02:06 公開日:2024-03-17
# 対称性を持つ系における量子状態設計の出現を解明する

Unraveling the emergence of quantum state designs in systems with symmetry ( http://arxiv.org/abs/2402.08949v2 )

ライセンス: Link先を確認
Naga Dileep Varikuti, Soumik Bandyopadhyay, (参考訳) 量子状態設計は、ランダムな量子状態の効率的なサンプリングを可能にすることで、回路設計からブラックホール物理学まで幅広い用途で様々な量子プロトコルを考案し、ベンチマークする上で重要な役割を果たす。 一方、対称性は状態のランダム性を減らすことが期待されている。 ユビキタスであるにもかかわらず、量子状態設計に対する対称性の影響は際立った問題である。 最近導入された投射型アンサンブルフレームワークは、射影測定と多体量子カオスに掛かることで、効率的な近似状態t-設計を生成する。 本研究では,対称性を示すランダムなジェネレータ状態からの状態設計の出現について検討する。 翻訳対称性を利用して、状態t-設計につながる測定基準に十分な条件を解析的に確立する。 そして, トレース距離測定を用いて, 設計の収束度を数値的に検討する。 その後、収束に失敗する基地を特定するのに十分な条件の違反を検査する。 さらに、周期的境界条件を持つカオス傾斜体イジング鎖の力学を研究することにより、物理系における状態設計の出現を実証する。 初期時間におけるトレース距離の収束速度は速いが,開境界条件の場合とは対照的に,乱数行列予測から逸脱した有限値に飽和する。 結果の一般的な適用性を説明するために、我々は分析を他の対称性にまで拡張する。 我々は, 閉かつオープンな量子多体系の熱化と平衡のさらなる探索の道を開くことを期待する。

Quantum state designs, by enabling an efficient sampling of random quantum states, play a quintessential role in devising and benchmarking various quantum protocols with broad applications ranging from circuit designs to black hole physics. Symmetries, on the other hand, are expected to reduce the randomness of a state. Despite being ubiquitous, the effects of symmetry on quantum state designs remain an outstanding question. The recently introduced projected ensemble framework generates efficient approximate state t-designs by hinging on projective measurements and many-body quantum chaos. In this work, we examine the emergence of state designs from the random generator states exhibiting symmetries. Leveraging on translation symmetry, we analytically establish a sufficient condition for the measurement basis leading to the state t-designs. Then, by making use of the trace distance measure, we numerically investigate the convergence to the designs. Subsequently, we inspect the violation of the sufficient condition to identify bases that fail to converge. We further demonstrate the emergence of state designs in a physical system by studying the dynamics of a chaotic tilted field Ising chain with periodic boundary conditions. We find faster convergence of the trace distance in the initial time, however, it saturates to a finite value deviating from random matrix prediction at a late time, in contrast to the case with open boundary condition. To delineate the general applicability of our results, we extend our analysis to other symmetries. We expect our findings to pave the way for further exploration of deep thermalization and equilibration of closed and open quantum many-body systems.
翻訳日:2024-03-20 02:02:06 公開日:2024-03-17
# メモリ・モノイドを用いた繰り返し強化学習の再考

Revisiting Recurrent Reinforcement Learning with Memory Monoids ( http://arxiv.org/abs/2402.09900v2 )

ライセンス: Link先を確認
Steven Morad, Chris Lu, Ryan Kortvelesy, Stephan Liwicki, Jakob Foerster, Amanda Prorok, (参考訳) リカレントニューラルネットワーク(RNN)やトランスフォーマー(Transformer)といったメモリモデルは、トラジェクトリを潜在マルコフ状態にマッピングすることで、部分的に観測可能なマルコフ決定プロセス(POMDP)に対処する。 特にリニアリカレントモデルと呼ばれる新しいクラスのメモリモデルと比較すると、どちらのモデルも特に長いシーケンスにうまくスケールしない。 新たなメモリモノイドフレームワークを用いることで,既存のモデルを再設計することが可能になる。 リカレントRLにおけるバッチ処理に対する従来のアプローチを再考し、理論的および経験的欠陥の両方を強調した。 メモリモノイドの特性を利用して、サンプル効率を改善し、リターンを高め、RLにおける繰り返し損失関数の実装を単純化するバッチ化手法を提案する。

Memory models such as Recurrent Neural Networks (RNNs) and Transformers address Partially Observable Markov Decision Processes (POMDPs) by mapping trajectories to latent Markov states. Neither model scales particularly well to long sequences, especially compared to an emerging class of memory models sometimes called linear recurrent models. We discover that we can model the recurrent update of these models using a monoid, leading us to reformulate existing models using a novel memory monoid framework. We revisit the traditional approach to batching in recurrent RL, highlighting both theoretical and empirical deficiencies. We leverage the properties of memory monoids to propose a batching method that improves sample efficiency, increases the return, and simplifies the implementation of recurrent loss functions in RL.
翻訳日:2024-03-20 02:02:06 公開日:2024-03-17
# 生成的半教師付きグラフ異常検出

Generative Semi-supervised Graph Anomaly Detection ( http://arxiv.org/abs/2402.11887v2 )

ライセンス: Link先を確認
Hezhe Qiao, Qingsong Wen, Xiaoli Li, Ee-Peng Lim, Guansong Pang, (参考訳) この研究は、グラフ内のノードの一部が正規であることが知られている実用的な半教師付きグラフ異常検出(GAD)シナリオを考察し、完全にラベル付けされていないグラフを持つほとんどのGAD研究において、教師なしの設定とは対照的である。 期待されたように、これらの通常のノードへのアクセスは、半教師付き設定に適応した場合に、既存の教師なしGADメソッドの検出性能を高めるのに役立つ。 しかし、これらの通常のノードの利用は限られている。 本稿では,通常のノードをよりよく活用するための,半教師付きシナリオのための新しいGAD手法を提案する。 鍵となるアイデアは、局所構造とノード表現の両方で異常ノードを同化する外れ値ノードを生成し、識別可能な一級分類器を訓練する際に効果的な負のノードサンプルを提供することである。 生成異常検出手法は数多く存在するが,非グラフデータ用に設計されており,その結果,グラフ構造情報の考慮に失敗した。 提案手法では,正規ノードから非対称親和性を持つグラフ構造を意識した外乱ノードを生成するとともに,ノード表現空間における正規ノードへの自我中心的近接性を達成し,この問題に対処する。 4つの実世界のデータセットに関する総合的な実験を行い、半教師付きGADのベンチマークを確立し、GGADが訓練正常ノード数の異なる最先端の非教師付きおよび半教師付きGADメソッドを大幅に上回っていることを示す。 コードはhttps://github.com/mala-lab/GGAD.comで公開される。

This work considers a practical semi-supervised graph anomaly detection (GAD) scenario, where part of the nodes in a graph are known to be normal, contrasting to the unsupervised setting in most GAD studies with a fully unlabeled graph. As expected, we find that having access to these normal nodes helps enhance the detection performance of existing unsupervised GAD methods when they are adapted to the semi-supervised setting. However, their utilization of these normal nodes is limited. In this paper, we propose a novel Generative GAD approach (GGAD) for the semi-supervised scenario to better exploit the normal nodes. The key idea is to generate outlier nodes that assimilate anomaly nodes in both local structure and node representations for providing effective negative node samples in training a discriminative one-class classifier. There have been many generative anomaly detection approaches, but they are designed for non-graph data, and as a result, they fail to take account of the graph structure information. Our approach tackles this problem by generating graph structure-aware outlier nodes that have asymmetric affinity separability from normal nodes while being enforced to achieve egocentric closeness to normal nodes in the node representation space. Comprehensive experiments on four real-world datasets are performed to establish a benchmark for semi-supervised GAD and show that GGAD substantially outperforms state-of-the-art unsupervised and semi-supervised GAD methods with varying numbers of training normal nodes. Code will be made available at https://github.com/mala-lab/GGAD.
翻訳日:2024-03-20 02:02:06 公開日:2024-03-17
# AIによる心理的仮説生成の自動化 - 大規模言語モデルと因果グラフ

Automating Psychological Hypothesis Generation with AI: Large Language Models Meet Causal Graph ( http://arxiv.org/abs/2402.14424v2 )

ライセンス: Link先を確認
Song Tong, Kai Mao, Zhen Huang, Yukun Zhao, Kaiping Peng, (参考訳) 因果知識グラフと大言語モデル(LLM)の相乗効果を利用して,心理学における計算仮説生成のための画期的なアプローチを提案する。 LLMを用いて43,312の心理学記事を分析し,因果関係のペアを抽出した。 この分析は心理学の専門的な因果グラフを生み出した。 リンク予測アルゴリズムを適用し,「幸福」に焦点をあてた130の心理学的仮説を作成した。 興味深いことに, LLM と因果グラフの組み合わせは, LLM のみの仮説 (t(59) = 3.34, p=0.007, t(59) = 4.32, p<0.001, ) を明らかに上回り, 新奇性の観点から専門家レベルの洞察を反映している。 このアライメントは、ディープセマンティック分析によってさらに裏付けられた。 その結果, LLMと因果知識グラフなどの機械学習技術を組み合わせることで, 心理学における自動発見に革命をもたらし, 幅広い文献から新たな知見を抽出できることが示唆された。 この研究は心理学と人工知能のクロスロードに立っており、心理学研究においてデータ駆動仮説生成のための新しい豊かなパラダイムを推進している。

Leveraging the synergy between causal knowledge graphs and a large language model (LLM), our study introduces a groundbreaking approach for computational hypothesis generation in psychology. We analyzed 43,312 psychology articles using a LLM to extract causal relation pairs. This analysis produced a specialized causal graph for psychology. Applying link prediction algorithms, we generated 130 potential psychological hypotheses focusing on `well-being', then compared them against research ideas conceived by doctoral scholars and those produced solely by the LLM. Interestingly, our combined approach of a LLM and causal graphs mirrored the expert-level insights in terms of novelty, clearly surpassing the LLM-only hypotheses (t(59) = 3.34, p=0.007 and t(59) = 4.32, p<0.001, respectively). This alignment was further corroborated using deep semantic analysis. Our results show that combining LLM with machine learning techniques such as causal knowledge graphs can revolutionize automated discovery in psychology, extracting novel insights from the extensive literature. This work stands at the crossroads of psychology and artificial intelligence, championing a new enriched paradigm for data-driven hypothesis generation in psychological research.
翻訳日:2024-03-20 01:52:05 公開日:2024-03-17
# MIONetによる各種ドメイン上で定義されたPDEの学習解演算子

Learning solution operators of PDEs defined on varying domains via MIONet ( http://arxiv.org/abs/2402.15097v2 )

ライセンス: Link先を確認
Shanshan Xiao, Pengzhan Jin, Yifa Tang, (参考訳) そこで本研究では,MIONetを用いて様々なドメイン上で定義されたPDEの解演算子を学習し,理論的に正当化する手法を提案する。 まず、MIONet の近似理論を拡張して距離空間にさらに対処し、MIONet が距離空間内の複数の入力で写像を近似できることを示す。 その後、いくつかの適当な領域からなる集合を構築し、この集合上の計量を与えると、それを計量空間とし、MIONet の近似条件を満たす。 理論的基礎に基づいて、微分作用素のパラメータ、右辺項、境界条件、およびドメインを含む全てのパラメータでPDEの解写像を学習することができる。 例えば、一般性を失うことなく、2-dポアソン方程式の実験を行い、ドメインと右辺の項が変化する。 その結果, 凸多角形, 滑らかな境界を持つ極域, 一つのタスクにおける異なるレベルの離散化の予測における, この手法の性能に関する知見が得られた。 また,興味のある読者に対して,虫垂の完全パラメータ化症例の付加結果を示す。 理論的には、これはメッシュレス法であるため、PDEの一種の一般解法として柔軟に使用できる。

In this work, we propose a method to learn the solution operators of PDEs defined on varying domains via MIONet, and theoretically justify this method. We first extend the approximation theory of MIONet to further deal with metric spaces, establishing that MIONet can approximate mappings with multiple inputs in metric spaces. Subsequently, we construct a set consisting of some appropriate regions and provide a metric on this set thus make it a metric space, which satisfies the approximation condition of MIONet. Building upon the theoretical foundation, we are able to learn the solution mapping of a PDE with all the parameters varying, including the parameters of the differential operator, the right-hand side term, the boundary condition, as well as the domain. Without loss of generality, we for example perform the experiments for 2-d Poisson equations, where the domains and the right-hand side terms are varying. The results provide insights into the performance of this method across convex polygons, polar regions with smooth boundary, and predictions for different levels of discretization on one task. We also show the additional result of the fully-parameterized case in the appendix for interested readers. Reasonably, we point out that this is a meshless method, hence can be flexibly used as a general solver for a type of PDE.
翻訳日:2024-03-20 01:52:05 公開日:2024-03-17
# OpenSUN3D: 1st Workshop Challenge on Open-Vocabulary 3D Scene Understanding

OpenSUN3D: 1st Workshop Challenge on Open-Vocabulary 3D Scene Understanding ( http://arxiv.org/abs/2402.15321v2 )

ライセンス: Link先を確認
Francis Engelmann, Ayca Takmaz, Jonas Schult, Elisabetta Fedele, Johanna Wald, Songyou Peng, Xi Wang, Or Litany, Siyu Tang, Federico Tombari, Marc Pollefeys, Leonidas Guibas, Hongbo Tian, Chunjie Wang, Xiaosheng Yan, Bingwen Wang, Xuanyang Zhang, Xiao Liu, Phuc Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham, Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan Lasenby, (参考訳) 本報告では,ICCV 2023と共同で開かれたOpenSUN3D Workshop on Open-Vocabulary 3D Scene Understandingにおける課題の概要を紹介する。 このワークショップシリーズの目的は、セグメンテーション、検出、マッピングに限らず、オープンな3Dシーン理解タスクの探索と議論のためのプラットフォームを提供することである。 本稿では,ワークショップで開催されている課題の概要,課題データセット,評価手法,優勝方法の簡潔な説明について紹介する。 詳細はhttps://opensun3d.github.io/index_iccv23.htmlを参照してください。

This report provides an overview of the challenge hosted at the OpenSUN3D Workshop on Open-Vocabulary 3D Scene Understanding held in conjunction with ICCV 2023. The goal of this workshop series is to provide a platform for exploration and discussion of open-vocabulary 3D scene understanding tasks, including but not limited to segmentation, detection and mapping. We provide an overview of the challenge hosted at the workshop, present the challenge dataset, the evaluation methodology, and brief descriptions of the winning methods. For additional details, please see https://opensun3d.github.io/index_iccv23.html.
翻訳日:2024-03-20 01:52:05 公開日:2024-03-17
# 高次注意グラフニューラルネットワークを用いた機能的脳ネットワーク解析によるマリファナ利用者のクレービングマップの同定

Identification of Craving Maps among Marijuana Users via the Analysis of Functional Brain Networks with High-Order Attention Graph Neural Networks ( http://arxiv.org/abs/2403.00033v3 )

ライセンス: Link先を確認
Jun-En Ding, Shihao Yang, Anna Zilverstand, Feng Liu, (参考訳) 高用量のマリファナの摂取は、心理的、社会的に大きな影響を及ぼす可能性がある。 本研究では,マリファナ依存症分類のためのHOGANN(High-Order Graph Attention Neural Networks)と呼ばれる解釈可能なフレームワークを提案する。 HOGANNは、Long Short-Term Memory (LSTM) を用いて、静止状態の機能的磁気共鳴画像(rs-fMRI)から推定される動的内在的機能的脳ネットワークを統合し、時間的ネットワークのダイナミクスを捉える。 我々は、近隣ノード間の情報融合とメッセージパッシングに高次アテンションモジュールを使用し、ネットワークコミュニティレベルの分析を強化した。 2つのデータコホートでモデルを検証し、両者のデータセットの全体分類は比較アルゴリズムよりもはるかに精度が高い結果となった。 さらに, 長期マリファナ摂取の影響を受けやすいサブネットと認知領域を同定し, 慢性マリファナ摂取が機能的脳ネットワーク, 特にDorsal AttentionおよびFrontoparietal Networkに悪影響を及ぼす可能性が示唆された。 最も興味深いのは、我々のモデルが長期間依存している被験者のコホートにより良い結果をもたらすことであり、これはマリファナの長時間消費が脳ネットワークに顕著な変化をもたらすことを示唆している。 このモデルは、愛らしい脳地図を識別し、分析に重要な脳の領域を特定できる。

The consumption of high doses of marijuana can have significant psychological and social impacts. In this study, we propose an interpretable framework called the HOGANN (High-Order Graph Attention Neural Networks) for Marijuana addiction classification and followed by the analysis of the localized brain network communities that demonstrated abnormal brain activities among chronic marijuana users. The HOGANN integrates dynamic intrinsic functional brain networks estimated from the resting-state functional magnetic resonance imaging (rs-fMRI) using the Long Short-Term Memory (LSTM) to capture temporal network dynamics. We employed an high-order attention module for information fusion and message passing among the neighboring nodes, enhancing the network community level analysis. We validated our model on two data cohorts and the overall classification for both dataset have achieved a much higher accuracy than the comparison algorithms. In addition, we identified the most relevant subnetworks and cognitive regions which are impacted by persistent marijuana consumption, suggesting that chronic marijuana consumption can adversely affect functional brain networks, particularly within the Dorsal Attention and Frontoparietal networks. Most interestingly, we found our model performs better on the cohorts of subjects with long time dependence, which suggests longer time consumption of marijuana brings more significant changes of brain networks. The model can identify craving brain maps, and thus pinpointing brain regions that are important for analysis.
翻訳日:2024-03-20 01:41:04 公開日:2024-03-17
# TempCompass:ビデオのLLMは本当にビデオの理解度が高いか?

TempCompass: Do Video LLMs Really Understand Videos? ( http://arxiv.org/abs/2403.00476v2 )

ライセンス: Link先を確認
Yuanxin Liu, Shicheng Li, Yi Liu, Yuxiang Wang, Shuhuai Ren, Lei Li, Sishuo Chen, Xu Sun, Lu Hou, (参考訳) 近年,ビデオ大言語モデル(ビデオLLM)に関する関心が高まっている。 しかし、既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。 一方、それらの多くは、異なる時間的側面(例えば、速度、方向)を区別することができず、そのため、これらの特定の側面におけるニュアンスドのパフォーマンスを反映できない。 一方、タスク形式(例えば、複数選択QAのみ)の多様性に制限があり、時間的知覚性能がタスクの種類によってどのように異なるかを理解するのを妨げている。 これら2つの問題に触発されて,時間的側面とタスク形式を多様に導入する,textbf{TempCompass} ベンチマークを提案する。 高品質なテストデータを集めるためには,(1)ビデオコレクションにおいて,同一の静的コンテンツを共有するが,特定の時間的側面で異なるコンフリクトのあるビデオを構築することで,ビデオLLMが単一フレームバイアスや言語優先の活用を妨げている,という2つの新しい戦略を考案する。 2)タスク命令を収集するために,人間がまずビデオのメタ情報にアノテートし,次にLCMが命令を生成するパラダイムを提案する。 また、ビデオLLMからの応答を自動的かつ正確に評価するLLMベースのアプローチを設計する。 TempCompassをベースとして,8つの最先端(SOTA)ビデオLLMと3つの画像LLMを総合的に評価し,これらのモデルが時間知覚能力に劣ることを示す。 データと評価コードはhttps://github.com/llyx97/TempCompass.comで公開されている。

Recently, there is a surge in interest surrounding video large language models (Video LLMs). However, existing benchmarks fail to provide a comprehensive feedback on the temporal perception ability of Video LLMs. On the one hand, most of them are unable to distinguish between different temporal aspects (e.g., speed, direction) and thus cannot reflect the nuanced performance on these specific aspects. On the other hand, they are limited in the diversity of task formats (e.g., only multi-choice QA), which hinders the understanding of how temporal perception performance may vary across different types of tasks. Motivated by these two problems, we propose the \textbf{TempCompass} benchmark, which introduces a diversity of temporal aspects and task formats. To collect high-quality test data, we devise two novel strategies: (1) In video collection, we construct conflicting videos that share the same static content but differ in a specific temporal aspect, which prevents Video LLMs from leveraging single-frame bias or language priors. (2) To collect the task instructions, we propose a paradigm where humans first annotate meta-information for a video and then an LLM generates the instruction. We also design an LLM-based approach to automatically and accurately evaluate the responses from Video LLMs. Based on TempCompass, we comprehensively evaluate 8 state-of-the-art (SOTA) Video LLMs and 3 Image LLMs, and reveal the discerning fact that these models exhibit notably poor temporal perception ability. The data and evaluation code are available at https://github.com/llyx97/TempCompass.
翻訳日:2024-03-20 01:41:04 公開日:2024-03-17
# MiM-ISTD: 効率的な赤外小ターゲット検出のためのマンバインマンバ

MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection ( http://arxiv.org/abs/2403.02148v3 )

ライセンス: Link先を確認
Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu, Bin Liu, Jieping Ye, Nenghai Yu, (参考訳) 近年,基本モデルの開発により,赤外線小目標検出 (ISTD) が大幅に進歩している。 具体的には、畳み込みネットワークと変圧器を組み合わせた構造は、局所的特徴と大域的特徴の両方を抽出することができる。 しかし、変換器の欠点、すなわちシーケンスの長さに対する2次計算の複雑さも継承される。 長距離モデリングのための線形複雑度を持つ最近の基本モデルであるMambaに触発され、本論文の有効性と効率性の観点から、ISTDタスクのための状態空間モデルの可能性を探る。 しかし,Mambaの直接適用は,小さなターゲットを検出する上で重要なローカル機能を完全に活用できないため,性能が低下する。 代わりに、効率的なISTDのために、Mamba-in-Mamba(MiM-ISTD)構造を調整する。 具体的には、ローカルパッチを「視覚文」として扱い、アウトドア・マンバを用いてグローバルな情報を探索する。 次に、各視覚文を「視覚的単語」としてサブパッチに分解し、インナー・マンバを用いて視覚文中の単語間の局所情報を無視可能な計算コストで探索する。 単語と文の特徴を集約することにより、MiM-ISTDはグローバル情報とローカル情報の両方を効果的に探索することができる。 NUAA-SIRSTとIRSTD-1kを用いた実験により,本手法の精度と効率が向上した。 具体的には、MiM-ISTDはSOTA法よりも10 \times$速く、2048 \times 2048$イメージでテストすると、GPUメモリ使用量を73.4$$$%削減し、高解像度赤外線画像の計算とメモリ制約を克服する。 ソースコードはhttps://github.com/txchen-USTC/MiM-ISTDで入手できる。

Recently, infrared small target detection (ISTD) has made significant progress, thanks to the development of basic models. Specifically, the structures combining convolutional networks with transformers can successfully extract both local and global features. However, the disadvantage of the transformer is also inherited, i.e., the quadratic computational complexity to the length of the sequence. Inspired by the recent basic model with linear complexity for long-distance modeling, called Mamba, we explore the potential of this state space model for ISTD task in terms of effectiveness and efficiency in the paper. However, directly applying Mamba achieves poor performance since local features, which are critical to detecting small targets, cannot be fully exploited. Instead, we tailor a Mamba-in-Mamba (MiM-ISTD) structure for efficient ISTD. Specifically, we treat the local patches as "visual sentences" and use the Outer Mamba to explore the global information. We then decompose each visual sentence into sub-patches as "visual words" and use the Inner Mamba to further explore the local information among words in the visual sentence with negligible computational costs. By aggregating the word and sentence features, the MiM-ISTD can effectively explore both global and local information. Experiments on NUAA-SIRST and IRSTD-1k show the superior accuracy and efficiency of our method. Specifically, MiM-ISTD is $10 \times$ faster than the SOTA method and reduces GPU memory usage by 73.4$\%$ when testing on $2048 \times 2048$ image, overcoming the computation and memory constraints on high-resolution infrared images. Source code is available at https://github.com/txchen-USTC/MiM-ISTD.
翻訳日:2024-03-20 01:31:10 公開日:2024-03-17
# 量子貯水池計算におけるエコー状態特性の階層性

Hierarchy of the echo state property in quantum reservoir computing ( http://arxiv.org/abs/2403.02686v2 )

ライセンス: Link先を確認
Shumpei Kobayashi, Quoc Hoan Tran, Kohei Nakajima, (参考訳) エコー状態特性(ESP)は、貯水池コンピューティング(RC)フレームワークの基本概念であり、初期状態と遠い過去の入力に依存せず、貯水池ネットワークの出力のみのトレーニングを保証する。 しかしながら、ESPの伝統的な定義は、統計的性質が進化する可能性のある非定常系を記述していない。 この問題に対処するために、潜在的に静止しないシステムのために設計された$\textit{non-stationary ESP}$と、サブシステムがESPを持つシステムのために設計された$\textit{subspace/subset ESP}$の2つの新しいカテゴリを紹介した。 定義に従うと、量子貯水池計算機(QRC)における非定常ESPと典型的なハミルトン力学および非線形自己回帰移動平均(NARMA)タスクを用いた入力符号化法との対応を数値的に示す。 また、リニア/非線形メモリ容量を計算し、貯水池の状態内の入力依存成分を定量化する。 本研究は,非定常システムとサブシステムを利用したQRCおよび非定常RCシステムの実用設計について,新たな知見を提示する。

The echo state property (ESP) represents a fundamental concept in the reservoir computing (RC) framework that ensures output-only training of reservoir networks by being agnostic to the initial states and far past inputs. However, the traditional definition of ESP does not describe possible non-stationary systems in which statistical properties evolve. To address this issue, we introduce two new categories of ESP: $\textit{non-stationary ESP}$, designed for potentially non-stationary systems, and $\textit{subspace/subset ESP}$, designed for systems whose subsystems have ESP. Following the definitions, we numerically demonstrate the correspondence between non-stationary ESP in the quantum reservoir computer (QRC) framework with typical Hamiltonian dynamics and input encoding methods using non-linear autoregressive moving-average (NARMA) tasks. We also confirm the correspondence by computing linear/non-linear memory capacities that quantify input-dependent components within reservoir states. Our study presents a new understanding of the practical design of QRC and other possibly non-stationary RC systems in which non-stationary systems and subsystems are exploited.
翻訳日:2024-03-20 01:31:10 公開日:2024-03-17
# D4Cグローブトレイン:概念の分散と循環によるRPMとBongard-logo問題の解法

D4C glove-train: solving the RPM and Bongard-logo problem by distributing and Circumscribing concepts ( http://arxiv.org/abs/2403.03452v3 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan, (参考訳) 本稿では,抽象的推論の分野において,特にRaven's Progressive Matrices(RPM)問題とBongard-Logo問題に対処する上で,大きな進歩をもたらす。 本稿では,これらの領域における概念境界を再定義し,高次概念と低次元表現とのギャップを埋めるD2C手法を提案する。 そこで本研究では,Bongard-Logo問題に対処し,画像表現の分布を推定し,シンクホーン距離を測定することにより推論精度を大幅に向上するD3C手法を提案する。 計算効率を向上させるために,分布距離を制約することでRPM問題に対する効率的かつ正確な解を提供するD3C-cos変法を導入する。 さらに,D3CとD3Cを併用したネットワークLico-Netを提案する。 最後に、我々のアプローチをD4Cに拡張し、さらに概念境界を洗練させ、RPMとBongard-Logoの問題に対する顕著な改善を示す。 全体として、私たちの貢献は抽象的推論の分野に対する新しい視点と実践的な解決策を提供します。

This paper achieves significant progress in the field of abstract reasoning, particularly in addressing Raven's Progressive Matrices (RPM) and Bongard-Logo problems. We propose the D2C approach, which redefines conceptual boundaries in these domains and bridges the gap between high-level concepts and their low-dimensional representations. Based on this, we further introduce the D3C method that handles Bongard-Logo problems and significantly improves reasoning accuracy by estimating the distribution of image representations and measuring their Sinkhorn distance. To enhance computational efficiency, we introduce the D3C-cos variant, which provides an efficient and accurate solution for RPM problems by constraining distribution distances. Additionally, we present Lico-Net, a network that combines D3C and D3C-cos to achieve state-of-the-art performance in both problem-solving and interpretability. Finally, we extend our approach to D4C, employing adversarial strategies to further refine conceptual boundaries and demonstrate notable improvements for both RPM and Bongard-Logo problems. Overall, our contributions offer a new perspective and practical solutions to the field of abstract reasoning.
翻訳日:2024-03-20 01:31:10 公開日:2024-03-17
# 相対化は自然に面白い

Relativization is naturally functorial ( http://arxiv.org/abs/2403.03755v3 )

ライセンス: Link先を確認
Jan Głowacki, (参考訳) 本稿では,対称性の存在下での量子計測理論と,量子参照フレームに対する操作的アプローチにおいて中心的な位置を占めることに起因する相対化構造について,いくつかの分類学的考察を行う。 この構成は、任意の量子系に対して、系の代数から合成系上の不変代数への量子チャネルが選択された参照を包含し、ポインタ可観測性の選択に付随する。 これらの写像は、量子参照フレームの仕様に基づいて系上の可観測物を相対化するものとして理解されている。 まず、作用素の代数の部分空間をモデル化したシステムに構築を拡大し、次に、参照フレームとシステムからなるペアを取る関手を定義し、対応する相対化写像の像から定義される相対作用素の部分空間をそれらに割り当てる。 単一のフレームと同変チャネルを考えると、相対化写像は自然な変換として理解することができる。 システムを修正する際、関手は私たちが外部と呼ぶ新しい種類のフレーム変換を提供する。 得られた結果は、興味の枠組みのより深い構造的な理解と、その分類と代数量子場理論の局所系への潜在的応用に向けてのポイントを与える。

In this note, we provide some categorical perspectives on the relativization construction arising from quantum measurement theory in the presence of symmetries and occupying a central place in the operational approach to quantum reference frames. This construction provides, for any quantum system, a quantum channel from the system's algebra to the invariant algebra on the composite system also encompassing the chosen reference, contingent upon a choice of the pointer observable. These maps are understood as relativizing observables on systems upon the specification of a quantum reference frame. We begin by extending the construction to systems modelled on subspaces of algebras of operators to then define a functor taking a pair consisting of a reference frame and a system and assigning to them a subspace of relative operators defined in terms of an image of the corresponding relativization map. When a single frame and equivariant channels are considered, the relativization maps can be understood as a natural transformation. Upon fixing a system, the functor provides a novel kind of frame transformation that we call external. Results achieved provide a deeper structural understanding of the framework of interest and point towards its categorification and potential application to local systems of algebraic quantum field theories.
翻訳日:2024-03-20 01:31:10 公開日:2024-03-17
# PixArt-Σ:4Kテキスト・画像生成用拡散変圧器の弱間訓練

PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation ( http://arxiv.org/abs/2403.04692v2 )

ライセンス: Link先を確認
Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li, (参考訳) 本稿では、4K解像度で画像を直接生成できるDiffusion Transformer Model~(DiT)であるPixArt-\Sigmaを紹介する。 PixArt-\Sigmaは、前任のPixArt-\alphaよりも大幅に進歩している。 PixArt-\Sigmaの重要な機能は、トレーニングの効率だ。 PixArt-\alphaの基本的な事前トレーニングを活用して、"weaker"ベースラインから"stronger"モデルへと進化する。 1) 高品質トレーニングデータ: PixArt-\Sigmaは、より正確で詳細な画像キャプションと組み合わせて、高品質な画像データを組み込む。 2)効率的なトークン圧縮: キーと値の両方を圧縮し、効率を大幅に改善し、超高解像度画像生成を容易にする、新しい注目モジュールをDiTフレームワーク内に提案する。 これらの改善により、PixArt-\SigmaはSDXL (2.6Bパラメータ)やSD Cascade (5.1Bパラメータ)のような既存のテキスト間拡散モデルよりもモデルサイズ(0.6Bパラメータ)が大幅に小さい画像品質とユーザプロンプトアテンデンス機能を達成する。 さらに、4K画像を生成するPixArt-\Sigmaの能力は、高解像度のポスターや壁紙の作成をサポートし、映画やゲームなどの業界における高品質なビジュアルコンテンツの生産を効率的に促進する。

In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer model~(DiT) capable of directly generating images at 4K resolution. PixArt-\Sigma represents a significant advancement over its predecessor, PixArt-\alpha, offering images of markedly higher fidelity and improved alignment with text prompts. A key feature of PixArt-\Sigma is its training efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it evolves from the `weaker' baseline to a `stronger' model via incorporating higher quality data, a process we term "weak-to-strong training". The advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data: PixArt-\Sigma incorporates superior-quality image data, paired with more precise and detailed image captions. (2) Efficient Token Compression: we propose a novel attention module within the DiT framework that compresses both keys and values, significantly improving efficiency and facilitating ultra-high-resolution image generation. Thanks to these improvements, PixArt-\Sigma achieves superior image quality and user prompt adherence capabilities with significantly smaller model size (0.6B parameters) than existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K images supports the creation of high-resolution posters and wallpapers, efficiently bolstering the production of high-quality visual content in industries such as film and gaming.
翻訳日:2024-03-20 01:31:10 公開日:2024-03-17
# 直観的ファジィ決定木からなる新しいランダムフォレスト

A New Random Forest Ensemble of Intuitionistic Fuzzy Decision Trees ( http://arxiv.org/abs/2403.07363v2 )

ライセンス: Link先を確認
Yingtao Ren, Xiaomin Zhu, Kaiyuan Bai, Runtong Zhang, (参考訳) 分類は、データマイニング、人工知能、障害検出の分野での応用に不可欠である。 正確で適切で効率的な分類法やアルゴリズムを幅広い適用性で開発する上で、強いニーズがある。 ランダムフォレスト(Random forest)は、複雑な条件下での分類によく用いられる一般的なアルゴリズムである。 広く採用されているが、多種多様なファジィ理論と組み合わせて探究する価値がある。 本稿では,直観的ファジィ決定木(IFDT)のランダムなアンサンブルであるIFRF(intuitionistic fuzzy random Forest)を提案する。 森林のこのような木は、直観的なファジィ情報を取得して特徴を選定し、情報伝達におけるためらいを考慮する。 提案手法は,ブートストラップによるサンプリングと特徴選択,ファジィ論理とファジィ集合の柔軟性,複数分類器システムの堅牢性からランダム性のパワーを享受する。 IFRFは、他の最先端ファジィおよびアンサンブルアルゴリズムと比較して、競争的で優れた性能を示す。 IFDTは、優れた分類精度のアンサンブル学習に適している。 本研究は,直観的ファジィ理論に基づくランダムな森林アンサンブルを提案する最初の試みである。

Classification is essential to the applications in the field of data mining, artificial intelligence, and fault detection. There exists a strong need in developing accurate, suitable, and efficient classification methods and algorithms with broad applicability. Random forest is a general algorithm that is often used for classification under complex conditions. Although it has been widely adopted, its combination with diverse fuzzy theory is still worth exploring. In this paper, we propose the intuitionistic fuzzy random forest (IFRF), a new random forest ensemble of intuitionistic fuzzy decision trees (IFDT). Such trees in forest use intuitionistic fuzzy information gain to select features and consider hesitation in information transmission. The proposed method enjoys the power of the randomness from bootstrapped sampling and feature selection, the flexibility of fuzzy logic and fuzzy sets, and the robustness of multiple classifier systems. Extensive experiments demonstrate that the IFRF has competitative and superior performance compared to other state-of-the-art fuzzy and ensemble algorithms. IFDT is more suitable for ensemble learning with outstanding classification accuracy. This study is the first to propose a random forest ensemble based on the intuitionistic fuzzy theory.
翻訳日:2024-03-20 01:21:18 公開日:2024-03-17
# セムシティ:三面体拡散によるセマンティックシーン生成

SemCity: Semantic Scene Generation with Triplane Diffusion ( http://arxiv.org/abs/2403.07773v3 )

ライセンス: Link先を確認
Jumin Lee, Sebin Lee, Changho Jo, Woobin Im, Juhyeong Seon, Sung-Eui Yoon, (参考訳) 実世界の屋外環境におけるセマンティックシーン生成のための3次元拡散モデル「セムシティ」を提案する。 ほとんどの3D拡散モデルは、単一のオブジェクト、合成室内シーン、または合成屋外シーンを生成することに焦点を当てているが、実際の屋外シーンの生成はほとんど解決されていない。 本稿では,実世界の屋外データセット上での拡散モデル学習を通じて,実際の屋外シーンを生成することに集中する。 合成データとは対照的に、実際の屋外データセットはセンサーの制限により、より空の空間を含むことが多く、実際の屋外分布を学習する際の課題となる。 この問題に対処するために,3平面表現をシーン分布のプロキシ形式として利用し,拡散モデルを用いて学習する。 さらに,我々の三面拡散モデルとシームレスに統合した三面体操作を提案する。 この操作により、屋外シーンの生成に関連する様々な作業、例えばシーンの塗り絵、シーンの塗り絵、セマンティックシーンの仕上げなどにおいて、拡散モデルの適用性が向上する。 実験の結果,我々の三面体拡散モデルでは,実空間データセットSemanticKITTIの既存手法と比較して有意義な生成結果が得られた。 また、シーン内のオブジェクトのシームレスな追加、削除、修正を容易にするトリプレーン操作も示しています。 また、都市レベルの規模への拡張も可能である。 最後に,この拡散モデルによりシーン分布の学習による意味的シーン補完ネットワークの予測が促進されるセマンティックシーン補完改善手法の評価を行った。 私たちのコードはhttps://github.com/zoomin-lee/SemCity.comで利用可能です。

We present "SemCity," a 3D diffusion model for semantic scene generation in real-world outdoor environments. Most 3D diffusion models focus on generating a single object, synthetic indoor scenes, or synthetic outdoor scenes, while the generation of real-world outdoor scenes is rarely addressed. In this paper, we concentrate on generating a real-outdoor scene through learning a diffusion model on a real-world outdoor dataset. In contrast to synthetic data, real-outdoor datasets often contain more empty spaces due to sensor limitations, causing challenges in learning real-outdoor distributions. To address this issue, we exploit a triplane representation as a proxy form of scene distributions to be learned by our diffusion model. Furthermore, we propose a triplane manipulation that integrates seamlessly with our triplane diffusion model. The manipulation improves our diffusion model's applicability in a variety of downstream tasks related to outdoor scene generation such as scene inpainting, scene outpainting, and semantic scene completion refinements. In experimental results, we demonstrate that our triplane diffusion model shows meaningful generation results compared with existing work in a real-outdoor dataset, SemanticKITTI. We also show our triplane manipulation facilitates seamlessly adding, removing, or modifying objects within a scene. Further, it also enables the expansion of scenes toward a city-level scale. Finally, we evaluate our method on semantic scene completion refinements where our diffusion model enhances predictions of semantic scene completion networks by learning scene distribution. Our code is available at https://github.com/zoomin-lee/SemCity.
翻訳日:2024-03-19 23:24:38 公開日:2024-03-17
# EM-TTS:モンゴルの軽量テキスト音声合成を効率よく訓練する

EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech ( http://arxiv.org/abs/2403.08164v2 )

ライセンス: Link先を確認
Ziqi Liang, Haoxiang Shi, Jiawei Wang, Keda Lu, (参考訳) 近年,深層学習に基づくテキスト音声合成システム(TTS)が高品質な音声合成を実現している。 リカレントニューラルネットワークは、TSシステムにおけるシーケンシャルデータの標準モデリング技術となり、広く利用されている。 しかし、RNNコンポーネントを含むTSモデルをトレーニングするには、強力なGPUパフォーマンスが必要で、長い時間がかかる。 対照的に、CNNベースのシーケンス合成技術は、TTSモデルのパラメータとトレーニング時間を著しく削減すると同時に、高い並列性によって特定の性能を保証し、これらのトレーニングの経済的コストを軽減します。 本稿では,深層畳み込みニューラルネットワークに基づく軽量TSシステムを提案する。 私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。 前者は音素を粗いメルスペクトログラムにエンコードし、後者は粗いメルスペクトログラムから完全スペクトルを合成する。 一方,低資源のモンゴリアン問題を解くため,ノイズ抑制,時間ゆらぎ,周波数マスキング,時間マスキングといった一連のデータ拡張によって,モデルのロバスト性を向上させる。 実験により,本モデルは,主流のTSモデルと比較して,合成音声の品質と自然性を確保しつつ,トレーニング時間とパラメータを低減できることが示された。 本手法はNCMMSC2022-MTTSC Challengeデータセットを用いて,一定の精度を維持しながらトレーニング時間を著しく短縮する。

Recently, deep learning-based Text-to-Speech (TTS) systems have achieved high-quality speech synthesis results. Recurrent neural networks have become a standard modeling technique for sequential data in TTS systems and are widely used. However, training a TTS model which includes RNN components requires powerful GPU performance and takes a long time. In contrast, CNN-based sequence synthesis techniques can significantly reduce the parameters and training time of a TTS model while guaranteeing a certain performance due to their high parallelism, which alleviate these economic costs of training. In this paper, we propose a lightweight TTS system based on deep convolutional neural networks, which is a two-stage training end-to-end TTS model and does not employ any recurrent units. Our model consists of two stages: Text2Spectrum and SSRN. The former is used to encode phonemes into a coarse mel spectrogram and the latter is used to synthesize the complete spectrum from the coarse mel spectrogram. Meanwhile, we improve the robustness of our model by a series of data augmentations, such as noise suppression, time warping, frequency masking and time masking, for solving the low resource mongolian problem. Experiments show that our model can reduce the training time and parameters while ensuring the quality and naturalness of the synthesized speech compared to using mainstream TTS models. Our method uses NCMMSC2022-MTTSC Challenge dataset for validation, which significantly reduces training time while maintaining a certain accuracy.
翻訳日:2024-03-19 23:24:38 公開日:2024-03-17
# QCSHQD: ハイブリッド古典量子ソフトウェア開発のためのサービスとしての量子コンピューティング:ビジョン

QCSHQD: Quantum computing as a service for Hybrid classical-quantum software development: A Vision ( http://arxiv.org/abs/2403.08663v2 )

ライセンス: Link先を確認
Maryam Tavassoli Sabzevari, Matteo Esposito, Arif Ali Khan, Davide Taibi, (参考訳) 量子コンピューティング(QC)は、理論的なフレームワークから計算能力の必要不可欠なパワーハウスへと移行し、産業と学術の両方の領域で広く採用されている。 QCは、非並列処理速度や、古典的なコンピュータの能力を超えた複雑な問題を解く可能性など、非常に利点がある。 それでも、学術研究者や業界実践者は、この技術の利点を活用する上で様々な課題に直面している。 古典的開発者にとってのQCリソースの限られたアクセシビリティ、およびドメイン知識と専門知識の欠如は、克服不可能な障壁を表しているため、これらの課題に対処するため、サービス指向戦略を活用するハイブリッド古典量子ソフトウェア開発のためのサービスとしての量子コンピューティング(QCSHQD)フレームワークを導入します。 本フレームワークは,ユーザインタラクションのための統合開発環境(IDE),量子サービスオーケストレーション専用の抽象化レイヤ,および量子コンピュータ上でサービスを実行するサービスプロバイダの3つの主要コンポーネントから構成される。 本研究は,QC パワーをシームレスに活用したい古典的開発者のために,QC リソースへのアクセスを民主化するために設計された QCSHQD の青写真を示す。 QCSHQDのビジョンは、古典的コンピュータと量子コンピュータのハイブリッド化における重要な課題に対処することで、イノベーションを画期的なものにする道を開く。

Quantum Computing (QC) is transitioning from theoretical frameworks to an indispensable powerhouse of computational capability, resulting in extensive adoption across both industrial and academic domains. QC presents exceptional advantages, including unparalleled processing speed and the potential to solve complex problems beyond the capabilities of classical computers. Nevertheless, academic researchers and industry practitioners encounter various challenges in harnessing the benefits of this technology. The limited accessibility of QC resources for classical developers, and a general lack of domain knowledge and expertise, represent insurmountable barrier, hence to address these challenges, we introduce a framework- Quantum Computing as a Service for Hybrid Classical-Quantum Software Development (QCSHQD), which leverages service-oriented strategies. Our framework comprises three principal components: an Integrated Development Environment (IDE) for user interaction, an abstraction layer dedicated to orchestrating quantum services, and a service provider responsible for executing services on quantum computer. This study presents a blueprint for QCSHQD, designed to democratize access to QC resources for classical developers who want to seamless harness QC power. The vision of QCSHQD paves the way for groundbreaking innovations by addressing key challenges of hybridization between classical and quantum computers.
翻訳日:2024-03-19 23:24:38 公開日:2024-03-17
# rFaceNet: アイデンティティに特有な顔輪郭を通した生理学的信号抽出のためのエンド・ツー・エンドネットワーク

rFaceNet: An End-to-End Network for Enhanced Physiological Signal Extraction through Identity-Specific Facial Contours ( http://arxiv.org/abs/2403.09034v2 )

ライセンス: Link先を確認
Dali Zhu, Wenli Zhang, Hualin Zeng, Xiaohao Liu, Long Yang, Jiaqi Zheng, (参考訳) リモート光胸腺撮影(rPPG)技術は、ビデオフレームの微妙なピクセル変化から血液体積パルス(BVP)信号を抽出する。 本研究では,顔の輪郭に焦点をあてて顔BVP信号の抽出を促進する高度なrPPG法であるrFaceNetを紹介する。 rFaceNetは、ID固有の顔輪郭情報を統合し、冗長データを排除している。 時間的に正規化されたフレーム入力から時間圧縮ユニット(TCU)を介して顔の輪郭を効率よく抽出し、クロスタスク特徴結合器(CTFC)を用いて、関連する顔領域に焦点をあてる。 精巧なトレーニングを通じて,rFaceNetによって抽出された顔の生理的信号の品質と解釈性は,従来の方法に比べて大幅に向上した。 さらに,本手法は各種心拍推定ベンチマークにおいてSOTA法よりも優れた性能を示す。

Remote photoplethysmography (rPPG) technique extracts blood volume pulse (BVP) signals from subtle pixel changes in video frames. This study introduces rFaceNet, an advanced rPPG method that enhances the extraction of facial BVP signals with a focus on facial contours. rFaceNet integrates identity-specific facial contour information and eliminates redundant data. It efficiently extracts facial contours from temporally normalized frame inputs through a Temporal Compressor Unit (TCU) and steers the model focus to relevant facial regions by using the Cross-Task Feature Combiner (CTFC). Through elaborate training, the quality and interpretability of facial physiological signals extracted by rFaceNet are greatly improved compared to previous methods. Moreover, our novel approach demonstrates superior performance than SOTA methods in various heart rate estimation benchmarks.
翻訳日:2024-03-19 23:24:38 公開日:2024-03-17
# AutoLoRA:メタ学習に基づく低ランク適応における行列ランクの自動調整

AutoLoRA: Automatically Tuning Matrix Ranks in Low-Rank Adaptation Based on Meta Learning ( http://arxiv.org/abs/2403.09113v2 )

ライセンス: Link先を確認
Ruiyi Zhang, Rushi Qiang, Sai Ashish Somayajula, Pengtao Xie, (参考訳) 大規模プレトレーニングとタスク固有の微調整は、様々なNLPタスクで大きな成功を収めた。 大規模事前学習モデルの全パラメータの微調整は、計算とメモリの問題を引き起こすため、いくつかの効率的な微調整法が開発されている。 そのうちローランク適応(LoRA)は、凍結した事前訓練した重量の上に低ランクの増分更新行列を微調整するが、特に有効であることが証明されている。 それでも、LoRAの全ての層にわたる均一なランク割り当ては、最高のランクを見つけるための徹底的な探索に依存するとともに、高い計算コストと準最適微調整性能をもたらす。 これらの制限に対処するために,各LoRA層の最適ランクを自動的に識別するメタ学習ベースのフレームワークであるAutoLoRAを紹介した。 AutoLoRAはローランク更新行列の各ランク1行列と選択変数を関連付け、ランク1行列を破棄すべきかどうかを決定する。 これらの選択変数を学習するためにメタ学習に基づく手法を開発した。 最適なランクは、これらの変数の値をしきい値にすることで決定される。 自然言語理解,生成,シーケンスラベリングに関する包括的実験により,AutoLoRAの有効性が示された。

Large-scale pretraining followed by task-specific finetuning has achieved great success in various NLP tasks. Since finetuning all parameters of large pretrained models poses substantial computational and memory challenges, several efficient finetuning methods have been developed. Among them, low-rank adaptation (LoRA), which finetunes low-rank incremental update matrices on top of frozen pretrained weights, has proven particularly effective. Nonetheless, LoRA's uniform rank assignment across all layers, along with its reliance on an exhaustive search to find the best rank, leads to high computation costs and suboptimal finetuning performance. To address these limitations, we introduce AutoLoRA, a meta learning based framework for automatically identifying the optimal rank of each LoRA layer. AutoLoRA associates each rank-1 matrix in a low-rank update matrix with a selection variable, which determines whether the rank-1 matrix should be discarded. A meta learning based method is developed to learn these selection variables. The optimal rank is determined by thresholding the values of these variables. Our comprehensive experiments on natural language understanding, generation, and sequence labeling demonstrate the effectiveness of AutoLoRA.
翻訳日:2024-03-19 23:14:54 公開日:2024-03-17
# 意図駆動型エゴ・ツー・エクソビデオ生成

Intention-driven Ego-to-Exo Video Generation ( http://arxiv.org/abs/2403.09194v2 )

ライセンス: Link先を確認
Hongchen Luo, Kai Zhu, Wei Zhai, Yang Cao, (参考訳) Ego-to-exoビデオ生成とは、エゴ中心のビデオに従って対応するエゴ中心のビデオを生成し、AR/VRおよび組み込みAIに有用なアプリケーションを提供する。 拡散モデル技術の進歩により、ビデオ生成において顕著な進歩が達成されている。 しかし、既存の手法は、隣接するフレーム間の時空間的整合性の仮定に基づいて構築されており、ビューの劇的な変化のため、エゴ・ツー・エクソのシナリオでは満足できない。 そこで本研究では,人間の動きと行動記述からなる行動意図を視点に依存しない表現として活用し,コンテンツと動きの一貫性を保ちながら映像生成をガイドする意図駆動型エゴ・ト・エクソビデオ生成フレームワーク(IDE)を提案する。 特に、エゴセントリックな頭部軌跡は、まずマルチビューステレオマッチングによって推定される。 そして、横断的な特徴知覚モジュールを導入し、エクソビューとエゴビューの対応を確立し、頭部から人間の全体の動きを推測する軌道変換モジュールを誘導する。 一方,アクションのセマンティクスを特徴空間にマッピングするアクション記述ユニットを提案する。 最後に、推定された人間の動きとハイレベルな行動記述は、拡散モデルの後方過程における外心運動と相互作用内容(すなわち、対応する光フローとオクルージョンマップ)の生成を共同でガイドし、最終的にそれらが対応する外心映像に圧倒される。 多様なエゴビデオペアによる関連するデータセットに関する広範な実験を行い、我々のIDEは、主観的および客観的な評価において最先端のモデルよりも優れており、エゴ・ツー・エゴビデオ生成におけるその効果を実証している。

Ego-to-exo video generation refers to generating the corresponding exocentric video according to the egocentric video, providing valuable applications in AR/VR and embodied AI. Benefiting from advancements in diffusion model techniques, notable progress has been achieved in video generation. However, existing methods build upon the spatiotemporal consistency assumptions between adjacent frames, which cannot be satisfied in the ego-to-exo scenarios due to drastic changes in views. To this end, this paper proposes an Intention-Driven Ego-to-exo video generation framework (IDE) that leverages action intention consisting of human movement and action description as view-independent representation to guide video generation, preserving the consistency of content and motion. Specifically, the egocentric head trajectory is first estimated through multi-view stereo matching. Then, cross-view feature perception module is introduced to establish correspondences between exo- and ego- views, guiding the trajectory transformation module to infer human full-body movement from the head trajectory. Meanwhile, we present an action description unit that maps the action semantics into the feature space consistent with the exocentric image. Finally, the inferred human movement and high-level action descriptions jointly guide the generation of exocentric motion and interaction content (i.e., corresponding optical flow and occlusion maps) in the backward process of the diffusion model, ultimately warping them into the corresponding exocentric video. We conduct extensive experiments on the relevant dataset with diverse exo-ego video pairs, and our IDE outperforms state-of-the-art models in both subjective and objective assessments, demonstrating its efficacy in ego-to-exo video generation.
翻訳日:2024-03-19 23:14:54 公開日:2024-03-17
# LAN:リアルタイムインサイダー脅威検出のための適応的隣人学習

LAN: Learning Adaptive Neighbors for Real-Time Insider Threat Detection ( http://arxiv.org/abs/2403.09209v2 )

ライセンス: Link先を確認
Xiangrui Cai, Yang Wang, Sihan Xu, Hao Li, Ying Zhang, Zheli Liu, Xiaojie Yuan, (参考訳) 企業や組織は、深刻な結果をもたらす可能性のあるインサイダー従業員からの潜在的な脅威に直面しています。 インサイダー脅威検出(ITD)に関するこれまでの研究は、主に異常ユーザや異常期間(例:1週間または1日)の検出に焦点を当てていた。 しかし、ログには数十万のアクティビティがあり、1日以内にユーザに対して数千のアクティビティが存在する可能性があるため、検出結果から異常なユーザやアクティビティを検証するための調査予算が要求される。 一方、既存の作業は、主にリアルタイム検出ではなく、ポストホックな方法であり、損失が発生する前に内部の脅威を報告できない。 本稿では,リアルタイムITDを活動レベルに向けた最初の研究を行い,よりきめ細かな,効率的なフレームワークLANを提案する。 具体的には、LANはアクティビティシーケンス内の時間的依存関係と、グラフ構造学習を伴うシーケンス間のアクティビティ間の関係を同時に学習する。 さらに、ITDにおけるデータ不均衡問題を緩和するために、正常な活動からの自己超越信号と異常な活動からの監督信号とを統合化して、異常検出のための統一的な損失を生成するハイブリッド予測損失を提案する。 CERT r4.2 と CERT r5.2 の2つの広く使われているデータセット上での LAN の性能を評価する。 大規模な実験と比較実験は、CERT r4.2とr5.2のリアルタイムITDにおいて、9つの最先端のベースラインを少なくとも9.92%と6.35%で上回り、LANの優位性を実証している。 さらに、LANはポストホックITDにも適用可能で、2つのデータセット上でAUCの少なくとも7.70%と4.03%の競争ベースラインを超えている。 最後に, LANにおける各モジュールとハイパーパラメータの影響評価, パラメータ解析, 互換性解析を行った。 ソースコードはhttps://github.com/Li1Neo/LANから取得できる。

Enterprises and organizations are faced with potential threats from insider employees that may lead to serious consequences. Previous studies on insider threat detection (ITD) mainly focus on detecting abnormal users or abnormal time periods (e.g., a week or a day). However, a user may have hundreds of thousands of activities in the log, and even within a day there may exist thousands of activities for a user, requiring a high investigation budget to verify abnormal users or activities given the detection results. On the other hand, existing works are mainly post-hoc methods rather than real-time detection, which can not report insider threats in time before they cause loss. In this paper, we conduct the first study towards real-time ITD at activity level, and present a fine-grained and efficient framework LAN. Specifically, LAN simultaneously learns the temporal dependencies within an activity sequence and the relationships between activities across sequences with graph structure learning. Moreover, to mitigate the data imbalance problem in ITD, we propose a novel hybrid prediction loss, which integrates self-supervision signals from normal activities and supervision signals from abnormal activities into a unified loss for anomaly detection. We evaluate the performance of LAN on two widely used datasets, i.e., CERT r4.2 and CERT r5.2. Extensive and comparative experiments demonstrate the superiority of LAN, outperforming 9 state-of-the-art baselines by at least 9.92% and 6.35% in AUC for real-time ITD on CERT r4.2 and r5.2, respectively. Moreover, LAN can be also applied to post-hoc ITD, surpassing 8 competitive baselines by at least 7.70% and 4.03% in AUC on two datasets. Finally, the ablation study, parameter analysis, and compatibility analysis evaluate the impact of each module and hyper-parameter in LAN. The source code can be obtained from https://github.com/Li1Neo/LAN.
翻訳日:2024-03-19 23:14:54 公開日:2024-03-17
# WSI-SAM: 病理組織学的全スライディング画像のための多分解能セグメンテーションモデル(SAM)

WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images ( http://arxiv.org/abs/2403.09257v2 )

ライセンス: Link先を確認
Hong Liu, Haosen Yang, Paul J. van Diest, Josien P. W. Pluim, Mitko Veta, (参考訳) Segment Anything Model (SAM) はセグメンテーションモデルの大幅な進歩を示し、堅牢なゼロショット能力とダイナミックプロンプトを提供する。 しかし、既存の医療SAMは、WSIのマルチスケールな性質には適せず、その効果を制限している。 この欠点を解決するため,WSI-SAM は多解像度パッチを用いた病理画像の高精度なオブジェクト分割機能により SAM を向上し,その効率的かつ迅速な設計とゼロショット能力を維持した。 トレーニングオーバーヘッドを最小化しながら、事前学習した知識を完全に活用するために、SAMは凍結し、最小限のパラメータと計算オーバーヘッドしか導入しない。 特に,高分解能(HR)トークン,低分解能(LR)トークン,デュアルマスクデコーダを導入する。 このデコーダは、オリジナルのSAMマスクデコーダと、複数のスケールで機能を統合した軽量のフュージョンモジュールを統合する。 マスクを独立に予測する代わりに、HRとLRトークンを中間層に統合し、複数の解像度で同じ物体の特徴を共同で学習する。 実験によると、WSI-SAMは最先端のSAMとその変種よりも優れています。 特に,本モデルでは,乳がん転移分節タスク (CAMELYON16 データセット) および乳がん転移分節タスク (CAMELYON16 データセット) において,SAM を4.1 および2.5 ポイント上回っている。 コードはhttps://github.com/HongLiuuuu/WSI-SAMで入手できる。

The Segment Anything Model (SAM) marks a significant advancement in segmentation models, offering robust zero-shot abilities and dynamic prompting. However, existing medical SAMs are not suitable for the multi-scale nature of whole-slide images (WSIs), restricting their effectiveness. To resolve this drawback, we present WSI-SAM, enhancing SAM with precise object segmentation capabilities for histopathology images using multi-resolution patches, while preserving its efficient, prompt-driven design, and zero-shot abilities. To fully exploit pretrained knowledge while minimizing training overhead, we keep SAM frozen, introducing only minimal extra parameters and computational overhead. In particular, we introduce High-Resolution (HR) token, Low-Resolution (LR) token and dual mask decoder. This decoder integrates the original SAM mask decoder with a lightweight fusion module that integrates features at multiple scales. Instead of predicting a mask independently, we integrate HR and LR token at intermediate layer to jointly learn features of the same object across multiple resolutions. Experiments show that our WSI-SAM outperforms state-of-the-art SAM and its variants. In particular, our model outperforms SAM by 4.1 and 2.5 percent points on a ductal carcinoma in situ (DCIS) segmentation tasks and breast cancer metastasis segmentation task (CAMELYON16 dataset). The code will be available at https://github.com/HongLiuuuuu/WSI-SAM.
翻訳日:2024-03-19 23:14:54 公開日:2024-03-17
# 情報間競争によるチャットボット出力の制御

Regulating Chatbot Output via Inter-Informational Competition ( http://arxiv.org/abs/2403.11046v1 )

ライセンス: Link先を確認
Jiawei Zhang, (参考訳) ChatGPTの出現は、1年以上にわたる規制の混乱を引き起こしている。 しかし、AIチャットボットのアウトプットが具体的であり、人間の問題に深刻なダメージを与えるという仮定を厳格に疑問視する研究はほとんどない。 ほとんどの研究者は、情報市場自体がこれらのリスクを効果的に軽減できるという批判的な可能性を見落としている。 本稿では,各種メディア間の情報競合に着目して,AI関連コンテンツリスクとそれに対応する規制提案の再評価を行う。 何十年にもわたる情報・通信技術の歴史は、規制当局が新たな技術がもたらした不確実性に直面すると、過度な規制措置を講じる傾向にあることを示している。 実際、情報機関間の市場競争が、ほとんどのリスクを効果的に軽減し、規制の過度に依存することは、必要だけでなく有害でもあることを実証した実証的な証拠が山積している。 本稿では、情報市場におけるチャットボットやその他の情報メディア間の十分な競争が、生成的AI技術によって引き起こされるコンテンツリスクを十分に軽減し、解決することができることを主張する。 これは、強制禁止、ライセンス、データセットのキュレーション、通知とレスポンスの体制など、一部の大声で提唱された規制戦略を、本当に不要で、AI業界全体で望ましい競争やイノベーションに対して有害なものにもします。 最終的に、私が本条で先導したアイデアは、生成AIに対する規制上の不安を和らげ、問題を合理的な軌道に戻すべきだ。

The advent of ChatGPT has sparked over a year of regulatory frenzy. However, few existing studies have rigorously questioned the assumption that, if left unregulated, AI chatbot's output would inflict tangible, severe real harm on human affairs. Most researchers have overlooked the critical possibility that the information market itself can effectively mitigate these risks and, as a result, they tend to use regulatory tools to address the issue directly. This Article develops a yardstick for reevaluating both AI-related content risks and corresponding regulatory proposals by focusing on inter-informational competition among various outlets. The decades-long history of regulating information and communications technologies indicates that regulators tend to err too much on the side of caution and to put forward excessive regulatory measures when encountering the uncertainties brought about by new technologies. In fact, a trove of empirical evidence has demonstrated that market competition among information outlets can effectively mitigate most risks and that overreliance on regulation is not only unnecessary but detrimental, as well. This Article argues that sufficient competition among chatbots and other information outlets in the information marketplace can sufficiently mitigate and even resolve most content risks posed by generative AI technologies. This renders certain loudly advocated regulatory strategies, like mandatory prohibitions, licensure, curation of datasets, and notice-and-response regimes, truly unnecessary and even toxic to desirable competition and innovation throughout the AI industry. Ultimately, the ideas that I advance in this Article should pour some much-needed cold water on the regulatory frenzy over generative AI and steer the issue back to a rational track.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-17
# ピクセルから予測へ:より良い時系列予測のためのスペクトログラムと視覚変換器

From Pixels to Predictions: Spectrogram and Vision Transformer for Better Time Series Forecasting ( http://arxiv.org/abs/2403.11047v1 )

ライセンス: Link先を確認
Zhen Zeng, Rachneet Kaur, Suchetha Siddagangappa, Tucker Balch, Manuela Veloso, (参考訳) 時系列予測は、さまざまな領域における意思決定において重要な役割を担っているが、大きな課題を呈している。 近年、コンピュータビジョンモデルを用いてこれらの課題に対処し、しばしば時系列データの視覚的表現としてラインプロットを用いた画像駆動アプローチが研究されている。 本稿では,時系列データの視覚的表現として時間周波数スペクトログラムを用いる新しい手法を提案する。 マルチモーダル学習のためのビジョントランスフォーマーを導入し、異なるドメインの多様なデータセットにまたがるアプローチの利点を示す。 本手法の有効性を評価するため,統計的ベースライン(EMAとARIMA),最先端の深層学習に基づくアプローチ(DeepAR),時系列データ(ラインプロット画像)の視覚的表現,および時系列のみを入力として用いたアブレーション研究を比較した。 実験では,時系列データの視覚表現としてスペクトログラムを利用することの利点と,時間領域と周波数領域の同時学習に視覚変換器を用いることの利点を実証した。

Time series forecasting plays a crucial role in decision-making across various domains, but it presents significant challenges. Recent studies have explored image-driven approaches using computer vision models to address these challenges, often employing lineplots as the visual representation of time series data. In this paper, we propose a novel approach that uses time-frequency spectrograms as the visual representation of time series data. We introduce the use of a vision transformer for multimodal learning, showcasing the advantages of our approach across diverse datasets from different domains. To evaluate its effectiveness, we compare our method against statistical baselines (EMA and ARIMA), a state-of-the-art deep learning-based approach (DeepAR), other visual representations of time series data (lineplot images), and an ablation study on using only the time series as input. Our experiments demonstrate the benefits of utilizing spectrograms as a visual representation for time series data, along with the advantages of employing a vision transformer for simultaneous learning in both the time and frequency domains.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-17
# JustQ: 公正で正確な量子ニューラルネットワークのデプロイを自動化する

JustQ: Automated Deployment of Fair and Accurate Quantum Neural Networks ( http://arxiv.org/abs/2403.11048v1 )

ライセンス: Link先を確認
Ruhan Wang, Fahiz Baba-Yara, Fan Chen, (参考訳) 意思決定システムにおける量子ニューラルネットワーク(QNN)の成功にもかかわらず、その公正性は探索されていない。 この研究は、設計空間の探索を行い、QNNの不公平を明らかにし、QNNの展開と量子ノイズが正確性と公正性に与える影響を強調した。 NISQコンピュータ上に公平かつ正確なQNNを配置するためのフレームワークであるJustQを提案する。 完全なNISQエラーモデル、強化学習ベースのデプロイメント、公平性と正確性の両方を取り入れた柔軟な最適化目標を含む。 実験の結果,JustQは従来の手法よりも優れ,精度と公平性が向上した。 この研究は、NISQコンピュータ上での公平なQNN設計の先駆者であり、将来の調査への道を開いた。

Despite the success of Quantum Neural Networks (QNNs) in decision-making systems, their fairness remains unexplored, as the focus primarily lies on accuracy. This work conducts a design space exploration, unveiling QNN unfairness, and highlighting the significant influence of QNN deployment and quantum noise on accuracy and fairness. To effectively navigate the vast QNN deployment design space, we propose JustQ, a framework for deploying fair and accurate QNNs on NISQ computers. It includes a complete NISQ error model, reinforcement learning-based deployment, and a flexible optimization objective incorporating both fairness and accuracy. Experimental results show JustQ outperforms previous methods, achieving superior accuracy and fairness. This work pioneers fair QNN design on NISQ computers, paving the way for future investigations.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-17
# 内視鏡シミュレータとしての映像生成モデル

Endora: Video Generation Models as Endoscopy Simulators ( http://arxiv.org/abs/2403.11050v1 )

ライセンス: Link先を確認
Chenxin Li, Hengyu Liu, Yifan Liu, Brandon Y. Feng, Wuyang Li, Xinyu Liu, Zhen Chen, Jing Shao, Yixuan Yuan, (参考訳) 生成モデルは、医療教育の革新、ロボット支援手術、機械学習のためのデータ拡張を約束する。 医用2D画像の生成の進展にもかかわらず、臨床ビデオ生成の複雑な領域は未解決のままであり、臨床内視鏡シーンをシミュレートする医療用ビデオを生成する革新的なアプローチであるShamodelを紹介した。 本稿では,映像生成時に空間時間ダイナミクスを明示的にモデル化し,精密に製作された空間時空間ビデオトランスフォーマと高度な2次元視覚基盤モデルとを融合した新しい生成モデルを提案する。 また,ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを考案し,既存の最先端手法を応用した。 さらに、この内視鏡シミュレーターは、下流の映像解析タスクをどのように強化し、マルチビューの整合性で3次元の医療シーンを生成できるかを考察する。 簡単に言うと、Endoraは、臨床内視鏡研究のための生成AIの展開において、顕著なブレークスルーであり、医療コンテンツ生成のさらなる進歩に向けた重要な段階である。 詳細はプロジェクトのページを参照してください。

Generative models hold promise for revolutionizing medical education, robot-assisted surgery, and data augmentation for machine learning. Despite progress in generating 2D medical images, the complex domain of clinical video generation has largely remained untapped.This paper introduces \model, an innovative approach to generate medical videos that simulate clinical endoscopy scenes. We present a novel generative model design that integrates a meticulously crafted spatial-temporal video transformer with advanced 2D vision foundation model priors, explicitly modeling spatial-temporal dynamics during video generation. We also pioneer the first public benchmark for endoscopy simulation with video generation models, adapting existing state-of-the-art methods for this endeavor.Endora demonstrates exceptional visual quality in generating endoscopy videos, surpassing state-of-the-art methods in extensive testing. Moreover, we explore how this endoscopy simulator can empower downstream video analysis tasks and even generate 3D medical scenes with multi-view consistency. In a nutshell, Endora marks a notable breakthrough in the deployment of generative AI for clinical endoscopy research, setting a substantial stage for further advances in medical content generation. For more details, please visit our project page: https://endora-medvidgen.github.io/.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-17
# クロスアテンションによるテキスト・画像拡散モデルの展開と緩和

Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention ( http://arxiv.org/abs/2403.11052v1 )

ライセンス: Link先を確認
Jie Ren, Yaxin Li, Shenglai Zen, Han Xu, Lingjuan Lyu, Yue Xing, Jiliang Tang, (参考訳) テキスト間拡散モデルの最近の進歩は、テキストプロンプトから高品質な画像を生成する顕著な能力を示している。 しかし、研究の高まりは、これらのモデルがトレーニングデータからイメージを記憶し、複製していることを示し、著作権侵害やプライバシーリスクに関する大きな懸念を提起している。 本研究では,この記憶現象を理解するための新しい視点を提供する。 暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。 拡散モデルはこれらのトークン埋め込みに過度に適合し、対応するトレーニングイメージを記憶する。 この現象を解明するために, 記憶に寄与するクロスアテンションの様々な本質的な発見を同定し, 議論する。 これらの知見に基づいて,拡散モデルにおける記憶の発見と緩和のための革新的なアプローチを導入する。 提案手法の利点は、生成した画像の品質を維持しながら、これらのモデルにおけるトレーニングや推論プロセスの速さを損なわないことである。 私たちのコードはhttps://github.com/renjie3/MemAttn で利用可能です。

Recent advancements in text-to-image diffusion models have demonstrated their remarkable capability to generate high-quality images from textual prompts. However, increasing research indicates that these models memorize and replicate images from their training data, raising tremendous concerns about potential copyright infringement and privacy risks. In our study, we provide a novel perspective to understand this memorization phenomenon by examining its relationship with cross-attention mechanisms. We reveal that during memorization, the cross-attention tends to focus disproportionately on the embeddings of specific tokens. The diffusion model is overfitted to these token embeddings, memorizing corresponding training images. To elucidate this phenomenon, we further identify and discuss various intrinsic findings of cross-attention that contribute to memorization. Building on these insights, we introduce an innovative approach to detect and mitigate memorization in diffusion models. The advantage of our proposed method is that it will not compromise the speed of either the training or the inference processes in these models while preserving the quality of generated images. Our code is available at https://github.com/renjie3/MemAttn .
翻訳日:2024-03-19 20:27:00 公開日:2024-03-17
# OSTAF: 属性指向T2Iパーソナライゼーション改善のためのワンショットチューニング方法

OSTAF: A One-Shot Tuning Method for Improved Attribute-Focused T2I Personalization ( http://arxiv.org/abs/2403.11053v1 )

ライセンス: Link先を確認
Ye Wang, Zili Yi, Rui Ma, (参考訳) パーソナライズされたテキスト・ツー・イメージ(T2I)モデルでは、ライフスタイルやさまざまな視覚を生成できるだけでなく、ユーザーは自分の好みに合わせて画像をカスタマイズできる。 これらのパーソナライズ技術は、イメージの集合を通して概念の本質を把握したり、トレーニング済みのテキスト・ツー・イメージモデルを、主観駆動または属性・アウェア・ガイダンスのための特定のイメージ入力で調整することができる。 しかし、個々の画像の異なる視覚特性を正確に捉えることは、これらの手法の課題となる。 この問題に対処するために、T2Iパーソナライズのための参照画像のみを利用する新しいパラメータ効率のワンショット微調整手法であるOSTAFを紹介する。 参照画像から様々な属性特徴(例えば、外観、形状、描画スタイル)を正確に学習するために、新しいハイパーネットワークによる属性中心の微調整機構を用いる。 既存の画像のカスタマイズ手法と比較して,属性の識別と適用において大きな優位性を示すとともに,効率と出力品質のバランスも良好である。

Personalized text-to-image (T2I) models not only produce lifelike and varied visuals but also allow users to tailor the images to fit their personal taste. These personalization techniques can grasp the essence of a concept through a collection of images, or adjust a pre-trained text-to-image model with a specific image input for subject-driven or attribute-aware guidance. Yet, accurately capturing the distinct visual attributes of an individual image poses a challenge for these methods. To address this issue, we introduce OSTAF, a novel parameter-efficient one-shot fine-tuning method which only utilizes one reference image for T2I personalization. A novel hypernetwork-powered attribute-focused fine-tuning mechanism is employed to achieve the precise learning of various attribute features (e.g., appearance, shape or drawing style) from the reference image. Comparing to existing image customization methods, our method shows significant superiority in attribute identification and application, as well as achieves a good balance between efficiency and output quality.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-17
# アナリシススメッティング:分析積分によるアンチエイリアス3次元ガウススメッティング

Analytic-Splatting: Anti-Aliased 3D Gaussian Splatting via Analytic Integration ( http://arxiv.org/abs/2403.11056v1 )

ライセンス: Link先を確認
Zhihao Liang, Qi Zhang, Wenbo Hu, Ying Feng, Lei Zhu, Kui Jia, (参考訳) 3D Gaussian Splatting (3DGS)は、プリミティブベースとボリューム3D表現の利点を組み合わせることで、最近人気を博し、3Dシーンレンダリングの質と効率を改善した。 しかし、3DGSはエイリアスフリーではなく、解像度の異なるレンダリングは、深刻なぼやけやジャギーをもたらす可能性がある。 これは、3DGSが各ピクセルを領域ではなく孤立した単一点として扱い、ピクセルのフットプリントの変化に敏感であるからである。 このため、この離散サンプリング方式は、制限されたサンプリング帯域幅のため、必然的にエイリアスとなる。 本稿では,この問題に対処するための解析解を導出する。 より具体的には、1次元ガウス信号における累積分布関数(CDF)の解析近似として条件付きロジスティック関数を用い、CDFを減算してガウス積分を計算する。 次に、この近似を2次元のピクセルシェーディングに導入し、2次元のウィンドウ領域内のガウス積分を解析的に近似し、各画素の強度応答をよりよく捉える解析-スメッティング法を提案する。 さらに、画素ウィンドウ積分領域の近似応答を用いてボリュームレンダリングの透過率計算に参画し、異なる解像度での画素フットプリントの変化に敏感になる。 さまざまなデータセットの実験は、我々のアプローチがより詳細な情報と忠実度を提供するより良いアンチエイリアス能力を持っていることを実証している。

The 3D Gaussian Splatting (3DGS) gained its popularity recently by combining the advantages of both primitive-based and volumetric 3D representations, resulting in improved quality and efficiency for 3D scene rendering. However, 3DGS is not alias-free, and its rendering at varying resolutions could produce severe blurring or jaggies. This is because 3DGS treats each pixel as an isolated, single point rather than as an area, causing insensitivity to changes in the footprints of pixels. Consequently, this discrete sampling scheme inevitably results in aliasing, owing to the restricted sampling bandwidth. In this paper, we derive an analytical solution to address this issue. More specifically, we use a conditioned logistic function as the analytic approximation of the cumulative distribution function (CDF) in a one-dimensional Gaussian signal and calculate the Gaussian integral by subtracting the CDFs. We then introduce this approximation in the two-dimensional pixel shading, and present Analytic-Splatting, which analytically approximates the Gaussian integral within the 2D-pixel window area to better capture the intensity response of each pixel. Moreover, we use the approximated response of the pixel window integral area to participate in the transmittance calculation of volume rendering, making Analytic-Splatting sensitive to the changes in pixel footprint at different resolutions. Experiments on various datasets validate that our approach has better anti-aliasing capability that gives more details and better fidelity.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-17
# 文脈認識型動き予測を用いた大規模言語モデル

Large Language Models Powered Context-aware Motion Prediction ( http://arxiv.org/abs/2403.11057v1 )

ライセンス: Link先を確認
Xiaoji Zheng, Lixiu Wu, Zhijie Yan, Yuanrong Tang, Hao Zhao, Chen Zhong, Bokui Chen, Jiangtao Gong, (参考訳) 運動予測は、自律運転における最も基本的なタスクの1つである。 従来の動き予測法は、主に地図のベクトル情報と交通参加者の履歴軌跡データをエンコードし、全体的な交通意味論の包括的理解を欠いているため、予測タスクのパフォーマンスに影響を及ぼす。 本稿では,Large Language Models (LLMs) を用いて,動き予測タスクのグローバルトラフィックコンテキスト理解を強化する。 我々はまず、複雑な交通環境と交通参加者の歴史的軌跡情報を画像プロンプトに可視化する、系統的なプロンプトエンジニアリングを行い、対応するテキストプロンプトを伴ってトランスポートコンテキストマップ(TC-Map)を構築した。 このアプローチにより,LLMから豊富なトラフィックコンテキスト情報を得た。 この情報を動き予測モデルに統合することにより、動き予測の精度を高めることができることを示す。 さらに, LLM に関連するコストを考慮すると, 0.7 % の LLM 拡張データセットを用いて, 大規模での動作予測タスクの精度を向上させる, コスト効率の良い展開戦略を提案する。 我々の研究は、LLMの交通シーンの理解と自動運転の動作予測性能を高めるための貴重な洞察を提供する。

Motion prediction is among the most fundamental tasks in autonomous driving. Traditional methods of motion forecasting primarily encode vector information of maps and historical trajectory data of traffic participants, lacking a comprehensive understanding of overall traffic semantics, which in turn affects the performance of prediction tasks. In this paper, we utilized Large Language Models (LLMs) to enhance the global traffic context understanding for motion prediction tasks. We first conducted systematic prompt engineering, visualizing complex traffic environments and historical trajectory information of traffic participants into image prompts -- Transportation Context Map (TC-Map), accompanied by corresponding text prompts. Through this approach, we obtained rich traffic context information from the LLM. By integrating this information into the motion prediction model, we demonstrate that such context can enhance the accuracy of motion predictions. Furthermore, considering the cost associated with LLMs, we propose a cost-effective deployment strategy: enhancing the accuracy of motion prediction tasks at scale with 0.7\% LLM-augmented datasets. Our research offers valuable insights into enhancing the understanding of traffic scenes of LLMs and the motion prediction performance of autonomous driving.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-17
# インテリジェント鉄道踏切 : セマンティックセグメンテーションと物体検出の活用による安全性向上

Intelligent Railroad Grade Crossing: Leveraging Semantic Segmentation and Object Detection for Enhanced Safety ( http://arxiv.org/abs/2403.11060v1 )

ライセンス: Link先を確認
Al Amin, Deo Chimba, Kamrul Hasan, Emmanuel Samson, (参考訳) 高速道路と鉄道が交差する鉄道ハイウェイ・グレード・クロス (RHGC) の事故と遅れは、アメリカ合衆国連邦鉄道局 (FRA) にとって重大な安全上の懸念を生じさせている。 高速道路と道路の交差点で事故や交通遅延に対処することの重要性にもかかわらず、これらの問題を管理するための実用的な解決策に関する研究は目覚ましい。 そこで本研究では,鉄道高速道路の踏切(RHGC)における安全性を高めるために,機械学習とコンピュータビジョン技術を活用したインテリジェントシステムを提案する。 本研究では, YOLO5S, YOLOv5M, YOLOv5L, YOLOv5L, YOLOv5L, YOLOv5L, YOLOv5S, YOLOv5S, YOLOv5Lなど, 多様なYOLO変種を統合したNon-Maximum Suppression (NMS) に基づくアンサンブルモデルを提案する。 どちらのメソッドもRaspberry Piで実装されている。 さらに、この戦略ではRHGCに設置された高精細度カメラが採用されている。 この枠組みにより、列車が到着する前に、列車の接近を検知し、交差するエリアをクリアすることができる。 精度、精度、リコール、IoU(Intersection over Union)に関して、提案した最先端NMSベースのオブジェクト検出アンサンブルモデルは96%の精度を達成した。 さらに、UNetセグメンテーションモデルは98%のIoU値を得た。 このAIを利用した自動踏切システムは、高速道路と道路の交差点における安全性を高めるための有望な解決策である。

Crashes and delays at Railroad Highway Grade Crossings (RHGC), where highways and railroads intersect, pose significant safety concerns for the U.S. Federal Railroad Administration (FRA). Despite the critical importance of addressing accidents and traffic delays at highway-railroad intersections, there is a notable dearth of research on practical solutions for managing these issues. In response to this gap in the literature, our study introduces an intelligent system that leverages machine learning and computer vision techniques to enhance safety at Railroad Highway Grade crossings (RHGC). This research proposed a Non-Maximum Suppression (NMS)- based ensemble model that integrates a variety of YOLO variants, specifically YOLOv5S, YOLOv5M, and YOLOv5L, for grade-crossing object detection, utilizes segmentation techniques from the UNet architecture for detecting approaching rail at a grade crossing. Both methods are implemented on a Raspberry Pi. Moreover, the strategy employs high-definition cameras installed at the RHGC. This framework enables the system to monitor objects within the Region of Interest (ROI) at crossings, detect the approach of trains, and clear the crossing area before a train arrives. Regarding accuracy, precision, recall, and Intersection over Union (IoU), the proposed state-of-the-art NMS-based object detection ensemble model achieved 96% precision. In addition, the UNet segmentation model obtained a 98% IoU value. This automated railroad grade crossing system powered by artificial intelligence represents a promising solution for enhancing safety at highway-railroad intersections.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-17
# CVaR最適化のサンプル効率向上のための簡易混合政策パラメータ化

A Simple Mixture Policy Parameterization for Improving Sample Efficiency of CVaR Optimization ( http://arxiv.org/abs/2403.11062v1 )

ライセンス: Link先を確認
Yudong Luo, Yangchen Pan, Han Wang, Philip Torr, Pascal Poupart, (参考訳) 政策勾配(PG)を利用してリスク条件値(CVaR)を最適化する強化学習アルゴリズムは、サンプルの非効率性において重大な課題に直面し、実用化を妨げている。 この非効率性は、多くのサンプル軌道を見渡すテールエンド性能と、リターン分布の低いテールが過度に平坦であるときに勾配が消える可能性という2つの主要な事実に起因している。 これらの課題に対処するために、簡単な混合ポリシーパラメータ化を提案する。 この方法は、リスク中立ポリシーと調整可能なポリシーを統合し、リスク逆ポリシーを形成する。 この戦略を用いることで、収集されたすべての軌跡を政策更新に利用でき、リスク中立成分を介して高いリターンを刺激し、テールを持ち上げ、平坦化を防止して、勾配の消失を防止できる。 実験により、この混合パラメータ化は様々なベンチマーク領域で一意に有効であることが判明した。 具体的には、従来のCVaR-PGが合理的なポリシーを学習できないいくつかのムジョコ環境において、リスク-逆CVaRポリシーの特定に長けている。

Reinforcement learning algorithms utilizing policy gradients (PG) to optimize Conditional Value at Risk (CVaR) face significant challenges with sample inefficiency, hindering their practical applications. This inefficiency stems from two main facts: a focus on tail-end performance that overlooks many sampled trajectories, and the potential of gradient vanishing when the lower tail of the return distribution is overly flat. To address these challenges, we propose a simple mixture policy parameterization. This method integrates a risk-neutral policy with an adjustable policy to form a risk-averse policy. By employing this strategy, all collected trajectories can be utilized for policy updating, and the issue of vanishing gradients is counteracted by stimulating higher returns through the risk-neutral component, thus lifting the tail and preventing flatness. Our empirical study reveals that this mixture parameterization is uniquely effective across a variety of benchmark domains. Specifically, it excels in identifying risk-averse CVaR policies in some Mujoco environments where the traditional CVaR-PG fails to learn a reasonable policy.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-17
# ペルシア語における深層学習に基づく感性分析

Deep Learning-based Sentiment Analysis in Persian Language ( http://arxiv.org/abs/2403.11069v1 )

ライセンス: Link先を確認
Mohammad Heydari, Mohsen Khazeni, Mohammad Ali Soltanshahi, (参考訳) 近年、自然言語処理(NLP)におけるタスクに対するディープラーニング技術の利用に対する関心が高まっており、特にペルシア語において、感情分析が最も困難な分野の1つとなっている。 何千ものWebサイトやブログ、Telegram、Instagram、Twitterなどのソーシャルネットワーク上で、ペルシア人が生成する膨大な量のコンテンツは、豊富な情報資源を提示する。 ディープラーニング技術は、この広範な生データのプールから洞察を抽出するために、ますます好まれるようになったが、それらはいくつかの課題に直面している。 本研究では、Digikala Online Retailer Webサイトからの顧客レビューデータを用いて、感情分析のためのハイブリッドディープラーニングモデルを導入、実装した。 我々は様々なディープラーニングネットワークと正規化手法を分類器として採用した。 最終的に、私たちのハイブリッドアプローチは、ポジティブ、ネガティブ、中立という3つの感情カテゴリーでF1スコア78.3を達成し、素晴らしいパフォーマンスを得た。

Recently, there has been a growing interest in the use of deep learning techniques for tasks in natural language processing (NLP), with sentiment analysis being one of the most challenging areas, particularly in the Persian language. The vast amounts of content generated by Persian users on thousands of websites, blogs, and social networks such as Telegram, Instagram, and Twitter present a rich resource of information. Deep learning techniques have become increasingly favored for extracting insights from this extensive pool of raw data, although they face several challenges. In this study, we introduced and implemented a hybrid deep learning-based model for sentiment analysis, using customer review data from the Digikala Online Retailer website. We employed a variety of deep learning networks and regularization techniques as classifiers. Ultimately, our hybrid approach yielded an impressive performance, achieving an F1 score of 78.3 across three sentiment categories: positive, negative, and neutral.
翻訳日:2024-03-19 20:17:06 公開日:2024-03-17
# Few-Shot Class-Incremental Learningのための制御可能な関係の絡み合い

Controllable Relation Disentanglement for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2403.11070v1 )

ライセンス: Link先を確認
Yuan Zhou, Richang Hong, Yanrong Guo, Lin Liu, Shijie Hao, Hanwang Zhang, (参考訳) 本稿では,FSCIL(Few-Shot Class-Incremental Learning, FSCIL)に新たな視点,すなわち関係のゆがみ(relation disentanglement)という視点で取り組むことを提案する。 急激な相関関係を切り離すことの課題は、FSCILの制御性が悪いことである。 一方、FSCILモデルは漸進的に訓練する必要があるため、異なるセッションのカテゴリ間の関係を直接制御することは極めて困難である。 一方、新規カテゴリ毎のトレーニングサンプルは、数ショット設定に限られており、急激な関係問題を緩和することの難しさも増している。 本稿では,この課題を解決するために,ConTrollable Relation-disentangLed Few-Shot Class-Incremental Learning (CTRL-FSCIL) と呼ばれる,よりシンプルな手法を提案する。 具体的には,各セッションにおけるカテゴリ表現の学習のギャップを埋めるために,特徴空間におけるカテゴリの埋め込みを固定し,アンタングル化プロキシを構築し,カテゴリ関係を制御可能にすることを提案する。 漸進的な学習では、データ不足による負の影響を緩和するため、バックボーンネットワークのパラメータは凍結される。 さらに、背骨によって符号化された埋め込み間の急激な相関関係を乱すように、関係の絡み合い制御を効果的に導くように、絡み合い損失を設計する。 これにより、FSCILの急激な相関問題を抑えることができる。 CIFAR-100, mini-ImageNet, CUB-200データセットの大規模な実験により, CTRL-FSCIL法の有効性が示された。

In this paper, we propose to tackle Few-Shot Class-Incremental Learning (FSCIL) from a new perspective, i.e., relation disentanglement, which means enhancing FSCIL via disentangling spurious relation between categories. The challenge of disentangling spurious correlations lies in the poor controllability of FSCIL. On one hand, an FSCIL model is required to be trained in an incremental manner and thus it is very hard to directly control relationships between categories of different sessions. On the other hand, training samples per novel category are only in the few-shot setting, which increases the difficulty of alleviating spurious relation issues as well. To overcome this challenge, in this paper, we propose a new simple-yet-effective method, called ConTrollable Relation-disentangLed Few-Shot Class-Incremental Learning (CTRL-FSCIL). Specifically, during the base session, we propose to anchor base category embeddings in feature space and construct disentanglement proxies to bridge gaps between the learning for category representations in different sessions, thereby making category relation controllable. During incremental learning, the parameters of the backbone network are frozen in order to relieve the negative impact of data scarcity. Moreover, a disentanglement loss is designed to effectively guide a relation disentanglement controller to disentangle spurious correlations between the embeddings encoded by the backbone. In this way, the spurious correlation issue in FSCIL can be suppressed. Extensive experiments on CIFAR-100, mini-ImageNet, and CUB-200 datasets demonstrate the effectiveness of our CTRL-FSCIL method.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# トケノーム : 説明可能な認知的カリオタイピングのための遺伝的ビジョンランゲージGPTを目指して

Tokensome: Towards a Genetic Vision-Language GPT for Explainable and Cognitive Karyotyping ( http://arxiv.org/abs/2403.11073v1 )

ライセンス: Link先を確認
Haoxi Zhang, Xinxu Zhang, Yuanxin Lin, Maiqi Wang, Yi Lai, Yu Wang, Linfeng Yu, Yufeng Xu, Ran Cheng, Edward Szczerbicki, (参考訳) 自動核型解析は、しばしば、染色体オブジェクトレベルのモデリングにのみ焦点をあてた視覚的知覚タスクとして定義される。 この定義は、既存のほとんどのメソッドがコンポーネント的および全体論的情報を見落とし、モデルの性能を著しく制限している。 さらに、現在の技術における解釈可能性の欠如は、臨床応用を妨げる。 本稿では,染色体トークン化に基づく新しい視覚言語モデルであるTokensomeについて紹介する。 トケソームは、従来の視覚知覚層から認知的意思決定層へとメソッドを上昇させる。 この高揚は、知識グラフとLLMを通してドメイン知識と認知推論の統合を可能にし、モデルの説明可能性を大幅に向上させ、異常検出を容易にする。

Automatic karyotype analysis is often defined as a visual perception task focused solely on chromosomal object-level modeling. This definition has led most existing methods to overlook componential and holistic information, significantly constraining model performance. Moreover, the lack of interpretability in current technologies hinders clinical adoption. In this paper, we introduce Tokensome, a novel vision-language model based on chromosome tokenization for explainable and cognitive karyotyping. Tokensome elevates the method from the conventional visual perception layer to the cognitive decision-making layer. This elevation enables the integration of domain knowledge and cognitive reasoning via knowledge graphs and LLMs, markedly enhancing model's explainability and facilitating abnormality detection.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# 未ラベルフレーム爆発によるオーディオ・ビジュアル・セグメンテーション

Audio-Visual Segmentation via Unlabeled Frame Exploitation ( http://arxiv.org/abs/2403.11074v1 )

ライセンス: Link先を確認
Jinxiang Liu, Yikun Liu, Fei Zhang, Chen Ju, Ya Zhang, Yanfeng Wang, (参考訳) AVS (Audio-visual segmentation) は、音声を映像フレームに分割することを目的としている。 大幅な進歩が見られたが、未使用フレームの使用において、現在の手法が限界性能に到達していることが実験的に明らかとなり、未使用化問題に繋がる。 AVSの未ラベルフレームの可能性について,その時間的特徴,すなわち隣接フレーム(NF)と遠フレーム(DF)に基づいて,明確に2つのカテゴリに分けた。 ラベル付きフレームに時間的に隣接しているNFは、しばしば、音像の正確な位置決めを支援するリッチな動き情報を含む。 NFとは対照的に、DFはラベル付きフレームと長い時間的距離を持ち、外観の変化を伴う意味的類似オブジェクトを共有する。 本稿では,それらの特徴を考慮し,AVSの取組に効果的に活用する多目的フレームワークを提案する。 具体的には、NFに対して、動的ガイダンスとして動きの手がかりを活用して、オブジェクトネスのローカライゼーションを改善する。 さらに、DFのセマンティック・キューをラベル付きフレームに対する有効な拡張として扱い、データ多様性を自己学習的に強化する。 大規模な実験結果から,本手法の汎用性と優位性を実証し,豊富な未ラベルフレームのパワーを解放した。

Audio-visual segmentation (AVS) aims to segment the sounding objects in video frames. Although great progress has been witnessed, we experimentally reveal that current methods reach marginal performance gain within the use of the unlabeled frames, leading to the underutilization issue. To fully explore the potential of the unlabeled frames for AVS, we explicitly divide them into two categories based on their temporal characteristics, i.e., neighboring frame (NF) and distant frame (DF). NFs, temporally adjacent to the labeled frame, often contain rich motion information that assists in the accurate localization of sounding objects. Contrary to NFs, DFs have long temporal distances from the labeled frame, which share semantic-similar objects with appearance variations. Considering their unique characteristics, we propose a versatile framework that effectively leverages them to tackle AVS. Specifically, for NFs, we exploit the motion cues as the dynamic guidance to improve the objectness localization. Besides, we exploit the semantic cues in DFs by treating them as valid augmentations to the labeled frames, which are then used to enrich data diversity in a self-training manner. Extensive experimental results demonstrate the versatility and superiority of our method, unleashing the power of the abundant unlabeled frames.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# GOMA: 目標指向のメンタルアライメントによる前向きな身体的協調コミュニケーション

GOMA: Proactive Embodied Cooperative Communication via Goal-Oriented Mental Alignment ( http://arxiv.org/abs/2403.11075v1 )

ライセンス: Link先を確認
Lance Ying, Kunal Jha, Shivam Aarya, Joshua B. Tenenbaum, Antonio Torralba, Tianmin Shu, (参考訳) 言語コミュニケーションは、特にパートナーがタスク、環境、そしてお互いの精神状態に関する不完全な情報しか持たない場合に、人間の協力において重要な役割を果たす。 本稿では,新たな協調コミュニケーションフレームワークであるゴール指向メンタルアライメント(Goal-Oriented Mental Alignment, GOMA)を提案する。 GOMAは、目標に関連するエージェントの精神状態間のミスアライメントを最小限に抑える計画問題として、言語コミュニケーションを定式化している。 このアプローチにより、具体化されたアシスタントは、自然言語を用いて人とのコミュニケーションを積極的に初期化し、より良い協力を達成することができる。 我々は,Overcooked(マルチプレイヤーゲーム)とVirtualHome(家庭用シミュレータ)の2つの挑戦環境において,強いベースラインに対するアプローチを評価する。 実験の結果,大規模言語モデルでは,社会的・物理的文脈に根ざした有意義なコミュニケーションの獲得に苦慮していることが明らかとなった。 対照的に,本手法は具体的支援者に対する簡潔な言語コミュニケーションを効果的に生成し,協調の能力を高めるとともに,利用者のアシスタントに対する認識を効果的に向上させる。

Verbal communication plays a crucial role in human cooperation, particularly when the partners only have incomplete information about the task, environment, and each other's mental state. In this paper, we propose a novel cooperative communication framework, Goal-Oriented Mental Alignment (GOMA). GOMA formulates verbal communication as a planning problem that minimizes the misalignment between the parts of agents' mental states that are relevant to the goals. This approach enables an embodied assistant to reason about when and how to proactively initialize communication with humans verbally using natural language to help achieve better cooperation. We evaluate our approach against strong baselines in two challenging environments, Overcooked (a multiplayer game) and VirtualHome (a household simulator). Our experimental results demonstrate that large language models struggle with generating meaningful communication that is grounded in the social and physical context. In contrast, our approach can successfully generate concise verbal communication for the embodied assistant to effectively boost the performance of the cooperation as well as human users' perception of the assistant.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# Zippo: 色と透明性の分布を単一拡散モデルに変換する

Zippo: Zipping Color and Transparency Distributions into a Single Diffusion Model ( http://arxiv.org/abs/2403.11077v1 )

ライセンス: Link先を確認
Kangyang Xie, Binbin Yang, Hao Chen, Meng Wang, Cheng Zou, Hui Xue, Ming Yang, Chunhua Shen, (参考訳) 高品質な画像生成におけるテキスト・画像拡散モデルの優位性以外にも、近年の研究では、学習した意味知識を視覚的知覚タスクに適用する可能性を明らかにする試みが行われている。 本研究では,生成的拡散モデルから視覚知覚モデルへ変換する代わりに,知覚的適応による生成能力の維持について検討する。 そこで本研究では,RGB画像とアルファマットの結合表現に拡散遅延を拡大することにより,色と透過性の分布を単一拡散モデルに分解する統合フレームワークZippoを提案する。 代わりに条件として1つのモダリティを選択し、それに対応するモダリティに拡散プロセスを適用することにより、ZippoはアルファマットからRGB画像を生成し、入力画像から透明性を予測することができる。 単モーダリティ予測に加えて,テキスト指導の下で共同生成されたRGB画像とその対応するアルファマットを用いてZippoをさらに強化するモーダリティ対応ノイズ再割り当て戦略を提案する。 実験では,Zippoのテキスト条件の透過的な画像生成能力と,Matte-to-RGBおよびRGB-to-Matte翻訳の有意な結果を示す。

Beyond the superiority of the text-to-image diffusion model in generating high-quality images, recent studies have attempted to uncover its potential for adapting the learned semantic knowledge to visual perception tasks. In this work, instead of translating a generative diffusion model into a visual perception model, we explore to retain the generative ability with the perceptive adaptation. To accomplish this, we present Zippo, a unified framework for zipping the color and transparency distributions into a single diffusion model by expanding the diffusion latent into a joint representation of RGB images and alpha mattes. By alternatively selecting one modality as the condition and then applying the diffusion process to the counterpart modality, Zippo is capable of generating RGB images from alpha mattes and predicting transparency from input images. In addition to single-modality prediction, we propose a modality-aware noise reassignment strategy to further empower Zippo with jointly generating RGB images and its corresponding alpha mattes under the text guidance. Our experiments showcase Zippo's ability of efficient text-conditioned transparent image generation and present plausible results of Matte-to-RGB and RGB-to-Matte translation.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# リモートセンシング画像超解像に対する適応的セマンティック拡張拡散確率モデル

Adaptive Semantic-Enhanced Denoising Diffusion Probabilistic Model for Remote Sensing Image Super-Resolution ( http://arxiv.org/abs/2403.11078v1 )

ライセンス: Link先を確認
Jialu Sui, Xianping Ma, Xiaokang Zhang, Man-On Pun, (参考訳) リモートセンシング画像超解像(SR)は低分解能(LR)観測から高分解能(HR)画像を復元するための重要な課題である。 近年,DPM(Denoising Diffusion Probabilistic Model)は,過剰なスムーシングやモード崩壊といった生成モデル固有の問題を克服し,画像再構成において有望な性能を示した。 しかし、DDPMが生成する高周波の詳細は、長い範囲の意味的文脈を見渡す傾向にあるため、HR画像との相違に悩まされることが多い。 これは、条件付きノイズ予測器において広く使われているU-Netデコーダによるもので、これは局所的な情報を過度に強調し、予測プロセス中に大きなノイズが発生する傾向がある。 これらの課題に対処するために,変換器が提供する低周波意味情報を組み込むことにより,DDPMの詳細な保存能力を高めるために,適応的意味強化DDPM(ASDDPM)を提案する。 具体的には, 適応拡散変換器デコーダ (ADTD) を開発し, 拡散過程における雑音予測を大域的文脈関係と長距離依存性で制御することにより, エンコーダとデコーダのセマンティックギャップを埋める。 さらに、残った特徴融合戦略は、2つのデコーダ間の情報交換を複数のレベルで確立する。 その結果、2つのSRと2つのセマンティックセグメンテーションデータセットの総合的な実験により、提案したASDDPMの性能がSRとその後の下流の両方で向上していることが確認された。 ソースコードはhttps://github.com/littlebeen/ASDDPM-Adaptive-Semantic-Enhanced-DDPMで入手できる。

Remote sensing image super-resolution (SR) is a crucial task to restore high-resolution (HR) images from low-resolution (LR) observations. Recently, the Denoising Diffusion Probabilistic Model (DDPM) has shown promising performance in image reconstructions by overcoming problems inherent in generative models, such as over-smoothing and mode collapse. However, the high-frequency details generated by DDPM often suffer from misalignment with HR images due to the model's tendency to overlook long-range semantic contexts. This is attributed to the widely used U-Net decoder in the conditional noise predictor, which tends to overemphasize local information, leading to the generation of noises with significant variances during the prediction process. To address these issues, an adaptive semantic-enhanced DDPM (ASDDPM) is proposed to enhance the detail-preserving capability of the DDPM by incorporating low-frequency semantic information provided by the Transformer. Specifically, a novel adaptive diffusion Transformer decoder (ADTD) is developed to bridge the semantic gap between the encoder and decoder through regulating the noise prediction with the global contextual relationships and long-range dependencies in the diffusion process. Additionally, a residual feature fusion strategy establishes information exchange between the two decoders at multiple levels. As a result, the predicted noise generated by our approach closely approximates that of the real noise distribution.Extensive experiments on two SR and two semantic segmentation datasets confirm the superior performance of the proposed ASDDPM in both SR and the subsequent downstream applications. The source code will be available at https://github.com/littlebeen/ASDDPM-Adaptive-Semantic-Enhanced-DDPM.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# ジャストインタイム欠陥予測のためのディープラーニング技術を用いたエキスパート知識のブリッジ

Bridging Expert Knowledge with Deep Learning Techniques for Just-In-Time Defect Prediction ( http://arxiv.org/abs/2403.11079v1 )

ライセンス: Link先を確認
Xin Zhou, DongGyun Han, David Lo, (参考訳) Just-In-Time(JIT)の欠陥予測は、コミットが欠陥であるかどうかを自動的に予測することを目的としており、近年広く研究されている。 一般に、ほとんどの研究は2つのカテゴリに分類される。 1)手作り特徴をもつ従来の機械学習分類器を用いた簡易モデル 2) 深層学習技術を用いた複雑なモデルを用いて, コミット内容から特徴を自動的に抽出する。 シンプルなモデルで使用される手作りの機能は、専門家の知識に基づいていますが、コミットの意味を完全に表現することはできません。 一方、複雑なモデルで使用されるディープラーニングベースの機能は、コミットの意味を表現しているが、有用な専門家の知識を反映していない可能性がある。 単純なモデルと複雑なモデルは、ある程度は互いに相補的なように見える。 簡単なモデルと複雑なモデルの両方の利点を利用するために,機能レベルでの早期融合と決定レベルでの後期融合の両方を採用するモデル融合フレームワークを提案する。 我々は、最良の早期と後期の融合戦略を採用することで、SimCom++を提案する。 実験の結果、SimCom++はベースラインの5.7-26.9\%を大きく上回っている。 さらに,本実験の結果から,単純なモデルと複雑なモデルが相補的であることが確認された。

Just-In-Time (JIT) defect prediction aims to automatically predict whether a commit is defective or not, and has been widely studied in recent years. In general, most studies can be classified into two categories: 1) simple models using traditional machine learning classifiers with hand-crafted features, and 2) complex models using deep learning techniques to automatically extract features from commit contents. Hand-crafted features used by simple models are based on expert knowledge but may not fully represent the semantic meaning of the commits. On the other hand, deep learning-based features used by complex models represent the semantic meaning of commits but may not reflect useful expert knowledge. Simple models and complex models seem complementary to each other to some extent. To utilize the advantages of both simple and complex models, we propose a model fusion framework that adopts both early fusions on the feature level and late fusions on the decision level. We propose SimCom++ by adopting the best early and late fusion strategies. The experimental results show that SimCom++ can significantly outperform the baselines by 5.7--26.9\%. In addition, our experimental results confirm that the simple model and complex model are complementary to each other.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# RobustSentEmbed: 対向的自己監督型コントラスト学習を用いたロバスト文埋め込み

RobustSentEmbed: Robust Sentence Embeddings Using Adversarial Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2403.11082v1 )

ライセンス: Link先を確認
Javad Rafiei Asl, Prajwal Panzade, Eduardo Blanco, Daniel Takabi, Zhipeng Cai, (参考訳) プレトレーニング言語モデル (PLM) は、様々な自然言語処理タスクにおいて、一貫して優れた性能を示してきた。 それでも、不明瞭なデータで成功したにもかかわらず、現在の PLM ベースの表現は、しばしば敵の設定において弱い堅牢性を示す。 本稿では,テキスト表現タスクの一般化とロバスト性を両立させる自己教師型文埋め込みフレームワークであるRobustSentEmbedを紹介する。 高リスク対向摂動の生成と新たな目的関数への利用を通じて、RobustSentEmbedは、高品質で堅牢な文の埋め込みを順応的に学習する。 我々の実験は、最先端の表現よりもRobustSentEmbedの方が優れていることを確認した。 具体的には, BERTAttack の成功率を約半分(75.51\%から38.81\%)に削減した。 このフレームワークは、セマンティックテキスト類似性タスクと様々な転送タスクにおいて、それぞれ 1.59 % と 0.23 % の改善も与えている。

Pre-trained language models (PLMs) have consistently demonstrated outstanding performance across a diverse spectrum of natural language processing tasks. Nevertheless, despite their success with unseen data, current PLM-based representations often exhibit poor robustness in adversarial settings. In this paper, we introduce RobustSentEmbed, a self-supervised sentence embedding framework designed to improve both generalization and robustness in diverse text representation tasks and against a diverse set of adversarial attacks. Through the generation of high-risk adversarial perturbations and their utilization in a novel objective function, RobustSentEmbed adeptly learns high-quality and robust sentence embeddings. Our experiments confirm the superiority of RobustSentEmbed over state-of-the-art representations. Specifically, Our framework achieves a significant reduction in the success rate of various adversarial attacks, notably reducing the BERTAttack success rate by almost half (from 75.51\% to 38.81\%). The framework also yields improvements of 1.59\% and 0.23\% in semantic textual similarity tasks and various transfer tasks, respectively.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# マルチモーダル異常検出・推論のための視覚言語基礎モデルのカスタマイズ

Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning ( http://arxiv.org/abs/2403.11083v1 )

ライセンス: Link先を確認
Xiaohao Xu, Yunkang Cao, Yongqi Chen, Weiming Shen, Xiaonan Huang, (参考訳) 異常検出は、製造ラインにおける異常パターンの同定や品質管理のための製造欠陥の検出など、様々な産業シナリオにおいて不可欠である。 既存の手法は個々のシナリオに特化しており、一般化能力に欠ける傾向がある。 本研究では,複数のシナリオに適用可能な汎用的異常検出モデルを開発することを目的とする。 これを実現するために,多種多様な知識と頑健な推論能力を有する汎用視覚言語基盤モデルを,異常検出器や推論器にカスタマイズする。 具体的には、エキスパートからのドメイン知識をモデルガイドの条件として組み込んだマルチモーダルプロンプト戦略を導入する。 本手法では,タスク記述,クラスコンテキスト,正規性規則,参照画像など,マルチモーダルなプロンプト型について検討する。 さらに、マルチモーダルの入力表現を2次元画像形式に統一し、マルチモーダルな異常検出と推論を可能にする。 予備研究により, 視覚と言語の組み合わせにより, 異常検出性能が向上することが実証された。 カスタマイズされたモデルには、イメージやポイントクラウドなど、さまざまなデータモダリティにわたる異常を検出する機能がある。 定性的なケーススタディは、特に多目的シーンや時間データにおいて、異常検出と推論能力をさらに強調する。 私たちのコードはhttps://github.com/Xiaohao-Xu/Customizable-VLMで公開されています。

Anomaly detection is vital in various industrial scenarios, including the identification of unusual patterns in production lines and the detection of manufacturing defects for quality control. Existing techniques tend to be specialized in individual scenarios and lack generalization capacities. In this study, we aim to develop a generic anomaly detection model applicable across multiple scenarios. To achieve this, we customize generic visual-language foundation models that possess extensive knowledge and robust reasoning abilities into anomaly detectors and reasoners. Specifically, we introduce a multi-modal prompting strategy that incorporates domain knowledge from experts as conditions to guide the models. Our approach considers multi-modal prompt types, including task descriptions, class context, normality rules, and reference images. In addition, we unify the input representation of multi-modality into a 2D image format, enabling multi-modal anomaly detection and reasoning. Our preliminary studies demonstrate that combining visual and language prompts as conditions for customizing the models enhances anomaly detection performance. The customized models showcase the ability to detect anomalies across different data modalities such as images and point clouds. Qualitative case studies further highlight the anomaly detection and reasoning capabilities, particularly for multi-object scenes and temporal data. Our code is available at https://github.com/Xiaohao-Xu/Customizable-VLM.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# m&m's: マルチステップマルチモーダルタスクのためのツール利用評価ベンチマーク

m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks ( http://arxiv.org/abs/2403.11085v1 )

ライセンス: Link先を確認
Zixian Ma, Weikai Huang, Jieyu Zhang, Tanmay Gupta, Ranjay Krishna, (参考訳) 実世界のマルチモーダル問題は、単一の機械学習モデルではほとんど解決されず、しばしば複数のモデルを縫合する多段階の計算計画を必要とする。 ツール拡張 LLM は、そのような計算計画の自動生成に非常に有望である。 しかし、マルチステップマルチモーダルタスクのプランナーとしてLLMを評価するための標準ベンチマークが欠如していることは、プランナー設計決定の体系的な研究を妨げている。 LLMは、ひとつのショットで完全なプランを生成するべきか、ステップバイステップで生成すべきか? ツールを直接PythonコードやJSONのような構造化データフォーマットで呼び出すべきか? フィードバックは計画を改善するか? マルチモーダルモデル、(無料)パブリックAPI、画像処理モジュールを含む33のツールを含む4K以上のマルチモーダルタスクを含むベンチマーク。 これら各タスククエリに対して、この現実的なツールセットを使用して自動生成されたプランを提供する。 我々はさらに,人間による検証と正確な実行が可能な,1,565のタスクプランの高品質なサブセットを提供する。 m&mでは,2つの計画戦略(複数ステップ対ステップバイステッププランニング),2つの計画形式(JSON対コード),3種類のフィードバック(パーシング/検証/実行)を備えた6つのLLMを評価した。 最後に、我々の広範な実験の要点を要約する。 私たちのデータセットとコードは、HuggingFace (https://huggingface.co/datasets/zixianma/mnms)とGithub (https://github.com/RAIVNLab/mnms)で利用可能です。

Real-world multi-modal problems are rarely solved by a single machine learning model, and often require multi-step computational plans that involve stitching several models. Tool-augmented LLMs hold tremendous promise for automating the generation of such computational plans. However, the lack of standardized benchmarks for evaluating LLMs as planners for multi-step multi-modal tasks has prevented a systematic study of planner design decisions. Should LLMs generate a full plan in a single shot or step-by-step? Should they invoke tools directly with Python code or through structured data formats like JSON? Does feedback improve planning? To answer these questions and more, we introduce m&m's: a benchmark containing 4K+ multi-step multi-modal tasks involving 33 tools that include multi-modal models, (free) public APIs, and image processing modules. For each of these task queries, we provide automatically generated plans using this realistic toolset. We further provide a high-quality subset of 1,565 task plans that are human-verified and correctly executable. With m&m's, we evaluate 6 popular LLMs with 2 planning strategies (multi-step vs. step-by-step planning), 2 plan formats (JSON vs. code), and 3 types of feedback (parsing/verification/execution). Finally, we summarize takeaways from our extensive experiments. Our dataset and code are available on HuggingFace (https://huggingface.co/datasets/zixianma/mnms) and Github (https://github.com/RAIVNLab/mnms).
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# グラフクラスタリングのための高次構造情報の導入

Incorporating Higher-order Structural Information for Graph Clustering ( http://arxiv.org/abs/2403.11087v1 )

ライセンス: Link先を確認
Qiankun Li, Haobing Liu, Ruobing Jiang, Tingting Wang, (参考訳) クラスタリングはデータマイニングにおいて重要な意味を持つ。 近年、グラフ畳み込みネットワーク(GCN)は、グラフ構造情報とノード属性の両方を統合する、ディープクラスタリングの強力なツールとして登場している。 しかし、既存のほとんどの手法はグラフの高次構造情報を無視する。 明らかに、同じクラスタ内のノードは、遠くの接続を確立することができる。 さらに、最近のディープクラスタリング手法は、通常、グラフ構造に注意を払わずにノード属性にのみ焦点をあてて、モデルのトレーニングプロセスを監視するために自己教師付きモジュールを適用します。 本稿では,グラフ構造情報を完全に活用する新しいグラフクラスタリングネットワークを提案する。 高階構造情報を取得するために,グラフレベルの表現とノードレベルの表現の相互情報を効果的に最大化するグラフ相互インフォマックスモジュールを設計し,モジュラリティを構造制約として含む3次自己教師付きモジュールを用いる。 提案手法は, 各種データセット上での最先端手法よりも優れ, その優位性を実証する。

Clustering holds profound significance in data mining. In recent years, graph convolutional network (GCN) has emerged as a powerful tool for deep clustering, integrating both graph structural information and node attributes. However, most existing methods ignore the higher-order structural information of the graph. Evidently, nodes within the same cluster can establish distant connections. Besides, recent deep clustering methods usually apply a self-supervised module to monitor the training process of their model, focusing solely on node attributes without paying attention to graph structure. In this paper, we propose a novel graph clustering network to make full use of graph structural information. To capture the higher-order structural information, we design a graph mutual infomax module, effectively maximizing mutual information between graph-level and node-level representations, and employ a trinary self-supervised module that includes modularity as a structural constraint. Our proposed model outperforms many state-of-the-art methods on various datasets, demonstrating its superiority.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# 微分プライバシーのためのプログラミングフレームワーク

Programming Frameworks for Differential Privacy ( http://arxiv.org/abs/2403.11088v1 )

ライセンス: Link先を確認
Marco Gaboardi, Michael Hay, Salil Vadhan, (参考訳) 多くのプログラミングフレームワークが、微分プライベートなソフトウェアアプリケーションの開発をサポートするために導入された。 本章では,これらのフレームワークの基礎となる概念のいくつかを,実践者と研究者の両方にとって有用な方法で調査する。 実践者にとって、この調査は、プログラミングフレームワークを選択するときにどんな機能が価値のあるのかを理解するための出発点を提供することができる。 研究者にとってこれは、既存の作業を統一的に整理し、将来のフレームワークで新機能を理解するためのコンテキストを提供するのに役立つ。

Many programming frameworks have been introduced to support the development of differentially private software applications. In this chapter, we survey some of the conceptual ideas underlying these frameworks in a way that we hope will be helpful for both practitioners and researchers. For practitioners, the survey can provide a starting point for understanding what features may be valuable when selecting a programming framework. For researchers, it can help organize existing work in a unified way and provide context for understanding new features in future frameworks.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# Brain-on-Switch: NN駆動トラフィック分析による高機能インテリジェントネットワークデータプレーンの実現に向けて

Brain-on-Switch: Towards Advanced Intelligent Network Data Plane via NN-Driven Traffic Analysis at Line-Speed ( http://arxiv.org/abs/2403.11090v1 )

ライセンス: Link先を確認
Jinzhu Yan, Haotian Xu, Zhuotao Liu, Qi Li, Ke Xu, Mingwei Xu, Jianping Wu, (参考訳) 新たなプログラマブルネットワークは、ラインスピードで学習に基づくトラフィック分析を実現するインテリジェントネットワークデータプレーン(INDP)に大きな研究を巻き起こした。 INDPの以前の技術は、データプレーンにツリー/フォレストモデルをデプロイすることに焦点を当てていた。 データプレーン上でさらに大きなツリー/フォレストテーブルを表現可能であるが、データプレーン上で計算可能なフロー特徴は、ハードウェアの制約によって根本的に制限されている。 本稿では,ニューラルネットワーク(NN)によるトラフィック解析を回線速度で実現することにより,INDPの境界を推し進めるため,BoSを提案する。 逐次データを扱うように設計されたNN(リカレントニューラルネットワーク(RNN)やトランスフォーマー)は、木ベースのモデルよりも利点がある。 しかし、RNN推論で使用される繰り返し計算方式は、ネットワークデータプレーンで使用されるマッチング処理のパラダイムと根本的に異なる。 BoSはこの課題に対処する 一 限られたデータ平面段数で無制限にRNNタイムステップを実行でき、線速RNN推論を効果的に実現できる新しいデータ平面フレンドリなRNNアーキテクチャを設計すること。 (2) オンスウィッチRNNモデルをオフスウィッチトランスフォーマーベースのトラフィック解析モジュールで補完することにより、全体的な性能をさらに向上する。 データプレーンとしてP4プログラマブルスイッチを用いて,BoSのプロトタイプを実装し,複数のトラフィック解析タスクに対して広範囲に評価する。 以上の結果から,BoSは解析精度とスケーラビリティの両方において最先端であることがわかった。

The emerging programmable networks sparked significant research on Intelligent Network Data Plane (INDP), which achieves learning-based traffic analysis at line-speed. Prior art in INDP focus on deploying tree/forest models on the data plane. We observe a fundamental limitation in tree-based INDP approaches: although it is possible to represent even larger tree/forest tables on the data plane, the flow features that are computable on the data plane are fundamentally limited by hardware constraints. In this paper, we present BoS to push the boundaries of INDP by enabling Neural Network (NN) driven traffic analysis at line-speed. Many types of NNs (such as Recurrent Neural Network (RNN), and transformers) that are designed to work with sequential data have advantages over tree-based models, because they can take raw network data as input without complex feature computations on the fly. However, the challenge is significant: the recurrent computation scheme used in RNN inference is fundamentally different from the match-action paradigm used on the network data plane. BoS addresses this challenge by (i) designing a novel data plane friendly RNN architecture that can execute unlimited RNN time steps with limited data plane stages, effectively achieving line-speed RNN inference; and (ii) complementing the on-switch RNN model with an off-switch transformer-based traffic analysis module to further boost the overall performance. We implement a prototype of BoS using a P4 programmable switch as our data plane, and extensively evaluate it over multiple traffic analysis tasks. The results show that BoS outperforms state-of-the-art in both analysis accuracy and scalability.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# 数ショット音声イベント検出のためのマルチタスクフレームレベル学習

Multitask frame-level learning for few-shot sound event detection ( http://arxiv.org/abs/2403.11091v1 )

ライセンス: Link先を確認
Liang Zou, Genwei Yan, Ruoyu Wang, Jun Du, Meng Lei, Tian Gao, Xin Fang, (参考訳) 本稿では,限られたサンプルを用いて音声イベントを自動的に認識・分類することを目的とした音声イベント検出(SED)について述べる。 しかし、SEDの一般的な手法はセグメントレベルの予測に大きく依存しており、特に短い期間のイベントにおいて、詳細できめ細かい予測を提供することが多い。 これらの制限を克服するためにフレームレベルの予測戦略が提案されているが、これらの戦略は通常、背景雑音による予測乱れによる困難に直面している。 この問題を軽減するために,我々は,革新的なマルチタスクフレームレベルのSEDフレームワークを導入する。 さらに,データ拡張のための線形タイミングマスクであるTimeFilterAugを導入し,各種音響環境に対するモデルの堅牢性と適応性を向上させる。 提案手法はFスコアの63.8%を達成し,2023年の音響シーン・イベント・チャレンジの検出・分類におけるバイオ音響事象検出カテゴリーにおいて,第1位を確保した。

This paper focuses on few-shot Sound Event Detection (SED), which aims to automatically recognize and classify sound events with limited samples. However, prevailing methods methods in few-shot SED predominantly rely on segment-level predictions, which often providing detailed, fine-grained predictions, particularly for events of brief duration. Although frame-level prediction strategies have been proposed to overcome these limitations, these strategies commonly face difficulties with prediction truncation caused by background noise. To alleviate this issue, we introduces an innovative multitask frame-level SED framework. In addition, we introduce TimeFilterAug, a linear timing mask for data augmentation, to increase the model's robustness and adaptability to diverse acoustic environments. The proposed method achieves a F-score of 63.8%, securing the 1st rank in the few-shot bioacoustic event detection category of the Detection and Classification of Acoustic Scenes and Events Challenge 2023.
翻訳日:2024-03-19 20:17:05 公開日:2024-03-17
# 翻訳における損失 : 翻訳誤りと多言語概念に基づくテキスト・画像モデルの評価への挑戦

Lost in Translation? Translation Errors and Challenges for Fair Assessment of Text-to-Image Models on Multilingual Concepts ( http://arxiv.org/abs/2403.11092v1 )

ライセンス: Link先を確認
Michael Saxon, Yiran Luo, Sharon Levy, Chitta Baral, Yezhou Yang, William Yang Wang, (参考訳) テキスト・トゥ・イメージ(T2I)モデルの多言語機能のベンチマークは、テスト言語で生成された画像と概念集合上の期待画像分布を比較した。 このようなベンチマークの一つである"Conceptual Coverage Across Languages" (CoCo-CroLa)は、7つの言語に翻訳された概念リストから画像を生成し、出力された画像群を比較することで、T2Iモデルの具体的な名詞の在庫を評価する。 残念ながら、このベンチマークにはスペイン語、日本語、中国語の様々な重大度の翻訳誤りが含まれている。 これらのエラーを補正し、ベンチマークとしてCoCo-CroLaの有用性と妥当性にどれほど影響があるか分析する。 我々は,複数のベースラインT2Iモデルをリビジョンで再評価し,新しい翻訳で得られた出力と古い条件付き出力とを比較し,画像領域のベンチマーク結果に対する補正効果を類似度スコア付きテキスト領域で予測可能であることを示す。 本研究は,T2I多言語性指標の今後の発展を導くために,実用的な翻訳決定のための分析ツールを提供することにより,その発展を導くものである。

Benchmarks of the multilingual capabilities of text-to-image (T2I) models compare generated images prompted in a test language to an expected image distribution over a concept set. One such benchmark, "Conceptual Coverage Across Languages" (CoCo-CroLa), assesses the tangible noun inventory of T2I models by prompting them to generate pictures from a concept list translated to seven languages and comparing the output image populations. Unfortunately, we find that this benchmark contains translation errors of varying severity in Spanish, Japanese, and Chinese. We provide corrections for these errors and analyze how impactful they are on the utility and validity of CoCo-CroLa as a benchmark. We reassess multiple baseline T2I models with the revisions, compare the outputs elicited under the new translations to those conditioned on the old, and show that a correction's impactfulness on the image-domain benchmark results can be predicted in the text domain with similarity scores. Our findings will guide the future development of T2I multilinguality metrics by providing analytical tools for practical translation decisions.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# 2段階のキューに対する学習ベース価格とマッチング

Learning-Based Pricing and Matching for Two-Sided Queues ( http://arxiv.org/abs/2403.11093v1 )

ライセンス: Link先を確認
Zixian Yang, Lei Ying, (参考訳) 複数のタイプの顧客とサーバを持つ動的システムについて検討する。 待機している顧客またはサーバのそれぞれが別々のキューに参加し、カスタマ側キューとサーバ側キューの2部グラフを形成する。 このプラットフォームは、タイプが互換性がある場合、サーバと顧客にマッチする。 マッチしたペアがシステムを離れる。 プラットフォームは、到着時にタイプに応じて料金を課金し、タイプに応じてサーバに料金を支払う。 各キューの到着率は、未知の需要や供給機能に応じて価格によって決定される。 我々のゴールは、顧客とサーバのキューの長さを所定の閾値以下に保ちながら、要求と供給機能の不明なプラットフォーム利益を最大化するために、価格とマッチングアルゴリズムを設計することである。 このシステムは、乗客やドライバーとの乗り合い市場のような、両側の市場をモデル化するのに使用することができる。 問題の難点は、同時学習と意思決定、利益の最大化と待ち行列の長さの最小化とのトレードオフである。 提案手法は,2項探索と2項探索とを併用した,最長待ち行列マッチングアルゴリズムと学習に基づく価格決定アルゴリズムである。 提案アルゴリズムはサブ線形後悔$\tilde{O}(T^{5/6})$とキュー長境界$\tilde{O}(T^{2/3})$を出力する。 さらに、後悔境界と待ち行列長境界の間のトレードオフを確立する:$\tilde{O}(T^{1-\gamma/4})$対$\tilde{O}(T^{\gamma})$ for $\gamma \in (0, 2/3]。 $

We consider a dynamic system with multiple types of customers and servers. Each type of waiting customer or server joins a separate queue, forming a bipartite graph with customer-side queues and server-side queues. The platform can match the servers and customers if their types are compatible. The matched pairs then leave the system. The platform will charge a customer a price according to their type when they arrive and will pay a server a price according to their type. The arrival rate of each queue is determined by the price according to some unknown demand or supply functions. Our goal is to design pricing and matching algorithms to maximize the profit of the platform with unknown demand and supply functions, while keeping queue lengths of both customers and servers below a predetermined threshold. This system can be used to model two-sided markets such as ride-sharing markets with passengers and drivers. The difficulties of the problem include simultaneous learning and decision making, and the tradeoff between maximizing profit and minimizing queue length. We use a longest-queue-first matching algorithm and propose a learning-based pricing algorithm, which combines gradient-free stochastic projected gradient ascent with bisection search. We prove that our proposed algorithm yields a sublinear regret $\tilde{O}(T^{5/6})$ and queue-length bound $\tilde{O}(T^{2/3})$, where $T$ is the time horizon. We further establish a tradeoff between the regret bound and the queue-length bound: $\tilde{O}(T^{1-\gamma/4})$ versus $\tilde{O}(T^{\gamma})$ for $\gamma \in (0, 2/3].$
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# Pruned Recurrent Neural Network Layersのグラフ拡張による性能向上

Graph Expansion in Pruned Recurrent Neural Network Layers Preserve Performance ( http://arxiv.org/abs/2403.11100v1 )

ライセンス: Link先を確認
Suryam Arnav Kalra, Arindam Biswas, Pabitra Mitra, Biswajit Basu, (参考訳) グラフの拡張性は、その強い接続性とスパース性を意味する。 ディープニューラルネットワークは、その性能を維持しながら、高い間隔でプルーニング可能であることが報告されている。 このようなプルーニングは、リソース制約のあるプラットフォームにおけるリカレントニューラルネットワークを用いたリアルタイムシーケンス学習タスクの実行に不可欠である。 我々は RNN や LSTM などの再帰的ネットワークを創り出し、基礎となるグラフのスペクトルギャップを大きく維持し、それらの層状展開特性を確実にする。 また、2部層の性質の観点から、時間展開された再帰的ネットワークグラフについても検討する。 ベンチマークシーケンスMNIST, CIFAR-10, Google音声コマンドデータの実験結果から, RNNとLSTMの分類精度を維持するために, 拡張グラフ特性が重要であることが示された。

Expansion property of a graph refers to its strong connectivity as well as sparseness. It has been reported that deep neural networks can be pruned to a high degree of sparsity while maintaining their performance. Such pruning is essential for performing real time sequence learning tasks using recurrent neural networks in resource constrained platforms. We prune recurrent networks such as RNNs and LSTMs, maintaining a large spectral gap of the underlying graphs and ensuring their layerwise expansion properties. We also study the time unfolded recurrent network graphs in terms of the properties of their bipartite layers. Experimental results for the benchmark sequence MNIST, CIFAR-10, and Google speech command data show that expander graph properties are key to preserving classification accuracy of RNN and LSTM.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# 顔形態形成攻撃のための階層的生成ネットワーク

Hierarchical Generative Network for Face Morphing Attacks ( http://arxiv.org/abs/2403.11101v1 )

ライセンス: Link先を確認
Zuyuan He, Zongyong Deng, Qiaoyun He, Qijun Zhao, (参考訳) 顔認識システム(FRS)は、複数のアイデンティティを含む形態画像を作成することで、顔認識システム(FRS)を回避している。 しかし、既存の顔形態攻撃手法は画像品質を犠牲にするか、アイデンティティ保存能力を損なうかのいずれかである。 その結果、これらの攻撃は、人間のオブザーバーを欺くために管理しながら、FRSの検証を十分に回避することができない。 これらの手法は一般的に、効果的な顔領域の詳細な情報を無視して、画像の貢献によるグローバルな情報に依存している。 以上の課題に対処するため,画像の質を向上し,寄与するアイデンティティをよりよく保存する新しいモーフィング攻撃法を提案する。 提案手法は階層型生成ネットワークを利用して,局所的な詳細情報とグローバルな整合性情報の両方をキャプチャする。 さらに、マスク誘導画像ブレンディングモジュールは、顔の外の領域からアーティファクトを除去し、画像の視覚的品質を改善する。 提案手法は, FRSの脆弱性, 攻撃検出性, 画像品質の観点から, 3つの公開データセットの最先端手法と比較する。 以上の結果から,本手法はマルチモーフィング攻撃検出(MAD)シナリオをパスしつつ,FRSを無効にするという潜在的な脅威を示す。

Face morphing attacks circumvent face recognition systems (FRSs) by creating a morphed image that contains multiple identities. However, existing face morphing attack methods either sacrifice image quality or compromise the identity preservation capability. Consequently, these attacks fail to bypass FRSs verification well while still managing to deceive human observers. These methods typically rely on global information from contributing images, ignoring the detailed information from effective facial regions. To address the above issues, we propose a novel morphing attack method to improve the quality of morphed images and better preserve the contributing identities. Our proposed method leverages the hierarchical generative network to capture both local detailed and global consistency information. Additionally, a mask-guided image blending module is dedicated to removing artifacts from areas outside the face to improve the image's visual quality. The proposed attack method is compared to state-of-the-art methods on three public datasets in terms of FRSs' vulnerability, attack detectability, and image quality. The results show our method's potential threat of deceiving FRSs while being capable of passing multiple morphing attack detection (MAD) scenarios.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# ProgGen: 自己回帰型大言語モデルを用いて、名前付きエンティティ認識データセットを段階的に生成する

ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models ( http://arxiv.org/abs/2403.11103v1 )

ライセンス: Link先を確認
Yuzhao Heng, Chunyuan Deng, Yitong Li, Yue Yu, Yinghao Li, Rongzhi Zhang, Chao Zhang, (参考訳) 大規模言語モデル(LLM)はドメイン間で顕著な適応性を示すが、これらのモデルは名前付きエンティティ認識(NER)のような構造化された知識抽出タスクにおいて不足することが多い。 本稿では,より優れたNERデータセットを生成するため,LCMを質素なNER能力で活用するための革新的で費用効率のよい戦略について検討する。 提案手法は, LLMを特定のドメイン上で自己表現するように指示することで, 属性に富んだ学習データを作成するためのドメイン関連属性(映画レビューのカテゴリや感情など)を生成することによって, 基本的なクラス条件のプロンプトから分岐する。 さらに, 先行してエンティティ項を生成し, これらのエンティティを囲むNERコンテキストデータを作成し, 複雑な構造を持つLLMの課題を効果的に回避する。 一般領域とニッチ領域の両方にわたる実験により、従来のデータ生成手法よりも性能が大幅に向上する一方で、既存の代替手段よりもコスト効率が高いことが判明した。

Although Large Language Models (LLMs) exhibit remarkable adaptability across domains, these models often fall short in structured knowledge extraction tasks such as named entity recognition (NER). This paper explores an innovative, cost-efficient strategy to harness LLMs with modest NER capabilities for producing superior NER datasets. Our approach diverges from the basic class-conditional prompts by instructing LLMs to self-reflect on the specific domain, thereby generating domain-relevant attributes (such as category and emotions for movie reviews), which are utilized for creating attribute-rich training data. Furthermore, we preemptively generate entity terms and then develop NER context data around these entities, effectively bypassing the LLMs' challenges with complex structures. Our experiments across both general and niche domains reveal significant performance enhancements over conventional data generation methods while being more cost-effective than existing alternatives.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# 拡散モデルによる画像編集性向上のためのソース・プロンプト・アンタングル・インバージョン

Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models ( http://arxiv.org/abs/2403.11105v1 )

ライセンス: Link先を確認
Ruibin Li, Ruihuang Li, Song Guo, Lei Zhang, (参考訳) テキスト駆動拡散モデルでは、テキストプロンプトを入力として使用することにより、画像編集性能が大幅に向上した。 テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。 従来の手法では画像合成プロセスのリファクタリングによって有望な結果が得られたが、逆潜時雑音符号はソースプロンプトと密結合され、ターゲットテキストプロンプトによる画像編集性が制限される。 そこで本研究では,ソースプロンプトの影響を低減し,拡散モデルを用いてテキスト駆動画像編集性能を向上させることを目的とした,ソース・プロンプト・ディスタングル・インバージョン(SPDInv)と呼ばれる新しい手法を提案する。 インバータ型ノイズコードを与えられたソースプロンプトから可能な限り独立にするためには、反復的逆転処理が固定点制約を満たすべきであることを示す。 その結果, インバージョン問題を探索問題に変換し, 定点解を求めるとともに, 事前学習した拡散モデルを用いて探索プロセスを容易にする。 実験の結果,提案手法は,対象の編集プロンプトとソースプロンプトとの衝突を効果的に軽減し,編集アーティファクトの大幅な減少を図っている。 テキスト駆動画像編集に加えて、SPDInvにより、ローカル化された編集タスクにカスタマイズされた画像生成モデルを適応し、有望なパフォーマンスを実現することができる。 ソースコードはhttps://github.com/leeruibin/SPDInv.comで入手できる。

Text-driven diffusion models have significantly advanced the image editing performance by using text prompts as inputs. One crucial step in text-driven image editing is to invert the original image into a latent noise code conditioned on the source prompt. While previous methods have achieved promising results by refactoring the image synthesizing process, the inverted latent noise code is tightly coupled with the source prompt, limiting the image editability by target text prompts. To address this issue, we propose a novel method called Source Prompt Disentangled Inversion (SPDInv), which aims at reducing the impact of source prompt, thereby enhancing the text-driven image editing performance by employing diffusion models. To make the inverted noise code be independent of the given source prompt as much as possible, we indicate that the iterative inversion process should satisfy a fixed-point constraint. Consequently, we transform the inversion problem into a searching problem to find the fixed-point solution, and utilize the pre-trained diffusion models to facilitate the searching process. The experimental results show that our proposed SPDInv method can effectively mitigate the conflicts between the target editing prompt and the source prompt, leading to a significant decrease in editing artifacts. In addition to text-driven image editing, with SPDInv we can easily adapt customized image generation models to localized editing tasks and produce promising performance. The source code are available at https://github.com/leeruibin/SPDInv.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# 自己監督型量子化-知識蒸留

Self-Supervised Quantization-Aware Knowledge Distillation ( http://arxiv.org/abs/2403.11106v1 )

ライセンス: Link先を確認
Kaiqi Zhao, Ming Zhao, (参考訳) QAT(Quantization-Aware Training)とKD(Knowledge Distillation)を組み合わせることで、低ビット深層学習モデルを作成する上での競争的なパフォーマンスを実現する。 しかしながら、KDをQATに適用する既存の研究は、異なる損失項の重みのバランスをとるために退屈なハイパーパラメータチューニングを必要とし、ラベル付きトレーニングデータの可用性を仮定し、優れたパフォーマンスのために複雑で計算集約的なトレーニング手順を必要とする。 これらの制約に対処するため,本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation)フレームワークを提案する。 SQAKDはまず、様々な量子化関数の前方と後方のダイナミクスを統一し、様々なQAT処理を組み込むのに柔軟である。 次に、QATを共最適化問題として定式化し、KDの完全精度と低ビットモデルのKL-ロスと量子化の離散化誤差をラベルの監督なしに同時に最小化する。 包括的な評価では、SQAKDは最先端のQATやKDよりも大幅に優れており、様々なモデルアーキテクチャで機能している。 私たちのコードは以下の通りです。

Quantization-aware training (QAT) and Knowledge Distillation (KD) are combined to achieve competitive performance in creating low-bit deep learning models. However, existing works applying KD to QAT require tedious hyper-parameter tuning to balance the weights of different loss terms, assume the availability of labeled training data, and require complex, computationally intensive training procedures for good performance. To address these limitations, this paper proposes a novel Self-Supervised Quantization-Aware Knowledge Distillation (SQAKD) framework. SQAKD first unifies the forward and backward dynamics of various quantization functions, making it flexible for incorporating various QAT works. Then it formulates QAT as a co-optimization problem that simultaneously minimizes the KL-Loss between the full-precision and low-bit models for KD and the discretization error for quantization, without supervision from labels. A comprehensive evaluation shows that SQAKD substantially outperforms the state-of-the-art QAT and KD works for a variety of model architectures. Our code is at: https://github.com/kaiqi123/SQAKD.git.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# 複数スケールにおける特徴対応による自己教師付き協調物体検出

Self-supervised co-salient object detection via feature correspondence at multiple scales ( http://arxiv.org/abs/2403.11107v1 )

ライセンス: Link先を確認
Souradeep Chakraborty, Dimitris Samaras, (参考訳) そこで本稿では,画像群における2段階の自己教師型アプローチを用いて,セグメンテーションアノテーションを必要とせず,共起サラリアンオブジェクト(CoSOD)を検出する手法を提案する。 パッチレベルの情報(例えばクラスタリングパッチ記述子)やCoSODの重いオフザシェルフコンポーネントにのみ依存する既存の教師なし手法とは異なり、我々の軽量モデルはパッチレベルとリージョンレベルの特徴対応を活用し、予測性能を大幅に向上させる。 第1段階では、画像間の局所パッチレベルの特徴対応を計算し、コサレント領域を検出する自己教師ネットワークを訓練する。 信頼度に基づくアダプティブしきい値を用いたセグメンテーション予測を行う。 次の段階では、各画像から検出された領域(各画像を含む)を排除し、これらの中間区分けを洗練し、平均された特徴表現は、すべての横断的地図(前段から)で平均化された前景の特徴表現と相違する。 3つのCoSODベンチマークデータセットに対する大規模な実験により、我々の自己教師型モデルは、対応する最先端モデルよりも大きなマージンで優れていることが示されている(例えば、CoCAデータセットでは、私たちのモデルはSOTA非教師型CoSODモデルよりも13.7%のF測定得ている)。 特に、我々の自己監督モデルは、3つのテストデータセット(例えば、CoCAデータセットでは、我々のモデルは、最近の教師付きCoSODモデルよりも4.6%のF測定ゲインを持つ)で、最近完全に教師付きCoSODモデルよりも優れています。

Our paper introduces a novel two-stage self-supervised approach for detecting co-occurring salient objects (CoSOD) in image groups without requiring segmentation annotations. Unlike existing unsupervised methods that rely solely on patch-level information (e.g. clustering patch descriptors) or on computation heavy off-the-shelf components for CoSOD, our lightweight model leverages feature correspondences at both patch and region levels, significantly improving prediction performance. In the first stage, we train a self-supervised network that detects co-salient regions by computing local patch-level feature correspondences across images. We obtain the segmentation predictions using confidence-based adaptive thresholding. In the next stage, we refine these intermediate segmentations by eliminating the detected regions (within each image) whose averaged feature representations are dissimilar to the foreground feature representation averaged across all the cross-attention maps (from the previous stage). Extensive experiments on three CoSOD benchmark datasets show that our self-supervised model outperforms the corresponding state-of-the-art models by a huge margin (e.g. on the CoCA dataset, our model has a 13.7% F-measure gain over the SOTA unsupervised CoSOD model). Notably, our self-supervised model also outperforms several recent fully supervised CoSOD models on the three test datasets (e.g., on the CoCA dataset, our model has a 4.6% F-measure gain over a recent supervised CoSOD model).
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# HarmPot:ソーシャルメディアテキストのオフラインハームポテンシャル評価のためのアノテーションフレームワーク

HarmPot: An Annotation Framework for Evaluating Offline Harm Potential of Social Media Text ( http://arxiv.org/abs/2403.11108v1 )

ライセンス: Link先を確認
Ritesh Kumar, Ojaswee Bhalla, Madhu Vanthi, Shehlat Maknoon Wani, Siddharth Singh, (参考訳) 本稿では、ソーシャルメディアテキストのオフライン害可能性を評価するためのデータセットを構築するためのアノテーションスキーマの開発について論じる。 我々は「ハームポテンシャル」を、現実世界の物理的損害(すなわち暴力)を引き起こすオンラインの公共のポストの可能性を定義している。 現実の暴力は、しばしば引き金の網によって引き起こされるものであり、しばしば、いくつかのオンライン戦術と、社会的ミリューにおける既存の交差点の裂け目を組み合わせて、標的となる身体的暴力をもたらすこと、そして、我々は、単一の分裂的な側面(すなわち、キャスト、性別、宗教、その他の被害者や加害者のアイデンティティ)に焦点を当てたり、単に憎しみの言葉や誤報だけに焦点を当てたりしない、ということを理解する。 むしろ、このような引き金の交叉原因に対する我々の理解は、憎悪の有無にかかわらず、オンラインコンテンツの有害性を測定することに焦点を当てている。 本稿では,社会政治的根拠や話者の意図(ムードやモダリティなどで表されるように)を含むテキストの異なる側面でアノテートできるフレームワーク/アノテーションスキーマの開発について論じる。 また、既存のフレームワークと比較分析とマッピングも行います。

In this paper, we discuss the development of an annotation schema to build datasets for evaluating the offline harm potential of social media texts. We define "harm potential" as the potential for an online public post to cause real-world physical harm (i.e., violence). Understanding that real-world violence is often spurred by a web of triggers, often combining several online tactics and pre-existing intersectional fissures in the social milieu, to result in targeted physical violence, we do not focus on any single divisive aspect (i.e., caste, gender, religion, or other identities of the victim and perpetrators) nor do we focus on just hate speech or mis/dis-information. Rather, our understanding of the intersectional causes of such triggers focuses our attempt at measuring the harm potential of online content, irrespective of whether it is hateful or not. In this paper, we discuss the development of a framework/annotation schema that allows annotating the data with different aspects of the text including its socio-political grounding and intent of the speaker (as expressed through mood and modality) that together contribute to it being a trigger for offline harm. We also give a comparative analysis and mapping of our framework with some of the existing frameworks.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# 生成モデルを用いた人工データを用いた野生の3次元復元

3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models ( http://arxiv.org/abs/2403.11111v1 )

ライセンス: Link先を確認
Yongtao Ge, Wenjia Wang, Yongfan Chen, Hao Chen, Chunhua Shen, (参考訳) 本研究では,生成モデルで生成した合成データがコンピュータグラフィックス(CG)レンダリングデータと相補的であることを示し,多種多様な実世界のシーンにおける3次元ポーズと形状推定(HPS)の顕著な一般化性能を実現する。 具体的には,HumanWildと呼ばれる最近の拡散モデルに基づく効果的なアプローチを提案する。 まず、包括的なアノテーション、テキストキャプション、表面の正常画像を含む大規模な人間中心のデータセットを収集する。 そして、このデータセットに基づいてカスタマイズされたControlNetモデルをトレーニングし、多様な人体画像と初期接地木ラベルを生成する。 このステップの核となるのは、3次元メッシュを画像平面上にレンダリングすることで、3次元の人体パラメトリックモデル(例えば、SMPL-X)から多数の表面正規画像を容易に取得できることである。 初期ラベルには避けられないノイズが存在するので、負のデータサンプルをフィルタするために、既成の基礎セグメンテーションモデル(SAM)を適用する。 私たちのデータ生成パイプラインは柔軟でカスタマイズ可能で、例えば、エゴ中心のシーンや視点歪みのシーンなど、さまざまな現実世界のタスクを容易にします。 生成されたデータセットは、対応する3Dアノテーションを備えた0.79万の画像で構成され、万能な視点、シーン、人間のアイデンティティをカバーする。 我々は、生成されたデータの上に様々なHPS回帰器をトレーニングし、それらを広範囲のベンチマーク(DPW, RICH, EgoBody, AGORA, SSP-3D)で評価し、生成されたデータの有効性を検証する。 生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。

In this work, we show that synthetic data created by generative models is complementary to computer graphics (CG) rendered data for achieving remarkable generalization performance on diverse real-world scenes for 3D human pose and shape estimation (HPS). Specifically, we propose an effective approach based on recent diffusion models, termed HumanWild, which can effortlessly generate human images and corresponding 3D mesh annotations. We first collect a large-scale human-centric dataset with comprehensive annotations, e.g., text captions and surface normal images. Then, we train a customized ControlNet model upon this dataset to generate diverse human images and initial ground-truth labels. At the core of this step is that we can easily obtain numerous surface normal images from a 3D human parametric model, e.g., SMPL-X, by rendering the 3D mesh onto the image plane. As there exists inevitable noise in the initial labels, we then apply an off-the-shelf foundation segmentation model, i.e., SAM, to filter negative data samples. Our data generation pipeline is flexible and customizable to facilitate different real-world tasks, e.g., ego-centric scenes and perspective-distortion scenes. The generated dataset comprises 0.79M images with corresponding 3D annotations, covering versatile viewpoints, scenes, and human identities. We train various HPS regressors on top of the generated data and evaluate them on a wide range of benchmarks (3DPW, RICH, EgoBody, AGORA, SSP-3D) to verify the effectiveness of the generated data. By exclusively employing generative models, we generate large-scale in-the-wild human images and high-quality annotations, eliminating the need for real-world data collection.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# 回転不変点雲解析のための局所一貫性変換学習

Local-consistent Transformation Learning for Rotation-invariant Point Cloud Analysis ( http://arxiv.org/abs/2403.11113v1 )

ライセンス: Link先を確認
Yiyang Chen, Lunhao Duan, Shanshan Zhao, Changxing Ding, Dacheng Tao, (参考訳) 回転不変性は点形状解析の重要な要件である。 これを実現するために、現在の最先端手法は、局所参照フレーム(LRF)を学習または定義することで局所回転不変表現を構築しようとする。 効率的ではあるが、これらのLRFベースの手法は局所幾何学的関係の摂動に悩まされ、最適準局所回転不変性が生じる。 この問題を軽減するために,ローカル一貫性変換(LocoTrans)学習戦略を提案する。 具体的には、まず、LRFにおける2つの軸の対称性を考慮し、局所一貫性参照フレーム(LCRF)を構築する。 LCRFは, 従来のLRFと比較して, 局所整合変換を行うことにより, 局所的幾何学的関係をよりよく保存することができる。 しかし、一貫性は局所的にのみ存在するため、ネットワークの中間層では相対的なポーズ情報が失われる。 我々は、相対的なポーズ回復(RPR)モジュールを開発することで、そのような相対的なポーズ問題を緩和する。 RPRは、隣接する変換パッチ間の相対的なポーズを復元することを目的としている。 LCRFとRPRが組み合わさったLocoTransは、局所一貫性の変換を学習し、局所幾何学を保存することができ、回転不変性学習の恩恵を受けることができる。 形状分類と部分分割タスクとアブレーションの両方における任意回転時の競合性能は,本手法の有効性を示すことができる。 コードはhttps://github.com/wdttt/LocoTransで公開されている。

Rotation invariance is an important requirement for point shape analysis. To achieve this, current state-of-the-art methods attempt to construct the local rotation-invariant representation through learning or defining the local reference frame (LRF). Although efficient, these LRF-based methods suffer from perturbation of local geometric relations, resulting in suboptimal local rotation invariance. To alleviate this issue, we propose a Local-consistent Transformation (LocoTrans) learning strategy. Specifically, we first construct the local-consistent reference frame (LCRF) by considering the symmetry of the two axes in LRF. In comparison with previous LRFs, our LCRF is able to preserve local geometric relationships better through performing local-consistent transformation. However, as the consistency only exists in local regions, the relative pose information is still lost in the intermediate layers of the network. We mitigate such a relative pose issue by developing a relative pose recovery (RPR) module. RPR aims to restore the relative pose between adjacent transformed patches. Equipped with LCRF and RPR, our LocoTrans is capable of learning local-consistent transformation and preserving local geometry, which benefits rotation invariance learning. Competitive performance under arbitrary rotations on both shape classification and part segmentation tasks and ablations can demonstrate the effectiveness of our method. Code will be available publicly at https://github.com/wdttt/LocoTrans.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# 人口ベース強化学習のためのファシック多様性最適化

Phasic Diversity Optimization for Population-Based Reinforcement Learning ( http://arxiv.org/abs/2403.11114v1 )

ライセンス: Link先を確認
Jingcheng Jiang, Haiyin Piao, Yu Fu, Yihang Hao, Chuanlu Jiang, Ziqi Wei, Xin Yang, (参考訳) 多様性強化学習のこれまでの成果を概観すると、多様性は報酬と多様性のバランスを必要とする拡張損失関数によって得られることが多い。 しかし,MABに対する報酬信号の動的分布や品質と多様性の相違は,これらの手法の性能を制限している。 我々は,多目的関数を最適化する代わりに,報酬と多様性のトレーニングを異なるフェーズに分離する,人口ベーストレーニングフレームワークであるPhasic Diversity Optimization (PDO)アルゴリズムを導入する。 補助的なフェーズでは、性能の悪いエージェントは、決定要因によって多様化し、アーカイブ内のより良いエージェントを置き換えることはない。 報酬と多様性の分離により、性能劣化を伴わずに補助的なフェーズで積極的な多様性最適化を行うことができる。 さらに,PDOアルゴリズムの実用性を実証するために,航空エージェントのためのドッグファイトシナリオを構築した。 本稿では, PDOアーカイブの2つの実装を紹介し, 新たに提案した対戦型ドッグファイトと MuJoCo シミュレーションにおける実行試験について述べる。 その結果,提案アルゴリズムはベースラインよりも性能がよいことがわかった。

Reviewing the previous work of diversity Rein-forcement Learning,diversity is often obtained via an augmented loss function,which requires a balance between reward and diversity.Generally,diversity optimization algorithms use Multi-armed Bandits algorithms to select the coefficient in the pre-defined space. However, the dynamic distribution of reward signals for MABs or the conflict between quality and diversity limits the performance of these methods. We introduce the Phasic Diversity Optimization (PDO) algorithm, a Population-Based Training framework that separates reward and diversity training into distinct phases instead of optimizing a multi-objective function. In the auxiliary phase, agents with poor performance diversified via determinants will not replace the better agents in the archive. The decoupling of reward and diversity allows us to use an aggressive diversity optimization in the auxiliary phase without performance degradation. Furthermore, we construct a dogfight scenario for aerial agents to demonstrate the practicality of the PDO algorithm. We introduce two implementations of PDO archive and conduct tests in the newly proposed adversarial dogfight and MuJoCo simulations. The results show that our proposed algorithm achieves better performance than baselines.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# PhD: 視覚幻覚評価データセット

PhD: A Prompted Visual Hallucination Evaluation Dataset ( http://arxiv.org/abs/2403.11116v1 )

ライセンス: Link先を確認
Jiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li, (参考訳) LLM(Large Language Models)の急速な成長により、LVLM(Large Vision-Language Models)の開発が進められた。 LLMで広く見られる幻覚の課題は、LVLMにも現れる。 しかし、既存の取り組みの大部分は、LVLMのさまざまな種類の幻覚を無視して、LVLMのオブジェクト幻覚に重点を置いている。 そこで本研究では,IVL-Halluの根本的視覚・言語幻覚(IVL-Hallu)問題について検討し,その原因と反映について,様々なタイプのIVL-Halluを徹底的に分析した。 具体的には、いくつかの新しいIVL-ハルルタスクを提案し、これらを4つのタイプに分類する。 (a)物体の誤認から生じる物体幻覚 (b)属性の誤識別による属性幻覚 (c)テキスト情報と視覚情報の矛盾から派生したマルチモーダルコンフリクト幻覚 (d)LVLMの知識と実際のイメージの矛盾による反常識幻覚。 これらの分類学に基づいて、IVL-ハルルの評価と探索を行うために、PhDというより難しいベンチマークを提案する。 異なるタイプのIVL-Halluデータを生成するための自動パイプラインが提案されている。 5つのSOTA LVLMの大規模な実験により、提案したIVL-Halluタスクに効果的に取り組むことができないことが明らかとなり、新しいIVL-Halluタスクの起源と解決法に関する詳細な分析と知見が得られ、IVL-HalluとLVLMの今後の研究が促進される。 ベンチマークは \href{https://github.com/jiazhen-code/IntrinsicHallu}{this https URL} からアクセスすることができる。

The rapid growth of Large Language Models (LLMs) has driven the development of Large Vision-Language Models (LVLMs). The challenge of hallucination, prevalent in LLMs, also emerges in LVLMs. However, most existing efforts mainly focus on object hallucination in LVLM, ignoring diverse types of LVLM hallucinations. In this study, we delve into the Intrinsic Vision-Language Hallucination (IVL-Hallu) issue, thoroughly analyzing different types of IVL-Hallu on their causes and reflections. Specifically, we propose several novel IVL-Hallu tasks and categorize them into four types: (a) object hallucination, which arises from the misidentification of objects, (b) attribute hallucination, which is caused by the misidentification of attributes, (c) multi-modal conflicting hallucination, which derives from the contradictions between textual and visual information, and (d) counter-common-sense hallucination, which owes to the contradictions between the LVLM knowledge and actual images. Based on these taxonomies, we propose a more challenging benchmark named PhD to evaluate and explore IVL-Hallu. An automated pipeline is proposed for generating different types of IVL-Hallu data. Extensive experiments on five SOTA LVLMs reveal their inability to effectively tackle our proposed IVL-Hallu tasks, with detailed analyses and insights on the origins and possible solutions of these new challenging IVL-Hallu tasks, facilitating future researches on IVL-Hallu and LVLM. The benchmark can be accessed at \href{https://github.com/jiazhen-code/IntrinsicHallu}{this https URL}.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# 意味的・視覚的対応のための変換器を用いた特徴量とコスト集約

Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence ( http://arxiv.org/abs/2403.11120v1 )

ライセンス: Link先を確認
Sunghwan Hong, Seokju Cho, Seungryong Kim, Stephen Lin, (参考訳) 本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。 密マッチングの文脈において、多くの作品は、類似した特徴のアライメント(英語版)またはコストアグリゲーション(英語版)のアライメント(英語版)という、2つの形式のアグリゲーション(英語版)の恩恵を受ける。 本研究は,まず,特徴集約とコスト集約が異なる特徴を示すことを示し,双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにする。 次に,本手法が機能集約とコスト集約を統一し,両手法の強みを効果的に活用することを示すために,自己と横断的なメカニズムを活用する,シンプルで効果的なアーキテクチャを導入する。 提案した注目層内では,特徴量とコスト容積が相補的であり,注目層は粗い設計によりインターリーブされ,正確な対応推定が促進される。 最後に,本ネットワークはマルチスケール予測を行い,信頼度を算出し,信頼度の高いフローを選択し,最終的な予測を行う。 本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。

This paper introduces a Transformer-based integrative feature and cost aggregation network designed for dense matching tasks. In the context of dense matching, many works benefit from one of two forms of aggregation: feature aggregation, which pertains to the alignment of similar features, or cost aggregation, a procedure aimed at instilling coherence in the flow estimates across neighboring pixels. In this work, we first show that feature aggregation and cost aggregation exhibit distinct characteristics and reveal the potential for substantial benefits stemming from the judicious use of both aggregation processes. We then introduce a simple yet effective architecture that harnesses self- and cross-attention mechanisms to show that our approach unifies feature aggregation and cost aggregation and effectively harnesses the strengths of both techniques. Within the proposed attention layers, the features and cost volume both complement each other, and the attention layers are interleaved through a coarse-to-fine design to further promote accurate correspondence estimation. Finally at inference, our network produces multi-scale predictions, computes their confidence scores, and selects the most confident flow for final prediction. Our framework is evaluated on standard benchmarks for semantic matching, and also applied to geometric matching, where we show that our approach achieves significant improvements compared to existing methods.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# マルチシーン人物再識別のためのVersatile Framework

A Versatile Framework for Multi-scene Person Re-identification ( http://arxiv.org/abs/2403.11121v1 )

ライセンス: Link先を確認
Wei-Shi Zheng, Junkai Yan, Yi-Xing Peng, (参考訳) 人物再識別(ReID)は、重複しないカメラビュー間で同一人物の画像の関連を学習するために、10年間にわたって広く開発されてきた。 カメラビュー間の画像間の大きなばらつきを克服するため、解像度変化、衣服の変化、閉塞、モダリティ変化など、さまざまな課題を解決するために、ReIDモデルの山々が開発された。 多くのReID変種の性能にもかかわらず、これらの変種は典型的には明確に機能し、他の問題にも適用できない。 私たちの知る限りでは、さまざまなReID課題を同時に処理できる汎用的なReIDモデルはありません。 この研究は、このような問題を解決するために多目的ReIDモデルを学習する最初の試みに寄与する。 主なアイデアは、VersReIDと呼ばれる2段階のプロンプトベースのツインモデリングフレームワークを作ることです。 我々のVersReIDはまずシーンラベルを利用して、様々なシーンを扱うための豊富な知識を含むReID Bankを訓練します。 第2段階では、異なるシーンのReIDを適応的に解決するために、ReID Bankから多目的プロンプトを付加したV-Branchモデルを蒸留し、推論段階でのシーンラベルの要求を解消する。 VersReIDのトレーニングを容易にするため,マルチシーンデータ拡張(MPDA)戦略により,マルチシーン特性をReIDの自己教師型学習に導入する。 広範にわたる実験を通じて,多場面環境下でのReIDタスクの処理に有効なReIDモデルが,一般,低解像度,衣服の変化,隠蔽,クロスモダリティシーンを含む推論段階において,シーンラベルを手作業で割り当てることなく学習できることを実証した。 コードとモデルはhttps://github.com/iSEE-Laboratory/VersReIDで公開されている。

Person Re-identification (ReID) has been extensively developed for a decade in order to learn the association of images of the same person across non-overlapping camera views. To overcome significant variations between images across camera views, mountains of variants of ReID models were developed for solving a number of challenges, such as resolution change, clothing change, occlusion, modality change, and so on. Despite the impressive performance of many ReID variants, these variants typically function distinctly and cannot be applied to other challenges. To our best knowledge, there is no versatile ReID model that can handle various ReID challenges at the same time. This work contributes to the first attempt at learning a versatile ReID model to solve such a problem. Our main idea is to form a two-stage prompt-based twin modeling framework called VersReID. Our VersReID firstly leverages the scene label to train a ReID Bank that contains abundant knowledge for handling various scenes, where several groups of scene-specific prompts are used to encode different scene-specific knowledge. In the second stage, we distill a V-Branch model with versatile prompts from the ReID Bank for adaptively solving the ReID of different scenes, eliminating the demand for scene labels during the inference stage. To facilitate training VersReID, we further introduce the multi-scene properties into self-supervised learning of ReID via a multi-scene prioris data augmentation (MPDA) strategy. Through extensive experiments, we demonstrate the success of learning an effective and versatile ReID model for handling ReID tasks under multi-scene conditions without manual assignment of scene labels in the inference stage, including general, low-resolution, clothing change, occlusion, and cross-modality scenes. Codes and models are available at https://github.com/iSEE-Laboratory/VersReID.
翻訳日:2024-03-19 18:35:30 公開日:2024-03-17
# LERENet:金属表面欠陥のセマンティックセマンティックセグメンテーションにおけるクラス内差の除去

LERENet: Eliminating Intra-class Differences for Metal Surface Defect Few-shot Semantic Segmentation ( http://arxiv.org/abs/2403.11122v1 )

ライセンス: Link先を確認
Hanze Ding, Zhangkai Wu, Jiyan Zhang, Ming Ping, Yanfang Liu, (参考訳) 新しいクラスやピクセルレベルのセグメンテーションへの迅速な一般化能力により、金属欠陥検出に優れており、データ不足の問題に対処し、工業アプリケーションで洗練されたオブジェクトデライン化を実現するのに理想的である。 既存の作業は、金属表面欠陥データに固有の \textit{Intra-Class differences} を無視しており、クエリセットセグメンテーションを導くためのサポートセットから十分な知識を学ぶのを妨げる。 具体的には、金属試料の内部因子によって誘導される「textit{Semantic difference」と、周囲の外部因子によって引き起こされる「textit{Distortion difference」の2種類に分類される。 これらの違いに対処するために、グラフと特徴空間からの局所的およびグローバル的情報、すなわちグラフと特徴空間からの局所的およびグローバル的情報を学ぶために、 \textbf{L}ocal d\textbf{E}scriptor based \textbf{R}easoning と \textbf{E}xcitation \textbf{Net}work (\textbf{LERENet})を導入する。 グラフ空間に埋め込まれた局所的特徴の関係構造は、 \textit{Semantic difference} の排除に役立つため、マルチプロトタイプ推論(MPR)モジュールを使用し、ローカルな記述子ベースのプロトタイプを抽出し、サポートクエリ対における局所的な特徴の関連性を分析する。 また,観測における「textit{Distortion difference}」の対応を支援するグローバル情報により,マルチプロトタイプ・エキサイティング(MPE)モジュールを用いて,サポートクエリペアのグローバルビュー関係をキャプチャする。 最後に,情報融合モジュール(IFM)を用いて,学習したプロトタイプを局所的・グローバル的に融合し,ピクセルレベルのマスクを生成する。 欠陥データセットに関する包括的な実験は、既存のベンチマークを上回り、新しい最先端技術を確立することを実証しています。

Few-shot segmentation models excel in metal defect detection due to their rapid generalization ability to new classes and pixel-level segmentation, rendering them ideal for addressing data scarcity issues and achieving refined object delineation in industrial applications. Existing works neglect the \textit{Intra-Class Differences}, inherent in metal surface defect data, which hinders the model from learning sufficient knowledge from the support set to guide the query set segmentation. Specifically, it can be categorized into two types: the \textit{Semantic Difference} induced by internal factors in metal samples and the \textit{Distortion Difference} caused by external factors of surroundings. To address these differences, we introduce a \textbf{L}ocal d\textbf{E}scriptor based \textbf{R}easoning and \textbf{E}xcitation \textbf{Net}work (\textbf{LERENet}) to learn the two-view guidance, i.e., local and global information from the graph and feature space, and fuse them to segment precisely. Since the relation structure of local features embedded in graph space will help to eliminate \textit{Semantic Difference}, we employ Multi-Prototype Reasoning (MPR) module, extracting local descriptors based prototypes and analyzing local-view feature relevance in support-query pairs. Besides, due to the global information that will assist in countering the \textit{Distortion Difference} in observations, we utilize Multi-Prototype Excitation (MPE) module to capture the global-view relations in support-query pairs. Finally, we employ an Information Fusion Module (IFM) to fuse learned prototypes in local and global views to generate pixel-level masks. Our comprehensive experiments on defect datasets demonstrate that it outperforms existing benchmarks, establishing a new state-of-the-art.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# 粒度変化の精度: 対話状態追跡のためのより正確なパフォーマンス指標

Granular Change Accuracy: A More Accurate Performance Metric for Dialogue State Tracking ( http://arxiv.org/abs/2403.11123v1 )

ライセンス: Link先を確認
Taha Aksu, Nancy F. Chen, (参考訳) 対話状態追跡(DST)システムを評価するための現在の指標には3つの主要な制限がある。 彼らは 一 ダイアログを通してスロットの均一な分布を誤って想定すること。 二 個別の回転に部分的な得点を割り当てることを怠ること。 三 モデルの成功又は失敗の予測を繰り返し数えて、しばしば過大評価又は過小評価する。 これらの欠点に対処するため、グラニュラーチェンジ精度(GCA)という新しい指標を導入する。 GCAは、対話履歴全体にわたる対話状態の変化の予測を評価することに重点を置いている。 ベンチマークにより、GAAは分布の均一性から生じるバイアスを効果的に低減し、ターン間の誤差の位置決めを効果的に削減し、より正確な評価をもたらすことが明らかになった。 特に、これらのバイアスは、少数ショットまたはゼロショットの訓練されたモデルを評価するときに特に顕著であり、モデルのエラー率が増加するにつれてさらに顕著になる。 したがって、GCAは、特に限られたリソースで訓練されたモデルを評価するために、非常に有望である。 我々のGCA実装は、DSTメトリクスのプールに便利な追加です。

Current metrics for evaluating Dialogue State Tracking (DST) systems exhibit three primary limitations. They: i) erroneously presume a uniform distribution of slots throughout the dialog, ii) neglect to assign partial scores for individual turns, iii) frequently overestimate or underestimate performance by repeatedly counting the models' successful or failed predictions. To address these shortcomings, we introduce a novel metric: Granular Change Accuracy (GCA). GCA focuses on evaluating the predicted changes in dialogue state over the entire dialogue history. Benchmarking reveals that GCA effectively reduces biases arising from distribution uniformity and the positioning of errors across turns, resulting in a more precise evaluation. Notably, we find that these biases are particularly pronounced when evaluating few-shot or zero-shot trained models, becoming even more evident as the model's error rate increases. Hence, GCA offers significant promise, particularly for assessing models trained with limited resources. Our GCA implementation is a useful addition to the pool of DST metrics.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# ヒューマンアライメントにおける微調整言語モデルのためのデータ多様性のスケーリング

Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment ( http://arxiv.org/abs/2403.11124v1 )

ライセンス: Link先を確認
Feifan Song, Bowen Yu, Hao Lang, Haiyang Yu, Fei Huang, Houfeng Wang, Yongbin Li, (参考訳) 人間の嗜好の調整は、大規模な言語モデル(LLM)が、高コストの人間のフィードバックを必要としながら、誤解を招く、または有害なコンテンツを生成するのを防ぐ。 人間のアノテーションのリソースが限られていると仮定すると、より多様な PROMPTS またはより多様な RESPONSES をラベル付けする2つの方法がある。 それでも、その影響の直接的な比較は行われていない。 本研究では,その影響を直接反映できる微調整用サンプルの数に応じて,まず両面の多様性を制御した。 多数のプロンプトの代わりに、より多くの応答があるが、人間のアライメントのためにLSMをより良く引き起こすプロンプトは少ない。 さらに、プロンプトの多様性の概念は、通常1桁で定量化される応答よりも複雑である。 その結果, 高速な多様性の新たな定式化が提案され, 微調整後のLLMの最終性能と線形相関が示唆された。 また、データ拡張に利用して、異なるアルゴリズムにその影響を示す実験を行います。

Alignment with human preference prevents large language models (LLMs) from generating misleading or toxic content while requiring high-cost human feedback. Assuming resources of human annotation are limited, there are two different ways of allocating considered: more diverse PROMPTS or more diverse RESPONSES to be labeled. Nonetheless, a straightforward comparison between their impact is absent. In this work, we first control the diversity of both sides according to the number of samples for fine-tuning, which can directly reflect their influence. We find that instead of numerous prompts, more responses but fewer prompts better trigger LLMs for human alignment. Additionally, the concept of diversity for prompts can be more complex than responses that are typically quantified by single digits. Consequently, a new formulation of prompt diversity is proposed, further implying a linear correlation with the final performance of LLMs after fine-tuning. We also leverage it on data augmentation and conduct experiments to show its effect on different algorithms.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# ガウス過程回帰を用いた機械学習に基づくシステムの信頼性解析

Machine learning-based system reliability analysis with Gaussian Process Regression ( http://arxiv.org/abs/2403.11125v1 )

ライセンス: Link先を確認
Lisang Zhou, Ziqian Luo, Xueting Pan, (参考訳) 機械学習に基づく信頼性解析手法は、その計算効率と精度に大きな進歩を示した。 近年,計算性能を向上させるために,多くの効率的な学習戦略が提案されている。 しかし、理論的最適学習戦略を探求する者はほとんどいない。 本稿では,そのような探索を容易にするいくつかの定理を提案する。 具体的には, 候補設計サンプル間の相関を考慮し, 無視する事例について詳しく述べる。 さらに、Kriging相関を無視するケースに対して、よく知られたU学習関数を最適な学習関数に再構成できることを証明した。 さらに、逐次多重訓練サンプル濃縮の理論的最適学習戦略についても、ベイズ推定とそれに対応する損失関数を用いて数学的に検討する。 シミュレーションの結果,Krigingの相関性を考慮した最適学習戦略は,性能関数の評価回数の削減の観点から,Krigingの相関性やその他の最先端の学習機能を文献から無視する手法よりも有効であることが示唆された。 しかし、この実装は非常に大きな計算資源を調査する必要がある。

Machine learning-based reliability analysis methods have shown great advancements for their computational efficiency and accuracy. Recently, many efficient learning strategies have been proposed to enhance the computational performance. However, few of them explores the theoretical optimal learning strategy. In this article, we propose several theorems that facilitates such exploration. Specifically, cases that considering and neglecting the correlations among the candidate design samples are well elaborated. Moreover, we prove that the well-known U learning function can be reformulated to the optimal learning function for the case neglecting the Kriging correlation. In addition, the theoretical optimal learning strategy for sequential multiple training samples enrichment is also mathematically explored through the Bayesian estimate with the corresponding lost functions. Simulation results show that the optimal learning strategy considering the Kriging correlation works better than that neglecting the Kriging correlation and other state-of-the art learning functions from the literatures in terms of the reduction of number of evaluations of performance function. However, the implementation needs to investigate very large computational resource.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# GRA:集団回転と注意によるオブジェクト指向物体の検出

GRA: Detecting Oriented Objects through Group-wise Rotating and Attention ( http://arxiv.org/abs/2403.11127v1 )

ライセンス: Link先を確認
Jiangshan Wang, Yifan Pu, Yizeng Han, Jiayi Guo, Yiru Wang, Xiu Li, Gao Huang, (参考訳) 近年の課題であるオブジェクト指向オブジェクト検出は、さまざまな方向のオブジェクトを識別し、特定することを目的としている。 これにより検出器は、画像内と画像間で大きく異なる方向情報を正確に捉える必要がある。 既存の相当な努力にもかかわらず、モデルの有効性とパラメータ効率を同時に確保することは、このシナリオでは難しい。 本稿では、オブジェクト指向オブジェクト検出のためのバックボーンネットワークにおける畳み込み操作を置き換えるために、軽量で効果的な \textbf{G}roup-wise \textbf{R}otating と \textbf{A}ttention (GRA) モジュールを提案する。 GRAは、グループワイド回転(Group-wise Rotating)とグループワイド注意(Group-wise Attention)という2つの重要なコンポーネントを含む、さまざまな向きのオブジェクトのきめ細かい特徴を適応的にキャプチャすることができる。 群ワイド回転はまず、畳み込み核を群に分割し、各群は対象の向きに応じて特定の角度で回転することによって異なる対象特徴を抽出する。 その後、機能内のオブジェクト関連領域を適応的に拡張するためにグループワイド・アテンションが使用される。 これらのコンポーネントの協調作業により、GRAはパラメータ効率を維持しながら、様々なオリエンテーション情報を効果的に取得できる。 大規模な実験結果から,本手法の優位性が確認された。 例えば、GRAはDOTA-v2.0ベンチマークで新しい最先端のSOTA(State-of-the-art)を実現し、パラメータを以前のSOTAメソッドと比べて約50%節約する。 コードはリリースされる。

Oriented object detection, an emerging task in recent years, aims to identify and locate objects across varied orientations. This requires the detector to accurately capture the orientation information, which varies significantly within and across images. Despite the existing substantial efforts, simultaneously ensuring model effectiveness and parameter efficiency remains challenging in this scenario. In this paper, we propose a lightweight yet effective \textbf{G}roup-wise \textbf{R}otating and \textbf{A}ttention (GRA) module to replace the convolution operations in backbone networks for oriented object detection. GRA can adaptively capture fine-grained features of objects with diverse orientations, comprising two key components: Group-wise Rotating and Group-wise Attention. Group-wise Rotating first divides the convolution kernel into groups, where each group extracts different object features by rotating at a specific angle according to the object orientation. Subsequently, Group-wise Attention is employed to adaptively enhance the object-related regions in the feature. The collaborative effort of these components enables GRA to effectively capture the various orientation information while maintaining parameter efficiency. Extensive experimental results demonstrate the superiority of our method. For example, GRA achieves a new state-of-the-art (SOTA) on the DOTA-v2.0 benchmark, while saving the parameters by nearly 50\% compared to the previous SOTA method. Code will be released.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# 静的評価を超えて - AIアシスタントのAPI呼び出し能力を評価するための動的アプローチ

Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities ( http://arxiv.org/abs/2403.11128v1 )

ライセンス: Link先を確認
Honglin Mu, Yang Xu, Yunlong Feng, Xiaofeng Han, Yitong Li, Yutai Hou, Wanxiang Che, (参考訳) 大規模言語モデル(LLM)の台頭により、AIアシスタントが特にAPIコールを通じてツールを利用する能力は顕著に進歩した。 この進歩はより正確な評価方法を必要としている。 既存の研究の多くは静的評価を採用しており、事前に定義された対話履歴に基づいてAIアシスタントのAPI呼び出しを評価する。 しかし、そのような評価手法は、AIアシスタントが実際のケースで先行する人間のインタラクションからAPIコールを生成するのに失敗する可能性があるため、誤解を招く可能性がある。 そこで本研究では,人的介在なしにアシスタントのAPIコール能力を評価するために,人間と機械の直接インタラクションの資源集約的な手法の代わりに,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。 本フレームワークでは,LLMベースのユーザエージェントを用いて,人間と機械のインタラクションにおいて,人間の会話パターンを忠実に反映し,人間のアライメントを確保する。 実験の結果、AutoDEは静的評価によって見落とされたエラーを明らかにし、人間の評価とより密接に一致している。 提案手法は, 従来の静的評価に比べて8%の相関性を示し, 人間の評価を0.99の相関性で反映した。

With the rise of Large Language Models (LLMs), AI assistants' ability to utilize tools, especially through API calls, has advanced notably. This progress has necessitated more accurate evaluation methods. Many existing studies adopt static evaluation, where they assess AI assistants' API call based on pre-defined dialogue histories. However, such evaluation method can be misleading, as an AI assistant might fail in generating API calls from preceding human interaction in real cases. Instead of the resource-intensive method of direct human-machine interactions, we propose Automated Dynamic Evaluation (AutoDE) to assess an assistant's API call capability without human involvement. In our framework, we endeavor to closely mirror genuine human conversation patterns in human-machine interactions, using a LLM-based user agent, equipped with a user script to ensure human alignment. Experimental results highlight that AutoDE uncovers errors overlooked by static evaluations, aligning more closely with human assessment. Testing four AI assistants using our crafted benchmark, our method mirrored human evaluation with an correlation of 0.99, marking an 8% enhancement compared to conventional static evaluations.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# Rationaleによる事象因果同定の強化と構造対応因果質問応答

Enhancing Event Causality Identification with Rationale and Structure-Aware Causal Question Answering ( http://arxiv.org/abs/2403.11129v1 )

ライセンス: Link先を確認
Baiyan Zhang, Qin Chen, Jie Zhou, Jian Jin, Liang He, (参考訳) 文書レベルの事象因果同定(DECI)は、文書内の2つの事象間の因果関係を特定することを目的としている。 近年の研究では、事前訓練された言語モデルを用いて事象因果関係を生成する傾向にある。 しかし、これらの手法は、文書内の複数のイベントによるシーケンシャルな生成の誤りを招きやすい。 さらに、事象のコア参照や関連する因果連鎖といった潜在的な構造は無視される。 本稿では,イベント因果同定を合理的かつ構造対応型因果質問応答を用いて強化するマルチタスク学習フレームワークを提案する。 具体的には、DECタスクを複数選択質問応答に変換し、質問されたイベントの原因と影響を大きな言語モデルで生成する。 さらに、これらの事象がなぜ因果関係を持つのかを説明する根拠も生成する。 さらに,現在の事象の因果推論のマルチホップポテンシャル関係をモデル化したイベント構造グラフを構築した。 2つのベンチマークデータセットの実験は、最先端の手法と比較して提案手法の大きな利点を示している。 さらに、定量分析と定性解析の両方を行い、なぜアプローチの各コンポーネントが大きな改善をもたらすのかを明らかにした。

Document-level Event Causality Identification (DECI) aims to identify causal relations between two events in documents. Recent research tends to use pre-trained language models to generate the event causal relations. Whereas, these methods are prone to the errors of sequential generation due to multiple events in a document. Moreover, the potential structures such as event coreference and related causal chain are neglected. In this paper, we propose a multi-task learning framework to enhance event causality identification with rationale and structure-aware causal question answering. Specifically, the DECI task is transformed into multiple-choice question answering, and the causes and effects of the questioned event are generated with large language models. In addition, we generate the rationales to explain why these events have causal relations. Moreover, we construct an event structure graph, which models the multi-hop potential relations for causal reasoning of the current event. Experiments on two benchmark datasets show the great advantages of our proposed approach compared to the state-of-the-art methods. Moreover, we conduct both quantitative and qualitative analyses, which shed light on why each component of our approach can lead to great improvements.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# アラビア語モデルの拡張のためのトークン化戦略と語彙サイズの検討

Exploring Tokenization Strategies and Vocabulary Sizes for Enhanced Arabic Language Models ( http://arxiv.org/abs/2403.11130v1 )

ライセンス: Link先を確認
Mohamed Taher Alrefaie, Nour Eldin Morsy, Nada Samir, (参考訳) 本稿では、下流自然言語処理タスクにおけるアラビア語モデルの性能に及ぼすトークン化戦略と語彙サイズの影響を包括的に検討する。 本研究は, ニュース分類, ヘイトスピーチ検出, 感性分析, 自然言語推論など, さまざまなタスクにまたがる4つのトークン化手法の有効性に着目した。 多様な語彙サイズのセットを活用して、トークン化アプローチとモデルパフォーマンスの間の複雑な相互作用を精査する。 その結果,Farasa を用いたByte Pair Encoding (BPE) は,アラビア語のニュアンスを捉える上での形態学的解析の重要性を浮き彫りにした。 しかし、弁別特化の問題がモデルの効率に影響を及ぼすような感情分析において、課題が生じる。 計算効率解析は、ファラサによるBPEの安定性を示し、その実用性を示している。 本研究は, 語彙サイズがモデルサイズを一定に保ちながら, モデル性能に及ぼす影響を限定的に明らかにした。 これは、語彙、モデルサイズ、下流タスクの関係に関する確立された信念に挑戦し、特に方言ベースのデータセットにおいて、ドメインをまたいで一般化しバイアスを軽減するためのモデルサイズとその対応する語彙サイズの研究の必要性を強調している。 論文のレコメンデーションには、方言の課題に対処するためのトークン化戦略の洗練、多様な言語コンテキストにわたるモデルの堅牢性の向上、リッチな方言ベースのアラビア語を含むデータセットの拡大が含まれる。 この研究は、アラビア語モデルの理解を深めるだけでなく、アラビア語の複雑さに合わせた自然言語処理技術における責任と倫理的発展の基礎も築き上げている。

This paper presents a comprehensive examination of the impact of tokenization strategies and vocabulary sizes on the performance of Arabic language models in downstream natural language processing tasks. Our investigation focused on the effectiveness of four tokenizers across various tasks, including News Classification, Hate Speech Detection, Sentiment Analysis, and Natural Language Inference. Leveraging a diverse set of vocabulary sizes, we scrutinize the intricate interplay between tokenization approaches and model performance. The results reveal that Byte Pair Encoding (BPE) with Farasa outperforms other strategies in multiple tasks, underscoring the significance of morphological analysis in capturing the nuances of the Arabic language. However, challenges arise in sentiment analysis, where dialect specific segmentation issues impact model efficiency. Computational efficiency analysis demonstrates the stability of BPE with Farasa, suggesting its practical viability. Our study uncovers limited impacts of vocabulary size on model performance while keeping the model size unchanged. This is challenging the established beliefs about the relationship between vocabulary, model size, and downstream tasks, emphasizing the need for the study of models' size and their corresponding vocabulary size to generalize across domains and mitigate biases, particularly in dialect based datasets. Paper's recommendations include refining tokenization strategies to address dialect challenges, enhancing model robustness across diverse linguistic contexts, and expanding datasets to encompass the rich dialect based Arabic. This work not only advances our understanding of Arabic language models but also lays the foundation for responsible and ethical developments in natural language processing technologies tailored to the intricacies of the Arabic language.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# Omni-Recon:Versatile 3D応用のための汎用神経放射場を目指して

Omni-Recon: Towards General-Purpose Neural Radiance Fields for Versatile 3D Applications ( http://arxiv.org/abs/2403.11131v1 )

ライセンス: Link先を確認
Yonggan Fu, Huaizhi Qu, Zhifan Ye, Chaojian Li, Kevin Zhao, Yingyan Lin, (参考訳) 最近のNeural Radiance Fields(NeRF)のブレークスルーは、現実世界の3Dアプリケーションへの統合に対する大きな需要を引き起こしている。 しかし、異なる3Dアプリケーションで要求される様々な機能はしばしば様々なパイプラインで様々なNeRFモデルを必要とするため、それぞれのタスクに対する面倒なNeRFトレーニングや、面倒な試行錯誤実験に繋がる。 本研究は,新たな基礎モデルの一般化能力と適応性からインスピレーションを得て,多種多様な3次元タスクを扱うための1つの汎用NeRFを開発することを目的とする。 我々は,(1)一般化可能な3D再構成とゼロショットマルチタスクシーン理解が可能なOmni-Reconというフレームワークを提案し,(2)リアルタイムレンダリングやシーン編集などの下流3Dアプリケーションへの適応性を実現する。 我々の重要な洞察は、画像ベースのレンダリングパイプラインが、正確な幾何学的および外観的推定によって、2D画像の特徴を3D空間に持ち上げ、広範に検討された2Dタスクを一般化可能な方法で3D世界へと拡張できるということである。 具体的には、Omni-Reconは、2つの分離された枝を持つ画像ベースレンダリングを用いた汎用のNeRFモデルを特徴付けている: 幾何推定のために幾何と外観特徴を段階的に融合する複雑なトランスフォーマーベースの分岐と、ソースビューのブレンド重量を予測する軽量ブランチである。 この設計は、ゼロショットマルチタスクシーン理解のために、様々なタスクで再利用可能なブレンディングウェイトを用いて、最先端(SOTA)の一般化可能な3次元表面再構成品質を実現する。 さらに、複雑なジオメトリブランチをメッシュに焼き込み、SOTAの一般化可能な3D理解性能を実現するための迅速な適応、テキスト誘導3D編集のための2D拡散モデルとのシームレスな統合など、リアルタイムなレンダリングを可能にする。

Recent breakthroughs in Neural Radiance Fields (NeRFs) have sparked significant demand for their integration into real-world 3D applications. However, the varied functionalities required by different 3D applications often necessitate diverse NeRF models with various pipelines, leading to tedious NeRF training for each target task and cumbersome trial-and-error experiments. Drawing inspiration from the generalization capability and adaptability of emerging foundation models, our work aims to develop one general-purpose NeRF for handling diverse 3D tasks. We achieve this by proposing a framework called Omni-Recon, which is capable of (1) generalizable 3D reconstruction and zero-shot multitask scene understanding, and (2) adaptability to diverse downstream 3D applications such as real-time rendering and scene editing. Our key insight is that an image-based rendering pipeline, with accurate geometry and appearance estimation, can lift 2D image features into their 3D counterparts, thus extending widely explored 2D tasks to the 3D world in a generalizable manner. Specifically, our Omni-Recon features a general-purpose NeRF model using image-based rendering with two decoupled branches: one complex transformer-based branch that progressively fuses geometry and appearance features for accurate geometry estimation, and one lightweight branch for predicting blending weights of source views. This design achieves state-of-the-art (SOTA) generalizable 3D surface reconstruction quality with blending weights reusable across diverse tasks for zero-shot multitask scene understanding. In addition, it can enable real-time rendering after baking the complex geometry branch into meshes, swift adaptation to achieve SOTA generalizable 3D understanding performance, and seamless integration with 2D diffusion models for text-guided 3D editing.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# 3次元ガウススプラッティングの最近の進歩

Recent Advances in 3D Gaussian Splatting ( http://arxiv.org/abs/2403.11134v1 )

ライセンス: Link先を確認
Tong Wu, Yu-Jie Yuan, Ling-Xiao Zhang, Jie Yang, Yan-Pei Cao, Ling-Qi Yan, Lin Gao, (参考訳) 3次元ガウス散乱(3DGS)の出現は、新規なビュー合成のレンダリング速度を大幅に加速させた。 位置と視点条件のニューラルネットワークを持つ3Dシーンを表すNear Radiance Fields(NeRF)のような暗黙的表現とは異なり、3D Gaussian Splattingはガウスエリプシドのセットを使用してシーンをモデル化し、ガウスエリプシドを画像にラスタ化することで効率的なレンダリングを実現する。 高速レンダリングのスピードとは別に、3Dガウススプラッティングの明示的な表現は動的再構成、幾何学的編集、物理シミュレーションなどの編集作業を容易にする。 この分野における急激な変化と作業数の増加を考慮すると,3次元再構成,3次元編集,その他の下流アプリケーションに大まかに分類できる,最近の3次元ガウス散乱法に関する文献的考察を示す。 従来の点ベースレンダリング法や3次元ガウススプラッティングの描画定式化も、この技法をよりよく理解するために説明されている。 本調査は,初心者がこの分野に素早く参入するのを助けることを目的としており,経験豊富な研究者に包括的概要を提供し,将来的な3Dガウススプラッティング表現の展開を促進することを目的としている。

The emergence of 3D Gaussian Splatting (3DGS) has greatly accelerated the rendering speed of novel view synthesis. Unlike neural implicit representations like Neural Radiance Fields (NeRF) that represent a 3D scene with position and viewpoint-conditioned neural networks, 3D Gaussian Splatting utilizes a set of Gaussian ellipsoids to model the scene so that efficient rendering can be accomplished by rasterizing Gaussian ellipsoids into images. Apart from the fast rendering speed, the explicit representation of 3D Gaussian Splatting facilitates editing tasks like dynamic reconstruction, geometry editing, and physical simulation. Considering the rapid change and growing number of works in this field, we present a literature review of recent 3D Gaussian Splatting methods, which can be roughly classified into 3D reconstruction, 3D editing, and other downstream applications by functionality. Traditional point-based rendering methods and the rendering formulation of 3D Gaussian Splatting are also illustrated for a better understanding of this technique. This survey aims to help beginners get into this field quickly and provide experienced researchers with a comprehensive overview, which can stimulate the future development of the 3D Gaussian Splatting representation.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# DRDA-NetとMobileNetを用いた乳がん分類のための軽量ディープラーニングパイプライン

A lightweight deep learning pipeline with DRDA-Net and MobileNet for breast cancer classification ( http://arxiv.org/abs/2403.11135v1 )

ライセンス: Link先を確認
Mahdie Ahmadi, Nader Karimi, Shadrokh Samavi, (参考訳) 乳癌の正確な早期発見は治療の成功に不可欠である。 本稿では,病理組織像における乳癌分類の改善のための新しい深層学習手法を提案する。 本手法はDense Residual Dual-Shuffle Attention Network (DRDA-Net) に基づく。 DRDA-Netは、乳癌の病理組織学的分析ベンチマークであるBreaKHisデータセット上で、様々な倍率レベルにわたって例外的な精度を達成する。 しかし、現実のデプロイメントでは、計算効率が最重要である。 我々は,計算処理に対処する軽量設計で有名な事前学習型MobileNetモデルを統合した。 MobileNetは、パフォーマンスを犠牲にすることなく、限られたリソースを持つデバイスでも高速な実行を保証する。 この組み合わせアプローチは、乳がんの正確な診断に有望な解決策を提供し、より速く、よりアクセスしやすいスクリーニング手順の道を開く。

Accurate and early detection of breast cancer is essential for successful treatment. This paper introduces a novel deep-learning approach for improved breast cancer classification in histopathological images, a crucial step in diagnosis. Our method hinges on the Dense Residual Dual-Shuffle Attention Network (DRDA-Net), inspired by ShuffleNet's efficient architecture. DRDA-Net achieves exceptional accuracy across various magnification levels on the BreaKHis dataset, a breast cancer histopathology analysis benchmark. However, for real-world deployment, computational efficiency is paramount. We integrate a pre-trained MobileNet model renowned for its lightweight design to address computational. MobileNet ensures fast execution even on devices with limited resources without sacrificing performance. This combined approach offers a promising solution for accurate breast cancer diagnosis, paving the way for faster and more accessible screening procedures.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# スパイキングウェーブレットトランス

Spiking Wavelet Transformer ( http://arxiv.org/abs/2403.11138v1 )

ライセンス: Link先を確認
Yuetong Fang, Ziqing Wang, Lingfeng Zhang, Jiahang Cao, Honglei Chen, Renjing Xu, (参考訳) スパイキングニューラルネットワーク(SNN)は、脳のイベント駆動処理を模倣することによって、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。 トランスフォーマーをSNNに組み込むことは正確性を示しているが、グローバルな自己注意操作に依存しているため、移動エッジや画素レベルの明るさ変化などの高周波パターンをキャプチャすることは不可能である。 SNNにおける周波数表現の移植は、イベント駆動型ビジョンでは難しいが、不可欠である。 この問題に対処するために,スパースウェーブレット変換を活用することで,空間周波数の包括的特徴をスパイク駆動方式で効果的に学習する,注目のないアーキテクチャであるSpking Wavelet Transformer (SWformer)を提案する。 重要なコンポーネントは、周波数対応のトークンミキサー(FATM)で、3つのブランチがある。 1)空間周波数領域学習のためのスパイクウェーブレット学習装置 2)空間特徴抽出のための畳み込みに基づく学習者 3) チャネル間情報集約のためのポイントワイド・コンボリューションをスパイクする。 また、周波数表現をさらに強化するために、負のスパイクダイナミクスを採用する。 これにより、SWformerは、私たちの経験的な結果によって証明されているように、高周波数の視覚成分をキャプチャするバニラスパイキングトランスフォーマーよりも優れている。 静的データセットとニューロモルフィックデータセットの両方の実験は、SWformerが乗算のないイベント駆動方式で空間周波数パターンをキャプチャし、最先端のSNNより優れた性能を発揮することを示す。 SWformerは、エネルギー消費の50%以上削減、パラメータ数21.1%削減、ImageNetデータセットのパフォーマンス改善を実現している。

Spiking neural networks (SNNs) offer an energy-efficient alternative to conventional deep learning by mimicking the event-driven processing of the brain. Incorporating the Transformers with SNNs has shown promise for accuracy, yet it is incompetent to capture high-frequency patterns like moving edge and pixel-level brightness changes due to their reliance on global self-attention operations. Porting frequency representations in SNN is challenging yet crucial for event-driven vision. To address this issue, we propose the Spiking Wavelet Transformer (SWformer), an attention-free architecture that effectively learns comprehensive spatial-frequency features in a spike-driven manner by leveraging the sparse wavelet transform. The critical component is a Frequency-Aware Token Mixer (FATM) with three branches: 1) spiking wavelet learner for spatial-frequency domain learning, 2) convolution-based learner for spatial feature extraction, and 3) spiking pointwise convolution for cross-channel information aggregation. We also adopt negative spike dynamics to strengthen the frequency representation further. This enables the SWformer to outperform vanilla Spiking Transformers in capturing high-frequency visual components, as evidenced by our empirical results. Experiments on both static and neuromorphic datasets demonstrate SWformer's effectiveness in capturing spatial-frequency patterns in a multiplication-free, event-driven fashion, outperforming state-of-the-art SNNs. SWformer achieves an over 50% reduction in energy consumption, a 21.1% reduction in parameter count, and a 2.40% performance improvement on the ImageNet dataset compared to vanilla Spiking Transformers.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# 量子場と古典場を両立させた超伝導人工原子からのダイナミクスと共鳴蛍光

Dynamics and Resonance Fluorescence from a Superconducting Artificial Atom Doubly Driven by Quantized and Classical Fields ( http://arxiv.org/abs/2403.11142v1 )

ライセンス: Link先を確認
Xinhui Ruan, Jia-Heng Wang, Dong He, Pengtao Song, Shengyong Li, Qianchuan Zhao, L. M. Kuang, Jaw-Shen Tsai, Chang-Ling Zou, Jing Zhang, Dongning Zheng, O. V. Astafiev, Yu-xi Liu, Zhihui Peng, (参考訳) 本研究では, 2レベル超伝導人工原子における共振蛍光の実験実験を行った。 場の1つは古典的であり、もう1つは空洞内の光子数を制御することによって量子(真空ゆらぎ)から古典的へと変化する。 1次元伝送線路とコプラナー導波路共振器とに強く結合されたトランスモン量子ビットからなる。 弱い結合の場合と根本的に異なる1次元の伝送線を通して、システムの放射スペクトルにおけるサイドバンドの反交差と非対称性を観察する。 キャビティ内の光子数を変えることで、原子が2つの古典的な双色場によって駆動される場合、二重駆動系の発光スペクトルが接近する。 また,伝送路を通したシステムの動的進化を計測し,一階相関関数,Rabi発振,エネルギー緩和特性について検討する。 2つの磁場で駆動される原子からの共鳴蛍光の研究は、超伝導量子回路におけるデコヒーレンスを理解することを促進し、超伝導量子コンピューティングや量子ネットワークに応用できるかもしれない。

We report an experimental demonstration of resonance fluorescence in a two-level superconducting artificial atom under two driving fields coupled to a detuned cavity. One of the fields is classical and the other is varied from quantum (vacuum fluctuations) to classical one by controlling the photon number inside the cavity. The device consists of a transmon qubit strongly coupled to a one-dimensional transmission line and a coplanar waveguide resonator. We observe a sideband anti-crossing and asymmetry in the emission spectra of the system through a one-dimensional transmission line, which is fundamentally different from the weak coupling case. By changing the photon number inside the cavity, the emission spectrum of our doubly driven system approaches to the case when the atom is driven by two classical bichromatic fields. We also measure the dynamical evolution of the system through the transmission line and study the properties of the first-order correlation function, Rabi oscillations and energy relaxation in the system. The study of resonance fluorescence from an atom driven by two fields promotes understanding decoherence in superconducting quantum circuits and may find applications in superconducting quantum computing and quantum networks.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# Mambaは時系列予測に有効か?

Is Mamba Effective for Time Series Forecasting? ( http://arxiv.org/abs/2403.11144v1 )

ライセンス: Link先を確認
Zihan Wang, Fanheng Kong, Shi Feng, Ming Wang, Han Zhao, Daling Wang, Yifei Zhang, (参考訳) 時系列予測(TSF)の分野では、Transformerは、グローバルなコンテキストに集中し、時間内での長距離依存関係を効果的にキャプチャし、複数の変数間の相関を識別する能力により、一貫して堅牢な性能を示している。 しかし、Transformerモデルの非効率さと依存関係をキャプチャする能力に関する疑問のため、Transformerアーキテクチャを洗練するための継続的な取り組みは継続している。 近年、状態空間モデル(SSM)、例えばMambaは、ほぼ線形の複雑さを維持しながら、Transformerのようなシーケンス内の複雑な依存関係をキャプチャする能力によって、注目を集めている。 テキストとイメージタスクでは、Mambaベースのモデルはパフォーマンスとコスト削減を改善し、勝利の状況を生み出す。 このことは、TSFタスクにおけるSSMの可能性を探ることへの我々の関心を暗示している。 本稿では,TSF,S-Mamba,D-Mambaの2つのSSMモデルについて述べる。 注目すべきは、S-MambaとD-MambaはGPUメモリとトレーニング時間を節約しながら優れたパフォーマンスを達成することだ。 さらに,TSFのトランスフォーマーと比較して,マンバのポテンシャルを深く掘り下げる広範囲な実験を行い,新たな研究の方向性を探究する。 私たちのコードはhttps://github.com/wzhwzhhh0921/S-D-Mambaで公開されています。

In the realm of time series forecasting (TSF), the Transformer has consistently demonstrated robust performance due to its ability to focus on the global context and effectively capture long-range dependencies within time, as well as discern correlations between multiple variables. However, due to the inefficiencies of the Transformer model and questions surrounding its ability to capture dependencies, ongoing efforts to refine the Transformer architecture persist. Recently, state space models (SSMs), e.g. Mamba, have gained traction due to their ability to capture complex dependencies in sequences, similar to the Transformer, while maintaining near-linear complexity. In text and image tasks, Mamba-based models can improve performance and cost savings, creating a win-win situation. This has piqued our interest in exploring SSM's potential in TSF tasks. In this paper, we introduce two straightforward SSM-based models for TSF, S-Mamba and D-Mamba, both employing the Mamba Block to extract variate correlations. Remarkably, S-Mamba and D-Mamba achieve superior performance while saving GPU memory and training time. Furthermore, we conduct extensive experiments to delve deeper into the potential of Mamba compared to the Transformer in the TSF, aiming to explore a new research direction for this field. Our code is available at https://github.com/wzhwzhwzh0921/S-D-Mamba.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# 会話スタンス検出のための課題データセットと効果的なモデル

A Challenge Dataset and Effective Models for Conversational Stance Detection ( http://arxiv.org/abs/2403.11145v1 )

ライセンス: Link先を確認
Fuqiang Niu, Min Yang, Ang Li, Baoquan Zhang, Xiaojiang Peng, Bowen Zhang, (参考訳) 従来のスタンス検出研究は、通常、個々のインスタンス内のスタンスを評価することに集中しており、それによって、同一の特定のトピックに関する複数のパーティの議論を効果的にモデル化する制限が生じる。 この制約は主に、実際のソーシャルメディアコンテキストを忠実に再現するデータセットが不足していることによるものであり、会話のスタンス検出の研究の進歩を妨げる。 本稿では,会話姿勢検出のための複数の目標を含む,多ターン会話姿勢検出データセット(‘textbf{MT-CSD}’)を提案する。 この挑戦的なデータセットからスタンスを導出するため,会話データに固有の長距離および短距離の依存関係に対処するグローバルローカルアテンションネットワーク(\textbf{GLAN})を提案する。 特に、GLANによって実証された最先端のスタンス検出方法でさえ、50.47\%の精度しか示さず、会話のスタンス検出における永続的な課題を浮き彫りにしている。 さらに, MT-CSDデータセットは, 異なる対象から分類器を適応させる領域間位置検出の進歩を触媒する貴重な資源として機能する。 我々はMT-CSDがスタンス検出研究の現実的応用の進展に寄与すると信じている。 ソースコード、データ、モデルは、 \url{https://github.com/nfq729/MT-CSD}で利用可能です。

Previous stance detection studies typically concentrate on evaluating stances within individual instances, thereby exhibiting limitations in effectively modeling multi-party discussions concerning the same specific topic, as naturally transpire in authentic social media interactions. This constraint arises primarily due to the scarcity of datasets that authentically replicate real social media contexts, hindering the research progress of conversational stance detection. In this paper, we introduce a new multi-turn conversation stance detection dataset (called \textbf{MT-CSD}), which encompasses multiple targets for conversational stance detection. To derive stances from this challenging dataset, we propose a global-local attention network (\textbf{GLAN}) to address both long and short-range dependencies inherent in conversational data. Notably, even state-of-the-art stance detection methods, exemplified by GLAN, exhibit an accuracy of only 50.47\%, highlighting the persistent challenges in conversational stance detection. Furthermore, our MT-CSD dataset serves as a valuable resource to catalyze advancements in cross-domain stance detection, where a classifier is adapted from a different yet related target. We believe that MT-CSD will contribute to advancing real-world applications of stance detection research. Our source code, data, and models are available at \url{https://github.com/nfq729/MT-CSD}.
翻訳日:2024-03-19 18:25:46 公開日:2024-03-17
# 視覚芸術理解のための小さな感情視覚言語モデルの訓練

Training A Small Emotional Vision Language Model for Visual Art Comprehension ( http://arxiv.org/abs/2403.11150v1 )

ライセンス: Link先を確認
Jing Zhang, Liang Zheng, Dan Guo, Meng Wang, (参考訳) 本稿では、視覚芸術を理解するための小さな視覚言語モデルを開発し、芸術作品として、その感情カテゴリーを特定し、この予測を自然言語で説明することを目的とする。 小型モデルは計算効率が良いが、大きなモデルに比べて容量は限られている。 このトレードオフを打破するために,感情モデリングと入出力特徴アライメントによる感情視覚言語モデル(SEVLM)を構築した。 一方,心理学の専門家によるVAD(valence-arousal-dominance)の知識に基づいて,VAD辞書とVADヘッドから得られた感情的特徴を導入・融合し,予測された感情的説明と基底的真実のVADベクトルを整合させる。 これにより、視覚言語モデルでは、従来のテキスト埋め込みのみを使用する場合と比較して、感情的なテキストをよりよく理解し、生成することができる。 一方,画像の近接埋め込み,感情クラス,説明文を抽出し,モデル出力と入力を整列させるコントラストヘッドを設計する。 2つの公的な情緒的説明データセットにおいて,提案手法はベースラインSEVLMの視覚的理解性能を一貫して向上することを示した。 特に,RTX 2080 Tiを1つのモデルでトレーニングし,非常に高い性能を示しながら評価することができる。これは最先端の小型モデルよりも優れるだけでなく,微調整とGPT4(V)の後にLLaVA 7Bと比較できる。

This paper develops small vision language models to understand visual art, which, given an art work, aims to identify its emotion category and explain this prediction with natural language. While small models are computationally efficient, their capacity is much limited compared with large models. To break this trade-off, this paper builds a small emotional vision language model (SEVLM) by emotion modeling and input-output feature alignment. On the one hand, based on valence-arousal-dominance (VAD) knowledge annotated by psychology experts, we introduce and fuse emotional features derived through VAD dictionary and a VAD head to align VAD vectors of predicted emotion explanation and the ground truth. This allows the vision language model to better understand and generate emotional texts, compared with using traditional text embeddings alone. On the other hand, we design a contrastive head to pull close embeddings of the image, its emotion class, and explanation, which aligns model outputs and inputs. On two public affective explanation datasets, we show that the proposed techniques consistently improve the visual art understanding performance of baseline SEVLMs. Importantly, the proposed model can be trained and evaluated on a single RTX 2080 Ti while exhibiting very strong performance: it not only outperforms the state-of-the-art small models but is also competitive compared with LLaVA 7B after fine-tuning and GPT4(V).
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# 法律領域におけるLCMの評価倫理

Evaluation Ethics of LLMs in Legal Domain ( http://arxiv.org/abs/2403.11152v1 )

ライセンス: Link先を確認
Ruizhe Zhang, Haitao Li, Yueyue Wu, Qingyao Ai, Yiqun Liu, Min Zhang, Shaoping Ma, (参考訳) 近年,自然言語対話における大規模言語モデルの利用が勢いを増し,様々な領域で広く普及している。 しかし、法律のような専門分野に特有な課題に対処する普遍的な能力は、依然として精査の対象である。 モデルへの法的倫理の組み入れは研究者によって見過ごされてきた。 我々は、法律ドメインにおける大規模言語モデルの効果的な統合を保証するためには厳密な倫理評価が不可欠であり、ドメイン固有の習熟度とドメイン固有の倫理を評価する必要性を強調している。 そこで本稿では,大規模言語モデル (LLM) の基本的言語能力, 専門的法的知識, 法的堅牢性を評価するために, 真正の法的事例を活用した新規性評価手法を提案する。 包括的評価から得られた知見は,法律領域における大規模言語モデルの適合性と性能に関する学術的議論に大きく貢献する。

In recent years, the utilization of large language models for natural language dialogue has gained momentum, leading to their widespread adoption across various domains. However, their universal competence in addressing challenges specific to specialized fields such as law remains a subject of scrutiny. The incorporation of legal ethics into the model has been overlooked by researchers. We asserts that rigorous ethic evaluation is essential to ensure the effective integration of large language models in legal domains, emphasizing the need to assess domain-specific proficiency and domain-specific ethic. To address this, we propose a novelty evaluation methodology, utilizing authentic legal cases to evaluate the fundamental language abilities, specialized legal knowledge and legal robustness of large language models (LLMs). The findings from our comprehensive evaluation contribute significantly to the academic discourse surrounding the suitability and performance of large language models in legal domains.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# 遠隔医療における技術活用 : 医療従事者の採用・利用に影響を与える要因

Technological Utilization in Remote Healthcare: Factors Influencing Healthcare Professionals' Adoption and Use ( http://arxiv.org/abs/2403.11153v1 )

ライセンス: Link先を確認
Avnish Singh Jat, Tor-Morten Grønli, George Ghinea, (参考訳) 医療産業における遠隔医療モニタリングの重要性が高まっているため、遠隔医療においてこの技術がもたらす有用性と使いやすさを評価することが不可欠である。 本研究は,医療専門家の視点,遠隔医療モニタリングに関する技術活用能力,テクノロジの信頼と採用能力について理解したいと考えている。 これらの中核的要因に加えて、遠隔医療技術の利用を動機づけ、決定することの重要性を反映して、テクノロジーアクセプタンスモデルにおいてサステナビリティを重要な次元として導入する。 この結果から,遠隔医療における遠隔監視装置の使用に対する参加者の肯定的な見解が示唆された。 しかし、テクノロジーの進歩と持続可能な開発に焦点を当てることで、遠隔医療における遠隔監視装置をより効果的かつ広く採用することができる。

With the increasing importance of remote healthcare monitoring in the healthcare industry, it is essential to evaluate the usefulness and the ease of use the technology brings in remote healthcare. With this research, we want to understand the perspective of healthcare professionals, their competencies in using technology related to remote healthcare monitoring, and their trust and adoption of technology. In addition to these core factors, we introduce sustainability as a pivotal dimension in the Technology Acceptance Model, reflecting its importance in motivating and determining the use of remote healthcare technology. The results suggest that the participants have a positive view towards the use of remote monitoring devices for telemedicine, but have some concerns about security and privacy, and believe that network coverage needs to improve in remote areas. However, advances in technology and a focus on sustainable development can facilitate more effective and widespread adoption of remote monitoring devices in telemedicine.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# 拡散モデルに基づくユニバーサル画像復元のための選択時間ガラスマッピング

Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model ( http://arxiv.org/abs/2403.11157v1 )

ライセンス: Link先を確認
Dian Zheng, Xiao-Ming Wu, Shuzhou Yang, Jian Zhang, Jian-Fang Hu, Wei-Shi Zheng, (参考訳) ユニバーサルイメージ復元は、現実のアプリケーションのための実用的で潜在的なコンピュータビジョンタスクである。 このタスクの主な課題は、異なる分解分布を一度に扱うことです。 既存の手法は主にタスク固有の条件(例えばプロンプト)を利用して、モデルに異なる分布を個別に学習させる。 しかし、異なるタスク間の共有情報を無視するため、普遍的なモデル学習には適さない。 本研究ではDiffUIRと呼ばれる拡散モデルに基づく高度な時間ガラスマッピング戦略を提案する。 2つの新しい考慮事項は、DiffUIRを非自明なものにします。 まず,拡散モデルの正確な生成方向(選択性)を得るために,強い条件ガイダンスを付与する。 さらに、DiffUIRはフレキシブルな共有分布項(SDT)をエレガントかつ自然に拡散アルゴリズムに統合し、異なる分布を徐々に共有分布にマッピングする。 逆処理では、SDTと強い条件ガイダンスを組み合わせることで、DiffUIRは共有分布を高画質(時間ガラス)でタスク固有分布に反復的に誘導する。 ベルとホイッスルなしでは、マッピング戦略を変更するだけで、5つの画像復元タスク、22のベンチマーク、ゼロショットの一般化設定で最先端のパフォーマンスを達成できる。 驚くべきことに、軽量モデル(わずか0.89M)のみを使用することで、優れたパフォーマンスを実現できた。 ソースコードと事前トレーニングされたモデルはhttps://github.com/iSEE-Laboratory/DiffUIRで公開されている。

Universal image restoration is a practical and potential computer vision task for real-world applications. The main challenge of this task is handling the different degradation distributions at once. Existing methods mainly utilize task-specific conditions (e.g., prompt) to guide the model to learn different distributions separately, named multi-partite mapping. However, it is not suitable for universal model learning as it ignores the shared information between different tasks. In this work, we propose an advanced selective hourglass mapping strategy based on diffusion model, termed DiffUIR. Two novel considerations make our DiffUIR non-trivial. Firstly, we equip the model with strong condition guidance to obtain accurate generation direction of diffusion model (selective). More importantly, DiffUIR integrates a flexible shared distribution term (SDT) into the diffusion algorithm elegantly and naturally, which gradually maps different distributions into a shared one. In the reverse process, combined with SDT and strong condition guidance, DiffUIR iteratively guides the shared distribution to the task-specific distribution with high image quality (hourglass). Without bells and whistles, by only modifying the mapping strategy, we achieve state-of-the-art performance on five image restoration tasks, 22 benchmarks in the universal setting and zero-shot generalization setting. Surprisingly, by only using a lightweight model (only 0.89M), we could achieve outstanding performance. The source code and pre-trained models are available at https://github.com/iSEE-Laboratory/DiffUIR
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# BERTモデルに基づくJIT欠陥予測に関する実証的研究

An Empirical Study on JIT Defect Prediction Based on BERT-style Model ( http://arxiv.org/abs/2403.11158v1 )

ライセンス: Link先を確認
Yuxiang Guo, Xiaopeng Gao, Bo Jiang, (参考訳) JIT(Just-In-Time)欠陥予測タスクに関するこれまでの作業は、主にトレーニング済みのモデルを直接適用し、微調整プロセスの構成を無視してきた。 本研究では,細調整プロセスの設定がJIT欠陥予測のためのBERT型事前学習モデルに与える影響について,系統的研究を行った。 具体的には、異なるパラメータ凍結設定、パラメータ初期化設定、および最適化戦略が、JIT欠陥予測のためのBERTスタイルモデルの性能に与える影響について検討する。 本研究は,BERTモデルにおける第1エンコーダ層の役割と,パラメータ初期化設定に対するプロジェクト感度について明らかにした。 もう1つの注目すべき発見は、Adamオプティマイザにウェイト崩壊戦略を追加することで、モデル性能がわずかに改善できることである。 さらに,異なる特徴抽出器 (FCN, CNN, LSTM, トランスフォーマー) を用いて性能を比較し, 単純なネットワークで高い性能が得られることを示す。 これらの結果はJIT欠陥予測のための微調整済みモデルの新たな洞察を提供する。 これらの知見を組み合わせ,LoRAに基づくコスト効率の高い微調整法を考案し,従来の微調整法に比べて3分の1のメモリ消費で同等の性能を実現する。

Previous works on Just-In-Time (JIT) defect prediction tasks have primarily applied pre-trained models directly, neglecting the configurations of their fine-tuning process. In this study, we perform a systematic empirical study to understand the impact of the settings of the fine-tuning process on BERT-style pre-trained model for JIT defect prediction. Specifically, we explore the impact of different parameter freezing settings, parameter initialization settings, and optimizer strategies on the performance of BERT-style models for JIT defect prediction. Our findings reveal the crucial role of the first encoder layer in the BERT-style model and the project sensitivity to parameter initialization settings. Another notable finding is that the addition of a weight decay strategy in the Adam optimizer can slightly improve model performance. Additionally, we compare performance using different feature extractors (FCN, CNN, LSTM, transformer) and find that a simple network can achieve great performance. These results offer new insights for fine-tuning pre-trained models for JIT defect prediction. We combine these findings to find a cost-effective fine-tuning method based on LoRA, which achieve a comparable performance with only one-third memory consumption than original fine-tuning process.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# ディープニューラルクロスオーバー

Deep Neural Crossover ( http://arxiv.org/abs/2403.11159v1 )

ライセンス: Link先を確認
Eliad Shem-Tov, Achiya Elyasaf, (参考訳) 本稿では,遺伝的アルゴリズム (GA) における新しい多親交叉演算子である `Deep Neural Crossover' (DNC) について述べる。 親遺伝子をランダムに選別する従来のGAクロスオーバー演算子とは異なり、DNCは深層強化学習(DRL)とエンコーダ・デコーダアーキテクチャ(encoder-decoder architecture)の能力を利用して遺伝子を選択する。 具体的には、DRLを使用して、有望な遺伝子を選択するためのポリシーを学習する。 この方針は、GAの確率的性質を維持するための確率的であり、適合性を改善する確率の高い遺伝子を選択するための分布を表す。 我々のアーキテクチャは、親のゲノムを潜在記憶状態にエンコードするリカレントニューラルネットワーク(RNN)と、注目に基づくポインティング機構を利用して、子孫の次の選択された遺伝子上の分布を生成するデコーダRNNを備えている。 トレーニング時間を改善するために、まずアーキテクチャを特定のドメイン内の1つの問題に対してトレーニングし、次に同じドメインの他の問題を解決するために適用する事前トレーニングアプローチを提案する。 DNCを2つのベンチマークドメイン(bin packing)とグラフカラー化( graph coloring)という、文献上の既知の演算子と比較する。 2対3のクロスオーバーと比較し、すべてのベースラインを上回ります。 DNCはドメイン非依存であり、他の問題領域にも容易に適用できる。

We present a novel multi-parent crossover operator in genetic algorithms (GAs) called ``Deep Neural Crossover'' (DNC). Unlike conventional GA crossover operators that rely on a random selection of parental genes, DNC leverages the capabilities of deep reinforcement learning (DRL) and an encoder-decoder architecture to select the genes. Specifically, we use DRL to learn a policy for selecting promising genes. The policy is stochastic, to maintain the stochastic nature of GAs, representing a distribution for selecting genes with a higher probability of improving fitness. Our architecture features a recurrent neural network (RNN) to encode the parental genomes into latent memory states, and a decoder RNN that utilizes an attention-based pointing mechanism to generate a distribution over the next selected gene in the offspring. To improve the training time, we present a pre-training approach, wherein the architecture is initially trained on a single problem within a specific domain and then applied to solving other problems of the same domain. We compare DNC to known operators from the literature over two benchmark domains -- bin packing and graph coloring. We compare with both two- and three-parent crossover, outperforming all baselines. DNC is domain-independent and can be easily applied to other problem domains.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# 四重項を用いた熱電流の全熱反転

All-thermal reversal of heat currents using qutrits ( http://arxiv.org/abs/2403.11160v1 )

ライセンス: Link先を確認
Irene Ada Picatoste, Rafael Sánchez, (参考訳) 熱浴に結合されたシステムはほとんどなく、量子熱力学の有用なモデルと、量子情報設定における熱電流の役割を提供する。 冷却やサーマルメーザーのような有用な操作は、自律的な3レベルシステムで提案されている。 本研究では, システムを構成する2つの貯水池の同時冷凍機とヒートポンプとして, 2つのクエットのコヒーレントカップリングを提案する。 これは、平衡状態にあるが系の熱を注入しない他の2つの貯水池との結合によって起こる。 本研究では, 作動物質に制限された電流変動の測定によって, マクスウェルデーモンの作用と区別できるかどうかを考察する。

Few-level systems coupled to thermal baths provide useful models for quantum thermodynamics and the role of heat currents in quantum information settings. Useful operations such as cooling or thermal masers have been proposed in autonomous three-level systems. In this work, we propose the coherent coupling of two qutrits as a simultaneous refrigerator and heat pump of two reservoirs forming a system. This occurs thanks to the coupling to two other reservoirs which are out of equilibrium but do not inject heat in the system. We explore the thermodynamic performance of such operation and discuss whether it can be distinguished from the action of a Maxwell demon via measurements of current fluctuations limited to the working substance.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# CGI-DM:グラディエント・インバージョンを用いた拡散モデルのためのデジタル著作権認証

CGI-DM: Digital Copyright Authentication for Diffusion Models via Contrasting Gradient Inversion ( http://arxiv.org/abs/2403.11162v1 )

ライセンス: Link先を確認
Xiaoyu Wu, Yang Hua, Chumeng Liang, Jiaru Zhang, Hao Wang, Tao Song, Haibing Guan, (参考訳) 拡散モデル(DM)は先進的な画像生成ツールへと進化し、特に特定のスタイルやオブジェクトを捉えるために、訓練済みのモデルを小さな画像に微調整した数ショット生成において顕著である。 彼らの成功にもかかわらず、このプロセスにおける不正データの使用に起因する潜在的な著作権侵害に関する懸念が存在する。 そこで我々は,デジタル著作権認証のための視覚表現を鮮明に表現した新しい手法であるContrasting Gradient Inversion for Diffusion Models (CGI-DM)を提案する。 提案手法では,事前学習されたモデルと微調整されたモデル間の概念的差異を利用して,画像の部分的な情報を取り除き,詳細を復元する。 我々は,モンテカルロサンプリングとプロジェクテッドグラディエントDescent (PGD) によって最大化できる,同じ入力画像が与えられたときの2モデルの潜伏変数間のKLのばらつきを定式化する。 元の画像と復元された画像の類似性は、潜在的な侵害の強い指標となる。 WikiArtとDreamboothデータセットの大規模な実験では、デジタル著作権認証におけるCGI-DMの精度が、代替バリデーション技術を上回ることを示した。 コード実装はhttps://github.com/Nicholas0228/Revelio.comで公開されている。

Diffusion Models (DMs) have evolved into advanced image generation tools, especially for few-shot generation where a pretrained model is fine-tuned on a small set of images to capture a specific style or object. Despite their success, concerns exist about potential copyright violations stemming from the use of unauthorized data in this process. In response, we present Contrasting Gradient Inversion for Diffusion Models (CGI-DM), a novel method featuring vivid visual representations for digital copyright authentication. Our approach involves removing partial information of an image and recovering missing details by exploiting conceptual differences between the pretrained and fine-tuned models. We formulate the differences as KL divergence between latent variables of the two models when given the same input image, which can be maximized through Monte Carlo sampling and Projected Gradient Descent (PGD). The similarity between original and recovered images serves as a strong indicator of potential infringements. Extensive experiments on the WikiArt and Dreambooth datasets demonstrate the high accuracy of CGI-DM in digital copyright authentication, surpassing alternative validation techniques. Code implementation is available at https://github.com/Nicholas0228/Revelio.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# 大規模データ計算における統計的手法の選択的レビュー:分散コンピューティング, サブサンプリング, ミニバッチ技術

A Selective Review on Statistical Methods for Massive Data Computation: Distributed Computing, Subsampling, and Minibatch Techniques ( http://arxiv.org/abs/2403.11163v1 )

ライセンス: Link先を確認
Xuetong Li, Yuan Gao, Hong Chang, Danyang Huang, Yingying Ma, Rui Pan, Haobo Qi, Feifei Wang, Shuyuan Wu, Ke Xu, Jing Zhou, Xuening Zhu, Yingqiu Zhu, Hansheng Wang, (参考訳) 本稿では,大規模データ解析のための統計計算手法の選択的なレビューを行う。 大規模なデータ計算のための膨大な量の統計手法が、ここ数十年間で急速に開発されてきた。 本研究では,(1)分散コンピューティング,(2)サブサンプリング手法,(3)ミニバッチ勾配手法の3つのカテゴリに焦点をあてる。 第一級の文献は分散コンピューティングであり、データセットのサイズが大きすぎて1台のコンピュータで快適に処理できない状況に焦点を当てている。 この場合、複数のコンピュータによる分散計算システムを利用する必要がある。 第2級の文献は、データセットのサンプルサイズが1つのコンピュータに配置できるくらい小さいが、メモリ全体によって簡単に処理できないという、サブサンプリング方法と状況に対する懸念に関するものである。 最後のクラスでは、様々なディープラーニングモデルの最適化に広く使われているミニバッチ勾配関連最適化技術について研究している。

This paper presents a selective review of statistical computation methods for massive data analysis. A huge amount of statistical methods for massive data computation have been rapidly developed in the past decades. In this work, we focus on three categories of statistical computation methods: (1) distributed computing, (2) subsampling methods, and (3) minibatch gradient techniques. The first class of literature is about distributed computing and focuses on the situation, where the dataset size is too huge to be comfortably handled by one single computer. In this case, a distributed computation system with multiple computers has to be utilized. The second class of literature is about subsampling methods and concerns about the situation, where the sample size of dataset is small enough to be placed on one single computer but too large to be easily processed by its memory as a whole. The last class of literature studies those minibatch gradient related optimization techniques, which have been extensively used for optimizing various deep learning models.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# Pencil:非衝突的想定なしに、プライベートで拡張可能なコラボレーション学習

Pencil: Private and Extensible Collaborative Learning without the Non-Colluding Assumption ( http://arxiv.org/abs/2403.11166v1 )

ライセンス: Link先を確認
Xuanqi Liu, Zhuotao Liu, Qi Li, Ke Xu, Mingwei Xu, (参考訳) データプライバシへの注目の高まりは、データオーナシップとモデルトレーニング/デプロイの責任が別々のエンティティに存在するような、コラボレーティブなニューラルネットワークトレーニングにおいて、大きな課題を引き起こします。 私たちのコミュニティは、同相暗号(HE)やセキュアマルチパーティ計算(MPC)といった暗号化構造に基づいた、フェデレートラーニング(FL)やプライバシ保護機械学習など、さまざまなアプローチを提案して、この問題に多大な貢献をしている。 しかし、FLはモデルのプライバシを完全に見落としており、HEは拡張性に制限がある(データプロバイダは1つに限られている)。 最先端のMPCフレームワークは、適切なスループットを提供し、モデル/データのプライバシを同時に確保するが、それらはコンピュータサーバーに対する重要な非凝固仮定に依存しており、この仮定を緩和することは依然としてオープンな問題である。 本稿では,データプライバシ,モデルプライバシ,拡張性を複数のデータプロバイダに同時に提供する,協調学習のための最初のプライベートトレーニングフレームワークであるPencilを紹介する。 我々の基本的な設計原則は、効率的な双方向プロトコルに基づくn-partyコラボレーティブトレーニングプロトコルを構築することであり、一方で、モデルトレーニング中に異なるデータプロバイダに切り替えることに余分なコストがかからないようにすることである。 この設計原則を実現し、厳密なセキュリティとプライバシ分析を行うために、新しい暗号プロトコルをいくつか導入する。 Pencilの包括的評価は、それを証明している。 i) 平文で訓練されたモデル及びペンシルを用いて私的に訓練されたモデルは、ほぼ同一のテスト精度を示す。 (ii)ペンシルの訓練オーバーヘッドは大幅に低減され、ペンシルは10倍から260倍のスループットと2桁の通信速度を実現した。 (iii)ペンシルは、既存の攻撃と適応(ホワイトボックス)攻撃の両方に対して耐性がある。

The escalating focus on data privacy poses significant challenges for collaborative neural network training, where data ownership and model training/deployment responsibilities reside with distinct entities. Our community has made substantial contributions to addressing this challenge, proposing various approaches such as federated learning (FL) and privacy-preserving machine learning based on cryptographic constructs like homomorphic encryption (HE) and secure multiparty computation (MPC). However, FL completely overlooks model privacy, and HE has limited extensibility (confined to only one data provider). While the state-of-the-art MPC frameworks provide reasonable throughput and simultaneously ensure model/data privacy, they rely on a critical non-colluding assumption on the computing servers, and relaxing this assumption is still an open problem. In this paper, we present Pencil, the first private training framework for collaborative learning that simultaneously offers data privacy, model privacy, and extensibility to multiple data providers, without relying on the non-colluding assumption. Our fundamental design principle is to construct the n-party collaborative training protocol based on an efficient two-party protocol, and meanwhile ensuring that switching to different data providers during model training introduces no extra cost. We introduce several novel cryptographic protocols to realize this design principle and conduct a rigorous security and privacy analysis. Our comprehensive evaluations of Pencil demonstrate that (i) models trained in plaintext and models trained privately using Pencil exhibit nearly identical test accuracies; (ii) The training overhead of Pencil is greatly reduced: Pencil achieves 10 ~ 260x higher throughput and 2 orders of magnitude less communication than prior art; (iii) Pencil is resilient against both existing and adaptive (white-box) attacks.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# 大規模言語モデルを用いたソーシャルメディア上の誤情報訂正

Correcting misinformation on social media with a large language model ( http://arxiv.org/abs/2403.11169v1 )

ライセンス: Link先を確認
Xinyi Zhou, Ashish Sharma, Amy X. Zhang, Tim Althoff, (参考訳) 誤報は科学と民主主義に対する大衆の信頼を損なう。 専門家や平民は、不正確な情報を手動で特定し説明することによって誤情報を修正するのに効果的であることが示されている。 しかし、大規模言語モデル(LLM)のような技術が誤情報を生成しやすくするため、このアプローチはスケールするのが困難である。 LLMはまた、誤情報訂正を加速させる万能性も持っているが、近年の情報不足や、偽のコンテンツや参照を生成する傾向、マルチモーダル情報に対処する際の制限などにより、これらは苦戦している。 これらの課題に対処するために,最新の情報へのアクセスと信頼性評価が可能なLLM拡張MUSEを提案する。 MUSEは文脈的証拠と反感を回収することで、正確で信頼できる説明と参照を提供することができる。 また、視覚を記述し、マルチモーダル誤報の訂正のためのマルチモーダル検索を行う。 我々はファクトチェックとジャーナリズムの専門家を雇い、13次元にわたる実際のソーシャルメディア投稿の修正を評価する。 その結果,MUSEはソーシャルメディアに現れるとすぐに誤報を訂正する能力を示し,総合的にはGPT-4が37%,質の高い修正も29%向上した。 この研究は、LLMが現実世界の誤報と効果的に戦う可能性を強調している。

Misinformation undermines public trust in science and democracy, particularly on social media where inaccuracies can spread rapidly. Experts and laypeople have shown to be effective in correcting misinformation by manually identifying and explaining inaccuracies. Nevertheless, this approach is difficult to scale, a concern as technologies like large language models (LLMs) make misinformation easier to produce. LLMs also have versatile capabilities that could accelerate misinformation correction; however, they struggle due to a lack of recent information, a tendency to produce plausible but false content and references, and limitations in addressing multimodal information. To address these issues, we propose MUSE, an LLM augmented with access to and credibility evaluation of up-to-date information. By retrieving contextual evidence and refutations, MUSE can provide accurate and trustworthy explanations and references. It also describes visuals and conducts multimodal searches for correcting multimodal misinformation. We recruit fact-checking and journalism experts to evaluate corrections to real social media posts across 13 dimensions, ranging from the factuality of explanation to the relevance of references. The results demonstrate MUSE's ability to correct misinformation promptly after appearing on social media; overall, MUSE outperforms GPT-4 by 37% and even high-quality corrections from laypeople by 29%. This work underscores the potential of LLMs to combat real-world misinformation effectively and efficiently.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# IOTAプライバシーのヒント: IOTA Light Node Deanonymization by Tip Selection

A Tip for IOTA Privacy: IOTA Light Node Deanonymization via Tip Selection ( http://arxiv.org/abs/2403.11171v1 )

ライセンス: Link先を確認
Hojung Yang, Suhyeon Lee, Seungjoo Kim, (参考訳) IOTAは分散台帳技術であり、Tangleと呼ばれるDAG(Directed Acyclic Graph)構造を用いる。 効率性で知られており、IoT(Internet of Things)環境で広く利用されている。 先端選択プロセスを利用してタングルを設定することができる。 光ノードのパフォーマンス上の問題により、光ノードの先端選択を全ノードで行うように求められている。 しかし,本稿では,ユーザのプライバシーを侵害するためにチップの選択を活用できることを実証する。 逆完全ノードは、光ノードの要求と台帳を比較することにより、トランザクションと光ノードのアイデンティティを関連付けることができる。 これらの攻撃は、現在のIOTA環境だけでなく、IOTA 2.0でも可能であり、プライバシーの改善も研究されている。 また、これらの攻撃を軽減し、効率とスケーラビリティを維持しつつ、IOTAネットワークの匿名性を高める方法を提案する。

IOTA is a distributed ledger technology that uses a Directed Acyclic Graph (DAG) structure called the Tangle. It is known for its efficiency and is widely used in the Internet of Things (IoT) environment. Tangle can be configured by utilizing the tip selection process. Due to performance issues with light nodes, full nodes are being asked to perform the tip selections of light nodes. However, in this paper, we demonstrate that tip selection can be exploited to compromise users' privacy. An adversary full node can associate a transaction with the identity of a light node by comparing the light node's request with its ledger. We show that these types of attacks are not only viable in the current IOTA environment but also in IOTA 2.0 and the privacy improvement being studied. We also provide solutions to mitigate these attacks and propose ways to enhance anonymity in the IOTA network while maintaining efficiency and scalability.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# AI生成画像のクロスドメイン検出のためのアーチファクト特性の浄化

Artifact Feature Purification for Cross-domain Detection of AI-generated Images ( http://arxiv.org/abs/2403.11172v1 )

ライセンス: Link先を確認
Zheling Meng, Bo Peng, Jing Dong, Tieniu Tan, (参考訳) AIGCの時代、拡散モデルのような視覚コンテンツ生成技術の急速な発展は、社会に潜在的なセキュリティリスクをもたらします。 既存の画像検出方法は、ドメイン外ジェネレータや画像シーンに直面すると、性能低下に悩まされる。 この問題を解消するために, 明示的で暗黙的な浄化プロセスを通じて生成した画像からの人工物抽出を容易にするArtifact Purification Network (APN)を提案する。 本研究では,不審な周波数帯域提案法と空間的特徴分解法を提案し,人工物に関連する特徴を抽出した。 暗黙的に、相互情報推定に基づくトレーニング戦略を提案し、アーティファクトに関連する特徴をさらに浄化する。 実験により、クロスジェネレータ検出において、APNの平均精度は、GenImageデータセットの以前の10のメソッドよりも5.6%から16.4%高く、DiffusionForensicsデータセットの1.7%から50.1%高いことが示されている。 クロスシーン検出のために、APNは高性能を維持している。 可視化分析により,提案手法はフレキシブルな偽造パターンを抽出し,無関係な特徴で希釈された偽造情報を凝縮することがわかった。 また、APNがジェネレータやシーンにフォーカスするアーティファクト機能は、グローバルで多様であることもわかりました。 コードはGitHubで入手できる。

In the era of AIGC, the fast development of visual content generation technologies, such as diffusion models, bring potential security risks to our society. Existing generated image detection methods suffer from performance drop when faced with out-of-domain generators and image scenes. To relieve this problem, we propose Artifact Purification Network (APN) to facilitate the artifact extraction from generated images through the explicit and implicit purification processes. For the explicit one, a suspicious frequency-band proposal method and a spatial feature decomposition method are proposed to extract artifact-related features. For the implicit one, a training strategy based on mutual information estimation is proposed to further purify the artifact-related features. Experiments show that for cross-generator detection, the average accuracy of APN is 5.6% ~ 16.4% higher than the previous 10 methods on GenImage dataset and 1.7% ~ 50.1% on DiffusionForensics dataset. For cross-scene detection, APN maintains its high performance. Via visualization analysis, we find that the proposed method extracts flexible forgery patterns and condenses the forgery information diluted in irrelevant features. We also find that the artifact features APN focuses on across generators and scenes are global and diverse. The code will be available on GitHub.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# リカレントニューラルネットワークのための多目的進化型ニューラルネットワーク探索

Multi-Objective Evolutionary Neural Architecture Search for Recurrent Neural Networks ( http://arxiv.org/abs/2403.11173v1 )

ライセンス: Link先を確認
Reinhard Booysen, Anna Sergeevna Bosman, (参考訳) ニューラルネットワーク(NN)アーキテクチャ設計は非自明で時間を要する作業であり、高いレベルの人間の専門知識を必要とすることが多い。 ニューラルアーキテクチャサーチ(NAS)は、NNアーキテクチャの設計の自動化に役立ち、人手による設計よりも優れたNNアーキテクチャの自動発見に成功している。 NNアーキテクチャのパフォーマンスは、モデル精度やNNアーキテクチャの複雑さの目的などを含む複数の目的に基づいて定量化することができる。 NNアーキテクチャ性能評価のための複数の目的を考慮した現代のNAS手法の大半は、マルチオブジェクト自動リカレントニューラルネットワーク(RNN)アーキテクチャ設計を未検討のまま残した、自動フィードフォワードNNアーキテクチャ設計に関するものである。 RNNはシーケンシャルデータセットのモデリングに重要であり、自然言語処理領域内で顕著である。 機械学習やNNの現実的な実装では、モデルによって要求される低い計算リソースを優先して、モデル精度を極端に削減するための合理的なトレードオフが受け入れられることがしばしばある。 本稿では,多目的進化アルゴリズムに基づくRNNアーキテクチャ探索手法を提案する。 提案手法は,進化過程におけるRNNアーキテクチャの複雑性最適化のための近似ネットワーク型に依存する。 提案手法は,手作業で設計したRNNアーキテクチャに匹敵する性能を持つ新規なRNNアーキテクチャを,計算負荷を低減できることを示す。

Artificial neural network (NN) architecture design is a nontrivial and time-consuming task that often requires a high level of human expertise. Neural architecture search (NAS) serves to automate the design of NN architectures and has proven to be successful in automatically finding NN architectures that outperform those manually designed by human experts. NN architecture performance can be quantified based on multiple objectives, which include model accuracy and some NN architecture complexity objectives, among others. The majority of modern NAS methods that consider multiple objectives for NN architecture performance evaluation are concerned with automated feed forward NN architecture design, which leaves multi-objective automated recurrent neural network (RNN) architecture design unexplored. RNNs are important for modeling sequential datasets, and prominent within the natural language processing domain. It is often the case in real world implementations of machine learning and NNs that a reasonable trade-off is accepted for marginally reduced model accuracy in favour of lower computational resources demanded by the model. This paper proposes a multi-objective evolutionary algorithm-based RNN architecture search method. The proposed method relies on approximate network morphisms for RNN architecture complexity optimisation during evolution. The results show that the proposed method is capable of finding novel RNN architectures with comparable performance to state-of-the-art manually designed RNN architectures, but with reduced computational demand.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# 関数近似を用いた後方サンプリング強化学習の事前依存解析

Prior-dependent analysis of posterior sampling reinforcement learning with function approximation ( http://arxiv.org/abs/2403.11175v1 )

ライセンス: Link先を確認
Yingru Li, Zhi-Quan Luo, (参考訳) この研究は、線形混合MDPをモデルとした関数近似を用いた強化学習(RL)におけるランダム化探索を推し進める。 関数近似によるRLに対する最初の事前依存型ベイズ的後悔法を確立し、後方サンプリング強化学習(PSRL)のためのベイズ的後悔法を洗練し、${\mathcal{O}}(d\sqrt{H^3 T \log T})$の上限を示し、$d$は遷移核の次元を表し、$H$は計画的地平線、$T$は相互作用の総数を表す。 これは、線形混合 MDP に指定された前のベンチマーク (Osband と Van Roy, 2014) よりも $\mathcal{O}(\sqrt{\log T})$ factor を最適化することで、方法論的拡張を示す。 提案手法は, ベイズ的遺言境界をより効果的に定式化するために, 信頼度と集中不等式に依存する従来の分析を超越した, 疎結合論法と分散還元法を導入する。

This work advances randomized exploration in reinforcement learning (RL) with function approximation modeled by linear mixture MDPs. We establish the first prior-dependent Bayesian regret bound for RL with function approximation; and refine the Bayesian regret analysis for posterior sampling reinforcement learning (PSRL), presenting an upper bound of ${\mathcal{O}}(d\sqrt{H^3 T \log T})$, where $d$ represents the dimensionality of the transition kernel, $H$ the planning horizon, and $T$ the total number of interactions. This signifies a methodological enhancement by optimizing the $\mathcal{O}(\sqrt{\log T})$ factor over the previous benchmark (Osband and Van Roy, 2014) specified to linear mixture MDPs. Our approach, leveraging a value-targeted model learning perspective, introduces a decoupling argument and a variance reduction technique, moving beyond traditional analyses reliant on confidence sets and concentration inequalities to formalize Bayesian regret bounds more effectively.
翻訳日:2024-03-19 18:15:50 公開日:2024-03-17
# 実世界の画質評価のための品質対応画像テキストアライメント

Quality-Aware Image-Text Alignment for Real-World Image Quality Assessment ( http://arxiv.org/abs/2403.11176v1 )

ライセンス: Link先を確認
Lorenzo Agnolucci, Leonardo Galteri, Marco Bertini, (参考訳) No-Reference Image Quality Assessment (NR-IQA) は、高画質の参照画像が利用できない場合に、人間の知覚に合わせて画像品質を測定する方法に焦点を当てている。 最先端のNR-IQAアプローチの大部分における注釈付き平均オピニオンスコア(MOS)への依存は、そのスケーラビリティと実際のシナリオへの適用性を制限している。 この制限を克服するために、ラベル付きMOSを必要としないCLIPベースの自己教師型意見認識手法であるQuariCLIP(Quality-aware CLIP)を提案する。 特に、CLIPが画像固有の品質と相関する表現を生成するために、品質に配慮した画像テキストアライメント戦略を導入する。 プリスタン画像から始めると、高強度で合成分解する。 次に、CLIPに、品質に関するアントロニムテキストプロンプトと類似性に基づいて、これらの劣化した画像をランク付けするように訓練し、同等の品質のイメージに対して一貫した表現を保証します。 提案手法は, 高精度な歪みのある複数のデータセットに対して, 最先端の性能を実現する。 さらに、MOSを必要としないにもかかわらず、QualliCLIPはトレーニングデータセットがテストデータセットと異なる場合、教師付きメソッドよりも優れており、現実のシナリオに適していることが証明されている。 さらに,本手法は,競合手法よりも堅牢性が高く,説明性も向上している。 コードとモデルはhttps://github.com/miccunifi/QualiCLIPで公開されている。

No-Reference Image Quality Assessment (NR-IQA) focuses on designing methods to measure image quality in alignment with human perception when a high-quality reference image is unavailable. The reliance on annotated Mean Opinion Scores (MOS) in the majority of state-of-the-art NR-IQA approaches limits their scalability and broader applicability to real-world scenarios. To overcome this limitation, we propose QualiCLIP (Quality-aware CLIP), a CLIP-based self-supervised opinion-unaware method that does not require labeled MOS. In particular, we introduce a quality-aware image-text alignment strategy to make CLIP generate representations that correlate with the inherent quality of the images. Starting from pristine images, we synthetically degrade them with increasing levels of intensity. Then, we train CLIP to rank these degraded images based on their similarity to quality-related antonym text prompts, while guaranteeing consistent representations for images with comparable quality. Our method achieves state-of-the-art performance on several datasets with authentic distortions. Moreover, despite not requiring MOS, QualiCLIP outperforms supervised methods when their training dataset differs from the testing one, thus proving to be more suitable for real-world scenarios. Furthermore, our approach demonstrates greater robustness and improved explainability than competing methods. The code and the model are publicly available at https://github.com/miccunifi/QualiCLIP.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# usfADをベースとした実効的未知攻撃検出型IDSフレームワーク

usfAD Based Effective Unknown Attack Detection Focused IDS Framework ( http://arxiv.org/abs/2403.11180v1 )

ライセンス: Link先を確認
Md. Ashraf Uddin, Sunil Aryal, Mohamed Reda Bouadjenek, Muna Al-Hawawreh, Md. Alamin Talukder, (参考訳) Internet of Things(IoT)やIndustrial Internet of Things(IoT)など、さまざまなネットワークシステムの急速な拡張は、サイバー脅威の広がりにつながっている。 これらの脅威に対して堅牢な保護を確保するには、効果的な侵入検知システム(IDS)を実装する必要がある。 研究者たちは10年以上にわたり、通常のトラフィックを分類して攻撃するIDSを開発するための教師付き機械学習技術を模索してきた。 しかし、教師付き学習を用いて効果的なIDSモデルを構築するには、かなりの数の良性および攻撃的なサンプルが必要である。 サイバー攻撃が時々発生するため、現実のシナリオから十分な数の攻撃サンプルを収集することは不可能である。 さらに、IDSは既知のデータセットでトレーニングされ、テストされ、攻撃パターンの迅速な進化のためにゼロデイまたは未知の攻撃を検出するのに失敗する。 この課題に対処するために、準教師あり学習に基づくIDSのための2つの戦略を提案し、攻撃のトレーニングサンプルは不要である。 1)ランダムかつ均一に分散した合成攻撃サンプルを用いた教師あり機械学習モデルの訓練 2)一級分類(OCC)モデルの構築。 我々は、両方のアプローチを実装し、最近の10のベンチマークIDSデータセットを用いて、それらのパフォーマンスを比較した。 以上の結果から,usfADと呼ばれる最先端の異常検出技術に基づくOCCモデルは,実生活シナリオ,特に未確認攻撃の検出において,従来の教師付き分類法および他のOCCベースの手法よりも有意に優れていたことが示唆された。

The rapid expansion of varied network systems, including the Internet of Things (IoT) and Industrial Internet of Things (IIoT), has led to an increasing range of cyber threats. Ensuring robust protection against these threats necessitates the implementation of an effective Intrusion Detection System (IDS). For more than a decade, researchers have delved into supervised machine learning techniques to develop IDS to classify normal and attack traffic. However, building effective IDS models using supervised learning requires a substantial number of benign and attack samples. To collect a sufficient number of attack samples from real-life scenarios is not possible since cyber attacks occur occasionally. Further, IDS trained and tested on known datasets fails in detecting zero-day or unknown attacks due to the swift evolution of attack patterns. To address this challenge, we put forth two strategies for semi-supervised learning based IDS where training samples of attacks are not required: 1) training a supervised machine learning model using randomly and uniformly dispersed synthetic attack samples; 2) building a One Class Classification (OCC) model that is trained exclusively on benign network traffic. We have implemented both approaches and compared their performances using 10 recent benchmark IDS datasets. Our findings demonstrate that the OCC model based on the state-of-art anomaly detection technique called usfAD significantly outperforms conventional supervised classification and other OCC based techniques when trained and tested considering real-life scenarios, particularly to detect previously unseen attacks.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# 非侵襲的脳記録から連続文字ベース言語を復号する

Decoding Continuous Character-based Language from Non-invasive Brain Recordings ( http://arxiv.org/abs/2403.11183v1 )

ライセンス: Link先を確認
Cenyuan Zhang, Xiaoqing Zheng, Ruicheng Yin, Shujie Geng, Jianhan Xu, Xuan Gao, Changze Lv, Zixuan Ling, Xuanjing Huang, Miao Cao, Jianfeng Feng, (参考訳) 脳の活動から非侵襲的なデバイスを通して自然言語を解読することは、依然として恐ろしい課題だ。 従来の非侵襲デコーダは、脳活動における信号と雑音の比を高めるために、同じ刺激で複数の実験を必要とするか、文字や単語のような基本的な言語要素を識別することに限定されている。 本研究では,情報ボトルネックを付加した3次元畳み込みネットワークを開発して応答性ボクセルを自動同定し,固有な文字構造を特徴とする連続言語を意味的再構成するために文字ベースデコーダを設計する,単心的非侵襲的fMRI記録から連続言語を復号する手法を提案する。 得られたデコーダは、被写体内および被写体間の両方で知覚された音声の意味を忠実に捉え、既存のデコーダは、クロスオブジェクトコンテキストにおいて著しく劣る性能を示す。 被験者を対象とする単一の試験から連続言語を復号する能力は、医療と神経科学の両方において非侵襲的な言語脳-コンピュータインターフェースの有望な応用を示す。

Deciphering natural language from brain activity through non-invasive devices remains a formidable challenge. Previous non-invasive decoders either require multiple experiments with identical stimuli to pinpoint cortical regions and enhance signal-to-noise ratios in brain activity, or they are limited to discerning basic linguistic elements such as letters and words. We propose a novel approach to decoding continuous language from single-trial non-invasive fMRI recordings, in which a three-dimensional convolutional network augmented with information bottleneck is developed to automatically identify responsive voxels to stimuli, and a character-based decoder is designed for the semantic reconstruction of continuous language characterized by inherent character structures. The resulting decoder can produce intelligible textual sequences that faithfully capture the meaning of perceived speech both within and across subjects, while existing decoders exhibit significantly inferior performance in cross-subject contexts. The ability to decode continuous language from single trials across subjects demonstrates the promising applications of non-invasive language brain-computer interfaces in both healthcare and neuroscience.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# DuPL:ロバストに監督されたセマンティックセグメンテーションのための信頼できる進歩的学習を持つ2人の学生

DuPL: Dual Student with Trustworthy Progressive Learning for Robust Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2403.11184v1 )

ライセンス: Link先を確認
Yuanchen Wu, Xichen Ye, Kequan Yang, Jide Li, Xiaoqiang Li, (参考訳) 近年、画像レベルのラベルを持つワンステージのWakly Supervised Semantic Segmentation (WSSS) は、面倒なマルチステージよりも単純化され、関心が高まりつつある。 クラスアクティベーションマップ(CAM)の固有曖昧さに制限された結果,CAM擬似ラベルの誤りによる確認バイアスに陥り,最終的なセグメンテーション性能が損なわれることが判明した。 近年の研究では、この問題を暗黙的に緩和するために、信頼できない疑似ラベルの多くを廃止しているが、彼らはモデルに対する十分な監督を活用できなかった。 この目的のために,信頼に足る進歩学習(DuPL)を備えた2つの学生フレームワークを提案する。 具体的には、各サブネットに対して多様なCAMを生成するために、差分損失を持つ2つの学生ネットワークを提案する。 2つのサブネットは互いに監督し合い、誤った擬似ラベルを学習することによって生じる確認バイアスを緩和する。 本研究では,適応雑音フィルタリング手法を用いて動的しきい値調整を行うことにより,より信頼性の高い疑似ラベルを徐々に導入する。 さらに我々は、すべてのピクセルが、信頼性の低いため監督から外されたとしても、WSSSにとって重要であると信じている。 そこで我々は,これら捨てられた領域の整合性正規化を開発し,各ピクセルの監督を行う。 実験結果は、PASCAL VOC 2012とMS COCOデータセットにおける最近の最先端の代替よりも、提案されたDuPLの方が優れていることを示す。 コードはhttps://github.com/Wu0409/DuPLで入手できる。

Recently, One-stage Weakly Supervised Semantic Segmentation (WSSS) with image-level labels has gained increasing interest due to simplification over its cumbersome multi-stage counterpart. Limited by the inherent ambiguity of Class Activation Map (CAM), we observe that one-stage pipelines often encounter confirmation bias caused by incorrect CAM pseudo-labels, impairing their final segmentation performance. Although recent works discard many unreliable pseudo-labels to implicitly alleviate this issue, they fail to exploit sufficient supervision for their models. To this end, we propose a dual student framework with trustworthy progressive learning (DuPL). Specifically, we propose a dual student network with a discrepancy loss to yield diverse CAMs for each sub-net. The two sub-nets generate supervision for each other, mitigating the confirmation bias caused by learning their own incorrect pseudo-labels. In this process, we progressively introduce more trustworthy pseudo-labels to be involved in the supervision through dynamic threshold adjustment with an adaptive noise filtering strategy. Moreover, we believe that every pixel, even discarded from supervision due to its unreliability, is important for WSSS. Thus, we develop consistency regularization on these discarded regions, providing supervision of every pixel. Experiment results demonstrate the superiority of the proposed DuPL over the recent state-of-the-art alternatives on PASCAL VOC 2012 and MS COCO datasets. Code is available at https://github.com/Wu0409/DuPL.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# NetTrack: ネットで高ダイナミックなオブジェクトを追跡する

NetTrack: Tracking Highly Dynamic Objects with a Net ( http://arxiv.org/abs/2403.11186v1 )

ライセンス: Link先を確認
Guangze Zheng, Shijie Lin, Haobo Zuo, Changhong Fu, Jia Pan, (参考訳) オープンワールドオブジェクトの複雑な動的性は、多物体追跡(MOT)の非無視的な課題を示し、しばしば激しい変形、速い動き、閉塞として表される。 ボックスのような粗い粒度のオブジェクトキューのみに依存する手法や、オブジェクト全体の外観は、動的オブジェクトの内部関係が歪んだために劣化する可能性がある。 この問題に対処するために、この研究は、動的に堅牢なきめ細かい学習を導入するための、効率的で汎用的で手頃な追跡フレームワークであるNetTrackを提案する。 具体的には、NetTrackは、ポイントレベルの視覚的手がかりを利用して、きめ細かいNetと動的に認識するアソシエーションを構築する。 それに対応して、きめ細かいサンプルとマッチング方法が組み込まれている。 さらに、NetTrackは微粒なローカライゼーションのためのオブジェクト-テキスト対応を学習する。 極めてダイナミックなオープンワールドシナリオでMOTを評価するために、多様な種やオープンワールドシナリオと高いダイナミック性を示す鳥群追跡(BFT)データセットを構築した。 BFTの総合的な評価は、オブジェクトの動的性に対する微粒な学習の有効性を検証し、TAO、TAO-OW、AnimalTrack、GMOT-40といった挑戦的なオープンワールドベンチマークに対する徹底的な伝達実験を行い、微調整なしでもNetTrackの強力な一般化能力を検証する。 プロジェクトページ: https://george-zhuang.github.io/nettrack/。

The complex dynamicity of open-world objects presents non-negligible challenges for multi-object tracking (MOT), often manifested as severe deformations, fast motion, and occlusions. Most methods that solely depend on coarse-grained object cues, such as boxes and the overall appearance of the object, are susceptible to degradation due to distorted internal relationships of dynamic objects. To address this problem, this work proposes NetTrack, an efficient, generic, and affordable tracking framework to introduce fine-grained learning that is robust to dynamicity. Specifically, NetTrack constructs a dynamicity-aware association with a fine-grained Net, leveraging point-level visual cues. Correspondingly, a fine-grained sampler and matching method have been incorporated. Furthermore, NetTrack learns object-text correspondence for fine-grained localization. To evaluate MOT in extremely dynamic open-world scenarios, a bird flock tracking (BFT) dataset is constructed, which exhibits high dynamicity with diverse species and open-world scenarios. Comprehensive evaluation on BFT validates the effectiveness of fine-grained learning on object dynamicity, and thorough transfer experiments on challenging open-world benchmarks, i.e., TAO, TAO-OW, AnimalTrack, and GMOT-40, validate the strong generalization ability of NetTrack even without finetuning. Project page: https://george-zhuang.github.io/nettrack/.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# 非目標クラスからの学習による半監督的時間的行動局所化の促進

Boosting Semi-Supervised Temporal Action Localization by Learning from Non-Target Classes ( http://arxiv.org/abs/2403.11189v1 )

ライセンス: Link先を確認
Kun Xia, Le Wang, Sanping Zhou, Gang Hua, Wei Tang, (参考訳) 半監督的時間的行動ローカライゼーション(SS-TAL)の欠如は、豊富な未ラベルビデオから貴重な情報を発掘することにある。 しかしながら、現在のアプローチは、主にエラーを起こしやすいターゲットクラス(すなわち、最も信頼度の高い予測クラス)に対して堅牢なモデルの構築に焦点を合わせ、非ターゲットクラス内の情報的意味論を無視している。 本稿では,非対象クラスからの学習を提唱し,対象クラスにのみ焦点を移すことにより,新しい視点からSS-TALにアプローチする。 提案手法は,予測されたクラス分布のラベル空間を,対象クラス,正のクラス,負のクラス,曖昧なクラスという,異なる部分空間に分割することを含む。 この目的のために,我々はまず,対象クラスの信頼性とランクの両方をモデル化することにより,ラベル空間から高品質な正負のクラスを適応的に選択する革新的な戦略を考案した。 そこで,本研究では,学習過程をガイドし,正のクラスに近づき,負のクラスから遠ざかって予測を推し進める新規な正の損失と負の損失を導入する。 最後に、正負のプロセスと負のプロセスがハイブリッドな正負の学習フレームワークに統合され、ラベル付きビデオとラベルなしビデオの両方で非ターゲットクラスの利用が容易になる。 THUMOS14とActivityNet v1.3の実験結果は、従来の最先端手法よりも提案手法の方が優れていることを示している。

The crux of semi-supervised temporal action localization (SS-TAL) lies in excavating valuable information from abundant unlabeled videos. However, current approaches predominantly focus on building models that are robust to the error-prone target class (i.e, the predicted class with the highest confidence) while ignoring informative semantics within non-target classes. This paper approaches SS-TAL from a novel perspective by advocating for learning from non-target classes, transcending the conventional focus solely on the target class. The proposed approach involves partitioning the label space of the predicted class distribution into distinct subspaces: target class, positive classes, negative classes, and ambiguous classes, aiming to mine both positive and negative semantics that are absent in the target class, while excluding ambiguous classes. To this end, we first devise innovative strategies to adaptively select high-quality positive and negative classes from the label space, by modeling both the confidence and rank of a class in relation to those of the target class. Then, we introduce novel positive and negative losses designed to guide the learning process, pushing predictions closer to positive classes and away from negative classes. Finally, the positive and negative processes are integrated into a hybrid positive-negative learning framework, facilitating the utilization of non-target classes in both labeled and unlabeled videos. Experimental results on THUMOS14 and ActivityNet v1.3 demonstrate the superiority of the proposed method over prior state-of-the-art approaches.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# コールドクエンチボースガス中における動的フェルミオン化と速度の数値的実現

Numerical Realization of Dynamical Fermionization and Bethe Rapidities in a cold quenched Bose gas ( http://arxiv.org/abs/2403.11190v1 )

ライセンス: Link先を確認
Sumita Datta, Maxim Olshanii, (参考訳) 本稿では, コールドリーブ・ライニガー (LL) ボース気体の非平衡ダイナミクスについて検討する。 我々の研究は、ボースガスの基底状態から無限の深さ L0 の深部箱内から最終長さ L への弾道的膨張中に硬壁電位が存在することを含み、一般化されたファインマン・カック法に基づく量子モンテカルロ法が計算ツールとして機能する。 リーブ・ライニガーモデルの可積分性を考えると、強い相関系は熱化に抵抗する。 複雑な力学を捉えるには、原子やエネルギー密度の考慮を超えて拡張する全体関数であるBethe Rapidities(BRs)という概念を用いる。 我々の思考実験はボックス・ツー・ボックスの拡大を伴い、Bethe Rapidities と Dynamical Fermionization (DF) の現象を数値的に直接観察するユニークな機会を提供する。 この研究は、非平衡過程における強相関量子系の挙動に関する洞察を寄与することを目的としており、ベーテ・ラピダリティ(英語版)とフェルミオン化の動的進化の詳細な研究を提供する。

In this numerical investigation, we explore the non-equilibrium dynamics of a cold Lieb-Liniger (LL) Bose gas -- a well established integrable quantum system in one dimension exhibiting repulsive interactions. Our study involves the presence of a hard wall potential during the ballistic expansion of the Bose gas from its ground state within an infinite deep box of length L0 to a final length L. The Quantum Monte Carlo method, based on the Generalized Feynman-Kac approach, serves as our computational tool. Given the integrability of the Lieb-Liniger model, strongly correlated systems resist thermalization. To capture the intricate dynamics we employ the concept of Bethe Rapidities(BRs), a holistic function that extends beyond atomic or energy density considerations. Our thought experiment involves a box-to-box expansion, providing a unique opportunity for direct numerical observation of Bethe Rapidities and the phenomenon of Dynamical Fermionization(DF). This investigation aims to contribute insights into the behavior of strongly correlated quantum systems during non-equilibrium processes, offering a detailed examination of Bethe Rapidities and the dynamic evolution of Fermionization throughout the expansion.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# 腹腔鏡下手術における自己監督型ビデオ禁煙法

Self-Supervised Video Desmoking for Laparoscopic Surgery ( http://arxiv.org/abs/2403.11192v1 )

ライセンス: Link先を確認
Renlong Wu, Zhilu Zhang, Shuohao Zhang, Longfei Gou, Haobin Chen, Lei Zhang, Hao Chen, Wangmeng Zuo, (参考訳) 実際のペアデータを集めるのが困難であるため、既存の喫煙法のほとんどは、煙を合成してモデルを訓練し、実際の手術シナリオに不適当に一般化する。 未経験の学習方法で、シングルイメージの現実世界の喫煙を探索する研究はいくつかあるが、密煙を扱う上ではまだ課題に直面している。 本研究では,自己監督型手術ビデオデモーキング(SelfSVD)を導入することで,これらの課題に対処する。 一方、高エネルギー装置の起動前に捕捉したフレームは、一般的には明確であり(前煙フレーム、PSフレーム)、他のスモーキーフレームの監視として機能し、現実の自己監督型ビデオデモーキングを現実的に実現可能である。 一方, デスモーキング性能を向上させるため, マスク戦略と正規化項が提示され, 自明な解決を避けるためにPSフレームからモデルに貴重な情報を与える。 さらに,各種のスモーキーシーンをカバーした,デ喫煙のためのリアルな手術ビデオデータセットを構築した。 データセットの大規模な実験により、私たちのSelfSVDは、最先端の手法よりもよりリアルな詳細を回復しながら、より効率的かつ効率的に煙を除去できることがわかった。 データセット、コード、事前トレーニングされたモデルは、 \url{https://github.com/ZcsrenlongZ/SelfSVD}で利用可能である。

Due to the difficulty of collecting real paired data, most existing desmoking methods train the models by synthesizing smoke, generalizing poorly to real surgical scenarios. Although a few works have explored single-image real-world desmoking in unpaired learning manners, they still encounter challenges in handling dense smoke. In this work, we address these issues together by introducing the self-supervised surgery video desmoking (SelfSVD). On the one hand, we observe that the frame captured before the activation of high-energy devices is generally clear (named pre-smoke frame, PS frame), thus it can serve as supervision for other smoky frames, making real-world self-supervised video desmoking practically feasible. On the other hand, in order to enhance the desmoking performance, we further feed the valuable information from PS frame into models, where a masking strategy and a regularization term are presented to avoid trivial solutions. In addition, we construct a real surgery video dataset for desmoking, which covers a variety of smoky scenes. Extensive experiments on the dataset show that our SelfSVD can remove smoke more effectively and efficiently while recovering more photo-realistic details than the state-of-the-art methods. The dataset, codes, and pre-trained models are available at \url{https://github.com/ZcsrenlongZ/SelfSVD}.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# ステレオマッチングのためのニューラルマルコフランダム場

Neural Markov Random Field for Stereo Matching ( http://arxiv.org/abs/2403.11193v1 )

ライセンス: Link先を確認
Tongfan Guan, Chen Wang, Yun-Hui Liu, (参考訳) ステレオマッチングは多くのコンピュータビジョンとロボティクスアプリケーションにとってコアタスクである。 従来のステレオ方式では優位であったが、手作りのマルコフランダムフィールド(MRF)モデルは、エンド・ツー・エンドのディープ・モデルに比べて十分なモデリング精度を欠いていた。 深層学習表現はMRFモデルの一意項を大幅に改善しているが、全体的な精度は手作りのペアワードとメッセージパッシングによって著しく制限されている。 これらの問題に対処するために、潜在的な機能とメッセージパッシングの両方をデータ駆動型ニューラルネットワークを用いて設計するニューラルネットワークモデルを提案する。 我々の完全データ駆動モデルは、収束問題を防止し、ステレオMDFのグラフ帰納バイアスを保持するために、変分推論理論の基礎の上に構築されている。 また,高解像度画像に対して精度よく推測可能かつスケール可能となるために,不均一な探索空間を適応的に創出する分散提案ネットワーク(DPN)を提案する。 提案手法は,KITTI 2012 と 2015 の両リーダーボードにおいて,100 ms 以上の速度で動作しながら,公表されたすべてのメソッドのそれぞれに $1^{st}$ をランク付けする。この手法は,従来のグローバルメソッド,例えば D1 メトリックを KITTI 2015 上で50% 以上下げるなど,はるかに優れたパフォーマンスを発揮する。 さらに,本手法は強いクロスドメイン一般化を示し,鋭いエッジを復元する。 コードはhttps://github.com/aeolusguan/NMRF にある。

Stereo matching is a core task for many computer vision and robotics applications. Despite their dominance in traditional stereo methods, the hand-crafted Markov Random Field (MRF) models lack sufficient modeling accuracy compared to end-to-end deep models. While deep learning representations have greatly improved the unary terms of the MRF models, the overall accuracy is still severely limited by the hand-crafted pairwise terms and message passing. To address these issues, we propose a neural MRF model, where both potential functions and message passing are designed using data-driven neural networks. Our fully data-driven model is built on the foundation of variational inference theory, to prevent convergence issues and retain stereo MRF's graph inductive bias. To make the inference tractable and scale well to high-resolution images, we also propose a Disparity Proposal Network (DPN) to adaptively prune the search space of disparity. The proposed approach ranks $1^{st}$ on both KITTI 2012 and 2015 leaderboards among all published methods while running faster than 100 ms. This approach significantly outperforms prior global methods, e.g., lowering D1 metric by more than 50% on KITTI 2015. In addition, our method exhibits strong cross-domain generalization and can recover sharp edges. The codes at https://github.com/aeolusguan/NMRF .
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# MaskDiffusion:セマンティックセグメンテーションのための事前学習拡散モデルの構築

MaskDiffusion: Exploiting Pre-trained Diffusion Models for Semantic Segmentation ( http://arxiv.org/abs/2403.11194v1 )

ライセンス: Link先を確認
Yasufumi Kawano, Yoshimitsu Aoki, (参考訳) セマンティックセグメンテーションはコンピュータビジョンにおいて様々な用途に不可欠であるが、従来のアプローチではアノテーションの高コスト化や教師あり学習のための広範囲な訓練など、重大な課題に直面している。 さらに、教師付き学習における限定されたカテゴリーのため、モデルは典型的には希少なクラスと苦労し、新しいクラスを予測できない。 これらの制約に対処するために,事前学習した安定拡散を利用してオープン語彙セマンティックセマンティックセグメンテーションを実現するMaskDiffusionを提案する。 また,maskDiffusion の細粒度および固有名詞に基づくカテゴリーを含むオープン語彙処理における優れた性能を示し,セグメンテーションの適用範囲を広げた。 全体として、我々のMaskDiffusionは、ポツダムデータセット(GEMと比較して+10.5 mIoU)やCOCO-Stuff(DiffSegと比較して+14.8 mIoU)など、他の同等の非教師付きセグメンテーション手法と比較して、有意な質的および定量的な改善を示している。 すべてのコードとデータはhttps://github.com/Valkyrja3607/MaskDiffusionで公開される。

Semantic segmentation is essential in computer vision for various applications, yet traditional approaches face significant challenges, including the high cost of annotation and extensive training for supervised learning. Additionally, due to the limited predefined categories in supervised learning, models typically struggle with infrequent classes and are unable to predict novel classes. To address these limitations, we propose MaskDiffusion, an innovative approach that leverages pretrained frozen Stable Diffusion to achieve open-vocabulary semantic segmentation without the need for additional training or annotation, leading to improved performance compared to similar methods. We also demonstrate the superior performance of MaskDiffusion in handling open vocabularies, including fine-grained and proper noun-based categories, thus expanding the scope of segmentation applications. Overall, our MaskDiffusion shows significant qualitative and quantitative improvements in contrast to other comparable unsupervised segmentation methods, i.e. on the Potsdam dataset (+10.5 mIoU compared to GEM) and COCO-Stuff (+14.8 mIoU compared to DiffSeg). All code and data will be released at https://github.com/Valkyrja3607/MaskDiffusion.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# TAG: ガイダンスなしオープン語彙セマンティックセマンティックセマンティックセグメンテーション

TAG: Guidance-free Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2403.11197v1 )

ライセンス: Link先を確認
Yasufumi Kawano, Yoshimitsu Aoki, (参考訳) セマンティックセグメンテーションはコンピュータビジョンにおいて重要な課題であり、画像の各ピクセルはカテゴリに分類される。 しかし、従来の手法では、ピクセルレベルのアノテーションや広範なトレーニングの必要性など、重大な課題に直面している。 さらに、教師付き学習は定義済みのカテゴリの限られたセットを使用するため、モデルは通常希少なクラスと競合し、新しいクラスを認識できない。 これらの問題に取り組むために提案された、教師なしでオープンな語彙のセグメンテーションは、クラスタに特定のクラスラベルを割り当てることができないことや、ガイダンスのためのユーザが提供するテキストクエリの必要性など、課題に直面している。 この文脈では、トレーニング、アノテーション、ガイダンスフリーなオープン語彙セマンティックセマンティックセマンティクスを実現するための新しいアプローチであるTAGを提案する。 TAGは、CLIPやDINOといった事前訓練されたモデルを使用して、追加のトレーニングや高密度アノテーションなしで、イメージを意味のあるカテゴリに分割する。 外部データベースからクラスラベルを取得し、新しいシナリオに適応するための柔軟性を提供する。 我々のTAGはPascalVOC, PascalContext, ADE20Kに対して, クラス名のないオープン語彙セグメンテーション, すなわち PascalVOC における +15.3 mIoU の改善を実現する。 すべてのコードとデータはhttps://github.com/Valkyrja3607/TAGで公開される。

Semantic segmentation is a crucial task in computer vision, where each pixel in an image is classified into a category. However, traditional methods face significant challenges, including the need for pixel-level annotations and extensive training. Furthermore, because supervised learning uses a limited set of predefined categories, models typically struggle with rare classes and cannot recognize new ones. Unsupervised and open-vocabulary segmentation, proposed to tackle these issues, faces challenges, including the inability to assign specific class labels to clusters and the necessity of user-provided text queries for guidance. In this context, we propose a novel approach, TAG which achieves Training, Annotation, and Guidance-free open-vocabulary semantic segmentation. TAG utilizes pre-trained models such as CLIP and DINO to segment images into meaningful categories without additional training or dense annotations. It retrieves class labels from an external database, providing flexibility to adapt to new scenarios. Our TAG achieves state-of-the-art results on PascalVOC, PascalContext and ADE20K for open-vocabulary segmentation without given class names, i.e. improvement of +15.3 mIoU on PascalVOC. All code and data will be released at https://github.com/Valkyrja3607/TAG.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# Graph Unitary Message Passing

Graph Unitary Message Passing ( http://arxiv.org/abs/2403.11199v1 )

ライセンス: Link先を確認
Haiquan Qiu, Yatao Bian, Quanming Yao, (参考訳) メッセージパッシング機構は、様々なアプリケーションにおけるGNNの成功に寄与するが、過度な問題をもたらす。 最近の研究は、グラフスペクトルをリウィリング技術で改善し、グラフの構造バイアスを乱し、オーバーシャッシングの度合いを制限してオーバーシャッシングに対処している。 ユニタリRNNによってモチベーションされたグラフユニタリメッセージパッシング(GUMP)は、メッセージパッシングにユニタリ隣接行列を適用することにより、GNNのオーバーカッシングを軽減する。 GUMPを設計するために、一般化グラフにユニタリ隣接行列を持ち、その構造バイアスを維持するための変換が最初に提案されている。 そして、一元的隣接行列の内在構造を利用して実装し、GUMPを置換同変にするユニタリ射影アルゴリズムを用いて一元的隣接行列を得る。 実験結果から,GUMPが各種グラフ学習タスクの性能向上に有効であることが確認された。

Message passing mechanism contributes to the success of GNNs in various applications, but also brings the oversquashing problem. Recent works combat oversquashing by improving the graph spectrums with rewiring techniques, disrupting the structural bias in graphs, and having limited improvement on oversquashing in terms of oversquashing measure. Motivated by unitary RNN, we propose Graph Unitary Message Passing (GUMP) to alleviate oversquashing in GNNs by applying unitary adjacency matrix for message passing. To design GUMP, a transformation is first proposed to make general graphs have unitary adjacency matrix and keep its structural bias. Then, unitary adjacency matrix is obtained with a unitary projection algorithm, which is implemented by utilizing the intrinsic structure of unitary adjacency matrix and allows GUMP to be permutation-equivariant. Experimental results show the effectiveness of GUMP in improving the performance on various graph learning tasks.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# 必要なデータはすべて: 自動設計データ拡張フレームワークによるチップ設計のためのLCMの微調整

Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework ( http://arxiv.org/abs/2403.11202v1 )

ライセンス: Link先を確認
Kaiyan Chang, Kun Wang, Nan Yang, Ying Wang, Dantong Jin, Wenlong Zhu, Zhirong Chen, Cangyuan Li, Hao Yan, Yunhao Zhou, Zhuoliang Zhao, Yuan Cheng, Yudong Pan, Yiqi Liu, Mengdi Wang, Shengwen Liang, yinhe han, Huawei Li, Xiaowei Li, (参考訳) 大規模言語モデルの最近の進歩は、ハイレベルなプロンプトからハードウェア記述言語(HDL)コードの自動生成の可能性を示している。 研究者は、チップデザインの分野でこれらの大きな言語モデル(LLM)の能力を高めるために微調整を利用している。 しかし、Verilogデータの欠如は、LLMによるVerilog生成の品質向上を妨げている。 さらに、Verilog and Electronic Design Automation (EDA)スクリプトデータ拡張フレームワークが存在しないことで、LLMトレーナーのトレーニングデータセットを作成するのに必要な時間が大幅に増加する。 本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。 Verilog生成では、Verilogファイルを抽象構文木に変換し、事前に定義されたテンプレートでノードを自然言語にマッピングする。 Verilogの修復には、定義済みのルールを使用して、間違ったVerilogファイルを生成し、EDA Toolのフィードバックと正しいVerilogファイルとをペアリングする。 EDA Script 生成では、既存の LLM(GPT-3.5) を使用して Script の記述を取得する。 Llama2-13B モデルと Llama2-7B モデルを解析し,データ拡張手法の有効性を評価する。 その結果,LLMを用いたVerilog生成タスクの大幅な改善が示された。 さらに、Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。 我々の13Bモデル(ChipGPT-FT)は、Verilog 生成の GPT-3.5 と比較してパスレートが改善し、200 EDA スクリプトデータしか持たない EDA スクリプト(SiiliconCompiler) 生成の成績が向上した。

Recent advances in large language models have demonstrated their potential for automated generation of hardware description language (HDL) code from high-level prompts. Researchers have utilized fine-tuning to enhance the ability of these large language models (LLMs) in the field of Chip Design. However, the lack of Verilog data hinders further improvement in the quality of Verilog generation by LLMs. Additionally, the absence of a Verilog and Electronic Design Automation (EDA) script data augmentation framework significantly increases the time required to prepare the training dataset for LLM trainers. This paper proposes an automated design-data augmentation framework, which generates high-volume and high-quality natural language aligned with Verilog and EDA scripts. For Verilog generation, it translates Verilog files to an abstract syntax tree and then maps nodes to natural language with a predefined template. For Verilog repair, it uses predefined rules to generate the wrong verilog file and then pairs EDA Tool feedback with the right and wrong verilog file. For EDA Script generation, it uses existing LLM(GPT-3.5) to obtain the description of the Script. To evaluate the effectiveness of our data augmentation method, we finetune Llama2-13B and Llama2-7B models using the dataset generated by our augmentation framework. The results demonstrate a significant improvement in the Verilog generation tasks with LLMs. Moreover, the accuracy of Verilog generation surpasses that of the current state-of-the-art open-source Verilog generation model, increasing from 58.8% to 70.6% with the same benchmark. Our 13B model (ChipGPT-FT) has a pass rate improvement compared with GPT-3.5 in Verilog generation and outperforms in EDA script (i.e., SiliconCompiler) generation with only 200 EDA script data.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# TRELM:知識強化型言語モデルのためのロバストで効率的な事前学習を目指して

TRELM: Towards Robust and Efficient Pre-training for Knowledge-Enhanced Language Models ( http://arxiv.org/abs/2403.11203v1 )

ライセンス: Link先を確認
Junbing Yan, Chengyu Wang, Taolin Zhang, Xiaofeng He, Jun Huang, Longtao Huang, Hui Xue, Wei Zhang, (参考訳) KEPLMは、言語理解を強化するために外部知識を利用する事前訓練されたモデルである。 従来の言語モデルは、知識グラフにおける関係トリプルから学習した知識関連事前学習タスクを組み込むことにより、知識獲得を促進する。 しかし、これらのモデルはエンティティ関連のトークンに対して学習の埋め込みを優先しない。 さらに、KEPLMのパラメータ集合全体の更新は、計算的に要求される。 本稿では,知識強化言語モデルのためのロバストかつ効率的な事前学習フレームワークであるTRELMを紹介する。 テキストコーパスのエンティティは通常、あるエンティティの表現が最適以下に最適化され、KEPLMの事前学習プロセスを妨げているロングテール分布に従う。 これを解決するために,知識を3倍に注入する頑健なアプローチを採用し,知識を付加したメモリバンクを用いて貴重な情報を収集する。 さらに、事実を記憶するフィードフォワードネットワーク(FFN)において、少数のニューロンを更新することは十分かつ効率的である。 具体的には、動的知識ルーティングを用いてFFNの知識パスを特定し、事前学習中にパラメータを選択的に更新する。 実験の結果,TRELMは学習前時間を少なくとも50%短縮し,知識探索タスクや複数の知識認識言語理解タスクにおいて,他のKEPLMよりも優れていた。

KEPLMs are pre-trained models that utilize external knowledge to enhance language understanding. Previous language models facilitated knowledge acquisition by incorporating knowledge-related pre-training tasks learned from relation triples in knowledge graphs. However, these models do not prioritize learning embeddings for entity-related tokens. Moreover, updating the entire set of parameters in KEPLMs is computationally demanding. This paper introduces TRELM, a Robust and Efficient Pre-training framework for Knowledge-Enhanced Language Models. We observe that entities in text corpora usually follow the long-tail distribution, where the representations of some entities are suboptimally optimized and hinder the pre-training process for KEPLMs. To tackle this, we employ a robust approach to inject knowledge triples and employ a knowledge-augmented memory bank to capture valuable information. Furthermore, updating a small subset of neurons in the feed-forward networks (FFNs) that store factual knowledge is both sufficient and efficient. Specifically, we utilize dynamic knowledge routing to identify knowledge paths in FFNs and selectively update parameters during pre-training. Experimental results show that TRELM reduces pre-training time by at least 50% and outperforms other KEPLMs in knowledge probing tasks and multiple knowledge-aware language understanding tasks.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# 合成中間ラベルを用いたニューラルネットワークの分割学習

Partitioned Neural Network Training via Synthetic Intermediate Labels ( http://arxiv.org/abs/2403.11204v1 )

ライセンス: Link先を確認
Cevat Volkan Karadağ, Nezih Topaloğlu, (参考訳) 広範囲にわたるニューラルネットワークアーキテクチャ、特にディープラーニングモデルの普及は、リソース集約的なトレーニングという面での課題を示している。 GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。 データ並列性、モデル並列性、パイプライン並列性、完全にシャーディングされたデータ並列性といった既存の戦略は、部分的なソリューションを提供する。 モデル並列性は、特に、複数のGPUにまたがるモデル全体の分散を可能にするが、その後のパーティション間のデータ通信は、トレーニングを遅くする。 さらに、各GPU化合物の計算要求に補助パラメータを格納するために必要なメモリオーバーヘッドもかなり大きい。 モデル全体をトレーニングに使用する代わりに、GPU間でモデルを分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。 これらのラベルはランダムなプロセスによって生成され、メモリオーバーヘッドと計算負荷を軽減する。 このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。 この方法を検証するために、6層完全連結ニューラルネットワークを2つの部分に分割し、その性能を拡張MNISTデータセットで評価する。 実験結果から,提案手法は従来の学習手法と類似した試験精度を達成し,メモリと計算の要求を大幅に低減することが示された。 この研究は、大規模ニューラルネットワークのトレーニングにおけるリソース集約的な性質の緩和に寄与し、より効率的なディープラーニングモデル開発への道を開いた。

The proliferation of extensive neural network architectures, particularly deep learning models, presents a challenge in terms of resource-intensive training. GPU memory constraints have become a notable bottleneck in training such sizable models. Existing strategies, including data parallelism, model parallelism, pipeline parallelism, and fully sharded data parallelism, offer partial solutions. Model parallelism, in particular, enables the distribution of the entire model across multiple GPUs, yet the ensuing data communication between these partitions slows down training. Additionally, the substantial memory overhead required to store auxiliary parameters on each GPU compounds computational demands. Instead of using the entire model for training, this study advocates partitioning the model across GPUs and generating synthetic intermediate labels to train individual segments. These labels, produced through a random process, mitigate memory overhead and computational load. This approach results in a more efficient training process that minimizes data communication while maintaining model accuracy. To validate this method, a 6-layer fully connected neural network is partitioned into two parts and its performance is assessed on the extended MNIST dataset. Experimental results indicate that the proposed approach achieves similar testing accuracies to conventional training methods, while significantly reducing memory and computational requirements. This work contributes to mitigating the resource-intensive nature of training large neural networks, paving the way for more efficient deep learning model development.
翻訳日:2024-03-19 18:06:05 公開日:2024-03-17
# CBR - オフ・オブ・ディストリビューションによる暗号化されたネットワークトラフィックの検索による適応分類の強化

CBR - Boosting Adaptive Classification By Retrieval of Encrypted Network Traffic with Out-of-distribution ( http://arxiv.org/abs/2403.11206v1 )

ライセンス: Link先を確認
Amir Lukach, Ran Dubin, Amit Dvir, Chen Hajaj, (参考訳) 暗号化されたネットワークトラフィック分類は、異なるアプローチと異なる目標から問題に取り組む。 一般的なアプローチの1つは、一定の数のクラスに機械学習またはディープラーニングベースのソリューションを使用することで、未知のクラスを入力として与えたときの誤分類につながる。 未知のクラスを扱うソリューションの1つは、モデルを再トレーニングすることである。 そのため、再トレーニングすることなく、分類モデルが新しいクラスを動的に検出し、適応できるようにする必要性が高まっている。 本稿では,暗号ネットワークトラフィック分類の新しいアプローチであるRetrieval CBRによる適応分類を提案する。 我々の新しいアプローチは、モデルを再トレーニングすることなく、新しいクラスと既存のクラスを効果的に識別できるANNベースの手法に基づいている。 新たなアプローチは単純だが有効であり、分類タスクにおいて最大5%の差(通常はそれより小さい)を持つRFと類似した結果を得たが、新しいサンプル(新しいクラスから)の場合、再トレーニングなしではわずかに減少する。 要約すると、新しい手法はリアルタイムな分類であり、再訓練せずに新しいクラスを分類することができる。 さらに,本手法は,RFや他の機械/深層学習分類法と相補的な解として,集約解として利用することができる。

Encrypted network traffic Classification tackles the problem from different approaches and with different goals. One of the common approaches is using Machine learning or Deep Learning-based solutions on a fixed number of classes, leading to misclassification when an unknown class is given as input. One of the solutions for handling unknown classes is to retrain the model, however, retraining models every time they become obsolete is both resource and time-consuming. Therefore, there is a growing need to allow classification models to detect and adapt to new classes dynamically, without retraining, but instead able to detect new classes using few shots learning [1]. In this paper, we introduce Adaptive Classification By Retrieval CBR, a novel approach for encrypted network traffic classification. Our new approach is based on an ANN-based method, which allows us to effectively identify new and existing classes without retraining the model. The novel approach is simple, yet effective and achieved similar results to RF with up to 5% difference (usually less than that) in the classification tasks while having a slight decrease in the case of new samples (from new classes) without retraining. To summarize, the new method is a real-time classification, which can classify new classes without retraining. Furthermore, our solution can be used as a complementary solution alongside RF or any other machine/deep learning classification method, as an aggregated solution.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# MindEye2:1時間のデータでfMRIと画像を共有できるオブジェクトモデル

MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data ( http://arxiv.org/abs/2403.11207v1 )

ライセンス: Link先を確認
Paul S. Scotti, Mihir Tripathy, Cesar Kadir Torrico Villanueva, Reese Kneeland, Tong Chen, Ashutosh Narang, Charan Santhirasegaran, Jonathan Xu, Thomas Naselaris, Kenneth A. Norman, Tanishq Mathew Abraham, (参考訳) 脳活動からの視覚的知覚の再構築は著しく改善されているが、そのような手法の実用性は限られている。 これは、高品質な結果を得るためには、被験者ごとに何十時間もの高価なfMRIトレーニングデータを必要とするためである。 本研究は1時間 fMRI トレーニングデータを用いて高品質な再構成を行う。 7つの被験者にまたがってモデルを事前トレーニングし、新しい被験者から最小限のデータに基づいて微調整します。 新規な機能的アライメント法では、すべての脳データを共有オブジェクト潜在空間に線形にマッピングし、CLIP画像空間への共有非線形マッピングを行った。 次に、CLIP空間からピクセル空間へ、安定拡散XLを微調整してマッピングし、テキストの代わりにCLIPラテントを入力として受け入れます。 このアプローチは、限られた訓練データを用いてオブジェクト外一般化を改善し、また、単一のオブジェクトアプローチと比較して、最先端の画像検索と再構築のメトリクスを得る。 MindEye2は、MRI施設への単一の訪問から、いかに正確に知覚の再構築が可能かを実証する。 すべてのコードはGitHubで入手できる。

Reconstructions of visual perception from brain activity have improved tremendously, but the practical utility of such methods has been limited. This is because such models are trained independently per subject where each subject requires dozens of hours of expensive fMRI training data to attain high-quality results. The present work showcases high-quality reconstructions using only 1 hour of fMRI training data. We pretrain our model across 7 subjects and then fine-tune on minimal data from a new subject. Our novel functional alignment procedure linearly maps all brain data to a shared-subject latent space, followed by a shared non-linear mapping to CLIP image space. We then map from CLIP space to pixel space by fine-tuning Stable Diffusion XL to accept CLIP latents as inputs instead of text. This approach improves out-of-subject generalization with limited training data and also attains state-of-the-art image retrieval and reconstruction metrics compared to single-subject approaches. MindEye2 demonstrates how accurate reconstructions of perception are possible from a single visit to the MRI facility. All code is available on GitHub.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# THOR:リレーショナル・インターベンションによる人間と物体の相互作用拡散のテキスト化

THOR: Text to Human-Object Interaction Diffusion via Relation Intervention ( http://arxiv.org/abs/2403.11208v1 )

ライセンス: Link先を確認
Qianyang Wu, Ye Shi, Xiaoshui Huang, Jingyi Yu, Lan Xu, Jingya Wang, (参考訳) 本稿では,テキスト記述(Text2HOI)から動的オブジェクトインタラクションを生成するという課題に対処する新しい手法について述べる。 既存の作業の多くは、限られた身体部分や静的な物体との相互作用を前提としていますが、私たちのタスクは、人間の動きの変化、物体の形状の多様性、物体の動きのセマンティックなあいまいさを同時に解決することにあります。 そこで本研究では,リレーショナル・インターベンション(THOR)を用いたテキスト誘導型ヒューマン・オブジェクト相互作用拡散モデルを提案する。 THORは相関干渉機構を備えた凝集拡散モデルである。 各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。 この介入は、テキストから一貫した動きを合成するための追加のガイダンスを提供する人間中心の相互作用表現によって、人間と物体間の空間的時間的関係を強化する。 より合理的で現実的な結果を得るために、異なる動きの粒度レベルでの相互作用損失が導入された。 さらに、テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを、現在最大規模で公開されている3D HOIデータセットと構築する。 定量的および定性的な実験により,提案モデルの有効性が示された。

This paper addresses new methodologies to deal with the challenging task of generating dynamic Human-Object Interactions from textual descriptions (Text2HOI). While most existing works assume interactions with limited body parts or static objects, our task involves addressing the variation in human motion, the diversity of object shapes, and the semantic vagueness of object motion simultaneously. To tackle this, we propose a novel Text-guided Human-Object Interaction diffusion model with Relation Intervention (THOR). THOR is a cohesive diffusion model equipped with a relation intervention mechanism. In each diffusion step, we initiate text-guided human and object motion and then leverage human-object relations to intervene in object motion. This intervention enhances the spatial-temporal relations between humans and objects, with human-centric interaction representation providing additional guidance for synthesizing consistent motion from text. To achieve more reasonable and realistic results, interaction losses is introduced at different levels of motion granularity. Moreover, we construct Text-BEHAVE, a Text2HOI dataset that seamlessly integrates textual descriptions with the currently largest publicly available 3D HOI dataset. Both quantitative and qualitative experiments demonstrate the effectiveness of our proposed model.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# アフリカン・アメリカン・サウンドTTSの作成 - ガイドライン, 技術的課題, そして予想される評価

Creating an African American-Sounding TTS: Guidelines, Technical Challenges,and Surprising Evaluations ( http://arxiv.org/abs/2403.11209v1 )

ライセンス: Link先を確認
Claudio Pinhanez, Raul Fernandez, Marcelo Grave, Julio Nogima, Ron Hoory, (参考訳) ユーザーインターフェイスやロボット工学におけるAIエージェントの表現は、顔や皮膚の特徴だけでなく、それらが使用する合成音声においても、主にホワイトである。 本稿では,米国英語テキスト・トゥ・スペーチ(TTS)システムの開発過程において,人種表現における予期せぬ課題について考察する。 論文は、代表的かつ適切なTSシステムを構築するためのガイドラインと課題が議論され、収集されたアフリカ系アメリカ人IT専門家によるフォーカスグループの結果を提示することから始まり、続いて、TSシステム開発者が直面している技術的困難について議論する。 次に、米国英語話者を対象にした2つの研究を行い、参加者はアフリカ系アメリカ人のTTS音声に正しい人種を割り当てることができず、類似した品質のWhite TTSシステムの人種を圧倒的に正確に認識した。 アフリカ系アメリカ人IT従事者によるフォーカスグループは、私たちが構築したアフリカ系アメリカ人の声の代表性を認めただけでなく、驚くべき認識結果が、アフリカ系アメリカ人以外のアメリカ人が、教育を受けていない専門的な声をアフリカ系アメリカ人の人々に与える能力の欠如や過度な偏見によって引き起こされた可能性があることを示唆した。

Representations of AI agents in user interfaces and robotics are predominantly White, not only in terms of facial and skin features, but also in the synthetic voices they use. In this paper we explore some unexpected challenges in the representation of race we found in the process of developing an U.S. English Text-to-Speech (TTS) system aimed to sound like an educated, professional, regional accent-free African American woman. The paper starts by presenting the results of focus groups with African American IT professionals where guidelines and challenges for the creation of a representative and appropriate TTS system were discussed and gathered, followed by a discussion about some of the technical difficulties faced by the TTS system developers. We then describe two studies with U.S. English speakers where the participants were not able to attribute the correct race to the African American TTS voice while overwhelmingly correctly recognizing the race of a White TTS system of similar quality. A focus group with African American IT workers not only confirmed the representativeness of the African American voice we built, but also suggested that the surprising recognition results may have been caused by the inability or the latent prejudice from non-African Americans to associate educated, non-vernacular, professionally-sounding voices to African American people.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# 腎癌画像アノテーションデータセットRCdpia

RCdpia: A Renal Carcinoma Digital Pathology Image Annotation dataset based on pathologists ( http://arxiv.org/abs/2403.11211v1 )

ライセンス: Link先を確認
Qingrong Sun, Weixiang Zhong, Jie Zhou, Chong Lai, Xiaodong Teng, Maode Lai, (参考訳) 腎細胞癌に対するデジタル病理スライドデータのアノテーションは、腫瘍の異種性に起因する人工知能モデルの正しい診断に重要である。 このプロセスは、腎細胞癌の不均一性をより深く理解するだけでなく、より正確な研究のためにデータのノイズを最小限にすることを目的としている。 データの適用性を高めるため、2人の病理学者がThe Cancer Genome Atlas Program (TCGA)データベースから、腎臓がんの病理画像データセットを慎重にキュレートし、スクリーニングし、ラベル付けした。 その後、江江大学第一附属病院の付加データセットに対して注釈付きデータセットを検証するためにResnetモデルが開発された。 以上より, 腎色素細胞癌109例, 腎クリア細胞癌486例, 腎乳頭細胞癌292例を対象とし, 腫瘍領域と隣接領域を独立にラベル付けしたTCGAデジタル病理データセットを精査した。 このデータセットはhttp://39.171.241.18:8888/RCdpia/で公開されている。 さらに、モデル解析により、異なるセンターのデータセットに同じモデルを適用する場合、予測結果に顕著な違いが明らかになった。 RCdpiaを活用することで、正規化、分類、セグメンテーションといったタスクのためのより正確なデジタル病理人工知能モデルを開発することができる。 これらの進歩は、デジタル病理学の分野でより微妙で正確なAI応用の可能性を強調している。

The annotation of digital pathological slide data for renal cell carcinoma is of paramount importance for correct diagnosis of artificial intelligence models due to the heterogeneous nature of the tumor. This process not only facilitates a deeper understanding of renal cell cancer heterogeneity but also aims to minimize noise in the data for more accurate studies. To enhance the applicability of the data, two pathologists were enlisted to meticulously curate, screen, and label a kidney cancer pathology image dataset from The Cancer Genome Atlas Program (TCGA) database. Subsequently, a Resnet model was developed to validate the annotated dataset against an additional dataset from the First Affiliated Hospital of Zhejiang University. Based on these results, we have meticulously compiled the TCGA digital pathological dataset with independent labeling of tumor regions and adjacent areas (RCdpia), which includes 109 cases of kidney chromophobe cell carcinoma, 486 cases of kidney clear cell carcinoma, and 292 cases of kidney papillary cell carcinoma. This dataset is now publicly accessible at http://39.171.241.18:8888/RCdpia/. Furthermore, model analysis has revealed significant discrepancies in predictive outcomes when applying the same model to datasets from different centers. Leveraging the RCdpia, we can now develop more precise digital pathology artificial intelligence models for tasks such as normalization, classification, and segmentation. These advancements underscore the potential for more nuanced and accurate AI applications in the field of digital pathology.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# 分子交換量子ビットにおけるスピン-電気遷移の観察

Observation of spin-electric transitions in a molecular exchange qubit ( http://arxiv.org/abs/2403.11214v1 )

ライセンス: Link先を確認
Florian le Mardelé, Ivan Mohelský, Jan Wyzula, Milan Orlita, Philippe Turek, Filippo Troiani, Athanassios K. Boudalis, (参考訳) 電場はナノスケールでスピンを制御するための理想的な手段であり、より具体的にはマルチスピン系における保護された自由度を操作するための手段である。 ここでは、分子スピン三角形(Fe3)上で低温磁気遠赤外分光を行い、多核錯体におけるスピン-電気遷移の初めての実験的証拠を提供する。 電気-双極子遷移と磁気-双極子遷移の共存により、スピン-誘電結合を推定できる。 スペクトルのスピンハミルトンシミュレーションに基づき、観測された遷移を同定し、一般化された交換量子ビットの概念を導入する。 これは幅広い種類の分子スピン三角形に適用され、特別な場合としてスカラーのキラリティと部分スピン和量子ビットを含む。

Electric fields represent an ideal means for controlling spins at the nanoscale and, more specifically, for manipulating protected degrees of freedom in multispin systems. Here we perform low-temperature magnetic far-IR spectroscopy on a molecular spin triangle (Fe3) and provide the first experimental evidence of spin-electric transitions in polynuclear complexes. The co-presence of electric- and magnetic-dipole transitions, allows us to estimate the spin-electric coupling. Based on spin Hamiltonian simulations of the spectra, we identify the observed transitions and introduce the concept of a generalized exchange qubit. This applies to a wide class of molecular spin triangles, and includes the scalar chirality and the partial spin sum qubits as special cases.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# 因果推論に基づく個人信用リスク評価手法に関する研究

Research on Personal Credit Risk Assessment Methods Based on Causal Inference ( http://arxiv.org/abs/2403.11217v1 )

ライセンス: Link先を確認
Jiaxin Wang, YiLong Ma, (参考訳) 人類の歴史における因果関係に関する議論は古代ギリシアにまでさかのぼるが、今日に至るまで合意は得られていない。 因果関係を理解するには、人間の認知の限界を超越する抽象的なツールが必要であるためである。 近年、数学的および計算ツールの急速な開発により、因果関係を探究する新たな理論的および技術的手段が提供され、さらなる研究の道が開かれた。 これに基づいて、1945年にサミュエル・アイレンバーグとサンダース・マクレーンが、集合論、特にラッセルパラドックスにおける自己参照矛盾を避けるために提唱した圏論を用いた因果関係の新しい定義を導入する。 この枠組み内では、因果推論における指標合成の実現可能性を示す。 カテゴリー理論関連技術ツールの開発に限界があるため、1995年にジュデア・パールが提唱した広く使われている確率因果グラフツールを用いて、個人信用リスク管理における因果推論の適用について検討する。 具体的には、因果推論指標システムの構築方法、この枠組みにおける因果合成因果推論の因果性の定義と実現可能性証明、因果グラフモデルの適用方法、個人信用リスク管理における代替基準の介入などである。

The discussion on causality in human history dates back to ancient Greece, yet to this day, there is still no consensus. Fundamentally, this stems from the nature of human cognition, as understanding causality requires abstract tools to transcend the limitations of human cognition. In recent decades, the rapid development of mathematical and computational tools has provided new theoretical and technical means for exploring causality, creating more avenues for investigation. Based on this, this paper introduces a new definition of causality using category theory, proposed by Samuel Eilenberg and Saunders Mac Lane in 1945 to avoid the self-referential contradictions in set theory, notably the Russell paradox. Within this framework, the feasibility of indicator synthesis in causal inference is demonstrated. Due to the limitations in the development of category theory-related technical tools, this paper adopts the widely-used probabilistic causal graph tool proposed by Judea Pearl in 1995 to study the application of causal inference in personal credit risk management. The specific work includes: research on the construction method of causal inference index system, definition of causality and feasibility proof of indicator synthesis causal inference within this framework, application methods of causal graph model and intervention alternative criteria in personal credit risk management, and so on.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# ボトムからトップへ:調査

Causality from Bottom to Top: A Survey ( http://arxiv.org/abs/2403.11219v1 )

ライセンス: Link先を確認
Abraham Itzhak Weinberg, Cristiano Premebida, Diego Resende Faria, (参考訳) 因果関係は、様々な研究分野における事象、現象、結果の関係を説明するための基本的なアプローチとなっている。 医療、医療、経済学、金融、不正検出、サイバーセキュリティ、教育、公共政策、推薦システム、異常検出、ロボット工学、制御、社会学、マーケティング、広告など様々な分野や応用に侵入してきた。 本稿では,過去50年間にわたるその発展を調査し,因果関係と他のアプローチの相違点と,それを利用するための前提条件に光を当てる。 さらに、人工知能(AI)、生成AI(GAI)、機械学習とディープラーニング、強化学習(RL)、ファジィ論理といった新しいアプローチと因果性がどのように相互作用するかを説明する。 様々な分野における因果関係の影響,その貢献,および最先端アプローチとの相互作用について検討する。 さらに,本論文は因果関係モデルの信頼性と説明可能性を示す。 我々は因果モデルを評価し、今後の方向性を議論するいくつかの方法を提供している。

Causality has become a fundamental approach for explaining the relationships between events, phenomena, and outcomes in various fields of study. It has invaded various fields and applications, such as medicine, healthcare, economics, finance, fraud detection, cybersecurity, education, public policy, recommender systems, anomaly detection, robotics, control, sociology, marketing, and advertising. In this paper, we survey its development over the past five decades, shedding light on the differences between causality and other approaches, as well as the preconditions for using it. Furthermore, the paper illustrates how causality interacts with new approaches such as Artificial Intelligence (AI), Generative AI (GAI), Machine and Deep Learning, Reinforcement Learning (RL), and Fuzzy Logic. We study the impact of causality on various fields, its contribution, and its interaction with state-of-the-art approaches. Additionally, the paper exemplifies the trustworthiness and explainability of causality models. We offer several ways to evaluate causality models and discuss future directions.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# CPA-エンハンサー:未知の劣化下での物体検出のための適応エンハンサー

CPA-Enhancer: Chain-of-Thought Prompted Adaptive Enhancer for Object Detection under Unknown Degradations ( http://arxiv.org/abs/2403.11220v1 )

ライセンス: Link先を確認
Yuwei Zhang, Yan Wu, Yanming Liu, Xinyue Peng, (参考訳) 既知の単一劣化下での物体検出法は広く研究されている。 しかし、既存のアプローチでは、分解型の事前の知識を必要とし、それぞれ個別のモデルを訓練し、予測不可能な環境での実践的応用を制限する。 この課題に対処するために,未知の劣化下での物体検出のための適応エンハンサーCPA-Enhancerを提案する。 具体的には、CPA-Enhancerは、劣化関連情報をエンコードするCoTプロンプトのステップバイステップガイダンスに基づいて、その拡張戦略を段階的に適応させる。 私たちの知る限りでは、オブジェクト検出タスクのためにCoTのプロンプトを利用する最初の作業です。 全体として、CPA-Enhancerはプラグ・アンド・プレイ拡張モデルであり、いかなるジェネリック検出器にも組み込むことができ、劣化のタイプを事前に知ることなく、劣化した画像に対して実質的なゲインを達成することができる。 実験により、CPA-Enhancerは物体検出のための新しい最先端技術を設定するだけでなく、未知の劣化下での他の下流視覚タスクの性能も向上することが示された。

Object detection methods under known single degradations have been extensively investigated. However, existing approaches require prior knowledge of the degradation type and train a separate model for each, limiting their practical applications in unpredictable environments. To address this challenge, we propose a chain-of-thought (CoT) prompted adaptive enhancer, CPA-Enhancer, for object detection under unknown degradations. Specifically, CPA-Enhancer progressively adapts its enhancement strategy under the step-by-step guidance of CoT prompts, that encode degradation-related information. To the best of our knowledge, it's the first work that exploits CoT prompting for object detection tasks. Overall, CPA-Enhancer is a plug-and-play enhancement model that can be integrated into any generic detectors to achieve substantial gains on degraded images, without knowing the degradation type priorly. Experimental results demonstrate that CPA-Enhancer not only sets the new state of the art for object detection but also boosts the performance of other downstream vision tasks under unknown degradations.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# SpikeNeRF: 連続的なスパイクストリームからニューラルネットワークを学習する

SpikeNeRF: Learning Neural Radiance Fields from Continuous Spike Stream ( http://arxiv.org/abs/2403.11222v1 )

ライセンス: Link先を確認
Lin Zhu, Kangmin Jia, Yifan Zhao, Yunshan Qi, Lizhi Wang, Hua Huang, (参考訳) スパイクカメラは、スパイクベースの統合サンプリングと高時間分解能を利用しており、標準カメラよりも明確な利点がある。 しかし、スパイクカメラに頼っている既存のアプローチは、しばしば最適な照明を仮定する。 これを解決するために、スパイクカメラデータからNeRFに基づくボリュームシーン表現を導出した最初の作品であるSpikeNeRFを紹介する。 提案手法は,NeRFの多視点整合性を利用して,強靭な自己超越性を確立し,誤測定を効果的に排除し,多様な実世界の照明シナリオの中で非常にノイズの多い入力内でコヒーレントな構造を明らかにする。 本発明のフレームワークは、2つの中核要素からなる。統合・火災ニューロン層としきい値変動などの非理想性を考慮したパラメータを組み込んだスパイク生成モデルと、様々な照明条件をまたいだ一般化が可能なスパイクレンダリング損失とを含む。 ニューラルラジアンス場を効果的に最適化し、新しい連続スパイクストリームからフォトリアリスティックな新しいビューを描画する方法を説明し、特定のシーンにおける他の視覚センサよりも利点を実証する。 本手法の有効性を実証し,本手法の有効性を実証した。 データセットとソースコードはhttps://github.com/BIT-Vision/SpikeNeRFで公開されている。

Spike cameras, leveraging spike-based integration sampling and high temporal resolution, offer distinct advantages over standard cameras. However, existing approaches reliant on spike cameras often assume optimal illumination, a condition frequently unmet in real-world scenarios. To address this, we introduce SpikeNeRF, the first work that derives a NeRF-based volumetric scene representation from spike camera data. Our approach leverages NeRF's multi-view consistency to establish robust self-supervision, effectively eliminating erroneous measurements and uncovering coherent structures within exceedingly noisy input amidst diverse real-world illumination scenarios. The framework comprises two core elements: a spike generation model incorporating an integrate-and-fire neuron layer and parameters accounting for non-idealities, such as threshold variation, and a spike rendering loss capable of generalizing across varying illumination conditions. We describe how to effectively optimize neural radiance fields to render photorealistic novel views from the novel continuous spike stream, demonstrating advantages over other vision sensors in certain scenes. Empirical evaluations conducted on both real and novel realistically simulated sequences affirm the efficacy of our methodology. The dataset and source code are released at https://github.com/BIT-Vision/SpikeNeRF.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# 負のエネルギー海

The Negative Energy Sea ( http://arxiv.org/abs/2403.11225v1 )

ライセンス: Link先を確認
Simon Saunders, (参考訳) ディラックの負のエネルギー海は反物質の概念を導入し、特に波動方程式の負のエネルギー解との関係でそれを説明した。 戦後、それは私が「標準的な形式主義」と呼ぶもの、特に通常の秩序に依存するものによって、ほとんど置き換えられた。 より優れた説明は、アーヴィング・セガル(英語版)が最初に導入した「2つの複素構造」の観点によって提供され、共変体、局所体、および一方の粒子ヒルベルト空間とフォック空間のレベルでの複素数の一種(「自然」)ともう一方の(粒子」)複素数である。 前者は局所的、後者は非局所的、後者は相対論と非相対論の量子論の根本的な違いがある。

The Dirac negative energy sea introduced the concept of antimatter, and explained it, not least in its relationship to negative-energy solutions to the wave equation. Post-war, it was largely displaced by what I shall call the 'standard formalism', dependent, among other things, on normal-ordering. A much better explanation is provided by the 'two complex structures' viewpoint, as first introduced by Irving Segal: the one ('natural') kind of complex numbers at the level of covariant, local fields; and the other ('particle') complex numbers at the level of the one-particle Hilbert space and Fock space. The former is local, the latter non-local: therein lies the fundamental difference between relativistic and non-relativistic quantum theory.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# テキストから臨床マーカーを抽出する方法

Cheap Ways of Extracting Clinical Markers from Texts ( http://arxiv.org/abs/2403.11227v1 )

ライセンス: Link先を確認
Anastasia Sandu, Teodor Mihailescu, Sergiu Nisioi, (参考訳) 本稿では,CLPsychの2024年共有課題に関するUniBuc考古学チームの作業について述べる。 証拠には、ハイライト(テキスト内で関連するスパンを抽出する)と要約(合成に証拠を集約する)の2種類が必要だった。 我々の研究は、よりメモリとリソース効率のよい代替手法とは対照的に、LLM(Large Language Models)の評価に重点を置いている。 最初のアプローチでは、ロジスティック回帰分類器を備えたtf-idfベクタライザで構成される、優れた旧式の機械学習(GOML)パイプラインを使用して、関連するハイライトを抽出する。 第2のリソースは、より集中的に、要約を生成するのにLLMを使用し、臨床マーカーを示すテキストのシーケンスを提供するチェーン・オブ・シントによってガイドされる。

This paper describes the work of the UniBuc Archaeology team for CLPsych's 2024 Shared Task, which involved finding evidence within the text supporting the assigned suicide risk level. Two types of evidence were required: highlights (extracting relevant spans within the text) and summaries (aggregating evidence into a synthesis). Our work focuses on evaluating Large Language Models (LLM) as opposed to an alternative method that is much more memory and resource efficient. The first approach employs a good old-fashioned machine learning (GOML) pipeline consisting of a tf-idf vectorizer with a logistic regression classifier, whose representative features are used to extract relevant highlights. The second, more resource intensive, uses an LLM for generating the summaries and is guided by chain-of-thought to provide sequences of text indicating clinical markers.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# 複合的, 微調整, 再訓練: 半教師付き3次元医用画像分割のためのSAM対応フレームワーク

Concatenate, Fine-tuning, Re-training: A SAM-enabled Framework for Semi-supervised 3D Medical Image Segmentation ( http://arxiv.org/abs/2403.11229v1 )

ライセンス: Link先を確認
Shumeng Li, Lei Qi, Qian Yu, Jing Huo, Yinghuan Shi, Yang Gao, (参考訳) Segment Anything Model (SAM)ファインチューニングは、完全に教師された方法で医用画像のセグメンテーションにおいて顕著なパフォーマンスを示しているが、正確なアノテーションが必要である。 本研究では、アノテーションのコストを低減し、良好な性能を維持するため、SAMの能力を生かし、半教師付き医用画像分割モデルを構築する。 有効性、効率性、互換性の要件を再考し、3段階のフレームワーク、すなわち、結合性、微調整、再訓練(CFR)を提案する。 現在の微調整アプローチは、隣接するスライス間のコンテキスト情報を無視する2Dスライスワイス微調整がほとんどである。 我々の結合戦略は自然画像と3次元画像のミスマッチを緩和する。 連結された画像はSAMの微調整に使用され、堅牢な初期化擬似ラベルを提供する。 その後、V-Netのような従来のセグメンタと同じパラメータサイズを維持しながら、3次元半教師付きセグメンテーションモデルを訓練する。 我々のCFRフレームワークはプラグイン・アンド・プレイであり、様々な人気のある半教師付き手法と容易に互換性がある。 CFRは4つのデータセットにまたがる中程度のアノテーションと希少なアノテーションの両方において,大幅な改善を実現している。 特に、CFRフレームワークでは、平均教師のDiceスコアを29.68%から74.40%に改善している。

Segment Anything Model (SAM) fine-tuning has shown remarkable performance in medical image segmentation in a fully supervised manner, but requires precise annotations. To reduce the annotation cost and maintain satisfactory performance, in this work, we leverage the capabilities of SAM for establishing semi-supervised medical image segmentation models. Rethinking the requirements of effectiveness, efficiency, and compatibility, we propose a three-stage framework, i.e., Concatenate, Fine-tuning, and Re-training (CFR). The current fine-tuning approaches mostly involve 2D slice-wise fine-tuning that disregards the contextual information between adjacent slices. Our concatenation strategy mitigates the mismatch between natural and 3D medical images. The concatenated images are then used for fine-tuning SAM, providing robust initialization pseudo-labels. Afterwards, we train a 3D semi-supervised segmentation model while maintaining the same parameter size as the conventional segmenter such as V-Net. Our CFR framework is plug-and-play, and easily compatible with various popular semi-supervised methods. Extensive experiments validate that our CFR achieves significant improvements in both moderate annotation and scarce annotation across four datasets. In particular, CFR framework improves the Dice score of Mean Teacher from 29.68% to 74.40% with only one labeled data of LA dataset.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# 簡易2次元畳み込みニューラルネットワークによる新型コロナウイルス検出

Simple 2D Convolutional Neural Network-based Approach for COVID-19 Detection ( http://arxiv.org/abs/2403.11230v1 )

ライセンス: Link先を確認
Chih-Chung Hsu, Chia-Ming Lee, Yang Fan Chiang, Yi-Shiuan Chou, Chih-Yu Jiang, Shen-Chieh Tai, Chi-Han Tsai, (参考訳) 本研究では,肺CT画像解析におけるディープラーニング技術の利用について検討した。 古典的なディープラーニングアプローチでは,CT画像のスライス数や分解能の相違による課題に直面している。 通常、予測は単一のスライスで行われ、総合的な結果を得るために組み合わせられる。 しかし,本手法では,各スライスに特有の学習機能を組み込まないため,効率が損なわれる。 これらの課題に対処するために,CTスキャンに適した高度な空間分割特徴学習(SSFL++)フレームワークを提案する。 本研究の目的は,CTスキャン全体のアウト・オブ・ディストリビューション(OOD)データをフィルタリングし,データ冗長性を70%削減して解析に不可欠な空間スライス特徴を選択できるようにすることである。 さらに,KDS(Kernel-Density-based slice Smpling)法を導入し,トレーニングおよび推論フェーズの安定性を高め,収束の促進と全体的な性能の向上を図る。 注目すべきは、我々の実験により、我々のモデルは単純なE2Dモデルで有望な結果が得られることである。 本手法の有効性は,Def-AI-MIAワークショップが提供するCOVID-19-CT-DBデータセットで確認した。

This study explores the use of deep learning techniques for analyzing lung Computed Tomography (CT) images. Classic deep learning approaches face challenges with varying slice counts and resolutions in CT images, a diversity arising from the utilization of assorted scanning equipment. Typically, predictions are made on single slices which are then combined for a comprehensive outcome. Yet, this method does not incorporate learning features specific to each slice, leading to a compromise in effectiveness. To address these challenges, we propose an advanced Spatial-Slice Feature Learning (SSFL++) framework specifically tailored for CT scans. It aims to filter out out-of-distribution (OOD) data within the entire CT scan, allowing us to select essential spatial-slice features for analysis by reducing data redundancy by 70\%. Additionally, we introduce a Kernel-Density-based slice Sampling (KDS) method to enhance stability during training and inference phases, thereby accelerating convergence and enhancing overall performance. Remarkably, our experiments reveal that our model achieves promising results with a simple EfficientNet-2D (E2D) model. The effectiveness of our approach is confirmed on the COVID-19-CT-DB datasets provided by the DEF-AI-MIA workshop.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# STAIR:Semantic-Targeted Active Implicit Reconstruction

STAIR: Semantic-Targeted Active Implicit Reconstruction ( http://arxiv.org/abs/2403.11233v1 )

ライセンス: Link先を確認
Liren Jin, Haofei Kuang, Yue Pan, Cyrill Stachniss, Marija Popović, (参考訳) 多くの自律型ロボットアプリケーションは、デプロイ時にオブジェクトレベルの理解を必要とする。 興味のあるオブジェクト、すなわち特定の意味を持つオブジェクトを積極的に再構築することは、ロボットが最初に未知の環境で下流のタスクを実行することが重要となる。 本研究では,RGB-Dの測定値と2次元意味ラベルを入力として用いた意味的対象のアクティブな再構築のための新しいフレームワークを提案する。 本フレームワークのキーコンポーネントは意味的暗黙的ニューラル表現とセマンティックレンダリングと不確実性推定に基づく協調計画ユーティリティ関数である。 我々の計画手法は、ビュープランニングのセマンティクスを考慮しない暗黙の再構築ベースラインと比較して、メッシュと新しいビューレンダリング品質の観点から、より良い再構築性能を実現する。 我々のフレームワークは、明示的なマップに基づく最先端のセマンティックターゲットのアクティブリコンストラクションパイプラインよりも優れており、セマンティックターゲットのアクティブリコンストラクション問題に対処するために暗黙的なニューラル表現を利用するという選択を正当化しています。

Many autonomous robotic applications require object-level understanding when deployed. Actively reconstructing objects of interest, i.e. objects with specific semantic meanings, is therefore relevant for a robot to perform downstream tasks in an initially unknown environment. In this work, we propose a novel framework for semantic-targeted active reconstruction using posed RGB-D measurements and 2D semantic labels as input. The key components of our framework are a semantic implicit neural representation and a compatible planning utility function based on semantic rendering and uncertainty estimation, enabling adaptive view planning to target objects of interest. Our planning approach achieves better reconstruction performance in terms of mesh and novel view rendering quality compared to implicit reconstruction baselines that do not consider semantics for view planning. Our framework further outperforms a state-of-the-art semantic-targeted active reconstruction pipeline based on explicit maps, justifying our choice of utilising implicit neural representations to tackle semantic-targeted active reconstruction problems.
翻訳日:2024-03-19 17:56:21 公開日:2024-03-17
# 共通クラスバイアスの緩和によるユニバーサル半スーパービジョンドメイン適応

Universal Semi-Supervised Domain Adaptation by Mitigating Common-Class Bias ( http://arxiv.org/abs/2403.11234v1 )

ライセンス: Link先を確認
Wenyu Zhang, Qingmu Liu, Felix Ong Wei Cong, Mohamed Ragab, Chuan-Sheng Foo, (参考訳) ドメイン適応は、機械学習において重要なタスクであり、関連するソースドメインからの知識を活用することによって、ターゲットドメインのモデルパフォーマンスを改善することを目的としています。 本稿では,Universal Semi-Supervised Domain Adaptation (UniSSDA)を紹介した。 UniSSDAはUniversal Domain Adaptation (UniDA)とSemi-Supervised Domain Adaptation (SSDA)の交差点にある: UniDA設定では、ソースドメインに表現されていないターゲットプライベートクラスのきめ細かい分類ができない。 既存のUniDAおよびSSDAメソッドは、UniSSDA設定における共通クラスバイアスの影響を受けやすい。 本稿では,ドメイン適応における共通ラベル伝搬戦略である擬似ラベル化による共通クラスバイアスの強化を抑えるための,事前誘導型擬似ラベル改善戦略を提案する。 提案手法の有効性を,Office-Home,DomainNet,VisDAのベンチマークデータセットに示す。 提案した戦略は、UniSSDA適応設定で最高のパフォーマンスを獲得し、UniSSDAの新しいベースラインを確立する。

Domain adaptation is a critical task in machine learning that aims to improve model performance on a target domain by leveraging knowledge from a related source domain. In this work, we introduce Universal Semi-Supervised Domain Adaptation (UniSSDA), a practical yet challenging setting where the target domain is partially labeled, and the source and target label space may not strictly match. UniSSDA is at the intersection of Universal Domain Adaptation (UniDA) and Semi-Supervised Domain Adaptation (SSDA): the UniDA setting does not allow for fine-grained categorization of target private classes not represented in the source domain, while SSDA focuses on the restricted closed-set setting where source and target label spaces match exactly. Existing UniDA and SSDA methods are susceptible to common-class bias in UniSSDA settings, where models overfit to data distributions of classes common to both domains at the expense of private classes. We propose a new prior-guided pseudo-label refinement strategy to reduce the reinforcement of common-class bias due to pseudo-labeling, a common label propagation strategy in domain adaptation. We demonstrate the effectiveness of the proposed strategy on benchmark datasets Office-Home, DomainNet, and VisDA. The proposed strategy attains the best performance across UniSSDA adaptation settings and establishes a new baseline for UniSSDA.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# ChartThinker: チャート要約を最適化するためのコンテキストチェーンアプローチ

ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization ( http://arxiv.org/abs/2403.11236v1 )

ライセンス: Link先を確認
Mengsha Liu, Daoyuan Chen, Yaliang Li, Guian Fang, Ying Shen, (参考訳) データビジュアライゼーションは、データを提示し、その価値ある洞察をマイニングするための重要な手段となる。 グラフ要約のタスクは、自然言語処理技術を通じて、チャートの詳細なデータ解析を容易にする。 しかし、既存のアプローチには、視覚言語マッチングと推論能力の面では、依然として顕著な欠陥がある。 これらの制約に対処するため、本研究では、グラフの括弧と微調整命令の大規模なデータセットを構築した。 このデータセット内のさまざまなトピックや視覚的なスタイルを幅広くカバーしているため、トレーニングデータの観点から、マッチングの度合いが向上する。 さらに,思考の連鎖と文脈検索の戦略に基づいて深い分析を合成し,生成した要約の論理的コヒーレンスと精度を向上させることを目的とした,革新的なチャート要約手法であるChartThinkerを提案する。 キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、一貫して優れたパフォーマンスを示し、7つの評価指標よりも8つの最先端モデルを上回っています。 私たちのデータセットとコードは公開されています。

Data visualization serves as a critical means for presenting data and mining its valuable insights. The task of chart summarization, through natural language processing techniques, facilitates in-depth data analysis of charts. However, there still are notable deficiencies in terms of visual-language matching and reasoning ability for existing approaches. To address these limitations, this study constructs a large-scale dataset of comprehensive chart-caption pairs and fine-tuning instructions on each chart. Thanks to the broad coverage of various topics and visual styles within this dataset, better matching degree can be achieved from the view of training data. Moreover, we propose an innovative chart summarization method, ChartThinker, which synthesizes deep analysis based on chains of thought and strategies of context retrieval, aiming to improve the logical coherence and accuracy of the generated summaries. Built upon the curated datasets, our trained model consistently exhibits superior performance in chart summarization tasks, surpassing 8 state-of-the-art models over 7 evaluation metrics. Our dataset and codes are publicly accessible.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# FORCE:直観的物理ガイドによる人間と物体の相互作用のためのデータセットと方法

FORCE: Dataset and Method for Intuitive Physics Guided Human-object Interaction ( http://arxiv.org/abs/2403.11237v1 )

ライセンス: Link先を確認
Xiaohan Zhang, Bharat Lal Bhatnagar, Sebastian Starke, Ilya Petrov, Vladimir Guzov, Helisa Dhamo, Eduardo Pérez-Pellitero, Gerard Pons-Moll, (参考訳) 人間と物体の相互作用は、物体のポーズや形状だけでなく、物体の質量や表面摩擦といった物理的特性にも影響される。 彼らは多様性とリアリズムに不可欠な重要な動きニュアンスを導入している。 最近のキネマティクスに基づく手法の進歩にもかかわらず、この側面は見過ごされている。 ニュアンスド・ヒューマン・モーションの生成には2つの課題がある。 第一に、物理的属性と非物理的属性の両方から派生したマルチモーダルな人間や対象情報から学ぶことは自明ではない。 第二に、さまざまな物理的特性を持つオブジェクトとの微妙な人間のインタラクションをキャプチャするデータセットは存在せず、モデルの開発を妨げている。 本研究は,物理属性をモデル化し,多種多様でニュアンスのある人間と物体の相互作用を合成するための運動論的アプローチであるForceモデルを導入することにより,このギャップに対処する。 我々の重要な洞察は、人間の動きは人間の力と知覚される抵抗の相互関係によって決定されるということである。 新たな直感的な物理エンコーディングによって導かれるこのモデルは、人間の力と抵抗の間の相互作用を捉えている。 人間の力を取り入れた実験は、多クラス動作の学習を容易にする。 モデルを伴って、Forceデータセットをコントリビュートします。 様々な抵抗との相互作用を通じて、多様で異なるスタイルの運動を特徴とする。

Interactions between human and objects are influenced not only by the object's pose and shape, but also by physical attributes such as object mass and surface friction. They introduce important motion nuances that are essential for diversity and realism. Despite advancements in recent kinematics-based methods, this aspect has been overlooked. Generating nuanced human motion presents two challenges. First, it is non-trivial to learn from multi-modal human and object information derived from both the physical and non-physical attributes. Second, there exists no dataset capturing nuanced human interactions with objects of varying physical properties, hampering model development. This work addresses the gap by introducing the FORCE model, a kinematic approach for synthesizing diverse, nuanced human-object interactions by modeling physical attributes. Our key insight is that human motion is dictated by the interrelation between the force exerted by the human and the perceived resistance. Guided by a novel intuitive physics encoding, the model captures the interplay between human force and resistance. Experiments also demonstrate incorporating human force facilitates learning multi-class motion. Accompanying our model, we contribute the FORCE dataset. It features diverse, different-styled motion through interactions with varying resistances.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# JUMBO: 完全にスケーラブルな完全な非同期BFTコンセンサス

JUMBO: Fully Asynchronous BFT Consensus Made Truly Scalable ( http://arxiv.org/abs/2403.11238v1 )

ライセンス: Link先を確認
Hao Cheng, Yuan Lu, Zhenliang Lu, Qiang Tang, Yuxuan Zhang, Zhenfeng Zhang, (参考訳) 非同期ビザンチン耐故障性(BFT)コンセンサス, eg Dumbo-NG(CCS)の最近の進歩 22)およびTusk(EuroSys'22)は、トランザクションの拡散とブロック合意の分離を通じて、有望なパフォーマンスを示す。 しかし、数百ドルものノードで実行された場合、パフォーマンスが著しく低下する。 それぞれのノードは$\bigO(n)$ quorum certificates (QC) をマルチキャストし、各ブロックに対して検証する必要がある。 本稿では,上記のスケーラビリティ問題を系統的に検討し,解決する。 まず、署名なし非同期共通サブセットプロトコルFIN(CCS)を適応させる、署名なし非同期BFTコンセンサスFIN-NGを提案する。 23)を同時放送及び合意の最先端の枠組みに組み込んだ。 FIN-NGの活力は、最適な品質を達成するための、FINの複数の評価済みビザンツ協定の再設計に依存しています。 FIN-NGは、FINのパフォーマンスを大幅に改善し、ほとんどのデプロイメント設定ですでにDumbo-NGを上回っている。 さらに、$\bigO(n^3)$メッセージによるFIN-NGのスケーラビリティ限界を克服するため、認証とメッセージの両方に$\bigO(n^2)$複雑さしか持たない、Dumbo-NGのスケーラブルなインスタンス化であるJUMBOを提案する。 我々は、QCの様々な集約と分散技術を用いて、元のDumbo-NG実装の認証複雑性を最大$\bigO(n^2)$オーダーで大幅に低減する。 また,JUMBO に対する `fairness' パッチを提案し,その出力におけるトランザクションの圧倒的な部分を制御することを防止する。

Recent progresses in asynchronous Byzantine fault-tolerant (BFT) consensus, e.g. Dumbo-NG (CCS' 22) and Tusk (EuroSys' 22), show promising performance through decoupling transaction dissemination and block agreement. However, when executed with a larger number $n$ of nodes, like several hundreds, they would suffer from significant degradation in performance. Their dominating scalability bottleneck is the huge authenticator complexity: each node has to multicast $\bigO(n)$ quorum certificates (QCs) and subsequently verify them for each block. This paper systematically investigates and resolves the above scalability issue. We first propose a signature-free asynchronous BFT consensus FIN-NG that adapts a recent signature-free asynchronous common subset protocol FIN (CCS' 23) into the state-of-the-art framework of concurrent broadcast and agreement. The liveness of FIN-NG relies on our non-trivial redesign of FIN's multi-valued validated Byzantine agreement towards achieving optimal quality. FIN-NG greatly improves the performance of FIN and already outperforms Dumbo-NG in most deployment settings. To further overcome the scalability limit of FIN-NG due to $\bigO(n^3)$ messages, we propose JUMBO, a scalable instantiation of Dumbo-NG, with only $\bigO(n^2)$ complexities for both authenticators and messages. We use various aggregation and dispersal techniques for QCs to significantly reduce the authenticator complexity of original Dumbo-NG implementations by up to $\bigO(n^2)$ orders. We also propose a ``fairness'' patch for JUMBO, thus preventing a flooding adversary from controlling an overwhelming portion of transactions in its output.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# 高精細な視力SLAMのためのコンパクトな3Dガウススプレイティング

Compact 3D Gaussian Splatting For Dense Visual SLAM ( http://arxiv.org/abs/2403.11247v1 )

ライセンス: Link先を確認
Tianchen Deng, Yaohui Chen, Leyan Zhang, Jianfei Yang, Shenghai Yuan, Danwei Wang, Weidong Chen, (参考訳) 近年の研究では、3DガウスをベースとしたSLAMが高品質な再現、正確なポーズ推定、シーンのリアルタイムレンダリングを可能にしている。 しかし、これらのアプローチは膨大な数の冗長な3Dガウス楕円体の上に構築されており、メモリとストレージのコストが高く、訓練速度が遅い。 この制限に対処するために,ガウス楕円体の数とパラメータサイズを小さくするコンパクトな3次元ガウス格子SLAMシステムを提案する。 余剰楕円体を減らすために、スライドウィンドウベースのマスキング戦略が最初に提案されている。 そして、ほとんどの3次元ガウス楕円体の共分散行列(幾何学)が非常によく似ており、3次元ガウス幾何学的属性、すなわちパラメータを圧縮する新しい幾何符号ブックを動機付けている。 再投射損失を伴う大域的バンドル調整法により,ロバストかつ高精度なポーズ推定を実現する。 大規模な実験により、シーン表現の最先端(SOTA)品質を維持しながら、トレーニングとレンダリングの高速化が実証された。

Recent work has shown that 3D Gaussian-based SLAM enables high-quality reconstruction, accurate pose estimation, and real-time rendering of scenes. However, these approaches are built on a tremendous number of redundant 3D Gaussian ellipsoids, leading to high memory and storage costs, and slow training speed. To address the limitation, we propose a compact 3D Gaussian Splatting SLAM system that reduces the number and the parameter size of Gaussian ellipsoids. A sliding window-based masking strategy is first proposed to reduce the redundant ellipsoids. Then we observe that the covariance matrix (geometry) of most 3D Gaussian ellipsoids are extremely similar, which motivates a novel geometry codebook to compress 3D Gaussian geometric attributes, i.e., the parameters. Robust and accurate pose estimation is achieved by a global bundle adjustment method with reprojection loss. Extensive experiments demonstrate that our method achieves faster training and rendering speed while maintaining the state-of-the-art (SOTA) quality of the scene representation.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# 小児腰部外傷X線画像におけるYOLOv9による骨折検出

YOLOv9 for Fracture Detection in Pediatric Wrist Trauma X-ray Images ( http://arxiv.org/abs/2403.11249v1 )

ライセンス: Link先を確認
Chun-Tse Chien, Rui-Yang Ju, Kuang-Yi Chou, Jen-Shiun Chiang, (参考訳) You Only Look Once (YOLO)シリーズの最新バージョンであるYOLOv9の導入は、様々なシナリオで広く採用されている。 本論文は,X線画像の解釈を支援するためのコンピュータ支援診断 (CAD) として, YOLOv9 アルゴリズムモデルを骨折検出タスクに適用した最初の例である。 具体的には、GRAZPEDWRI-DXデータセット上でモデルをトレーニングし、データ拡張技術を用いてトレーニングセットを拡張し、モデル性能を向上させる。 実験の結果、現在の最先端(SOTA)モデルのmAP 50-95と比較して、YOLOv9モデルは42.16%から43.73%に上昇し、3.7%の改善が見られた。 実装コードはhttps://github.com/RuiyangJu/YOLOv9-Fracture-Detectionで公開されている。

The introduction of YOLOv9, the latest version of the You Only Look Once (YOLO) series, has led to its widespread adoption across various scenarios. This paper is the first to apply the YOLOv9 algorithm model to the fracture detection task as computer-assisted diagnosis (CAD) to help radiologists and surgeons to interpret X-ray images. Specifically, this paper trained the model on the GRAZPEDWRI-DX dataset and extended the training set using data augmentation techniques to improve the model performance. Experimental results demonstrate that compared to the mAP 50-95 of the current state-of-the-art (SOTA) model, the YOLOv9 model increased the value from 42.16% to 43.73%, with an improvement of 3.7%. The implementation code is publicly available at https://github.com/RuiyangJu/YOLOv9-Fracture-Detection.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# NeoNeXt: パッチワイズ行列乗算に基づく新しいニューラルネットワーク演算子とアーキテクチャ

NeoNeXt: Novel neural network operator and architecture based on the patch-wise matrix multiplications ( http://arxiv.org/abs/2403.11251v1 )

ライセンス: Link先を確認
Vladimir Korviakov, Denis Koposov, (参考訳) 現在、コンピュータビジョンアーキテクチャのほとんどは、完全に接続された層、畳み込み、マルチヘッドの自己保持ブロックという、よく知られた基礎的な操作に基づいて構築されている。 本稿では、行列パターンを学習し、入力データとパッチワイズ行列乗算を行う新しい基礎演算であるNeoCellを提案する。 提案手法の主な利点は,(1)im2colのような演算を必要としない単純な実装,(2)計算量が少ないこと(特に大規模行列),(3)アップ/ダウンサンプリングの単純で柔軟な実装である。 我々は、ImageNet-1K分類タスクに基づいて、NeoNeXtモデルのファミリーを検証し、競合品質を実現することを示す。

Most of the computer vision architectures nowadays are built upon the well-known foundation operations: fully-connected layers, convolutions and multi-head self-attention blocks. In this paper we propose a novel foundation operation - NeoCell - which learns matrix patterns and performs patchwise matrix multiplications with the input data. The main advantages of the proposed operator are (1) simple implementation without need in operations like im2col, (2) low computational complexity (especially for large matrices) and (3) simple and flexible implementation of up-/down-sampling. We validate NeoNeXt family of models based on this operation on ImageNet-1K classification task and show that they achieve competitive quality.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# 重力波による重力の量子指紋の解き方

Unveiling gravity's quantum fingerprint through gravitational waves ( http://arxiv.org/abs/2403.11253v1 )

ライセンス: Link先を確認
Partha Nandi, Bibhas Ranjan Majhi, (参考訳) 重力の量子的性質を照らすための改良された理論モデルを提案する。 このモデルは、LOCC原理の古典的な通信制約を回避し、重力誘起絡み合い(GIE)現象を研究する。 ここでは、非相対論的2次元量子発振器検出器を線形偏波重力波(GW)に結合する。 GWsの量子的性質を爆発させ、振動子量子状態内のGIEを観測する。 このモデルは ``event'' だけでなく ``system''' の局所性も満足しているので、観測された GIE は重力の量子的性質の強いシグネチャである。

A proposal for an improved theoretical model to illuminate the quantum nature of gravity is given. This model investigates the gravity-induced entanglement (GIE) phenomena, circumventing classical communication constraints of LOCC principle. Here a non-relativistic two dimensional quantum oscillator detector is coupled to linearly polarized gravitational waves (GWs). Exploiting the quantum nature of GWs, we observe the GIE within the oscillator quantum states. Since the model satisfies ``event'' as well as ``system'' localities, the observed GIE is much robust signature for quantum nature of gravity.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# 複雑なスマートコントラクトにおける一貫性の脆弱性を効果的に検出する

Efficiently Detecting Reentrancy Vulnerabilities in Complex Smart Contracts ( http://arxiv.org/abs/2403.11254v1 )

ライセンス: Link先を確認
Zexu Wang, Jiachi Chen, Yanlin Wang, Yu Zhang, Weizhe Zhang, Zibin Zheng, (参考訳) 最も悪名高い脆弱性の1つとして、Reentrancyの脆弱性は、スマートコントラクトセキュリティ研究において顕著なトピックとなっている。 研究によると、既存の脆弱性検出は、特にスマートコントラクトが複雑さを増し続けているため、さまざまな課題をもたらしている。 既存のツールは、複雑なコントラクトにおける脆弱性の効率性や検出率の面では不十分である。 複雑なロジックを持つコントラクトにおいて、一貫性の脆弱性を効果的に検出するために、SliSEというツールを提案する。 SliSEの検出プロセスは、警告検索とシンボリック実行検証という2つの段階で構成されている。 ステージIでは、SliSEはプログラムスライシングを使用して契約の契約間プログラム依存グラフ(I-PDG)を分析し、不審な脆弱性情報を警告として収集する。 ステージIIでは、これらの警告の到達可能性を検証するためにシンボリック実行が使用され、それによって脆弱性検出精度が向上する。 SliSEは8つの最先端検出ツールと比較して最高のパフォーマンスを得た。 F1のスコアは78.65%に達し、既存のツールのスコアは9.26%を突破した。 さらに、Ethereum上のコントラクト検出のリコールレートが90%を超えている。 全体として、SliSEは複雑なコントラクトに対するReentrancy脆弱性を検出するための堅牢で効率的な方法を提供する。

Reentrancy vulnerability as one of the most notorious vulnerabilities, has been a prominent topic in smart contract security research. Research shows that existing vulnerability detection presents a range of challenges, especially as smart contracts continue to increase in complexity. Existing tools perform poorly in terms of efficiency and successful detection rates for vulnerabilities in complex contracts. To effectively detect reentrancy vulnerabilities in contracts with complex logic, we propose a tool named SliSE. SliSE's detection process consists of two stages: Warning Search and Symbolic Execution Verification. In Stage I, SliSE utilizes program slicing to analyze the Inter-contract Program Dependency Graph (I-PDG) of the contract, and collects suspicious vulnerability information as warnings. In Stage II, symbolic execution is employed to verify the reachability of these warnings, thereby enhancing vulnerability detection accuracy. SliSE obtained the best performance compared with eight state-of-the-art detection tools. It achieved an F1 score of 78.65%, surpassing the highest score recorded by an existing tool of 9.26%. Additionally, it attained a recall rate exceeding 90% for detection of contracts on Ethereum. Overall, SliSE provides a robust and efficient method for detection of Reentrancy vulnerabilities for complex contracts.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# 非教師なし領域適応のための不確実性を考慮した擬似ラベルフィルタ

Uncertainty-Aware Pseudo-Label Filtering for Source-Free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2403.11256v1 )

ライセンス: Link先を確認
Xi Chen, Haosen Yang, Huicong Zhang, Hongxun Yao, Xiatian Zhu, (参考訳) Source-free unsupervised domain adapt (SFUDA) は、訓練済みのソースモデルを、ソースデータにアクセスすることなく、ラベルなしのターゲットドメインで利用できるようにすることを目的としている。 自己学習はSFUDAを解く方法であり、信頼度の高い対象サンプルを疑似ラベル付きサンプルとして反復的に選択し、対象モデル学習をガイドする。 しかし、事前ヒューリスティックな擬似ラベルフィルタリング手法は、いずれもモデル仮定に敏感な追加モデルを導入し、追加のエラーや誤ラベルを導入する可能性がある。 本研究では,不確かさを意識したPseudo-label-filtering Adaptation (UPA) という手法を提案する。 具体的には、まず、雑音の多い擬似ラベルをフィルタリングするAdaptive Pseudo-label Selection (APS)というサンプル選択モジュールを導入する。 APSは、近隣のサンプルからの知識を集約して単純なサンプル不確実性推定法を利用し、自信のあるサンプルをクリーンな擬似ラベルとして選択する。 さらに, 擬似ラベルによるペアワイド表現を学習することで, 擬似ラベル雑音の記憶を緩和するために, クラス・アウェア・コントラシティブ・ラーニング(CACL)を取り入れた。 広範に使用されている3つのベンチマークを用いて,提案手法が最先端のSFUDA手法と同等の競争性能を達成できることを実証した。 コードはhttps://github.com/chenxi52/UPA.comで入手できる。

Source-free unsupervised domain adaptation (SFUDA) aims to enable the utilization of a pre-trained source model in an unlabeled target domain without access to source data. Self-training is a way to solve SFUDA, where confident target samples are iteratively selected as pseudo-labeled samples to guide target model learning. However, prior heuristic noisy pseudo-label filtering methods all involve introducing extra models, which are sensitive to model assumptions and may introduce additional errors or mislabeling. In this work, we propose a method called Uncertainty-aware Pseudo-label-filtering Adaptation (UPA) to efficiently address this issue in a coarse-to-fine manner. Specially, we first introduce a sample selection module named Adaptive Pseudo-label Selection (APS), which is responsible for filtering noisy pseudo labels. The APS utilizes a simple sample uncertainty estimation method by aggregating knowledge from neighboring samples and confident samples are selected as clean pseudo-labeled. Additionally, we incorporate Class-Aware Contrastive Learning (CACL) to mitigate the memorization of pseudo-label noise by learning robust pair-wise representation supervised by pseudo labels. Through extensive experiments conducted on three widely used benchmarks, we demonstrate that our proposed method achieves competitive performance on par with state-of-the-art SFUDA methods. Code is available at https://github.com/chenxi52/UPA.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# 不確実性を考慮したモバイルエッジコンピューティングにおけるアプリケーション配置問題に対する学習型解法

A learning-based solution approach to the application placement problem in mobile edge computing under uncertainty ( http://arxiv.org/abs/2403.11259v1 )

ライセンス: Link先を確認
Taha-Hossein Hejazi, Zahra Ghadimkhani, Arezoo Borji, (参考訳) モバイルエッジコンピューティングサーバにアプリケーションを配置することは、多くのサーバ、ユーザ、そして彼らの要求にまつわる複雑な課題を示す。 既存のアルゴリズムは、重大な不確実性のあるシナリオで高次元の問題を解決するのに長い時間がかかる。 したがって、すべての技術的制約を考慮しつつ、サービス品質を最大化するための効率的なアプローチが必要である。 これらのアプローチの1つは機械学習であり、エッジサーバにおけるアプリケーションの配置に最適なソリューションをエミュレートする。 機械学習モデルは、ユーザとサーバの空間的位置に基づいて、ユーザリクエストをサーバに割り当てる方法を学ぶことが期待される。 本研究では,この問題を2段階確率計画法として定式化する。 十分な量のトレーニングレコードは、ユーザ位置、要求率、最適化モデルの解決など、さまざまなパラメータによって生成される。 そして、利用可能なサーバから各ユーザの距離の特徴と要求率に基づいて、機械学習モデルは、ユーザ間要求割り当てである確率最適化モデルの第一段階における決定変数を生成し、その最適化モデルを確実に模倣する独立した決定エージェントとして使用される。 本研究では,SVM(Support Vector Machines)とMLP(Multi-layer Perceptron)を用いて,確率的最適化モデルから現実的な決定を行う。 各モデルの性能は80%以上の実行効率を示した。 本研究の目的は,エッジサーバへの要求割当において,機械学習モデルを利用して最適な意思決定を行うことにより,モバイルエッジコンピューティングにおける高次元問題やシナリオに不確実性を持たせるための,より効率的なアプローチを提供することである。 これらの結果から,機械学習モデルは従来の手法に比べて解時間を大幅に改善できる可能性が示唆された。

Placing applications in mobile edge computing servers presents a complex challenge involving many servers, users, and their requests. Existing algorithms take a long time to solve high-dimensional problems with significant uncertainty scenarios. Therefore, an efficient approach is required to maximize the quality of service while considering all technical constraints. One of these approaches is machine learning, which emulates optimal solutions for application placement in edge servers. Machine learning models are expected to learn how to allocate user requests to servers based on the spatial positions of users and servers. In this study, the problem is formulated as a two-stage stochastic programming. A sufficient amount of training records is generated by varying parameters such as user locations, their request rates, and solving the optimization model. Then, based on the distance features of each user from the available servers and their request rates, machine learning models generate decision variables for the first stage of the stochastic optimization model, which is the user-to-server request allocation, and are employed as independent decision agents that reliably mimic the optimization model. Support Vector Machines (SVM) and Multi-layer Perceptron (MLP) are used in this research to achieve practical decisions from the stochastic optimization models. The performance of each model has shown an execution effectiveness of over 80%. This research aims to provide a more efficient approach for tackling high-dimensional problems and scenarios with uncertainties in mobile edge computing by leveraging machine learning models for optimal decision-making in request allocation to edge servers. These results suggest that machine-learning models can significantly improve solution times compared to conventional approaches.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# リーマンバッチ正規化に対するリー群アプローチ

A Lie Group Approach to Riemannian Batch Normalization ( http://arxiv.org/abs/2403.11261v1 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Yunmei Liu, Nicu Sebe, (参考訳) マニフォールド値の測定は、コンピュータビジョンや機械学習における多くの応用に存在している。 近年、ディープニューラルネットワーク(DNN)を多様体に拡張し、同時に正規化技術はリーマン正規化と呼ばれるいくつかの多様体にも適用されている。 それでも、既存のリーマン正規化法の大部分は、アドホックな方法で導出され、特定の多様体にのみ適用される。 本稿では,リー群に対するリーマンバッチ正規化(RBN)手法の統一的枠組みを確立する。 我々の枠組みはリーマン平均と分散の両方を制御する理論的保証を提供する。 経験的に、3つの異なるリー群構造を持つ対称正定値多様体(SPD)に焦点を当てる。 変形の概念を用いて、SPD多様体上の既存のリー群をパラメータ化されたリー群の3つの族に一般化する。 これらのリー群によって誘導される特定の正規化層は、SPDニューラルネットワークに対して提案される。 本研究は,レーダー認識,人行動認識,脳波分類(EEG)の3つの実験を通して,アプローチの有効性を実証する。 コードはhttps://github.com/GitZH-Chen/LieBN.gitで公開されている。

Manifold-valued measurements exist in numerous applications within computer vision and machine learning. Recent studies have extended Deep Neural Networks (DNNs) to manifolds, and concomitantly, normalization techniques have also been adapted to several manifolds, referred to as Riemannian normalization. Nonetheless, most of the existing Riemannian normalization methods have been derived in an ad hoc manner and only apply to specific manifolds. This paper establishes a unified framework for Riemannian Batch Normalization (RBN) techniques on Lie groups. Our framework offers the theoretical guarantee of controlling both the Riemannian mean and variance. Empirically, we focus on Symmetric Positive Definite (SPD) manifolds, which possess three distinct types of Lie group structures. Using the deformation concept, we generalize the existing Lie groups on SPD manifolds into three families of parameterized Lie groups. Specific normalization layers induced by these Lie groups are then proposed for SPD neural networks. We demonstrate the effectiveness of our approach through three sets of experiments: radar recognition, human action recognition, and electroencephalography (EEG) classification. The code is available at https://github.com/GitZH-Chen/LieBN.git.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# ファインマン経路積分による拡散モデルの理解

Understanding Diffusion Models by Feynman's Path Integral ( http://arxiv.org/abs/2403.11262v1 )

ライセンス: Link先を確認
Yuji Hirono, Akinori Tanaka, Kenji Fukushima, (参考訳) スコアベース拡散モデルは画像生成に有効であることが証明され、広く利用されているが、確率的および決定論的(すなわち確率フローODE)サンプリングスキームのパフォーマンス格差に寄与する基礎的要因はいまだ不明である。 量子物理学で最初に開発された定式化であるファインマン経路積分を用いた拡散モデルの新規な定式化を導入する。 この定式化は、スコアベース生成モデルの包括的記述を提供し、後方確率微分方程式と損失関数の導出を示し、その定式化は確率的および決定論的サンプリングスキームを連結する補間パラメータに対応し、このパラメータを量子物理学におけるプランク定数の対数として同定する。 この類似により、量子物理学において確立された手法である Wentzel-Kramers-Brillouin (WKB) 拡張を適用し、負の対数類似度を評価し、確率的および決定論的サンプリングスキームのパフォーマンス格差を評価することができる。

Score-based diffusion models have proven effective in image generation and have gained widespread usage; however, the underlying factors contributing to the performance disparity between stochastic and deterministic (i.e., the probability flow ODEs) sampling schemes remain unclear. We introduce a novel formulation of diffusion models using Feynman's path integral, which is a formulation originally developed for quantum physics. We find this formulation providing comprehensive descriptions of score-based generative models, and demonstrate the derivation of backward stochastic differential equations and loss functions.The formulation accommodates an interpolating parameter connecting stochastic and deterministic sampling schemes, and we identify this parameter as a counterpart of Planck's constant in quantum physics. This analogy enables us to apply the Wentzel-Kramers-Brillouin (WKB) expansion, a well-established technique in quantum physics, for evaluating the negative log-likelihood to assess the performance disparity between stochastic and deterministic sampling schemes.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# 限定データを用いた生成前処理によるスティル化顔スケッチ抽出

Stylized Face Sketch Extraction via Generative Prior with Limited Data ( http://arxiv.org/abs/2403.11263v1 )

ライセンス: Link先を確認
Kwan Yun, Kwanggyoon Seo, Chang Wook Seo, Soyeon Yoon, Seongcheol Kim, Soohyun Ji, Amirsaman Ashtari, Junyong Noh, (参考訳) 顔のスケッチは、人のアイデンティティを示す簡潔な方法と、芸術的意図を表現する手段の両方である。 スケッチを異なるスタイルで抽出できるいくつかのテクニックが最近登場したが、通常は入手が難しい大量のデータに依存している。 本稿では,顔画像から高精細なスタイリングスケッチを抽出するStyleSketchを提案する。 事前訓練されたStyleGANの深い特徴の豊富なセマンティクスを用いて、16対の顔とそれに対応するスケッチイメージでスケッチジェネレータを訓練することができる。 スケッチ生成装置は、2段階学習による部分的損失を利用して、高品質なスケッチ抽出のためのトレーニング中に高速収束を行う。 比較の結果,StyleSketchは,高精細な抽象顔のスケッチを抽出する作業において,既存の最先端のスケッチ抽出法や少数ショット画像適応法よりも優れていることがわかった。 さらに、他のドメインに使用を拡大し、セマンティック編集の可能性を探ることで、StyleSketchの汎用性を実証する。 プロジェクトのページはhttps://kwanyun.github.io/stylesketch_projectにある。

Facial sketches are both a concise way of showing the identity of a person and a means to express artistic intention. While a few techniques have recently emerged that allow sketches to be extracted in different styles, they typically rely on a large amount of data that is difficult to obtain. Here, we propose StyleSketch, a method for extracting high-resolution stylized sketches from a face image. Using the rich semantics of the deep features from a pretrained StyleGAN, we are able to train a sketch generator with 16 pairs of face and the corresponding sketch images. The sketch generator utilizes part-based losses with two-stage learning for fast convergence during training for high-quality sketch extraction. Through a set of comparisons, we show that StyleSketch outperforms existing state-of-the-art sketch extraction methods and few-shot image adaptation methods for the task of extracting high-resolution abstract face sketches. We further demonstrate the versatility of StyleSketch by extending its use to other domains and explore the possibility of semantic editing. The project page can be found in https://kwanyun.github.io/stylesketch_project.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# Forging the Forger: データ拡張によるオーサシップ検証の改善の試み

Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation ( http://arxiv.org/abs/2403.11265v1 )

ライセンス: Link先を確認
Silvia Corbara, Alejandro Moreo, (参考訳) 著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。 多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。 本稿では,(負の)合成例を用いて分類器訓練セットを増強する潜在的な利点について検討する。 これらの合成例は、興味ある著者の様式を模したものである。 本研究は, 対向的な環境下でのAVタスクにおいて, この拡張が関与するクラシファイア予測の改善について分析する。 特に、我々は3つの異なるジェネレータアーキテクチャ(1つはリカレントニューラルネットワーク、もう1つは小型トランスフォーマー、もう1つはGPTモデルに基づく)と2つのトレーニング戦略(もう1つは標準言語モデルにインスパイアされ、もう1つはWasserstein Generative Adversarial Networksにインスパイアされています。 AV分類器(Support Vector Machines)と畳み込みニューラルネットワーク(Convolutional Neural Networks)の2つの学習アルゴリズムを用いて,この仮説を5つのデータセット(そのうち3つは,敵対的設定を表すために特別に収集されている)で評価した。 この実験によって負の結果が得られ、我々の手法は多くの逆条件で有効であることが証明されているが、その利点は実用的応用にはあまりに散発的すぎることが判明した。

Authorship Verification (AV) is a text classification task concerned with inferring whether a candidate text has been written by one specific author or by someone else. It has been shown that many AV systems are vulnerable to adversarial attacks, where a malicious author actively tries to fool the classifier by either concealing their writing style, or by imitating the style of another author. In this paper, we investigate the potential benefits of augmenting the classifier training set with (negative) synthetic examples. These synthetic examples are generated to imitate the style of the author of interest. We analyze the improvements in classifier prediction that this augmentation brings to bear in the task of AV in an adversarial setting. In particular, we experiment with three different generator architectures (one based on Recurrent Neural Networks, another based on small-scale transformers, and another based on the popular GPT model) and with two training strategies (one inspired by standard Language Models, and another inspired by Wasserstein Generative Adversarial Networks). We evaluate our hypothesis on five datasets (three of which have been specifically collected to represent an adversarial setting) and using two learning algorithms for the AV classifier (Support Vector Machines and Convolutional Neural Networks). This experimentation has yielded negative results, revealing that, although our methodology proves effective in many adversarial settings, its benefits are too sporadic for a pragmatical application.
翻訳日:2024-03-19 17:46:37 公開日:2024-03-17
# 奥行き完了のための双方向伝搬ネットワーク

Bilateral Propagation Network for Depth Completion ( http://arxiv.org/abs/2403.11270v1 )

ライセンス: Link先を確認
Jie Tang, Fei-Peng Tian, Boshi An, Jian Li, Ping Tan, (参考訳) 深度補正は,色画像の同期による疎深度測定から高密度深度マップを導出することを目的としている。 現在の最先端技術(SOTA)法は主に伝播に基づく手法であり、初期推定密度深さの反復精製として機能する。 しかし、初期深度推定は主にスパース深度マップ上の畳み込み層の直接適用によるものである。 本稿では,スパースデータの直接結合を避けるために,最初期の深度を伝播するバイラテラル伝搬ネットワーク(BP-Net)を提案する。 具体的には, 近接深度測定のターゲット深度を非線形モデルを用いて伝搬させ, 係数は, 多層パーセプトロンにより生成する。 BP-Netは,マルチモーダル融合と深度改善を併用して,屋内および屋外の両方で優れた性能を示す。 これはNYUv2データセットでSOTAを達成し、提出時にKITTI深度補完ベンチマークで1位にランクインする。 実験の結果は, 両側伝播の有効性を示すだけでなく, 改良段階とは対照的に早期伝播の重要性も強調した。 私たちのコードとトレーニングされたモデルは、プロジェクトページで公開されます。

Depth completion aims to derive a dense depth map from sparse depth measurements with a synchronized color image. Current state-of-the-art (SOTA) methods are predominantly propagation-based, which work as an iterative refinement on the initial estimated dense depth. However, the initial depth estimations mostly result from direct applications of convolutional layers on the sparse depth map. In this paper, we present a Bilateral Propagation Network (BP-Net), that propagates depth at the earliest stage to avoid directly convolving on sparse data. Specifically, our approach propagates the target depth from nearby depth measurements via a non-linear model, whose coefficients are generated through a multi-layer perceptron conditioned on both \emph{radiometric difference} and \emph{spatial distance}. By integrating bilateral propagation with multi-modal fusion and depth refinement in a multi-scale framework, our BP-Net demonstrates outstanding performance on both indoor and outdoor scenes. It achieves SOTA on the NYUv2 dataset and ranks 1st on the KITTI depth completion benchmark at the time of submission. Experimental results not only show the effectiveness of bilateral propagation but also emphasize the significance of early-stage propagation in contrast to the refinement stage. Our code and trained models will be available on the project page.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# BrightDreamer: 高速テキストから3D合成のための3Dガウス生成フレームワーク

BrightDreamer: Generic 3D Gaussian Generative Framework for Fast Text-to-3D Synthesis ( http://arxiv.org/abs/2403.11273v1 )

ライセンス: Link先を確認
Lutao Jiang, Lin Wang, (参考訳) テキスト・ツー・3D合成は、テキスト・ツー・イメージ・モデルと3D表現法、例えばガウス・スティング(GS)を組み合わせたスコア蒸留サンプリング(SDS)によって、近年興味深い進歩を遂げている。 しかし、既存の手法のハードルは、単一の3Dオブジェクトに対する低効率でプロンプトごとの最適化である。 したがって、未確認のテキストプロンプトに対して、プロンプトごとの最適化からワンステージ生成へのパラダイムシフトが必須である。 ハードルは、3Dオブジェクトを表現するために、何百万もの3Dガウシアンを直接生成する方法だ。 本稿ではBrightDreamerについて述べる。BrightDreamerは、汎用的で高速(77ms)なテキスト・ツー・3D生成を実現するエンドツーエンドのシングルステージ・アプローチである。 我々のキーとなる考え方は、アンカー形状からの3次元変形を予め定義された位置で推定する生成過程を定式化することである。 そこで本研究では,まず3次元ガウスの中心となる変形形状とその新しい位置を予測するためのテキスト誘導形状変形(TSD)ネットワークを提案する。 その他の4つの属性(すなわち、スケーリング、回転、不透明度、SH係数)を推定するために、新しいテキスト誘導三葉飛行機発電機(TTG)を設計し、3Dオブジェクトのための三葉飛行機表現を生成する。 各ガウスの中心は、三面体の特徴を4つの属性に変換することができる。 生成された3Dガウスアンは、最終的に毎秒705フレームでレンダリングできる。 実験により,本手法が既存手法よりも優れていることを示す。 また、BrightDreamerは複雑なテキストプロンプトであっても強力な意味理解能力を持っている。 プロジェクトのコードはhttps://vlislab22.github.io/BrightDreamer.comで公開されている。

Text-to-3D synthesis has recently seen intriguing advances by combining the text-to-image models with 3D representation methods, e.g., Gaussian Splatting (GS), via Score Distillation Sampling (SDS). However, a hurdle of existing methods is the low efficiency, per-prompt optimization for a single 3D object. Therefore, it is imperative for a paradigm shift from per-prompt optimization to one-stage generation for any unseen text prompts, which yet remains challenging. A hurdle is how to directly generate a set of millions of 3D Gaussians to represent a 3D object. This paper presents BrightDreamer, an end-to-end single-stage approach that can achieve generalizable and fast (77 ms) text-to-3D generation. Our key idea is to formulate the generation process as estimating the 3D deformation from an anchor shape with predefined positions. For this, we first propose a Text-guided Shape Deformation (TSD) network to predict the deformed shape and its new positions, used as the centers (one attribute) of 3D Gaussians. To estimate the other four attributes (i.e., scaling, rotation, opacity, and SH coefficient), we then design a novel Text-guided Triplane Generator (TTG) to generate a triplane representation for a 3D object. The center of each Gaussian enables us to transform the triplane feature into the four attributes. The generated 3D Gaussians can be finally rendered at 705 frames per second. Extensive experiments demonstrate the superiority of our method over existing methods. Also, BrightDreamer possesses a strong semantic understanding capability even for complex text prompts. The project code is available at https://vlislab22.github.io/BrightDreamer.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# テンプレート抽出によるJava JITテスト

Java JIT Testing with Template Extraction ( http://arxiv.org/abs/2403.11281v1 )

ライセンス: Link先を確認
Zhiqiang Zang, Fu-Yao Yu, Aditya Thimmaiah, August Shi, Milos Gligoric, (参考訳) Javaのジャスト・イン・タイム(JIT)コンパイラをテストするためのテンプレートベースのフレームワークであるLeJitを紹介します。 最近のテンプレートベースのフレームワークと同様に、LeJitはJava JITコンパイラへのインプットとして与えられた具体的なプログラムを生成するテンプレートを実行する。 LeJitは、式を穴に変換することで既存のJavaコードからテンプレートプログラムを自動的に生成し、生成したテンプレートを実行可能なものにするために必要なグルーコード(非プリミティブな型のインスタンスを生成するコード)を生成する。 私たちは、さまざまな人気のあるJava JITコンパイラのテストにLeJitを使い、HotSpotの5つのバグ、OpenJ9の9つのバグ、GraalVMの1つのバグを明らかにしました。 これらのバグはすべてOracleとIBMの開発者によって確認されており、以前はCVE(Common Vulnerabilities and Exposures)を含む11のバグが不明であった。 既存のいくつかのアプローチと比較すると、LeJitはそれらと相補的であり、Java JITコンパイラの正確性を保証するための強力なテクニックであることがわかる。

We present LeJit, a template-based framework for testing Java just-in-time (JIT) compilers. Like recent template-based frameworks, LeJit executes a template -- a program with holes to be filled -- to generate concrete programs given as inputs to Java JIT compilers. LeJit automatically generates template programs from existing Java code by converting expressions to holes, as well as generating necessary glue code (i.e., code that generates instances of non-primitive types) to make generated templates executable. We have successfully used LeJit to test a range of popular Java JIT compilers, revealing five bugs in HotSpot, nine bugs in OpenJ9, and one bug in GraalVM. All of these bugs have been confirmed by Oracle and IBM developers, and 11 of these bugs were previously unknown, including two CVEs (Common Vulnerabilities and Exposures). Our comparison with several existing approaches shows that LeJit is complementary to them and is a powerful technique for ensuring Java JIT compiler correctness.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# Java JITテストによるパターンベースのピープホール最適化

Pattern-Based Peephole Optimizations with Java JIT Tests ( http://arxiv.org/abs/2403.11283v1 )

ライセンス: Link先を確認
Zhiqiang Zang, Aditya Thimmaiah, Milos Gligoric, (参考訳) 私たちは、JITテストと一緒にJava JITのピープホール最適化の開発を容易にするフレームワークJOGを紹介します。 JOGを使えば開発者は、最適化前後のコードを記述することで、望ましいコード変換を規定するパターンをJava自身で記述できる。 このようなパターンは、最適化のテストがすでにOpenJDKで記述されているのと同じように書くことができる。 JOGは各パターンをC/C++コードに変換し、JIT最適化パスとして統合することができる。 JOGはパターンから最適化のためのJavaテストを生成する。 さらに、JOGは、シャドウ最適化の効果が別の最適化によってオーバーライドされる一対の最適化の間のシャドウ関係を自動的に検出することができる。 評価の結果,JOG は JIT 最適化の有効性を低下させることなく,可読性のある JIT 最適化をテストと一緒に記述しやすくする。 我々は、OpenJDKに68の既存の最適化、LLVMに適合した92の新しい最適化、提案した2つの新しい最適化を含む162のパターンを書きました。 私たちはOpenJDKのプルリクエスト(PR)を8つオープンしました。その中には、新しい最適化の6つ、シャドード最適化の1つ、新しく生成されたJITテストの1つが含まれています。

We present JOG, a framework that facilitates developing Java JIT peephole optimizations alongside JIT tests. JOG enables developers to write a pattern, in Java itself, that specifies desired code transformations by writing code before and after the optimization, as well as any necessary preconditions. Such patterns can be written in the same way that tests of the optimization are already written in OpenJDK. JOG translates each pattern into C/C++ code that can be integrated as a JIT optimization pass. JOG also generates Java tests for optimizations from patterns. Furthermore, JOG can automatically detect possible shadow relation between a pair of optimizations where the effect of the shadowed optimization is overridden by another. Our evaluation shows that JOG makes it easier to write readable JIT optimizations alongside tests without decreasing the effectiveness of JIT optimizations. We wrote 162 patterns, including 68 existing optimizations in OpenJDK, 92 new optimizations adapted from LLVM, and two new optimizations that we proposed. We opened eight pull requests (PRs) for OpenJDK, including six for new optimizations, one on removing shadowed optimizations, and one for newly generated JIT tests; seven PRs have already been integrated into the master branch of OpenJDK.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# 注意注入による高速な個人化テキスト・画像合成

Fast Personalized Text-to-Image Syntheses With Attention Injection ( http://arxiv.org/abs/2403.11284v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Yiren Song, Jinpeng Yu, Han Pan, Zhongliang Jing, (参考訳) 現在、パーソナライズされた画像生成法は、精細化にはかなりの時間を要するため、しばしばカスタムな概念と似ているがプロンプトによって編集することが難しい画像を生成する概念に過度に適合する。 生成した画像と参照画像のテキストイメージの一貫性とアイデンティティの整合性のバランスをとることができる有効かつ高速なアプローチを提案する。 本手法は,拡散モデル固有のテキスト・画像生成能力を保ちながら,微調整なしでパーソナライズされた画像を生成することができる。 プロンプトと参照画像が与えられた場合、元の拡散モデルにおけるクロスアテンション層と自己アテンション層を操り、テキスト記述にマッチしたパーソナライズされた画像を生成することにより、カスタム概念を生成画像にマージする。 総合的な実験は、我々の方法の優越性を浮き彫りにする。

Currently, personalized image generation methods mostly require considerable time to finetune and often overfit the concept resulting in generated images that are similar to custom concepts but difficult to edit by prompts. We propose an effective and fast approach that could balance the text-image consistency and identity consistency of the generated image and reference image. Our method can generate personalized images without any fine-tuning while maintaining the inherent text-to-image generation ability of diffusion models. Given a prompt and a reference image, we merge the custom concept into generated images by manipulating cross-attention and self-attention layers of the original diffusion model to generate personalized images that match the text description. Comprehensive experiments highlight the superiority of our method.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# スピン量子ビット系による量子計算における非断熱量子制御の利点

Benefits of non-adiabatic quantum control in quantum computation through spin qubit systems ( http://arxiv.org/abs/2403.11288v1 )

ライセンス: Link先を確認
Nirupam Dutta, (参考訳) これは、制御可能な量子系が量子計算の信頼性の高いビルディングブロックであることは明らかである。 実際、私たちはアイデアを十分に魅力的にするための進歩を目撃していますが、楽観的ですが、しきい値は私たちにはあまり近づきません。 量子計算の夜明けが始まった。 将来的には、古典的なデジタルコンピュータの範囲を超えて問題を解決することのできる、十分に成熟した動作可能な量子コンピュータが期待できる。 これを量子超越(quantum supremacy)と呼ぶ。 それでも、古典的コンピュータが量子デバイスを通して同じよりも優れたパフォーマンスを要求される問題があることを忘れてはならない。 コンピューティング技術の現段階では、最も有益な分野はハイブリッドアプローチに過ぎず、今後5年から10年にわたって市場を支配していくことは疑いようもない。 このハイブリッドな側面は、古典的なコンピュータ上での量子計算をシミュレートするなど、いくつかの方向を持つ。 クラウドコンピューティングのために利用可能な量子コンピュータにアクセスすることによって、実際の物理デバイスによる計算と、古典的なコンピュータ上でのシミュレーションの両方の側面を保ちながら、本記事では、今後の記事で、いくつかの利点を詳述する。 これらの利点は、実験室におけるスピン系に対する適切な非断熱的制御を達成できれば、本質的に成り立つ。 そうでなければ、これらの側面は常に量子アルゴリズムを用いて、純粋に古典的な計算機と比較して有用かどうかをシミュレートすることができる。 これは、量子計算の方向に進むための新しい窓であることは間違いない。

This is evident that the controllable quantum systems can be the reliable building blocks for Quantum computation. In reality we are witnessing the progress towards making the idea tractable enough, though optimistic but the threshold is not very near to us. The dawn of quantum computation has begun. In the future, we hope to see a full fledged operationally stable quantum computer which can solve the problems beyond the scope of classical digital computers. We may call it quantum supremacy. Nevertheless, we should not forget that there are problems which demand classical computers to be in the game for a better performance in comparison to the same through quantum devices. In the current stage of computing technology, the most beneficial area is nothing but an hybrid approach and that is for no doubt will reign the market for the next five to ten years. This hybrid aspect has several directions such as simulating quantum computation on a classical computer. Keeping both the aspect, computation through real physical devices and simulation on a classical computer by accessing available quantum computers for cloud computing, some advantages have been discussed in this article which will be elaborated as well in future articles. These advantages are inherent if we can achieve proper non-adiabatic control over the spin system in the laboratory. Otherwise these aspects can always be simulated by using quantum algorithms to see whether they can be useful in comparison to a purely classical computing machine. This is no doubt a new window for progress in the direction of quantum computation.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# 深層学習を用いた物理設計図面の高度な知識抽出、CAD形式への翻訳と変換

Advanced Knowledge Extraction of Physical Design Drawings, Translation and conversion to CAD formats using Deep Learning ( http://arxiv.org/abs/2403.11291v1 )

ライセンス: Link先を確認
Jesher Joshua M, Ragav V, Syed Ibrahim S P, (参考訳) デザイン図面のメンテナンス、アーカイブ、使用は、長い期間、様々な産業で物理的に困難である。 描画シートの簡易走査による情報抽出は困難である。 これらをCAD(Computer-Aided Design)などのデジタルフォーマットに変換することで、必要な知識を抽出できる。 これらの機械図面をデジタル形式に変換することは、高度な技術を必要とする重要な課題である。 本研究では,ディープラーニング手法を利用した革新的な手法を提案する。 このアプローチでは、Yolov7やFaster R-CNNといったオブジェクト検出モデルを用いて、画像に存在する物理的描画対象を検出する。 また、図面内の装飾品(複合形状)を抽出する。 総合的な変換を保証するため、光学文字認識(OCR)ツールを統合して、図面からテキスト要素を識別して抽出する。 行、形、テキストを含む抽出されたデータは、構造化されたコンマ分離値(.csv)ファイルフォーマットに集約され、格納される。 変換の精度と効率を評価する。 これにより、組織が生産性を向上し、シームレスなコラボレーションを容易にし、価値ある設計情報をデジタルフォーマットで容易にアクセスできるようにする。 本研究はCAD変換の進歩に寄与し,翻訳過程の正確な結果を提供する。 今後の研究は、多様な図形の処理、形状の精度の向上、線検出と抽出に集中できる。

The maintenance, archiving and usage of the design drawings is cumbersome in physical form in different industries for longer period. It is hard to extract information by simple scanning of drawing sheets. Converting them to their digital formats such as Computer-Aided Design (CAD), with needed knowledge extraction can solve this problem. The conversion of these machine drawings to its digital form is a crucial challenge which requires advanced techniques. This research proposes an innovative methodology utilizing Deep Learning methods. The approach employs object detection model, such as Yolov7, Faster R-CNN, to detect physical drawing objects present in the images followed by, edge detection algorithms such as canny filter to extract and refine the identified lines from the drawing region and curve detection techniques to detect circle. Also ornaments (complex shapes) within the drawings are extracted. To ensure comprehensive conversion, an Optical Character Recognition (OCR) tool is integrated to identify and extract the text elements from the drawings. The extracted data which includes the lines, shapes and text is consolidated and stored in a structured comma separated values(.csv) file format. The accuracy and the efficiency of conversion is evaluated. Through this, conversion can be automated to help organizations enhance their productivity, facilitate seamless collaborations and preserve valuable design information in a digital format easily accessible. Overall, this study contributes to the advancement of CAD conversions, providing accurate results from the translating process. Future research can focus on handling diverse drawing types, enhanced accuracy in shape and line detection and extraction.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# ドメイン外リンク予測のためのマルチリレーショナルグラフニューラルネットワーク

Multi-Relational Graph Neural Network for Out-of-Domain Link Prediction ( http://arxiv.org/abs/2403.11292v1 )

ライセンス: Link先を確認
Asma Sattar, Georgios Deligiorgis, Marco Trincavelli, Davide Bacciu, (参考訳) 動的マルチリレーショナルグラフ(英: dynamic multi-relational graph)は、データを取り囲むエンティティと異なるタイプの関係を表現的に表現するグラフである。 このようなデータ上の予測タスクに対処するには、関係の多様性を捉え、その動的進化を捉える構造埋め込みを見つける能力が必要である。 本研究では、ドメイン外リンク予測を含む動的マルチリレーショナルグラフのための新しい課題のクラスを構築し、予測される関係が入力グラフで利用できないようにする。 次に、ドメイン外一般化問題に対処するために設計された、GOODと呼ばれる新しいグラフニューラルネットワークモデルを導入する。 GOODは、優れた表現が、それを生成した異なる関係埋め込みの混合比率を解き放つことができるという考え方に基づいて、マルチリレー埋め込みアグリゲーションのための新しい設計概念を導入している。 また、2つの小売ドメインに基づく5つのベンチマークを提案し、GOODが既知の関係タイプから予測を効果的に一般化し、最先端の結果が得られることを示した。 最も重要なことは、ドメイン外予測がドメイン内の定式化よりも好まれる可能性のある問題、すなわち予測される関係が極めて少ない問題に対する洞察を提供することである。

Dynamic multi-relational graphs are an expressive relational representation for data enclosing entities and relations of different types, and where relationships are allowed to vary in time. Addressing predictive tasks over such data requires the ability to find structure embeddings that capture the diversity of the relationships involved, as well as their dynamic evolution. In this work, we establish a novel class of challenging tasks for dynamic multi-relational graphs involving out-of-domain link prediction, where the relationship being predicted is not available in the input graph. We then introduce a novel Graph Neural Network model, named GOOD, designed specifically to tackle the out-of-domain generalization problem. GOOD introduces a novel design concept for multi-relation embedding aggregation, based on the idea that good representations are such when it is possible to disentangle the mixing proportions of the different relational embeddings that have produced it. We also propose five benchmarks based on two retail domains, where we show that GOOD can effectively generalize predictions out of known relationship types and achieve state-of-the-art results. Most importantly, we provide insights into problems where out-of-domain prediction might be preferred to an in-domain formulation, that is, where the relationship to be predicted has very few positive examples.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# オーダーワンのシャッターカメラ

Order-One Rolling Shutter Cameras ( http://arxiv.org/abs/2403.11295v1 )

ライセンス: Link先を確認
Marvin Anas Hahn, Kathlén Kohn, Orlando Marigliano, Tomas Pajdla, (参考訳) ローリングシャッター(RS)カメラが消費者およびスマートフォン市場を支配している。 RSカメラの絶対的なポーズを計算するいくつかの方法が過去20年間現れてきたが、相対的なポーズ問題は未だ完全には解決されていない。 本稿では,ローリングシャッター(RS$_1$)カメラの重要なクラスに対する統一理論を提案する。 これらのカメラは、視点投影をRSカメラに一般化し、有理写像を介して、一般的な空間点を正確に1つの画像点に投影する。 本稿では、新しい後方投影RSカメラモデルを導入し、RS$_1$カメラを特徴付けるとともに、そのようなカメラの明確なパラメータ化を構築し、空間線の像を決定する。 我々は、線形RS$_1$カメラで相対カメラポーズ問題を解決するための最小限の問題を全て分類し、新しい実例を発見する。 最後に、この理論を用いて、これまで絶対ポーズ計算に用いられてきたRSモデルを説明する方法を示す。

Rolling shutter (RS) cameras dominate consumer and smartphone markets. Several methods for computing the absolute pose of RS cameras have appeared in the last 20 years, but the relative pose problem has not been fully solved yet. We provide a unified theory for the important class of order-one rolling shutter (RS$_1$) cameras. These cameras generalize the perspective projection to RS cameras, projecting a generic space point to exactly one image point via a rational map. We introduce a new back-projection RS camera model, characterize RS$_1$ cameras, construct explicit parameterizations of such cameras, and determine the image of a space line. We classify all minimal problems for solving the relative camera pose problem with linear RS$_1$ cameras and discover new practical cases. Finally, we show how the theory can be used to explain RS models previously used for absolute pose computation.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# テキスト分類モデルに基づく単語残差に基づく逆攻撃の修正

A Modified Word Saliency-Based Adversarial Attack on Text Classification Models ( http://arxiv.org/abs/2403.11297v1 )

ライセンス: Link先を確認
Hetvi Waghela, Sneha Rakshit, Jaydip Sen, (参考訳) 本稿では,テキスト分類モデルを対象とした新たな逆攻撃手法について紹介する。 この技術は、意味的コヒーレンスを維持しながら分類モデルに誤解をもたらすことを目的とした、戦略的に摂動する入力テキストに対する単語のサリエンシの概念に基づいている。 MWSAAは従来の敵攻撃アプローチを改良することにより、分類システムによる検出の回避において、その効果を著しく向上させる。 この手法は、まず入力テキスト中の有能な単語を、モデルの意思決定プロセスに最も影響を及ぼす単語を優先順位付けする唾液度推定プロセスを通じて識別する。 その後、これらの有能な単語は、意味的類似度指標によってガイドされ、変更されたテキストが一貫性を保ち、本来の意味を保ち続けるように、慎重に修正される。 多様なテキスト分類データセットを用いて実施した実証評価は、最先端の分類モデルをうまく評価できる逆例を生成する上で、提案手法の有効性を示す。 既存の敵攻撃技術との比較分析は、攻撃成功率とテキストコヒーレンス保存の両方の観点から、提案手法の優位性をさらに示している。

This paper introduces a novel adversarial attack method targeting text classification models, termed the Modified Word Saliency-based Adversarial At-tack (MWSAA). The technique builds upon the concept of word saliency to strategically perturb input texts, aiming to mislead classification models while preserving semantic coherence. By refining the traditional adversarial attack approach, MWSAA significantly enhances its efficacy in evading detection by classification systems. The methodology involves first identifying salient words in the input text through a saliency estimation process, which prioritizes words most influential to the model's decision-making process. Subsequently, these salient words are subjected to carefully crafted modifications, guided by semantic similarity metrics to ensure that the altered text remains coherent and retains its original meaning. Empirical evaluations conducted on diverse text classification datasets demonstrate the effectiveness of the proposed method in generating adversarial examples capable of successfully deceiving state-of-the-art classification models. Comparative analyses with existing adversarial attack techniques further indicate the superiority of the proposed approach in terms of both attack success rate and preservation of text coherence.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# SQ-LLaVA:大規模視覚言語支援のためのセルフクエスト

SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant ( http://arxiv.org/abs/2403.11299v1 )

ライセンス: Link先を確認
Guohao Sun, Can Qin, Jiamian Wang, Zeyuan Chen, Ran Xu, Zhiqiang Tao, (参考訳) 近年の視覚言語モデルの進歩は、視覚指導訓練後の視覚言語タスクの顕著な一般化を示している。 しかし、事前訓練されたビジョンエンコーダと大きな言語モデルとのギャップを埋めることは、ネットワーク全体のボトルネックとなる。 クロスモーダルアライメントを改善するため、既存の研究は通常、より広い範囲の視覚タスクをカバーする視覚的インストラクションデータを考慮し、質問応答のためのモデルを微調整する。 しかし、この画像は、ほとんど探索されていない豊富な文脈情報を含んでいる。 本稿ではまず,視覚的指導データの中で,この見過ごされた文脈を利用して,高品質な質問を自己指導する「学習」を訓練する。 本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。 SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示し、より高度な一般化された視覚的理解のレベルを示す。 さらに、高品質な命令データに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して一貫した性能向上を示す。 この改善は、様々な文脈における視覚的内容のより深く、よりニュアンスな理解を達成するための、セルフクエスト技術の有効性を強調している。

Recent advancements in the vision-language model have shown notable generalization in vision-language tasks after visual instruction tuning. However, bridging the gap between the pre-trained vision encoder and the large language models becomes the whole network's bottleneck. To improve cross-modality alignment, existing works usually consider more visual instruction data covering a broader range of vision tasks to fine-tune the model for question-answering, which are costly to obtain. However, the image contains rich contextual information that has been largely under-explored. This paper first attempts to harness this overlooked context within visual instruction data, training the model to self-supervised `learning' how to ask high-quality questions. In this way, we introduce a novel framework named SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant. SQ-LLaVA exhibits proficiency in generating flexible and meaningful image-related questions while analyzing the visual clue and prior language knowledge, signifying an advanced level of generalized visual understanding. Moreover, fine-tuning SQ-LLaVA on higher-quality instruction data shows a consistent performance improvement compared with traditional visual-instruction tuning methods. This improvement highlights the efficacy of self-questioning techniques in achieving a deeper and more nuanced comprehension of visual content across various contexts.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# コンピュータネットワークセキュリティ技術に関する簡単な研究

A Brief Study of Computer Network Security Technologies ( http://arxiv.org/abs/2403.11303v1 )

ライセンス: Link先を確認
Tulasi Udupa A, Sushma Jayaram, Shreya Ganesh Hegde, (参考訳) コンピュータネットワークシステムの急速な発展は、ユーザーにとって大きな利便性と新しいセキュリティの脅威をもたらす。 ネットワークセキュリティ問題は通常、ネットワークシステムのセキュリティとデータセキュリティを含む。 具体的には、ネットワークシステムの信頼性、機密性、システム内のデータ情報の完全性、可用性を示す。 本稿では,ネットワークセキュリティシステムの重要性を紹介し,主に認証,データ暗号化,ファイアウォール,アンチウイルス技術といった関連技術を紹介する。 ネットワークセキュリティの問題は,ネットワーク利用者が直面する可能性があるため,ネットワークセキュリティの大幅な優先順位付け,敵攻撃の防止,ネットワークシステムの全体的なセキュリティ確保を図らなければならない。

The rapid development of computer network system brings both a great convenience and new security threats for users. Network security problem generally includes network system security and data security. Specifically, it refers to the reliability of network system, confidentiality, integrity and availability of data information in the system. This paper introduces the significance of network security systems and highlights related technologies, mainly authentication, data encryption, firewall and antivirus technology. Network security problems can be faced by any network user, therefore we must greatly prioritize network security, try to prevent hostile attacks and ensure the overall security of the network system.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# 自動走行用ピオネリングSE(2)-同変軌道計画

Pioneering SE(2)-Equivariant Trajectory Planning for Automated Driving ( http://arxiv.org/abs/2403.11304v1 )

ライセンス: Link先を確認
Steffen Hagedorn, Marcel Milich, Alexandru P. Condurache, (参考訳) 制御されたエゴ車両の軌道を計画することは、自動走行において重要な課題である。 人間のドライバーについては、周囲の車両の動きを予測することが、自身の行動を計画する上で重要である。 近年の動作予測手法は、均質なニューラルネットワークを用いて、シーンの幾何学的対称性を利用する。 しかし、既存の方法では、入力空間のロト変換の下での等価性を保証しながら、共同ステップでの運動予測と軌道計画を組み合わせることはできない。 このギャップを解消するために,全車両に複数モーダルな関節予測を発生させ,エゴ計画として1つのモードを選択する軽量同変計画モデルを提案する。 同変ネットワーク設計は、サンプル効率を改善し、出力安定性を保証し、モデルパラメータを低減する。 さらに,車載GPSナビゲーションシステムによって提供される高レベルルートに沿って,エゴ車両を誘導する等変経路アトラクションを提案する。 このモジュールは、同値性を保ちながら、埋め込み車両の位置から潜在空間の経路への運動量を生成する。 ルートアトラクションは、車両に正確なルートに固執させることなく、ゴール指向の動作を可能にする。 我々は、計画立案者の能力を調べるために、挑戦的なnuScenesデータセットの実験を行う。 その結果,提案手法は入力シーンのロト変換の下で安定であり,モデルの等価性を示すことがわかった。 トレーニング用データセットのごく一部しか使用していないにもかかわらず、我々の手法はL2距離を3秒で20.6%改善し、最先端技術を上回っている。

Planning the trajectory of the controlled ego vehicle is a key challenge in automated driving. As for human drivers, predicting the motions of surrounding vehicles is important to plan the own actions. Recent motion prediction methods utilize equivariant neural networks to exploit geometric symmetries in the scene. However, no existing method combines motion prediction and trajectory planning in a joint step while guaranteeing equivariance under roto-translations of the input space. We address this gap by proposing a lightweight equivariant planning model that generates multi-modal joint predictions for all vehicles and selects one mode as the ego plan. The equivariant network design improves sample efficiency, guarantees output stability, and reduces model parameters. We further propose equivariant route attraction to guide the ego vehicle along a high-level route provided by an off-the-shelf GPS navigation system. This module creates a momentum from embedded vehicle positions toward the route in latent space while keeping the equivariance property. Route attraction enables goal-oriented behavior without forcing the vehicle to stick to the exact route. We conduct experiments on the challenging nuScenes dataset to investigate the capability of our planner. The results show that the planned trajectory is stable under roto-translations of the input scene which demonstrates the equivariance of our model. Despite using only a small split of the dataset for training, our method improves L2 distance at 3 s by 20.6 % and surpasses the state of the art.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# 一般的な0-1knapsack問題に対する遺伝的アルゴリズムにおける突然変異確率の上限

An upper bound of the mutation probability in the genetic algorithm for general 0-1 knapsack problem ( http://arxiv.org/abs/2403.11307v1 )

ライセンス: Link先を確認
Yang Yang, (参考訳) 遺伝的アルゴリズム(GA)の重要な部分として、突然変異演算子は、個体の個体数の多様性を増大させるため、$\mathcal{NP}$-hard問題を解くために、進化アルゴリズムで広く用いられている。 数学的ツールの制限により、突然変異演算子の突然変異確率は、実際的な応用において実験的に設定される。 本稿では, 線形緩和技術の利用と, Dey et al (Math. Prog., pp 569-587, 2022) による最近の結果とともに, 仮定 $\mathcal{NP}\neq\mathcal{P}$ に基づく 0-1 knapsack 問題 (0-1 KP) と改良された突然変異演算子 (IMO) に対する新しい還元法を提案する。 この手法を用いて、0-1 KP の一般例における突然変異確率の上限を計算し、問題のサイズが大きくなるにつれて突然変異確率が 0 に近づかない場合を構築する。 最後に、大規模インスタンスにおいて1回の反復で最適解を打つ確率が従来の突然変異演算子よりも優れていることを証明した。

As an important part of genetic algorithms (GAs), mutation operators is widely used in evolutionary algorithms to solve $\mathcal{NP}$-hard problems because it can increase the population diversity of individual. Due to limitations in mathematical tools, the mutation probability of the mutation operator is primarily empirically set in practical applications. In this paper, we propose a novel reduction method for the 0-1 knapsack problem(0-1 KP) and an improved mutation operator (IMO) based on the assumption $\mathcal{NP}\neq\mathcal{P}$, along with the utilization of linear relaxation techniques and a recent result by Dey et al. (Math. Prog., pp 569-587, 2022). We employ this method to calculate an upper bound of the mutation probability in general instances of the 0-1 KP, and construct an instance where the mutation probability does not tend towards 0 as the problem size increases. Finally, we prove that the probability of the IMO hitting the optimal solution within only a single iteration in large-scale instances is superior to that of the traditional mutation operator.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# 3次元人文推定におけるドメイン一般化のための2次元拡張フレームワーク

A Dual-Augmentor Framework for Domain Generalization in 3D Human Pose Estimation ( http://arxiv.org/abs/2403.11310v1 )

ライセンス: Link先を確認
Qucheng Peng, Ce Zheng, Chen Chen, (参考訳) 制御された実験室で収集された3D人間のポーズデータは、様々なシナリオにまたがって一般化されたポーズ推定装置の課題を示す。 これを解決するために、ドメインの一般化が用いられる。 3次元ポーズ推定のための領域一般化における現在の手法は、通常、逆行訓練を利用して、トレーニングのための合成ポーズを生成する。 しかしながら、これらのアプローチにはいくつかの制限がある。 第一に、対象ドメインに関する事前情報の欠如は、単一のポーズオーグメンタによる適切なオーグメンテーションの適用を複雑にし、ターゲットドメインの一般化に影響を及ぼす。 さらに、逆行訓練の判別器は、ソースと合成されたポーズの類似性を強制し、ソース外分布の探索を妨げる傾向にある。 さらに、ポーズ推定器の最適化はドメインシフトに晒されず、全体的な一般化能力を制限している。 これらの制約に対処するため、弱体と強体という2つのポーズオーグメンタを特徴とする新しいフレームワークを提案する。 本フレームワークでは,ソースポーズに関する知識の保存と,ターゲットポーズに関する事前情報のないアウト・オブ・ソース分布の探索を容易にするため,生成・識別プロセスに差分戦略を採用している。 さらに,ポーズ推定器の最適化プロセスにおいて,メタ最適化を利用してドメインシフトをシミュレートし,一般化能力を向上させる。 提案手法は,様々なベンチマークデータセットの総合的な実験により,既存の手法よりも優れていた。

3D human pose data collected in controlled laboratory settings present challenges for pose estimators that generalize across diverse scenarios. To address this, domain generalization is employed. Current methodologies in domain generalization for 3D human pose estimation typically utilize adversarial training to generate synthetic poses for training. Nonetheless, these approaches exhibit several limitations. First, the lack of prior information about the target domain complicates the application of suitable augmentation through a single pose augmentor, affecting generalization on target domains. Moreover, adversarial training's discriminator tends to enforce similarity between source and synthesized poses, impeding the exploration of out-of-source distributions. Furthermore, the pose estimator's optimization is not exposed to domain shifts, limiting its overall generalization ability. To address these limitations, we propose a novel framework featuring two pose augmentors: the weak and the strong augmentors. Our framework employs differential strategies for generation and discrimination processes, facilitating the preservation of knowledge related to source poses and the exploration of out-of-source distributions without prior information about target poses. Besides, we leverage meta-optimization to simulate domain shifts in the optimization process of the pose estimator, thereby improving its generalization ability. Our proposed approach significantly outperforms existing methods, as demonstrated through comprehensive experiments on various benchmark datasets.
翻訳日:2024-03-19 17:36:46 公開日:2024-03-17
# マルチモーダル意味理解のためのMixture-of-Prompt-Experts

Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding ( http://arxiv.org/abs/2403.11311v1 )

ライセンス: Link先を確認
Zichen Wu, HsiuYuan Huang, Fanyi Qu, Yunfang Wu, (参考訳) 表面的関係を超越した深いマルチモーダルなセマンティック理解は、人工知能の領域で注目を集めている。 高品質なマルチモーダルデータの収集と注釈付けの課題は、少数ショット学習の重要性を浮き彫りにした。 本稿では,この文脈下での2つの重要な課題であるマルチモーダルサルカズム検出(MSD)とマルチモーダル感情分析(MSA)に焦点を当てる。 そこで本研究では,視覚言語モデル(VLM)に基づく新しいマルチモーダルソフトプロンプトフレームワークであるMoPE-BAF(Mixture-of-Prompt-Experts with Block-Aware Prompt Fusion)を提案する。 具体的には、テキストプロンプトと画像プロンプトという3つのソフトプロンプトの専門家を設計し、単一のモーダル表現を豊かにするモダリティ固有の特徴を抽出し、マルチモーダルインタラクションを支援する統一プロンプトを設計する。 さらに、Transformer層を複数のブロックに再構成し、隣接するブロック間での相互モーダルな注意を促すことで、単一モーダル表現からマルチモーダル融合への移行を円滑にする。 提案手法は,MSDとMSAの両方のデータセットにおいて,パラメータがわずか2%(150M)の8.2BモデルであるInstructBLIPを超えるだけでなく,VLMやタスク固有の手法で広く使われているプロンプト手法よりも大幅に優れている。

Deep multimodal semantic understanding that goes beyond the mere superficial content relation mining has received increasing attention in the realm of artificial intelligence. The challenges of collecting and annotating high-quality multi-modal data have underscored the significance of few-shot learning. In this paper, we focus on two critical tasks under this context: few-shot multi-modal sarcasm detection (MSD) and multi-modal sentiment analysis (MSA). To address them, we propose Mixture-of-Prompt-Experts with Block-Aware Prompt Fusion (MoPE-BAF), a novel multi-modal soft prompt framework based on the unified vision-language model (VLM). Specifically, we design three experts of soft prompts: a text prompt and an image prompt that extract modality-specific features to enrich the single-modal representation, and a unified prompt to assist multi-modal interaction. Additionally, we reorganize Transformer layers into several blocks and introduce cross-modal prompt attention between adjacent blocks, which smoothens the transition from single-modal representation to multi-modal fusion. On both MSD and MSA datasets in few-shot setting, our proposed model not only surpasses the 8.2B model InstructBLIP with merely 2% parameters (150M), but also significantly outperforms other widely-used prompt methods on VLMs or task-specific methods.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# 変圧器の共振 -スパーラス相関と共振ショートカットの緩和-

Reasoning in Transformers - Mitigating Spurious Correlations and Reasoning Shortcuts ( http://arxiv.org/abs/2403.11314v1 )

ライセンス: Link先を確認
Daniel Enström, Viktor Kjellberg, Moa Johansson, (参考訳) トランスフォーマー言語モデル(Transformer language model)は、自然言語に関する幅広いタスクに使用されるニューラルネットワークである。 しかし、トランスモデルはデータの急激なパターンを容易に学習し、実際の推論を短時間で行うことができる。 本稿では,変圧器の訓練範囲について検討する。 a)命題論理における近似推論 ロ トレーニングデータの素早い相関による既知の推論のショートカットを回避すること。 そのために、真理と問題におけるルールの数などの相関関係が知られているデータセットを使用する。 生成型トランスフォーマーであるWP-BARTと、個々の証明ステップでトレーニングされたニューロシンボリックモデルであるSIP-BARTと、生成型トランスフォーマーモデルであるBARTをシンボル的証明チェッカーと組み合わせた2つのモデルを訓練する。 We found that SIP-BART is successfully to avoiding reasoning shortcuts, while WP-BART does not。 SIP-BARTでは、事前学習された言語モデルを用いて、文献に記載されていないいくつかの残りの推論誤差を識別する。 これらは4種類の追加の落とし穴の分類を作成するために質的に分析されている。

Transformer language models are neural networks used for a wide variety of tasks concerning natural language, including some that also require logical reasoning. However, a transformer model may easily learn spurious patterns in the data, short-circuiting actual reasoning. In this paper we investigate to what extent transformers can be trained to a) approximate reasoning in propositional logic while b) avoiding known reasoning shortcuts via spurious correlations in the training data. To do so, we use a dataset with known spurious correlation between truth and e.g. the number of rules in the problem. We augment the data with proofs, and train two models: a generative transformer, WP-BART, trained on problems and their whole proofs, and a neuro-symbolic model, SIP-BART, trained on individual proof steps and combining the generative transformer model BART with a symbolic proof checker. We find that SIP-BART succeeds in avoiding reasoning shortcuts, while WP-BART does not. For SIP-BART, we then identify a few remaining reasoning errors, not previously described in the literature, arising from using a pre-trained language model. These are qualitatively analysed to create a taxonomy of four different types of additional pitfalls.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# 冷凍LDMを用いたVQA : 2つのアプローチの物語

Few-Shot VQA with Frozen LLMs: A Tale of Two Approaches ( http://arxiv.org/abs/2403.11317v1 )

ライセンス: Link先を確認
Igor Sterner, Weizhe Lin, Jinghong Chen, Bill Byrne, (参考訳) 画像を大言語モデル(LLM)に入力する2つのアプローチが登場した。 1つ目は、画像を自然言語にキャプションすることだ。 2つ目は、画像フィーチャの埋め込みをLLMのドメインにマッピングし、マッピングされた埋め込みを直接LLMに渡すことである。 最近の数発のマルチモーダルワークのほとんどは、これらの2つのアプローチのバリエーションを使用したアーキテクチャを使用したパフォーマンスを報告している。 しかし、彼らはそれらの重要な比較を見落としている。 我々は、これらの2つのアプローチを、LLMと数ショットの視覚的質問応答(VQA)と比較するために、制御され、焦点を絞った実験を設計する。 その結果, 3B パラメータ LLM である Flan-T5 XL では, 画像キャプションを用いた場合よりも, 視覚的埋め込みを LLM の埋め込み空間に直接接続しても性能が向上しないことがわかった。 ゼロショット方式では、テキストイメージキャプションを使うことの方がよい。 数ショットのレジームでは、コンテキスト内サンプルをどのように選択するかによって、どちらがよいかが決定される。

Two approaches have emerged to input images into large language models (LLMs). The first is to caption images into natural language. The second is to map image feature embeddings into the domain of the LLM and pass the mapped embeddings directly to the LLM. The majority of recent few-shot multimodal work reports performance using architectures that employ variations of one of these two approaches. But they overlook an important comparison between them. We design a controlled and focused experiment to compare these two approaches to few-shot visual question answering (VQA) with LLMs. Our findings indicate that for Flan-T5 XL, a 3B parameter LLM, connecting visual embeddings directly to the LLM embedding space does not guarantee improved performance over using image captions. In the zero-shot regime, we find using textual image captions is better. In the few-shot regimes, how the in-context examples are selected determines which is better.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# StateFlow: ステート駆動ワークフローによるLLMタスクソルビングの強化

StateFlow: Enhancing LLM Task-Solving through State-Driven Workflows ( http://arxiv.org/abs/2403.11322v1 )

ライセンス: Link先を確認
Yiran Wu, Tianwei Yue, Shaokun Zhang, Chi Wang, Qingyun Wu, (参考訳) 複雑なタスク、例えば一連のアクションやツールや環境との動的相互作用を必要とするタスクに対処するために、LLM(Large Language Models)を使用することは、注目すべきトレンドである。 本稿では,LLM が支援する複雑なタスク解決プロセスをステートマシンとして概念化する,新しい LLM ベースのタスク解決パラダイムである StateFlow を提案する。 状態の適切な構成と状態遷移の定義により、StateFlowはタスク解決の進捗を基盤とし、タスク解決プロセス全体を通してLCMの応答の明確な追跡と管理を確実にする。 それぞれの状態内で、StateFlowは一連のアクションの実行を可能にし、特定のプロンプトによってガイドされるLLMのレスポンスの生成だけでなく、必要に応じて外部ツールの利用も含む。 状態遷移は LLM による特定のルールや決定によって制御され、タスクの事前に定義された StateFlow モデルを通じて動的で適応的な進行を可能にする。 InterCode SQLとBashベンチマークの評価によると、StateFlowはLLMの効率を大幅に向上させる。

It is a notable trend to use Large Language Models (LLMs) to tackle complex tasks, e.g., tasks that require a sequence of actions and dynamic interaction with tools and environments. In this paper, we propose StateFlow, a novel LLM-based task-solving paradigm that conceptualizes complex task-solving processes backed by LLMs as state machines. With proper construction of states and definition of state transitions, StateFlow grounds the progress of task-solving, ensuring clear tracking and management of LLMs' responses throughout the task-solving process. Within each state, StateFlow allows execution of a series of actions, involving not only the generation of LLM's responses guided by a specific prompt, but also the utilization of external tools as needed. State transitions are controlled by specific rules or decisions made by the LLM, allowing for a dynamic and adaptive progression through the task's pre-defined StateFlow model. Evaluations on the InterCode SQL and Bash benchmarks show that StateFlow significantly enhances LLMs' efficiency.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# GeoGaussian: シーンレンダリングのための幾何学的ガウススプレイティング

GeoGaussian: Geometry-aware Gaussian Splatting for Scene Rendering ( http://arxiv.org/abs/2403.11324v1 )

ライセンス: Link先を確認
Yanyan Li, Chenyu Lyu, Yan Di, Guangyao Zhai, Gim Hee Lee, Federico Tombari, (参考訳) ガウススティング最適化の過程では、その構造が意図的に保存されていない場合、特に壁、天井、家具の表面などの非テクスチャ領域において、シーンの幾何学は徐々に悪化する。 この劣化は、トレーニングデータの観点から大きく逸脱する新規なビューのレンダリング品質に大きく影響する。 この問題を軽減するために,GeoGaussianと呼ばれる新しいアプローチを提案する。 点雲から観測されるスムーズな領域に基づいて, 細いガウスを表面に沿って初期化するための新しいパイプラインを導入し, その特性を慎重に設計したデンシフィケーション戦略により新しい世代に伝達する。 最後に、パイプラインはシーンの幾何学とテクスチャが明示的な幾何学的制約を伴う制約付き最適化プロセスによって維持されることを保証する。 提案手法を応用した3次元ガウシアンの生成能力は,特に構造領域において向上する。 提案するパイプラインは,公開データセット上で定性的に定量的に評価され,新しいビュー合成と幾何再構成の最先端性能を実現する。

During the Gaussian Splatting optimization process, the scene's geometry can gradually deteriorate if its structure is not deliberately preserved, especially in non-textured regions such as walls, ceilings, and furniture surfaces. This degradation significantly affects the rendering quality of novel views that deviate significantly from the viewpoints in the training data. To mitigate this issue, we propose a novel approach called GeoGaussian. Based on the smoothly connected areas observed from point clouds, this method introduces a novel pipeline to initialize thin Gaussians aligned with the surfaces, where the characteristic can be transferred to new generations through a carefully designed densification strategy. Finally, the pipeline ensures that the scene's geometry and texture are maintained through constrained optimization processes with explicit geometry constraints. Benefiting from the proposed architecture, the generative ability of 3D Gaussians is enhanced, especially in structured regions. Our proposed pipeline achieves state-of-the-art performance in novel view synthesis and geometric reconstruction, as evaluated qualitatively and quantitatively on public datasets.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# 自己整合二次近似における量子力学

Quantum dynamics in the self-consistent quadratic approximation ( http://arxiv.org/abs/2403.11327v1 )

ライセンス: Link先を確認
Frank Ernesto Quintela Rodriguez, (参考訳) 自己整合2次理論は、量子力学における非線形寄与を説明するために提示される。 進化方程式はハミルトニアンの高次勾配に依存することが示され、運動方程式や摂動計算によって組み込まれている。 力学はトレース保存であることが証明されており、ハミルトン状態は初期ガウス状態の運動定数として作用する。 非線形応答関数は摂動的に計算され、その古典的極限の存在に十分な条件が与えられる。

A self-consistent quadratic theory is presented to account for nonlinear contributions in quantum dynamics. Evolution equations are shown to depend on higher-order gradients of the Hamiltonian, which are incorporated via their equations of motion or through perturbative calculations. The dynamics is proven trace-preserving, with the Hamiltonian acting as a constant of motion for initial Gaussian states. Nonlinear response functions are calculated perturbatively, and sufficient conditions are provided for the existence of their classical limit.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# ドメインガイドによる一意プレイヤー識別のためのマスクオートエンコーダ

Domain-Guided Masked Autoencoders for Unique Player Identification ( http://arxiv.org/abs/2403.11328v1 )

ライセンス: Link先を確認
Bavesh Balaji, Jerrin Bright, Sirisha Rambhatla, Yuhao Chen, Alexander Wong, John Zelek, David A Clausi, (参考訳) ユニークプレイヤー識別は、ビジョン駆動型スポーツ分析の基本的なモジュールである。 ブロードキャストビデオからプレイヤーを識別することは、プレイヤーアセスメント、ゲーム内分析、ブロードキャストプロダクションなどの様々な下流タスクに役立つ。 しかし、ディープ特徴を用いたジャージ番号の自動検出は、主に以下の理由により困難である。 訳語 ぼやけた;ぼやけた b)低解像度ビデオフィード、及び c) 閉塞症 近年、様々な視覚タスクに成功し、従来の特徴抽出器の代替としてマスク付きオートエンコーダ(MAE)が登場している。 しかし、ほとんどのMAEは、単純にゼロアウトイメージパッチをランダムに、あるいはマスクする方法ではなく、どこでマスクするかに焦点を当てている。 人間の視覚に触発され,プレイヤー識別のための動作ぼけの存在下でのロバストな特徴抽出を容易にするために,MAE が d-MAE と呼ぶ新しいドメイン誘導マスキングポリシーを考案した。 さらに,新たなD-MAEを利用した新たな時空間ネットワークを導入する。 我々は,野球のキュレートされたデータセット,サッカーネットのデータセット,社内アイスホッケーのデータセットを含む3つの大規模スポーツデータセットの実験を行った。 我々は、ジャージ番号を含むフレームに着目して、アップグレードされたキーフレーム識別(KfID)モジュールを使用してデータセットを前処理する。 さらに,鍵フレームを拡大し,空間的・時間的コンテキストを保存するキーフレーム融合手法を提案する。 我々の時空間ネットワークは、それぞれテストセットの精度の8.58%、4.29%、および1.20%を上回り、大幅な改善を示している。 厳密な改善は、ドメイン誘導マスキングアプローチと洗練されたKfIDモジュールの有効性を強調し、それぞれ1.48%と1.84%のパフォーマンス向上を実現した。

Unique player identification is a fundamental module in vision-driven sports analytics. Identifying players from broadcast videos can aid with various downstream tasks such as player assessment, in-game analysis, and broadcast production. However, automatic detection of jersey numbers using deep features is challenging primarily due to: a) motion blur, b) low resolution video feed, and c) occlusions. With their recent success in various vision tasks, masked autoencoders (MAEs) have emerged as a superior alternative to conventional feature extractors. However, most MAEs simply zero-out image patches either randomly or focus on where to mask rather than how to mask. Motivated by human vision, we devise a novel domain-guided masking policy for MAEs termed d-MAE to facilitate robust feature extraction in the presence of motion blur for player identification. We further introduce a new spatio-temporal network leveraging our novel d-MAE for unique player identification. We conduct experiments on three large-scale sports datasets, including a curated baseball dataset, the SoccerNet dataset, and an in-house ice hockey dataset. We preprocess the datasets using an upgraded keyframe identification (KfID) module by focusing on frames containing jersey numbers. Additionally, we propose a keyframe-fusion technique to augment keyframes, preserving spatial and temporal context. Our spatio-temporal network showcases significant improvements, surpassing the current state-of-the-art by 8.58%, 4.29%, and 1.20% in the test set accuracies, respectively. Rigorous ablations highlight the effectiveness of our domain-guided masking approach and the refined KfID module, resulting in performance enhancements of 1.48% and 1.84% respectively, compared to original architectures.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# AQM:量子共設計のための抽象量子ビットモデルの更新

AQM: A Refresh of the Abstract Qubit Model for Quantum Co-design ( http://arxiv.org/abs/2403.11329v1 )

ライセンス: Link先を確認
Chenxu Liu, Samuel A. Stein, Muqing Zheng, James Ang, Ang Li, (参考訳) 量子ビットは量子情報科学と応用の基本的な構成要素であり、その概念は量子物理学と量子計算の両方で広く利用されている。 量子ビットと物理デバイスにおける実装の重要性は広く検討されているが、現在ではこの理解を再考する上で正しい時期であると仮定する。 本稿では,高次アルゴリズムとアプリケーションのための数学的枠組みを提供する抽象量子ビットモデル(AQM)を導入し,量子計算を実現するための低次物理機器の基準を設定する。 まず、量子アルゴリズムの基本前提(ボトムアップサポート)と見なされる「量子ビット」を包括的に定義し、デバイスに必要な要件(トップダウン需要)を検討する。 そこで我々は,このモデレーションと相反する余分なコストのトレードオフを考慮しつつ,具体的要件を緩和し,デバイスサポートを拡充する可能性を検討する。 最後に、不完全量子ビットのみを必要とする量子アプリケーションを調べ、AQMサポートが制限されているが、量子アプリケーションではまだ有用である物理システムについて議論する。 AQMは量子アルゴリズムとデバイスの間の中間インターフェースとして機能し、量子アルゴリズムとデバイスの共同設計を容易にする。

Qubits are the fundamental building blocks of quantum information science and applications, whose concept is widely utilized in both quantum physics and quantum computation. While the significance of qubits and their implementation in physical devices have been extensively examined, we posit that now is the right time to revisit this understanding. In this paper, we introduce an abstract qubit model (AQM), offering a mathematical framework for higher-level algorithms and applications, and setting forth criteria for lower-level physical devices to enable quantum computation. We first provide a comprehensive definition of "qubits", regarded as the foundational premise for quantum algorithms (bottom-up support), and examine their requisites for devices (top-down demand). We then investigate the feasibility of moderating specific requirements, thereby broadening device support while considering techniques that tradeoff extra costs to counterbalance this moderation. Lastly, we delve into the quantum applications that only require incomplete qubits, and discuss the physical systems having restricted AQM support but are still useful in quantum applications. AQM may serve as an intermediate interface between quantum algorithms and devices, facilitating quantum algorithm-device co-design.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# 局所的命令型マルチモーダルフィードバックによる1つのグローバル明示アノテーションの分解による対話エージェントの改善

Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback ( http://arxiv.org/abs/2403.11330v1 )

ライセンス: Link先を確認
Dong Won Lee, Hae Won Park, Yoon Kim, Cynthia Breazeal, Louis-Philippe Morency, (参考訳) 本稿では,LLMに基づく対話エージェントをグローバルな(対話レベル)報酬に基づいて整列する手法について述べるとともに,自然に発生するマルチモーダル信号も考慮する。 高いレベルにおいて,本手法(GELI)は,人間が提供するGlobal Explicit(GE)セッションレベルの報酬を分解し,局所的インプリシット(LI)マルチモーダル報酬信号を用いて,報酬分解ステップを相互に整形することで,局所的なターンレベルの報酬モデルを学習する。 この分解された報酬モデルは、LLMベースのダイアログエージェントを改善した標準RHLFパイプラインの一部として使用される。 我々は,GELI手法の性能を評価するために定量的,質的な人間の研究を行い,ベースライン手法と比較して,様々な対話的指標に一貫した改善が見られた。

We describe an approach for aligning an LLM-based dialogue agent based on global (i.e., dialogue-level) rewards, while also taking into account naturally-occurring multimodal signals. At a high level, our approach (dubbed GELI) learns a local, turn-level reward model by decomposing the human-provided Global Explicit (GE) session-level reward, using Local Implicit (LI} multimodal reward signals to crossmodally shape the reward decomposition step. This decomposed reward model is then used as part of the standard RHLF pipeline improve an LLM-based dialog agent. We run quantitative and qualitative human studies to evaluate the performance of our GELI approach, and find that it shows consistent improvements across various conversational metrics compared to baseline methods.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# エコロジーと水文学における機械学習におけるドメイン適応の可能性 : モデル外挿性の向上

Potential of Domain Adaptation in Machine Learning in Ecology and Hydrology to Improve Model Extrapolability ( http://arxiv.org/abs/2403.11331v1 )

ライセンス: Link先を確認
Haiyang Shi, (参考訳) 生態学的・水文学的基盤構造観測のグローバルな分布の不均一性のため、機械学習モデルは未知の場所に適用した場合、適応性が制限される可能性がある。 ドメイン適応技術は、画像分類などの機械学習領域で広く使われており、トレーニングセットとテストセット間のドメイン分布の違いや矛盾を調整することにより、モデル一般化能力を向上させることができる。 しかしながら、この手法は、地球規模での生態学と水文学における機械学習モデルで明確に使用されることは稀であるが、地理的外挿可能性の問題からしばしば疑問視されている。 本稿では,現在の生態学・水文学の機械学習モデルの問題点を,観察の分布のグローバルな代表性および外挿可能性の欠如の結果として生じる限界の観点から概説するとともに,外挿可能性を改善するための領域適応技術の利用を検討するべきであることを示唆する。

Due to the heterogeneity of the global distribution of ecological and hydrological ground-truth observations, machine learning models can have limited adaptability when applied to unknown locations, which is referred to as weak extrapolability. Domain adaptation techniques have been widely used in machine learning domains such as image classification, which can improve the model generalization ability by adjusting the difference or inconsistency of the domain distribution between the training and test sets. However, this approach has rarely been used explicitly in machine learning models in ecology and hydrology at the global scale, although these models have often been questioned due to geographic extrapolability issues. This paper briefly describes the shortcomings of current machine learning models of ecology and hydrology in terms of the global representativeness of the distribution of observations and the resulting limitations of the lack of extrapolability and suggests that future related modelling efforts should consider the use of domain adaptation techniques to improve extrapolability.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# グラフニューラルネットワークを用いたネットワーク因果効果の二重機械学習推定器

Graph Neural Network based Double Machine Learning Estimator of Network Causal Effects ( http://arxiv.org/abs/2403.11332v1 )

ライセンス: Link先を確認
Seyedeh Baharan Khatami, Harsh Parikh, Haowei Chen, Sudeepa Roy, Babak Salimi, (参考訳) 本論文は, 個人間の複雑な相互依存, ユニットの非依存, 干渉(ユニットの結果が隣人の治療に影響を及ぼす) , 近隣ユニットからの補間要因の導入などの課題を特徴とする, ソーシャルネットワークデータにおける因果関係を推定することの課題に対処する。 本稿では,グラフニューラルネットワークとダブル機械学習を組み合わせた新しい手法を提案する。 提案手法では、グラフ同型ネットワークとダブル機械学習を併用して、ネットワークの共創者に対して効果的に調整し、所望の因果効果を一貫して推定する。 我々の推定器は漸近的に正規かつ半パラメトリック的に効率的であることを示す。 3つの半合成ソーシャルネットワークデータセットを用いた4つの最先端ベースライン手法に対する包括的評価により,精度の高い因果効果推定における本手法の有効性が明らかとなった。 さらに,自己ヘルプグループ参加が金融リスク耐性に与える影響を事例として,本手法の実用化について述べる。 その結果,ソーシャルネットワーク分析におけるアプローチの可能性について,肯定的な効果が示唆された。 さらに,ネットワーク空間が推定性能に与える影響についても検討する。

Our paper addresses the challenge of inferring causal effects in social network data, characterized by complex interdependencies among individuals resulting in challenges such as non-independence of units, interference (where a unit's outcome is affected by neighbors' treatments), and introduction of additional confounding factors from neighboring units. We propose a novel methodology combining graph neural networks and double machine learning, enabling accurate and efficient estimation of direct and peer effects using a single observational social network. Our approach utilizes graph isomorphism networks in conjunction with double machine learning to effectively adjust for network confounders and consistently estimate the desired causal effects. We demonstrate that our estimator is both asymptotically normal and semiparametrically efficient. A comprehensive evaluation against four state-of-the-art baseline methods using three semi-synthetic social network datasets reveals our method's on-par or superior efficacy in precise causal effect estimation. Further, we illustrate the practical application of our method through a case study that investigates the impact of Self-Help Group participation on financial risk tolerance. The results indicate a significant positive direct effect, underscoring the potential of our approach in social network analysis. Additionally, we explore the effects of network sparsity on estimation performance.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# ConvSDG:会話検索のためのセッションデータ生成

ConvSDG: Session Data Generation for Conversational Search ( http://arxiv.org/abs/2403.11335v1 )

ライセンス: Link先を確認
Fengran Mo, Bole Yi, Kelong Mao, Chen Qu, Kaiyu Huang, Jian-Yun Nie, (参考訳) 対話型検索は、検索エンジンとのマルチターンインタラクションを可能にすることによって、ユーザが検索する上でより便利なインターフェースを提供する。 しかし,対話型高密度検索手法の有効性は,微調整に必要な訓練データの不足によって制限される。 したがって、関連するラベルでより多くのトレーニングの会話セッションを生成することで、検索性能が向上する可能性がある。 テキスト生成における大規模言語モデル(LLM)の有望な機能に基づいて,セッションデータ生成にLLMを用いることで,会話検索の促進の可能性を探るための,シンプルかつ効果的なフレームワークであるConvSDGを提案する。 このフレームワーク内では、関連判断の可用性に応じて、教師なしおよび半教師なし学習による対話/セッションレベルおよびクエリレベルのデータ生成を設計する。 生成されたデータは、会話の密集したレトリバーを微調整するために使用される。 広く使用されている4つのデータセットに対する大規模な実験は、いくつかの強力なベースラインと比較して、私たちのConvSDGフレームワークの有効性と幅広い適用性を示している。

Conversational search provides a more convenient interface for users to search by allowing multi-turn interaction with the search engine. However, the effectiveness of the conversational dense retrieval methods is limited by the scarcity of training data required for their fine-tuning. Thus, generating more training conversational sessions with relevant labels could potentially improve search performance. Based on the promising capabilities of large language models (LLMs) on text generation, we propose ConvSDG, a simple yet effective framework to explore the feasibility of boosting conversational search by using LLM for session data generation. Within this framework, we design dialogue/session-level and query-level data generation with unsupervised and semi-supervised learning, according to the availability of relevance judgments. The generated data are used to fine-tune the conversational dense retriever. Extensive experiments on four widely used datasets demonstrate the effectiveness and broad applicability of our ConvSDG framework compared with several strong baselines.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# 深層学習に基づくキーポイント予測を用いた動画移動アプリケーションの帯域効率向上

Enhancing Bandwidth Efficiency for Video Motion Transfer Applications using Deep Learning Based Keypoint Prediction ( http://arxiv.org/abs/2403.11337v1 )

ライセンス: Link先を確認
Xue Bai, Tasmiah Haque, Sumit Mohan, Yuliang Cai, Byungheon Jeong, Adam Halasz, Srinjoy Das, (参考訳) 本稿では,映像会議,仮想現実ゲーム,患者の健康モニタリングのためのプライバシ保護など,モーション転送可能なビデオアプリケーションにおける帯域幅削減のための,ディープラーニングに基づく新しい予測フレームワークを提案する。 複雑な動きをモデル化するために,学習キーポイントと局所アフィン変換を用いて動的物体を表現する第1次運動モデル(FOMM)を用いる。 キーポイントは、自己監督されたキーポイント検出器によって抽出され、ビデオフレームに対応する時系列で整理される。 可変リカレントニューラルネットワーク(VRNN)を用いて、ソース装置の低フレーム/秒の伝送を可能にするキーポイントの予測を行う。 予測キーポイントは、光フロー推定器とジェネレータネットワークを用いてビデオフレームに合成される。 キーポイントに基づく表現とVRNNによる映像アニメーションと再構成の両方の予測を併用したこの効果を3つの多様なデータセットで示す。 実時間アプリケーションでは,既存のキーポイントベースビデオモーション転送フレームワークよりも最大2倍の帯域幅削減が可能で,映像品質を著しく向上させることなく,提案アーキテクチャの有効性を示す。

We propose a deep learning based novel prediction framework for enhanced bandwidth reduction in motion transfer enabled video applications such as video conferencing, virtual reality gaming and privacy preservation for patient health monitoring. To model complex motion, we use the First Order Motion Model (FOMM) that represents dynamic objects using learned keypoints along with their local affine transformations. Keypoints are extracted by a self-supervised keypoint detector and organized in a time series corresponding to the video frames. Prediction of keypoints, to enable transmission using lower frames per second on the source device, is performed using a Variational Recurrent Neural Network (VRNN). The predicted keypoints are then synthesized to video frames using an optical flow estimator and a generator network. This efficacy of leveraging keypoint based representations in conjunction with VRNN based prediction for both video animation and reconstruction is demonstrated on three diverse datasets. For real-time applications, our results show the effectiveness of our proposed architecture by enabling up to 2x additional bandwidth reduction over existing keypoint based video motion transfer frameworks without significantly compromising video quality.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# 3次元CTスキャンによるCovid-19検出とCovid-19ドメイン適応の組み立てとテスト拡張

Ensembling and Test Augmentation for Covid-19 Detection and Covid-19 Domain Adaptation from 3D CT-Scans ( http://arxiv.org/abs/2403.11338v1 )

ライセンス: Link先を確認
Fares Bougourzi, Feryal Windal Moula, Halim Benhabiles, Fadi Dornaika, Abdelmalik Taleb-Ahmed, (参考訳) 2019年末にCovid-19が出現して以来、人工知能(AI)を用いた医用画像解析が重要な研究領域として登場し、特に疾患診断にCTスキャンが有用である。 本稿では,第4回COV19Dコンペティションに貢献し,Covid-19 DetectionとCovid-19 Domain Adaptation Challengesに着目した。 肺の分画とコビッドウイルス感染分画を中心に,最近のCNNベースの分画アーキテクチャであるPDAtt-Unetを用いて肺の分画と感染の分画を同時に行う。 従来の方法とは別に,入力スライス(グレースケール)を肺分画と感染症に結合し,カラーチャネルに似た3つの入力チャネルを生成する。 さらに、3つの3D CNNバックボーンであるCustomized Hybrid-DeCoVNetと、事前訓練された3D-Resnet-18および3D-Resnet-50モデルを使用して、両方の課題に対してCovid-19認識をトレーニングします。 さらに、性能を高めるためにアンサンブルアプローチやテスト強化についても検討する。 基準値と比較すると,F1スコア(14%)で有意な差がみられた。 本研究では,医療画像解析に最先端のAI技術を活用することで,Covid-19の正確な検出と適応のための包括的方法論を提示することによって,その分野を前進させる。

Since the emergence of Covid-19 in late 2019, medical image analysis using artificial intelligence (AI) has emerged as a crucial research area, particularly with the utility of CT-scan imaging for disease diagnosis. This paper contributes to the 4th COV19D competition, focusing on Covid-19 Detection and Covid-19 Domain Adaptation Challenges. Our approach centers on lung segmentation and Covid-19 infection segmentation employing the recent CNN-based segmentation architecture PDAtt-Unet, which simultaneously segments lung regions and infections. Departing from traditional methods, we concatenate the input slice (grayscale) with segmented lung and infection, generating three input channels akin to color channels. Additionally, we employ three 3D CNN backbones Customized Hybrid-DeCoVNet, along with pretrained 3D-Resnet-18 and 3D-Resnet-50 models to train Covid-19 recognition for both challenges. Furthermore, we explore ensemble approaches and testing augmentation to enhance performance. Comparison with baseline results underscores the substantial efficiency of our approach, with a significant margin in terms of F1-score (14 %). This study advances the field by presenting a comprehensive methodology for accurate Covid-19 detection and adaptation, leveraging cutting-edge AI techniques in medical image analysis.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# 量子ゼノ効果による量子センサで取得可能な最大化情報

Maximizing information obtainable by quantum sensors through the Quantum Zeno Effect ( http://arxiv.org/abs/2403.11339v1 )

ライセンス: Link先を確認
Bruno Ronchi, Analia Zwick, Gonzalo A. Alvarez, (参考訳) 効率的な量子センシング技術は、推定プロセスを最適化するために、量子センサー、特に2レベルシステムや量子ビットの正確な制御に依存している。 本稿では,量子センサが取得可能な情報を最大化するためのツールとして,量子ゼノ効果(QZE)を用い,量子ビット系におけるレベル回避交差(LAC)現象に着目した。 LACエネルギー分割の推定は広く研究されているが, 結合強度を推定する上でQZEが果たす重要な役割を強調した。 外部共振条件下でのLACシステムに対するQZEによる情報増幅の概念を導入する。 提案手法は、スピン-スピン結合の推定を必要とする多スピン系を含む複雑な系の交流磁場センサとキャラクタライゼーションに影響を及ぼす。 本研究は、QZEを利用して制御と情報抽出を改善することにより、量子センシングの進歩に寄与する。

Efficient quantum sensing technologies rely on precise control of quantum sensors, particularly two-level systems or qubits, to optimize estimation processes. We here exploit the Quantum Zeno Effect (QZE) as a tool for maximizing information obtainable by quantum sensors, with a specific focus on the level avoided crossing (LAC) phenomenon in qubit systems. While the estimation of the LAC energy splitting has been extensively studied, we emphasize the crucial role that the QZE can play in estimating the coupling strength. We introduce the concept of information amplification by the QZE for a LAC system under off-resonant conditions. The proposed approach has implications for AC magnetic field sensing and the caracterization of complex systems, including many-spin systems requiring the estimation of spin-spin couplings. Overall, our findings contribute to the advancement of quantum sensing by leveraging the QZE for improved control and information extraction.
翻訳日:2024-03-19 17:27:03 公開日:2024-03-17
# StainDiffuser:仮想染色のためのマルチタスクデュアル拡散モデル

StainDiffuser: MultiTask Dual Diffusion Model for Virtual Staining ( http://arxiv.org/abs/2403.11340v1 )

ライセンス: Link先を確認
Tushar Kataria, Beatrice Knudsen, Shireen Y. Elhabian, (参考訳) ヘマトキシリンとエオシン(H&E)染色は、疾患の診断や腫瘍再発追跡に最もよく用いられる。 ヘマトキシリンは核の強調に優れ、エオシンは細胞質を染色する。 しかし、H&E染色は、疾患の分類や特定の治療のバリエーションに対する反応に関連する異なる種類の細胞を識別するための詳細を欠いている。 病理学者は、異なる細胞タイプを強調する特別な免疫組織化学(IHC)染色を必要とする。 これらの染色は、疾患の成長の異なる領域と、細胞の微小環境との相互作用を正確に識別するのに役立つ。 ディープラーニングモデルの出現により、画像から画像への変換(I2I)が重要な研究領域となり、高価な物理染色プロセスの必要性が軽減された。 Pix2PixとCycleGANはいまだに仮想染色アプリケーションでよく使われている方法である。 しかし、H&E染色がIHCが強調する必要がある細胞(例えばCD3リンパ球)についての識別情報の少ない場合、どちらも幻覚や染色異常に悩まされる。 拡散モデルは、現在、画像生成および条件生成タスクのための最先端モデルである。 しかし、仮想染色アプリケーションでは実現不可能な、広範囲で多様なデータセット(数百万のサンプル)を収束させる必要があり、データセットサイズが制限されたマルチタスク深層学習モデルの成功に触発されて、仮想染色のための新しいマルチタスク二重拡散アーキテクチャであるStainDiffuserを提案する。 StainDiffuser は2つの拡散過程を同時に訓練する。 (a)H&Eから細胞特異的IHC染色の生成 (b)訓練中のみ粗いセグメンテーションを用いたH&E細胞セグメンテーション。 以上の結果から, StainDiffuser は, より容易な (CK8/18, 上皮マーカー) および難染色 (CD3, リンパ球) に対して, 高品質な結果が得られた。

Hematoxylin and Eosin (H&E) staining is the most commonly used for disease diagnosis and tumor recurrence tracking. Hematoxylin excels at highlighting nuclei, whereas eosin stains the cytoplasm. However, H&E stain lacks details for differentiating different types of cells relevant to identifying the grade of the disease or response to specific treatment variations. Pathologists require special immunohistochemical (IHC) stains that highlight different cell types. These stains help in accurately identifying different regions of disease growth and their interactions with the cell's microenvironment. The advent of deep learning models has made Image-to-Image (I2I) translation a key research area, reducing the need for expensive physical staining processes. Pix2Pix and CycleGAN are still the most commonly used methods for virtual staining applications. However, both suffer from hallucinations or staining irregularities when H&E stain has less discriminate information about the underlying cells IHC needs to highlight (e.g.,CD3 lymphocytes). Diffusion models are currently the state-of-the-art models for image generation and conditional generation tasks. However, they require extensive and diverse datasets (millions of samples) to converge, which is less feasible for virtual staining applications.Inspired by the success of multitask deep learning models for limited dataset size, we propose StainDiffuser, a novel multitask dual diffusion architecture for virtual staining that converges under a limited training budget. StainDiffuser trains two diffusion processes simultaneously: (a) generation of cell-specific IHC stain from H&E and (b) H&E-based cell segmentation using coarse segmentation only during training. Our results show that StainDiffuser produces high-quality results for easier (CK8/18,epithelial marker) and difficult stains(CD3, Lymphocytes).
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# 差分プライバシーを用いたフェデレーション・トランスファー学習

Federated Transfer Learning with Differential Privacy ( http://arxiv.org/abs/2403.11343v1 )

ライセンス: Link先を確認
Mengchu Li, Ye Tian, Yang Feng, Yi Yu, (参考訳) フェデレートラーニング(Federated Learning)は、データの異質性とプライバシという2つの大きな課題によって人気が高まっている。 本稿では,複数の異種ソースデータセットからの情報を活用して,プライバシ制約を順守し,対象データセットの学習を強化することを目的とした,フェデレートトランスファー学習フレームワーク内の両方の問題に対処する。 信頼性の高い中央サーバを前提とせずに,各データセットに対してプライバシ保証を提供する。 このプライバシー制約の下で、単変量平均推定、低次元線形回帰、高次元線形回帰という3つの古典的統計問題を考察する。 これらの問題に対するミニマックスレートの調査とプライバシコストの特定により、フェデレートされたディファレンシャルプライバシは、確立されたローカルと中心的なディファレンシャルプライバシの中間的なプライバシモデルであることを示す。 分析にはデータの不均一性とプライバシが組み込まれており,フェデレーション学習の基本的なコストと,データセット間の知識伝達のメリットが強調されている。

Federated learning is gaining increasing popularity, with data heterogeneity and privacy being two prominent challenges. In this paper, we address both issues within a federated transfer learning framework, aiming to enhance learning on a target data set by leveraging information from multiple heterogeneous source data sets while adhering to privacy constraints. We rigorously formulate the notion of \textit{federated differential privacy}, which offers privacy guarantees for each data set without assuming a trusted central server. Under this privacy constraint, we study three classical statistical problems, namely univariate mean estimation, low-dimensional linear regression, and high-dimensional linear regression. By investigating the minimax rates and identifying the costs of privacy for these problems, we show that federated differential privacy is an intermediate privacy model between the well-established local and central models of differential privacy. Our analyses incorporate data heterogeneity and privacy, highlighting the fundamental costs of both in federated learning and underscoring the benefit of knowledge transfer across data sets.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# 協同競争型エージェントのための独立RL : 平均的視点

Independent RL for Cooperative-Competitive Agents: A Mean-Field Perspective ( http://arxiv.org/abs/2403.11345v1 )

ライセンス: Link先を確認
Muhammad Aneeq uz Zaman, Alec Koppel, Mathieu Laurière, Tamer Başar, (参考訳) この論文では、各チーム内に協力関係があるが、異なるチーム間での一般的な(ゼロではない)競争があるように、チームにグループ化されるエージェント間の強化学習(RL)に対処する。 ナッシュ平衡を確実に達成するRL法を開発するために,線形2次構造に着目する。 さらに, 有限集団設定におけるマルチエージェント相互作用によって引き起こされる非定常性に対処するために, 各チーム内のエージェント数が無限である場合,すなわち平均場設定を考える。 この結果、GS-MFTG(General-Sum LQ Mean-Field Type Game)となる。 標準可逆条件下でGS-MFTGのナッシュ平衡(NE)を特徴付ける。 この MFTG NE は、有限集団ゲームに対して $\mathcal{O}(1/M)$-NE であることが示される。 これらの構造的結果はMRPG(Multi-player Receding-Horizon Natural Policy Gradient)と呼ばれるアルゴリズムを動機付けている。 非凸性にも拘わらず、この結果のアルゴリズムは後方再帰的離散時間ハミルトン・ヤコビ・イザック方程式(HJI)を用いて、新たな問題分解によって大域NEに収束し、時間非依存の対角線支配下での線形収束を示すことが示される。 実験は、実際にこのアプローチのメリットを照らします。

We address in this paper Reinforcement Learning (RL) among agents that are grouped into teams such that there is cooperation within each team but general-sum (non-zero sum) competition across different teams. To develop an RL method that provably achieves a Nash equilibrium, we focus on a linear-quadratic structure. Moreover, to tackle the non-stationarity induced by multi-agent interactions in the finite population setting, we consider the case where the number of agents within each team is infinite, i.e., the mean-field setting. This results in a General-Sum LQ Mean-Field Type Game (GS-MFTGs). We characterize the Nash equilibrium (NE) of the GS-MFTG, under a standard invertibility condition. This MFTG NE is then shown to be $\mathcal{O}(1/M)$-NE for the finite population game where $M$ is a lower bound on the number of agents in each team. These structural results motivate an algorithm called Multi-player Receding-horizon Natural Policy Gradient (MRPG), where each team minimizes its cumulative cost independently in a receding-horizon manner. Despite the non-convexity of the problem, we establish that the resulting algorithm converges to a global NE through a novel problem decomposition into sub-problems using backward recursive discrete-time Hamilton-Jacobi-Isaacs (HJI) equations, in which independent natural policy gradient is shown to exhibit linear convergence under time-independent diagonal dominance. Experiments illuminate the merits of this approach in practice.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# CantonMT: 合成バックトランスレーションデータを用いた微調整モデルによる英語NMTプラットフォーム

CantonMT: Cantonese to English NMT Platform with Fine-Tuned Models Using Synthetic Back-Translation Data ( http://arxiv.org/abs/2403.11346v1 )

ライセンス: Link先を確認
Kung Yin Hong, Lifeng Han, Riza Batista-Navarro, Goran Nenadic, (参考訳) 低リソース言語のためのニューラルマシン翻訳(NMT)は、NLP研究者の前ではまだ難しい課題である。 そこで本研究では,Cantonese-to- English への逆翻訳による標準データ拡張手法を新たに導入する。 実データの限られた量を用いて微調整したモデルと,OpusMT,NLLB,mBARTを含むバックトランスレーションを用いて生成した合成データについて述べる。 語彙ベースや埋め込みベースなど,さまざまな指標を用いて自動評価を行った。 さらに。 私たちは this\textsc{ CantonMT} 研究プロジェクトに含まれるモデルのユーザフレンドリなインターフェースを作成し、Cantonese-to- English MT 研究を促進するために利用します。 このプラットフォームには、オープンソースの\textsc{ CantonMT}ツールキットである \url{https://github.com/kenrickkung/CantoneseTranslation} を通じて、より多くのモデルを追加できます。

Neural Machine Translation (NMT) for low-resource languages is still a challenging task in front of NLP researchers. In this work, we deploy a standard data augmentation methodology by back-translation to a new language translation direction Cantonese-to-English. We present the models we fine-tuned using the limited amount of real data and the synthetic data we generated using back-translation including OpusMT, NLLB, and mBART. We carried out automatic evaluation using a range of different metrics including lexical-based and embedding-based. Furthermore. we create a user-friendly interface for the models we included in this\textsc{ CantonMT} research project and make it available to facilitate Cantonese-to-English MT research. Researchers can add more models into this platform via our open-source\textsc{ CantonMT} toolkit \url{https://github.com/kenrickkung/CantoneseTranslation}.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# COLEP:確率回路を用いた頑健な学習推論

COLEP: Certifiably Robust Learning-Reasoning Conformal Prediction via Probabilistic Circuits ( http://arxiv.org/abs/2403.11348v1 )

ライセンス: Link先を確認
Mintong Kang, Nezihe Merve Gürel, Linyi Li, Bo Li, (参考訳) 任意のブラックボックス機械学習モデルに対する統計的に厳密な予測セットの構築において,データが交換可能であることを前提として,コンフォーマル予測の性能が向上した。 しかし、推論中の小さな敵対的摂動でさえ、交換可能性の仮定に反し、カバレッジ保証に挑戦し、結果として経験的カバレッジが低下する。 本研究では,確率論的回路を介し,確率論的回路を用いて確率論的に頑健な学習共形予測フレームワーク(COLEP)を提案する。これは,統計モデルを訓練して異なる意味概念を学習するデータ駆動学習コンポーネントと,知識を符号化し,学習したモデル間の関係を論理的推論のために特徴付ける推論コンポーネントである。 正確かつ効率的な推論を実現するために、我々は確率回路(PC)を推論部品に採用する。 理論的には,有界対向摂動の存在下でのCOLEPの予測カバレッジをエンドツーエンドで検証する。 また,キャリブレーションセットの有限サイズを考慮した認定カバレッジも提供する。 さらに,知識モデルの有用性が非自明である限り,COLEPは単一モデルよりも高い予測カバレッジと精度を達成できることを示す。 GTSRB, CIFAR10, AwA2など, 各種データセット上でのCOLEPの頑健な適合性予測を実証し, その妥当性と厳密性を実証した。 CIFAR-10では9%,AwA2では14%,GTSRBでは最大12%の改善が達成された。

Conformal prediction has shown spurring performance in constructing statistically rigorous prediction sets for arbitrary black-box machine learning models, assuming the data is exchangeable. However, even small adversarial perturbations during the inference can violate the exchangeability assumption, challenge the coverage guarantees, and result in a subsequent decline in empirical coverage. In this work, we propose a certifiably robust learning-reasoning conformal prediction framework (COLEP) via probabilistic circuits, which comprise a data-driven learning component that trains statistical models to learn different semantic concepts, and a reasoning component that encodes knowledge and characterizes the relationships among the trained models for logic reasoning. To achieve exact and efficient reasoning, we employ probabilistic circuits (PCs) within the reasoning component. Theoretically, we provide end-to-end certification of prediction coverage for COLEP in the presence of bounded adversarial perturbations. We also provide certified coverage considering the finite size of the calibration set. Furthermore, we prove that COLEP achieves higher prediction coverage and accuracy over a single model as long as the utilities of knowledge models are non-trivial. Empirically, we show the validity and tightness of our certified coverage, demonstrating the robust conformal prediction of COLEP on various datasets, including GTSRB, CIFAR10, and AwA2. We show that COLEP achieves up to 12% improvement in certified coverage on GTSRB, 9% on CIFAR-10, and 14% on AwA2.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# 限られた角度トモグラフィーにおけるデータ駆動アプローチのロバスト性

Robustness of the data-driven approach in limited angle tomography ( http://arxiv.org/abs/2403.11350v1 )

ライセンス: Link先を確認
Yiran Wang, Yimin Zhong, (参考訳) 限られた角度のラドン変換は、不備のために逆転することが難しいことで知られている。 本研究では、ディープニューラルネットワークに基づくデータ駆動型アプローチが、従来の手法に比べて安定した方法で、より多くの情報を再構築可能であることを数学的に説明する。

The limited angle Radon transform is notoriously difficult to invert due to the ill-posedness. In this work, we give a mathematical explanation that the data-driven approach based on deep neural networks can reconstruct more information in a stable way compared to traditional methods.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# ビクラスタリングのためのSDPに基づくブランチ・アンド・カットアルゴリズム

An SDP-based Branch-and-Cut Algorithm for Biclustering ( http://arxiv.org/abs/2403.11351v1 )

ライセンス: Link先を確認
Antonio M. Sudoso, (参考訳) コクラスタリング(co-clustering)、ブロッククラスタリング(rob clustering)、双方向クラスタリング( two-way clustering)とも呼ばれるビクラスタリングでは、データマトリックスの行と列を、グループ内の行と列が同様のパターンを表示するように、別々のグループに同時にクラスタリングする。 双クラスタリングのモデル問題として、与えられた重み付き完全双部グラフの$k$-densest-disjoint biclique問題について検討し、その目標は、その密度の和が最大になるように、与えられた重み付き完全双部グラフの$k$ disjoint complete bipartite subgraphs(bicliques)を特定することである。 この問題に対処するため,我々は枝切りアルゴリズムを提案する。 上界ルーチンに対しては、半定値プログラミング緩和を考慮し、有界性を強化するための有効な不等式を提案する。 我々はこの緩和を一階法を用いて切削平面方式で解く。 下界では各ノードで解いた緩和の解を生かした最大重み合わせラウンドリング法を設計する。 合成および実世界の両方のインスタンスにおける計算結果から,提案アルゴリズムは汎用的な解法よりも約20倍の精度で解けることが示された。

Biclustering, also called co-clustering, block clustering, or two-way clustering, involves the simultaneous clustering of both the rows and columns of a data matrix into distinct groups, such that the rows and columns within a group display similar patterns. As a model problem for biclustering, we consider the $k$-densest-disjoint biclique problem, whose goal is to identify $k$ disjoint complete bipartite subgraphs (called bicliques) of a given weighted complete bipartite graph such that the sum of their densities is maximized. To address this problem, we present a tailored branch-and-cut algorithm. For the upper bound routine, we consider a semidefinite programming relaxation and propose valid inequalities to strengthen the bound. We solve this relaxation in a cutting-plane fashion using a first-order method. For the lower bound, we design a maximum weight matching rounding procedure that exploits the solution of the relaxation solved at each node. Computational results on both synthetic and real-world instances show that the proposed algorithm can solve instances approximately 20 times larger than those handled by general-purpose solvers.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# 溶媒を意識した2次元NMR予測:マルチタスクトレーニングと反復自己学習戦略の活用

Solvent-Aware 2D NMR Prediction: Leveraging Multi-Tasking Training and Iterative Self-Training Strategies ( http://arxiv.org/abs/2403.11353v1 )

ライセンス: Link先を確認
Yunrui Li, Hao Xu, Pengyu Hong, (参考訳) 核磁気共鳴(NMR)分光は、様々な科学分野において重要な役割を担い、構造情報、電子的性質、分子の動的挙動に関する洞察を提供する。 正確なNMRスペクトル予測は、候補分子を効率よく生成し、化学者はそれらを実際の実験スペクトルと比較することができる。 このプロセスは分子構造の確認や相違点の特定に役立ち、さらなる研究を導く。 機械学習(ML)は、分子の構造から原子NMR化学的たわごとを予測するための、有望な代替手法として登場した。 1次元(1D)NMRの予測には大きな進歩があったが、注釈付きNMRトレーニングデータセットがないため、MLによる2次元(2D)NMRの予測は依然として課題である。 このギャップに対処するため,原子2次元NMRシフトを予測し,実験スペクトルにピークを割り当てるためのディープラーニングモデルを訓練するための反復自己学習(IST)手法を提案する。 本モデルでは,Multi-Task Training (MTT) アプローチを用いて, NMRスペクトルの理解を深めるために, $^{1}\text{H}$ と $^{13}\text{C}$ spectra のアノテーション付き 1D NMR データセットを同時に利用する。 その後、事前訓練されたモデルを用いて、未標識の2次元NMRスペクトルの擬似アノテーションを生成し、その後、2次元NMR予測モデルを洗練するために使用される。 提案手法は,注釈付き2次元NMRデータと2次元NMR予測モデルを収束するまで精査する。 最後に、我々のモデルは2次元NMRを正確に予測できるだけでなく、実験的な2次元NMRスペクトルのアノテートピークも予測できる。 実験結果から,本モデルでは多糖類を含む中型および大規模分子を精度良く処理できることがわかった。

Nuclear magnetic resonance (NMR) spectroscopy plays a pivotal role in various scientific fields, offering insights into structural information, electronic properties and dynamic behaviors of molecules. Accurate NMR spectrum prediction efficiently produces candidate molecules, enabling chemists to compare them with actual experimental spectra. This process aids in confirming molecular structures or pinpointing discrepancies, guiding further investigation. Machine Learning (ML) has then emerged as a promising alternative approach for predicting atomic NMR chemical shits of molecules given their structures. Although significant progresses have been made in predicting one-dimensional (1D) NMR, two-dimensional (2D) NMR prediction via ML remains a challenge due to the lack of annotated NMR training datasets. To address this gap, we propose an iterative self-training (IST) approach to train a deep learning model for predicting atomic 2DNMR shifts and assigning peaks in experimental spectra. Our model undergoes an initial pre-training phase employing a Multi-Task Training (MTT) approach, which simultaneously leverages annotated 1D NMR datasets of both $^{1}\text{H}$ and $^{13}\text{C}$ spectra to enhance its understanding of NMR spectra. Subsequently, the pre-trained model is utilized to generate pseudo-annotations for unlabelled 2D NMR spectra, which are subsequently used to refine the 2D NMR prediction model. Our approach iterates between annotated unlabelled 2D NMR data and refining our 2D NMR prediction model until convergence. Finally, our model is able to not only accurately predict 2D NMR but also annotate peaks in experimental 2D NMR spectra. Experimental results show that our model is capable of accurately handling medium-sized and large molecules, including polysaccharides, underscoring its effectiveness.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# マイクロ波リードアウト応用のための動インダクタンス進行波増幅器の設計

Kinetic inductance traveling wave amplifier designs for practical microwave readout applications ( http://arxiv.org/abs/2403.11354v1 )

ライセンス: Link先を確認
A. Giachero, M. Visser, J. Wheeler, L. Howe, J. Gao, J. Austermann, J. Hubmayr, A. Nucciotti3, J. Ullom, (参考訳) 動的誘導波増幅器(KIT)は超伝導薄膜、特に窒化ニオブ(NbTiN)の非線形動的インダクタンスを利用してパラメトリック増幅を行う。 これらの増幅器は利得、帯域幅、圧縮電力の点で顕著な性能を発揮し、ノイズの量子限界に頻繁に接近する。 しかしながら、ほとんどのKITデモは、実用的なデバイス読み取りシステムから分離されている。 過渡端センサマイクロカロリメータに結合した非最適化マイクロ波SQUID多重回路のリードアウトチェーンの最初の増幅器としてKITを用いると,フラックスノイズの初期改善が見られる。 KIT統合の課題の1つは、非線形性を動かすのに必要な相当なマイクロ波ポンプパワーである。 そこで我々は,より薄いNbTiN膜と逆マイクロストリップ伝送線路の設計を用いて,ポンプ電力の低減に努めた。 本稿では、ゲインや付加ノイズを含む新しい伝送線路設計、製造手順、初期装置の特性について述べる。 これらのデバイスは、約5.5-7.25GHzの3dB帯域を持つ10dB以上の利得を示し、実用的利得は12dB、典型的な利得リップルは4dBピークからピークまでである。 我々はNbTiN伝送路のインピーダンスミスマッチを観察するが、これは利得リップルの大半の源である可能性が高い。 最後に,3dB帯域のほぼ全帯域で3量子以下のシステム付加雑音を実演する。

A Kinetic Inductance Traveling Wave amplifier (KIT) utilizes the nonlinear kinetic inductance of superconducting films, particularly Niobium Titanium Nitride (NbTiN), for parametric amplification. These amplifiers achieve remarkable performance in terms of gain, bandwidth, compression power, and frequently approach the quantum limit for noise. However, most KIT demonstrations have been isolated from practical device readout systems. Using a KIT as the first amplifier in the readout chain of an unoptimized microwave SQUID multiplexer coupled to a transition-edge sensor microcalorimeter we see an initial improvement in the flux noise. One challenge in KIT integration is the considerable microwave pump power required to drive the non-linearity. To address this, we have initiated efforts to reduce the pump power by using thinner NbTiN films and an inverted microstrip transmission line design. In this article, we present the new transmission line design, fabrication procedure, and initial device characterization -- including gain and added noise. These devices exhibit over 10 dB of gain with a 3 dB bandwidth of approximately 5.5-7.25 GHz, a maximum practical gain of 12 dB and typical gain ripple under 4 dB peak-to-peak. We observe an appreciable impedance mismatch in the NbTiN transmission line, which is likely the source of the majority of the gain ripple. Finally we perform an initial noise characterization and demonstrate system-added noise of three quanta or less over nearly the entire 3 dB bandwidth.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# 光キャビティにおけるスピン非対称性

Spin dissymmetry in optical cavities ( http://arxiv.org/abs/2403.11358v1 )

ライセンス: Link先を確認
Jefferson Dixon, Zachary N. Mauri, Christopher J. Ciccarino, Priyanuj Bordoloi, Feng Pan, Felipe H. da Jornada, Jennifer Dionne, (参考訳) 量子粒子の光遷移速度におけるスピン選択率の尺度であるスピン非対称性因子を導入する。 このスピン非対称性因子は、材料界面や光学キャビティ内を含む局所的に有効である。 我々は、スピン非対称性を最大化し、空洞結合量子粒子のスピン減退を最小化する3次元回転対称性を持つ光学キャビティを設計し、数値的に示す。 提案手法は、近接場におけるスピンとキラリティの違いを強調し、より効率的な量子光学デバイスを設計するための古典的パラメータを明らかにする。

We introduce the spin dissymmetry factor, a measure of the spin-selectivity in the optical transition rate of quantum particles. This spin dissymmetry factor is valid locally, including at material interfaces and within optical cavities. We design and numerically demonstrate an optical cavity with three-fold rotational symmetry that maximizes spin dissymmetry, thereby minimizing the spin dephasing of a cavity-coupled quantum particle. Our approach emphasizes the difference between spin and chirality in the nearfield and reveals a classical parameter for designing more efficient quantum optical devices.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# IGANNスパース: 非線形インサイトによる疎結合と解釈可能性

IGANN Sparse: Bridging Sparsity and Interpretability with Non-linear Insight ( http://arxiv.org/abs/2403.11363v1 )

ライセンス: Link先を確認
Theodor Stoecker, Nico Hambauer, Patrick Zschech, Mathias Kraus, (参考訳) 特徴選択は予測分析において重要な要素であり、モデルの予測精度と解釈可能性に大きな影響を及ぼす。 機能選択の本質的な方法はモデル学習に直接組み込まれ、大量のデータに対して高速で魅力的な選択肢を提供する。 ペナル化回帰モデル(例:lasso)のような機械学習アルゴリズムは、組み込みの機能選択において最も一般的な選択肢である。 しかし、非線形関係のキャプチャには失敗し、複雑なデータセットの結果を予測する能力に最終的に影響を及ぼす。 本稿では,一般加法モデルのファミリをベースとした新しい機械学習モデル IGANN Sparse を提案する。 これにより、予測性能を犠牲にすることなく、モデル空間の改善による解釈可能性を保証する。 さらに、IGANN Sparseは情報システム研究者が複雑なパターンを特徴とする領域における重要な非線形関係を明らかにするための探索ツールとして機能する。 IGANNスパースモデルを徹底的に評価することを目的としており、また、モデルの利用者が機能の削減によってどれだけの恩恵を受けるかを評価するためのユーザスタディも実施している。 これにより、線形モデリングと非線形モデリングの相互作用、選択された機能の数、予測性能をより深く理解することができます。

Feature selection is a critical component in predictive analytics that significantly affects the prediction accuracy and interpretability of models. Intrinsic methods for feature selection are built directly into model learning, providing a fast and attractive option for large amounts of data. Machine learning algorithms, such as penalized regression models (e.g., lasso) are the most common choice when it comes to in-built feature selection. However, they fail to capture non-linear relationships, which ultimately affects their ability to predict outcomes in intricate datasets. In this paper, we propose IGANN Sparse, a novel machine learning model from the family of generalized additive models, which promotes sparsity through a non-linear feature selection process during training. This ensures interpretability through improved model sparsity without sacrificing predictive performance. Moreover, IGANN Sparse serves as an exploratory tool for information systems researchers to unveil important non-linear relationships in domains that are characterized by complex patterns. Our ongoing research is directed at a thorough evaluation of the IGANN Sparse model, including user studies that allow to assess how well users of the model can benefit from the reduced number of features. This will allow for a deeper understanding of the interactions between linear vs. non-linear modeling, number of selected features, and predictive performance.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# 放射場を用いたシームレス3次元地図の作成

Creating Seamless 3D Maps Using Radiance Fields ( http://arxiv.org/abs/2403.11364v1 )

ライセンス: Link先を確認
Sai Tarun Sathyan, Thomas B. Kinsman, (参考訳) ナビゲーション,仮想観光,都市計画などの応用のために,2次元入力画像から3次元オブジェクトモデルと3次元マップを作成することが望ましい。 従来の3Dマップの作成方法(フォトグラム法など)には、多数の画像とオドメトリーが必要である。 さらに、従来の手法では反射面や鏡面の反射が困難であり、シーンの窓やクロムが問題となることがある。 Google Road Viewは慣れ親しんだアプリケーションで、従来の方法で2D入力画像の集合を3Dマップの錯覚に融合させる。 しかし、Google Road Viewは実際の3Dオブジェクトモデルを作成するのではなく、ビューのコレクションのみを生成する。 この研究の目的は、更新された技術を用いて実際の3Dオブジェクトモデルを作成することである。 NeRF[1](Neural Radiance Fields)は、より正確で複雑な3Dマップを生成する能力を備えた、潜在的なソリューションとして登場した。 ガウススプラッティング[4]もまた同時代の技法である。 この研究は、ニューラル・ラジアン・フィールドとガウス・スプラッティングを比較し、内部の動作について述べる。 我々の主な貢献は、3次元再構成モデルの結果を改善する方法である。 以上の結果から, ガウススプラッティングはNeRF法よりも優れていたことが示唆された。

It is desirable to create 3D object models and 3D maps from 2D input images for applications such as navigation, virtual tourism, and urban planning. The traditional methods of creating 3D maps, (such as photogrammetry), require a large number of images and odometry. Additionally, traditional methods have difficulty with reflective surfaces and specular reflections; windows and chrome in the scene can be problematic. Google Road View is a familiar application, which uses traditional methods to fuse a collection of 2D input images into the illusion of a 3D map. However, Google Road View does not create an actual 3D object model, only a collection of views. The objective of this work is to create an actual 3D object model using updated techniques. Neural Radiance Fields (NeRF[1]) has emerged as a potential solution, offering the capability to produce more precise and intricate 3D maps. Gaussian Splatting[4] is another contemporary technique. This investigation compares Neural Radiance Fields to Gaussian Splatting, and describes some of their inner workings. Our primary contribution is a method for improving the results of the 3D reconstructed models. Our results indicate that Gaussian Splatting was superior to the NeRF technique.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning

JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning ( http://arxiv.org/abs/2403.11366v1 )

ライセンス: Link先を確認
Anique Tahir, Lu Cheng, Huan Liu, (参考訳) 検索に基づくタスクのための大規模言語モデル(LLM)のスケーリングは、特に検索拡張生成(RAG)において、特に微調整された広範囲なプロンプトシーケンスにおいて、大きなメモリ制約に直面している。 現在のオープンソースライブラリは、複数のGPUにわたるフルモデル推論と微調整をサポートしているが、検索されたコンテキストに必要な効率的なパラメータ分布の調整には不足している。 このギャップに対処するために,Llama-2モデルのPEFT互換微調整のための新しいフレームワークを導入し,分散トレーニングを活用する。 我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルとテンソル・シャーディングを、効率的なリソース管理に一意に利用しています。 この進歩は、GPUリソースが限られているシステムであっても、複雑なRAGアプリケーションのための微調整LDMのスケーラビリティと実現可能性を大幅に改善する。 実験では,Hugging Face/DeepSpeedの実装を4つのGPUで実装するのに対し,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。 当社のライブラリは今後もオープンソース化される予定です。

The scaling of Large Language Models (LLMs) for retrieval-based tasks, particularly in Retrieval Augmented Generation (RAG), faces significant memory constraints, especially when fine-tuning extensive prompt sequences. Current open-source libraries support full-model inference and fine-tuning across multiple GPUs but fall short of accommodating the efficient parameter distribution required for retrieved context. Addressing this gap, we introduce a novel framework for PEFT-compatible fine-tuning of Llama-2 models, leveraging distributed training. Our framework uniquely utilizes JAX's just-in-time (JIT) compilation and tensor-sharding for efficient resource management, thereby enabling accelerated fine-tuning with reduced memory requirements. This advancement significantly improves the scalability and feasibility of fine-tuning LLMs for complex RAG applications, even on systems with limited GPU resources. Our experiments show more than 12x improvement in runtime compared to Hugging Face/DeepSpeed implementation with four GPUs while consuming less than half the VRAM per GPU. Our library will be open-sourced in due course.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# 3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization

3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization ( http://arxiv.org/abs/2403.11367v1 )

ライセンス: Link先を確認
Peng Jiang, Gaurav Pandey, Srikanth Saripalli, (参考訳) 本稿では,3次元ガウススプラッティングを用いた3次元マッピングと視覚的再局在のための新しいシステムを提案する。 提案手法は、LiDARとカメラデータを用いて、環境の正確な視覚的表現を生成する。 本システムでは,LiDARデータを利用して3次元ガウス図のトレーニングを開始することにより,細部と幾何的精度の両方の地図を構築する。 過大なGPUメモリの使用を軽減し、空間的な高速なクエリを容易にするために、2DボクセルマップとKDツリーの組み合わせを用いる。 本手法は,正規化相互相関 (NCC) を用いたガウス・スプレイティング・マップから,クエリ画像とレンダリング画像との対応を効率的に識別する。 さらに,特徴に基づくマッチングとパースペクティブn-Point(PnP)技術を用いて,クエリ画像のカメラポーズを洗練する。 本システムの有効性,適応性,精度は,KITTI360データセットの広範囲な評価によって実証される。

This paper presents a novel system designed for 3D mapping and visual relocalization using 3D Gaussian Splatting. Our proposed method uses LiDAR and camera data to create accurate and visually plausible representations of the environment. By leveraging LiDAR data to initiate the training of the 3D Gaussian Splatting map, our system constructs maps that are both detailed and geometrically accurate. To mitigate excessive GPU memory usage and facilitate rapid spatial queries, we employ a combination of a 2D voxel map and a KD-tree. This preparation makes our method well-suited for visual localization tasks, enabling efficient identification of correspondences between the query image and the rendered image from the Gaussian Splatting map via normalized cross-correlation (NCC). Additionally, we refine the camera pose of the query image using feature-based matching and the Perspective-n-Point (PnP) technique. The effectiveness, adaptability, and precision of our system are demonstrated through extensive evaluation on the KITTI360 dataset.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# LLM駆動ドライバエージェントの駆動スタイルアライメント

Driving Style Alignment for LLM-powered Driver Agent ( http://arxiv.org/abs/2403.11368v1 )

ライセンス: Link先を確認
Ruoxuan Yang, Xinyue Zhang, Anais Fernandez-Laaksonen, Xin Ding, Jiangtao Gong, (参考訳) 近年, LLM を利用した運転エージェントは, 運転者の運転行動と人間の運転スタイルの整合性を示すなど, 自律運転の分野で大きな可能性を秘めている。しかしながら, 人間の運転行動から, 高品質な自然言語データが不足していることもあって, 運転エージェントと人間運転スタイルの整合性を示すために, デモやフィードバックを通じてドライバーエージェントを人間運転スタイルに整合させることを目的とした多機能化フレームワークが提案されている。 特に,人間の運転行動の自然言語データセットを,自然主義的な運転実験とポストドライブインタビューを通じて構築し,LLMアライメントのための高品質な人間の実演を提供する。 このフレームワークの有効性は、CARLA都市交通シミュレータのシミュレーション実験を通じて検証され、さらに人間による評価によって裏付けられる。 我々の研究は、様々な運転スタイルで運転エージェントを設計するための貴重な洞察を与え、そのフレームワークの実装とデータセットの詳細はリンクで見ることができる。

Recently, LLM-powered driver agents have demonstrated considerable potential in the field of autonomous driving, showcasing human-like reasoning and decision-making abilities.However, current research on aligning driver agent behaviors with human driving styles remains limited, partly due to the scarcity of high-quality natural language data from human driving behaviors.To address this research gap, we propose a multi-alignment framework designed to align driver agents with human driving styles through demonstrations and feedback. Notably, we construct a natural language dataset of human driver behaviors through naturalistic driving experiments and post-driving interviews, offering high-quality human demonstrations for LLM alignment. The framework's effectiveness is validated through simulation experiments in the CARLA urban traffic simulator and further corroborated by human evaluations. Our research offers valuable insights into designing driving agents with diverse driving styles.The implementation of the framework and details of the dataset can be found at the link.
翻訳日:2024-03-19 17:17:15 公開日:2024-03-17
# LLMの数学用語問題とは何なのか?

What Makes Math Word Problems Challenging for LLMs? ( http://arxiv.org/abs/2403.11369v1 )

ライセンス: Link先を確認
KV Aditya Srivatsa, Ekaterina Kochmar, (参考訳) 本稿では,大規模言語モデル (LLM) において,数学語問題 (MWP) がなぜ難しいのかを考察する。 MWPの重要な言語的特徴と数学的特徴を詳細に分析する。 さらに、特徴に基づく分類器を訓練し、各特徴がMWPの難易度全体に与える影響をよりよく理解し、それがMWPの特定のカテゴリに対するLLMの精度予測に役立つかどうかを検討する。

This paper investigates the question of what makes math word problems (MWPs) challenging for large language models (LLMs). We conduct an in-depth analysis of the key linguistic and mathematical characteristics of MWPs. In addition, we train feature-based classifiers to better understand the impact of each feature on the overall difficulty of MWPs for prominent LLMs and investigate whether this helps predict how well LLMs fare against specific categories of MWPs.
翻訳日:2024-03-19 17:07:30 公開日:2024-03-17
# DynamicGlue: グラフニューラルネットワークを用いた動的環境におけるエピポーラと時間インフォームドデータアソシエーション

DynamicGlue: Epipolar and Time-Informed Data Association in Dynamic Environments using Graph Neural Networks ( http://arxiv.org/abs/2403.11370v1 )

ライセンス: Link先を確認
Theresa Huber, Simon Schaefer, Stefan Leutenegger, (参考訳) 静的環境の仮定はSLAMのような多くの幾何学的コンピュータビジョンタスクでは一般的であるが、非常にダイナミックなシーンでは適用性が制限される。 これらのタスクは、環境の静的部分における入力画像間の点対応の同定に依存するため、移動物体のキーポイントを排除しつつ、困難な条件下で頑健なマッチングを行うように設計されたグラフニューラルネットワークに基づくスパース特徴マッチングネットワークを提案する。 グラフエッジ上での注目集約方式を用いて、キーポイント表現を最先端の特徴マッチングネットワークとして強化するが、グラフをエピポーラ情報と時間情報で拡張し、グラフエッジの数を大幅に削減する。 さらに,未処理のビジュアル慣性データから動的環境における画像ペアの擬似ラベルを抽出する自己教師型学習手法を提案する。 現状の機能マッチングネットワークと比較して移動物体のキーポイントを除外し,従来と類似した結果を得た上で,ネットワークの優れた性能を示す実験が相次いだ。 SLAMシステムに統合すると,特にダイナミックなシーンにおいて,ネットワークの性能が著しく向上する。

The assumption of a static environment is common in many geometric computer vision tasks like SLAM but limits their applicability in highly dynamic scenes. Since these tasks rely on identifying point correspondences between input images within the static part of the environment, we propose a graph neural network-based sparse feature matching network designed to perform robust matching under challenging conditions while excluding keypoints on moving objects. We employ a similar scheme of attentional aggregation over graph edges to enhance keypoint representations as state-of-the-art feature-matching networks but augment the graph with epipolar and temporal information and vastly reduce the number of graph edges. Furthermore, we introduce a self-supervised training scheme to extract pseudo labels for image pairs in dynamic environments from exclusively unprocessed visual-inertial data. A series of experiments show the superior performance of our network as it excludes keypoints on moving objects compared to state-of-the-art feature matching networks while still achieving similar results regarding conventional matching metrics. When integrated into a SLAM system, our network significantly improves performance, especially in highly dynamic scenes.
翻訳日:2024-03-19 17:07:30 公開日:2024-03-17
# V2X-DGW: 逆気象条件下でのマルチエージェント知覚のためのドメイン一般化

V2X-DGW: Domain Generalization for Multi-agent Perception under Adverse Weather Conditions ( http://arxiv.org/abs/2403.11371v1 )

ライセンス: Link先を確認
Baolu Li, Jinlong Li, Xinyu Liu, Runsheng Xu, Zhengzhong Tu, Jiacheng Guo, Xiaopeng Li, Hongkai Yu, (参考訳) 現在のLiDARベースのV2X(Vine-to-Everything)マルチエージェント認識システムは、3Dオブジェクト検出において大きな成功を収めている。 これらのモデルは、訓練済みのクリーンな天候下ではよく機能するが、現実のドメインギャップで目に見えない悪天候に苦しむ。 本稿では,悪天候下でのマルチエージェント認識システム上でのLiDARに基づく3次元物体検出のための領域一般化手法であるV2X-DGWを提案する。 クリーンな天候だけでなく、クリーンな天気データのみを学習することで、好適なマルチエージェントのパフォーマンスを確保することを目的としている。 この領域の研究を進めるために、我々は広く使われている2つのマルチエージェントデータセットに対する3つの悪天候条件の影響をシミュレートし、2つの新しいベンチマークデータセット、OPV2V-wとV2XSet-wを作成しました。 この目的のために,まずアダプティブ・ウェザー・アジュメンテーション(AWA)を導入し,未知の悪天候条件を模倣し,TWA(Trust-rea Weather-invariant Alignment)とACA(Agent-aware Contrastive Alignment)の2つのアライメントを提案する。 我々のV2X-DGWは、目に見えない悪天候を改善することができた。

Current LiDAR-based Vehicle-to-Everything (V2X) multi-agent perception systems have shown the significant success on 3D object detection. While these models perform well in the trained clean weather, they struggle in unseen adverse weather conditions with the real-world domain gap. In this paper, we propose a domain generalization approach, named V2X-DGW, for LiDAR-based 3D object detection on multi-agent perception system under adverse weather conditions. Not only in the clean weather does our research aim to ensure favorable multi-agent performance, but also in the unseen adverse weather conditions by learning only on the clean weather data. To advance research in this area, we have simulated the impact of three prevalent adverse weather conditions on two widely-used multi-agent datasets, resulting in the creation of two novel benchmark datasets: OPV2V-w and V2XSet-w. To this end, we first introduce the Adaptive Weather Augmentation (AWA) to mimic the unseen adverse weather conditions, and then propose two alignments for generalizable representation learning: Trust-region Weather-invariant Alignment (TWA) and Agent-aware Contrastive Alignment (ACA). Extensive experimental results demonstrate that our V2X-DGW achieved improvements in the unseen adverse weather conditions.
翻訳日:2024-03-19 17:07:30 公開日:2024-03-17
# クエリ前のリコンストラクション: 分割されたプロンプトコラボレーションによる継続的欠落のモダリティ学習

Reconstruct before Query: Continual Missing Modality Learning with Decomposed Prompt Collaboration ( http://arxiv.org/abs/2403.11373v1 )

ライセンス: Link先を確認
Shu Zhao, Xiaohan Zou, Tan Yu, Huijuan Xu, (参考訳) 事前訓練された大型マルチモーダルモデル(LMM)は、様々なユーザーアプリケーションに適応するために微調整を利用する。 それでも、微調整は、非活性化センサー(例えば、プライバシや技術的な問題のためにカメラがオフになったり、モダリティ不完全なデータを生成したり、データと推論のためのデータの一貫性を損なう可能性がある。 さらに、継続的なトレーニングは破滅的な忘れを招き、事前訓練されたLMMにおける知識を希薄化する。 これらの課題を克服するために、連続的な微調整中に特定のモダリティのデータが欠落した場合にモデルがどのように一般化できるかを検討するために、CMML(Continuous Missing Modality Learning)という新しいタスクを導入する。 予備ベンチマークの結果,従来の手法は高度な連続学習技術を用いても,CMMLの性能低下に悩まされていることが明らかとなった。 そのため、クエリ(RebQ)の前にReconstructと呼ばれるフレームワークを考案する。 プロンプトをモダリティ固有のものに分解し、キークエリ機構を通じてアクセス可能なプールに格納されたコンポーネントに分解する。 一方、我々のRebQは、事前訓練されたLMMからの広範なマルチモーダル知識を利用して、欠落したモダリティのデータを再構築する。 総合的な実験により、RebQは欠落したモダリティ情報を効果的に再構築し、事前訓練された知識を保持することを示した。 具体的には、ベースラインと比較して、RebQは平均精度を20.00から50.92に改善し、平均忘れ度を75.95から8.56に下げる。 コードとデータセットはhttps://github.com/Tree-Shu-Zhao/RebQ.pytorchで入手できる。

Pre-trained large multi-modal models (LMMs) exploit fine-tuning to adapt diverse user applications. Nevertheless, fine-tuning may face challenges due to deactivated sensors (e.g., cameras turned off for privacy or technical issues), yielding modality-incomplete data and leading to inconsistency in training data and the data for inference. Additionally, continuous training leads to catastrophic forgetting, diluting the knowledge in pre-trained LMMs. To overcome these challenges, we introduce a novel task, Continual Missing Modality Learning (CMML), to investigate how models can generalize when data of certain modalities is missing during continual fine-tuning. Our preliminary benchmarks reveal that existing methods suffer from a significant performance drop in CMML, even with the aid of advanced continual learning techniques. Therefore, we devise a framework termed Reconstruct before Query (RebQ). It decomposes prompts into modality-specific ones and breaks them into components stored in pools accessible via a key-query mechanism, which facilitates ParameterEfficient Fine-Tuning and enhances knowledge transferability for subsequent tasks. Meanwhile, our RebQ leverages extensive multi-modal knowledge from pre-trained LMMs to reconstruct the data of missing modality. Comprehensive experiments demonstrate that RebQ effectively reconstructs the missing modality information and retains pre-trained knowledge. Specifically, compared with the baseline, RebQ improves average precision from 20.00 to 50.92 and decreases average forgetting from 75.95 to 8.56. Code and datasets are available on https://github.com/Tree-Shu-Zhao/RebQ.pytorch
翻訳日:2024-03-19 17:07:30 公開日:2024-03-17